佛教圖書館館訊 第二十四期 89年12月

電子佛典數位化的運用與展望

中華電子佛典協會主任委員 釋惠敏


【摘要】:本文介紹數位化文獻與多價文獻模式的基本概念,及探討資訊科技與佛學研究結合的可能性,並以實例說明電子佛典數位化的製作與運用,期望藉此能增益佛學研究。

關鍵詞:多價文獻;電子佛典


一、前言

  新的世紀是電腦科技與網際網路(Internet)的資訊時代,其影響力與日俱增,人們溝通和處理資料與知識的方式,迥異於過去。新的數位化資訊(digitalized information)或電子媒體(electronic media)的取得(acquisition)、記錄(recording)、整理(organization)、搜取(retrieval)、呈現(display)、傳播(dissemination)的效率,史未曾有。此種趨勢將大幅改變人類的生活環境、社會結構和文明的發展。

  常有人認為電腦科技是自然科學的領域,對人文科學研究者只是「工具」而已,沒有研究的需要。但是,在歐美方面,將電腦科技用於人文科學文獻的管理與研究已有50年以上的歷史了,因而形成 "Humanities Computing"(人文電腦科技)新的機構與領域(註1);其主要研討電腦科技與人文科學間的相互影響,以及人文科學的設施、教學、研究、服務與行政等,如何因應此種革命性的改變。

  從歷史上,宗教文獻在文化媒體的技術發展中,占有重要的地位。例如﹕現存最古老的印刷品之一是佛教的《金剛經》(868年)(註2),與歐洲最早的活字印刷是古騰堡的聖經(Gutenberg bible,1455年)(註3)。由於印刷術的發展,出版量的急遽增加,書面語言的運用日益普遍,知識也隨之日益普及,人類文明得以日新月異,甚至到達今日所謂「知識爆炸」的時代。

  佛教是一源遠流長的宗教,其相關的資料與知識浩若繁星,實難單憑個人一生之力足以窮究。因此,若能運用資訊科技的媒體與工具,有效地管理資料文獻,改進佛教的教學、研究、服務、行政等各個層面,不僅是佛教教育的創舉,也將是宗教教育乃至所有人文教育的新潮流。(註4)

  本文將介紹數位化文獻與多價文獻模式的基本概念,探討資訊科技及佛學研究結合的可能性,再來以實務經驗說明電子佛典數位化的製作與運用,以下分述之。

二、數位化文獻與多價文獻模式的基本概念

(一)數位化文獻的基本概念

  從宗教文獻媒體的演變史來看,早期是泥版(如:楔形文字)、莎草與石塊(如:象形文字)、甲骨、貝葉(佛典)、竹簡等等,目前則是以紙本為主。但是,數位化文獻則是新世紀的媒體趨勢,其理由是多重的,要言之:1. 是利於長久保存;2. 幾乎可以取之不盡用之不竭,可供全民共享共用;3. 可以大量匯集知識,以發前人所未見,產生相輔相成(synergy)的效果。(註5)

  現在對於新的數位化媒體,宗教教育界應該具備什麼樣的認識?首先,對於數位化文獻都需要具有多價(Multivalent,多訊息層次)文獻模式的認識。(註6)其次,為了能有效率地管理數位化文獻,宗教教育界需要規劃標準化標記語言的課程。

(二)多價(Multivalent,多訊息層次)文獻模式

  傳統的文獻與數位化文獻的差異是:前者是單塊式(Monolithic);後者是多價式(Multivalent)。傳統的文獻觀念,與「書」同義。書是獨立式的,彼此間互不連結,查詢費時,互相參照也麻煩,而且只能提供「給人讀」的功能。

  而數位化文獻的基本單位可以是字、筆劃,乃至圖素(pixel)。因此,重組(rearranged)、連結(connected)都相當簡易快速;其最大的功能是除了人(Human Mind)可以「讀」以外,連機器(Processor)也能讀,就好比相同或不同原子價位(value)的連結與互補,而成為各類各樣的分子。

  因此,數位化文獻具有「多價」(Multivalent)文獻模式的特性,即所謂多種價值(values)、多種意義(meanings)與多種運用(appeals)。總之,多價文獻模式具有如下三點特色﹕

1. Incremental Extendable(逐加延伸)

  在任何時間、地點、形式與使用者,都可以逐加延伸資料的廣度與深度,或作不同功能的處理。不像書印刷之後,想要重新再呈現,就必須再版。

2. Structurally Distribute(結構性分散管理)

  同一個形式的情報層,稱為「層次」(layer)。在某一層次堨i做種種的功能處理,即是「動作」(Behaviors)。不同層次的資料可以放在不同的地方,藉由網際網路(Internet)形成結構性分散管理。

  以中華電子佛典協會(Chinese Buddhist Electronic Text Association,略稱CBETA,http://ccbs.ntu.edu.tw/cbeta),假設重點放在漢譯佛典與中國撰述部分的編碼檔情報(encoded text data)層。它可以與日本合作,由他們做日本撰述部分的編碼檔;另外,韓國海印寺可以提供高麗版大藏經的掃描原版圖檔(Scanned text image)層;京都大學、東京大學有一些手抄的古本可提供圖檔;北京大學有房山石經的圖檔。雖然在不同地方各自管理不同的資料庫,但可以形成一個完整的結構。如《華嚴經》所說的,因陀羅網的世界,即重重無盡的世界。

3. Internally Complementary(相輔相成)

  個別的層次(layer)無法完美,但是不同的層次間可以形成互補。例如,由「掃描層」與「字庫再現(Font reconstructed)層」,可以看出古今字的差異。不同版本的圖檔,在同一段落媗膆雈X互補性的呈現。

(三)數位化文獻與標準化標記語言

  為了文獻間能彼此交換與有效率管理資訊,數位化文獻需要標準化的標記語言。如:1986年SGML(Standard Generalized Markup Language,標準通用標記語言),其所用的標籤(tag)可以擴張、檢查;後來為了World Wide Web(全球資訊網)的需求,HTML(HyperText Markup Language,超文件標記語言)是SGML的一項運用,具有指定連結、指定格式的功能。1998年,為了Web最佳運用,開始從SGML推演成XML(Extensible Markup Language,可擴展性標記語言),它可以與HTML整合,處理資料的顯示,於SGML中,去除在Web上傳遞資料所不需要的部分(換言之,XML是SGML的子集合)。此外,XML是可以與SGML互補,可以對Web上的資料作結構化與描述用,而且也可廣泛支援不同種類的應用程式。(註7)

  如CBETA進行大藏經數位化時的標記處理,以維習安博士(Dr. Christian Wittern)的報告為例。(註8)對於大藏經本文,先做一個半自動化的標記處理,加上一些標籤(tag);然後再分層處理《大正藏》的註腳(footnotes)。

三、資訊科技運用在佛學研究與教學的情況及可能性

  現今資訊連結快速,而能夠掌握管理資訊的人,就是擁有力量。以佛經而言,北傳藏經資料就非常龐大,若再加上藏傳、南傳佛經資料,比較彼此的相關經文時,如果僅靠人腦,實難全面顧及、處理周詳。以下分三點敘述資訊科技可以運用在佛學研究與教學上的情形。

(一)資訊科技與佛學文獻資料

  資訊科技除了可形成保存佛典的新載體外,更可以幫助整理佛學文獻資料;就資料的蒐集、處理、製作、儲存、檢索與流通、運用等,予以整合成有系統的資料庫。

(二)資訊科技與佛學教學

  為因應網際網路(Internet)的資訊時代來臨,中華佛學研究所目前也已具備相關的教學資源與經驗,因此將積極籌備成立「佛學資訊組」,並且規劃「電腦與佛學研究學程」(The Computers and the Buddhist Studies Program,略稱CBS Program),是結合佛學研究與資訊科學等領域的教學資源,提供電腦科技運用在佛學研究與教學的一組課程。以下簡介中華佛學研究所曾開設相關的各種資訊科技及佛學研究結合的課程:

1. 佛學電腦網路輔導(Guide to Buddhist Net Resources)
2. 資訊時代中的佛教文獻(Electronic Buddhist Texts in New Era)
3. 佛學網路數位資源簡介與應用(Buddhist Digital Resources and Applications)
4. 佛學電子資料庫的運用(The Exercises of Buddhist Electronic Databases)
5. 電子佛典與佛學研究方法--以《華嚴經、十地品》為例(Buddhist Electronic Resources and Research Methods)
6. 佛學網路資料庫的製作(The Creation of Buddhist Net Databases)

(三)資訊科技與佛學研究

  去年中華佛學研究所即有研究生以「佛學與資訊科學整合」為主軸的畢業論文《高效能的佛典研究資料管理模式》,撰寫的目的是希望讓佛典研究者瞭解「佛典研究資料庫」的重要。作者首先論述最基本的數位化資料特質與管理,接著究明佛典研究資料的高效能管理、佛典研究資料庫的定位與價值,以及如何以HTML與HTMLHelp來建構與管理佛典研究資料庫,並一再強調「佛典研究資料庫」是相當實用、易學且經濟,使得一位佛典研究者可完全依據自身的需求去做規劃,並自行建構與管理適合自己研究範疇的「佛典研究資料庫」。

四、電子佛典數位化的製作與運用

  佛學典籍是人類共有的文化寶藏,但其相關的資料浩瀚如海,實令人望洋興嘆。若能運用資訊科技之數位化、電子化的媒體與工具,運用「多價」(Multivalent)文獻模式的特性與標準化的標誌(Markup)語言(例如:SGML、HTML、XML),有效地管理佛學資訊,將可進一步改善佛學相關教學、研究、服務、弘化等層面的品質。

(一)漢文電子佛典的製作流程

  運用電子資料的特點,規劃漢文電子佛典資料的製作(Create)與標誌(Markup)流程,可依如下三個步驟進行:

1. 首先製作與標誌(Markup)文件(document)之研究背景特色(Contextual features)
  以《瑜伽師地論》的參考書目(Bibliography)為例。採用TEI的標籤集(tag sets)標誌《瑜伽論》的各類(單一書藉< monogr >,論著收於叢書< series >,論文< analytic >收於期刊雜誌)參考資料,同時可連結到解題、《瑜伽師地論》全文以及工具書。

2. 其次製作與標誌文件(document)之結構特色(Structural features)

  例如:將《瑜伽論》之異譯本及其綱要書的內容(content)視為條理化階層(ordered hierarchy),不只是線性的。所以,將其章節結構分為二十層,以< div >標誌,再用HTMLHelp檢查。

3. 最後製作與標誌文件(document)之非結構特色(Non-structural features)

  例如:以《法相辭典》的詞條作為檢索《瑜伽論》之相關詞彙(proper nouns,keywords)用,以< item >標誌。

(二)漢文電子佛典運用之實例

  將上述已製作與標誌的電子資料作異譯本之比對、綱要書之對照運用,可依如下二個步驟進行:

1. 依相關文件之結構特色(Structural features)作互參(cross-reference)標誌

  例如:將《瑜伽師地論》(T1579)之異譯本(T1581-4)及其綱要書(T1602)的各個div(以div1=DA、div2=DB、div3=DC、div4=DD……表示。)加上連結id(例如:div1=T1579DA,div2=T1579DB……),其號碼(number)可用程式依流水號碼加入。
  寫連結標誌(參考TEI,14.4.3:A Three-way Alignment,p. 433)。依照id連結相對的異譯本及其綱要書(例如:< link tagsets="T1579DD065 T1581DB002 T1582DB001"/ >)。依照id連結相對的經文。

2. 研發介面

  將XML經文檔藉著程式xml2dir.bat,同時用IE5 xml parser和DHTML、Javascript呈現目錄欄。以連結欄(Link)藉著程式html.bat,呈現多種異譯本之比對欄及綱要書之對照欄。(見下圖)



3. 電子檔上網

  利用標誌完成之經文檔案,產生網路版之經文檔,上網提供大眾使用。內容含括解題、科判、梵漢藏檢索、詞句檢索、辭典、引用複製、藏經查詢等功能,並可在電腦螢幕上作異譯本之比對,以及綱要書對照的運用。

(三)小結

  已完成製作與標誌(Markup)《瑜伽論》之異譯本及其綱要書的電子資料的背景特色、結構特色、非結構特色,也以互參(cross-reference)標誌將此電子佛典運用於異譯本之比對及綱要書之對照,並研發介面,令其可在網路上提供學界使用。雖然也完成全文檢索的功能,但是尚未提供詞條檢索的功能,尚待努力。

五、結論

  由於二十一世紀是一個資訊化、國際化、社區化的時代,尤其從國際網路中,筆者發覺每一個人的世界都無窮無盡,就像《華嚴經》婸〞滿u重重無盡」的「因陀羅網」一樣。筆者常常說華嚴世界的「因陀羅網」(indra-net)就像電腦世界的網際網路「inter-net」,每一個人可以互相激發起無窮潛力的空間。

  此外,佛教一方面要有國際化的格局,也考量如何因應「社區總體營造」的發展。目前,漢傳佛教在國際上仍大都侷限在華人地區弘法,非華人地區的交流與拓展是將來的課題之一,而國際網路將是未來拓展至非華人地區的主要管道。

  由於目前佛教的傳播媒介仍以印刷紙本為主,數位化佛教資訊的量與質,仍有待努力。從文化傳承的角度來看,或者從佛教宏揚的觀點考量,我們都需要有這方面的準備。此外,電子經典媒體也可以讓我們很有效率地去檢索到其他宗派與宗教的相關課題,以便於對話與交流,不需要窮其一生只能研讀某一領域而已。

  佛學研究在國際學術界上有其地位,歐美等國都有相關系所提供佛學研究的課程;特別是日本方面,掌握日本文化的特色,早已設立佛學研究各種相關的系所,成為國際學術界「佛學研究」的重鎮,其研究成果是執牛耳地位的,實在令居於「漢傳佛教祖國」的我們感到汗顏。

  目前台灣雖然與日本一樣,有佛教文化的傳承,也已具備了設立佛學研究系所的條件、經驗與資源,並且也擁有因應資訊時代來臨,成立「佛學資訊組」及開設「電腦與佛學研究學程」的能力。但是,台灣的佛學研究教育,目前仍然囿於法規的限制,無法納入正式的教育體系中,只能以「乙種」研究所的名義經營佛學研究所,這是我們的遺憾,也是台灣的教育界有待努力之處。

【附註】

註1:詳參< http://ilex.cc.kcl.ac.uk/wlm/hc/ >。
註2:相關的資訊與圖片可參見< http://www.bl.uk/diglib/treasures/diamond-sutra.html >。
註3:相關的資訊與圖片可參見
< http://www.snu.edu/syllabi/history/f96projects/reform1/gut_bib.htm >,
< http://www.osl.state.or.us/csimages/bible/bible.htm >。
註4:從人文科學者的觀點,討論電子媒體(electronic media)對人文科學教育、行政結構的影響的論文有﹕W. McCarty, "We would know how we know what we know : Responding to the computational transformation of the humanities",
< http://ilex.cc.kcl.ac.uk/wlm/essays/know/know.html >。從佛學研究者的觀點,評估數位化時代之佛學研究的變遷、現況與因應的論文有﹕Christian Wittern, "Buddhist Studies in the Digital Age", 1999等。
註5:謝清俊,<佛教資料電子化的意義>,《佛教圖書館館訊》,18期(1999年9月),頁11。
註6:Digital Library Project : University of California at Berkeley,
< http://elib.cs.berkeley.edu/ >.
Thomas A. Phelps, "Multivalent Documents : Anytime, Anywhere, Any Type, Every Way User-Improvable Digital Documents and Systems", A dissertation for Ph. D, (Berkeley : University of California, 1998).
"Applications of A New Document Model for Digitalization of East Asian Classical Documents", Howie Lan Instructional Technology Program, (Berkeley : Uninversity of California).
註7:詳參Charles Goldfarb, The SGML Handbook, (Oxford, 1990). SGML。
XML(Extended Markup Language)是由W3C(World Wide Web Consortium)所制定,XML 1.0版規格書已由W3C核准,可參< http://www.w3.org/XML >。
註8:Christian Wittern, "Knots in the net : Steps to the Standardization of Electronic Buddhist Texts", 1999 EBTI, ECAI, SEER & PNC Joint Meeting Proceedings, (Taipei : Academia Sinica), pp. 465-469.



[gaya首頁]   [圖書館服務]   [佛教圖書館館訊]   [館訊24期目次]