佛教圖書館館訊 第二十四期 89年12月

漢文佛典電子化記事

--1998至2000年CBETA的活動與成果

中華電子佛典協會總幹事 杜正民


【摘要】:中華電子佛典協會(Chinese Buddhist Electronic Text Association,以下簡稱CBETA)自1998年2月15日成立至今將滿三年,在跨入新世紀之際,擬將這期間CBETA各組的輸入、校對、研發、標記、缺字、資訊、網路、發行、推廣等作業流程,以參與各項活動的編年方式作一回顧。亦即以參加的學術活動、國際會議、推廣活動和重要的參訪為縱軸,並將CBETA同時期的各項發展與成果作為橫軸,進而對未來展望作簡要介紹,藉此與大眾分享並就教於諸位先進。

關鍵詞:電子佛典(Electronic Buddhist Texts);佛教文獻(Buddhist Scriptures);佛學網路(Buddhist Network);佛學資料庫(Databases for Buddhist Studies);國際電子佛典推進協會(EBTI, Electronic Buddhist Text Initiative)


1998年 協會成立


1998.02.15 電子佛典 協會成立

  中華電子佛典協會(Chinese Buddhist Electronic Text Association,以下簡稱CBETA),蒙「北美印順導師基金會」、「中華佛學研究所」及各界的全力支持與贊助。自1998年2月15日假法鼓山安和分院與國內佛教單位、學術單位及電子佛典工作者等先進舉行籌備會議後,即開始積極進行各項籌備事宜,並於三月一日搬入台北市朱崙街慧日講堂,同時著手購置電腦與辦公設備,建構電腦連線等工作,CBETA的佛典電子化作業從此展開。(註1)


1998.04.06 拜訪長老 獲得支援

  在工作進行中,協會亦同時著手於對外的聯繫工作,於四月六日中華電子佛典協會主委惠敏法師與總幹事杜正民,親至台中華雨精舍拜謁印順導師,並報告中華電子佛典成立事宜,會中得到導師對此工作的肯定,同時指示厚觀法師全力支持並參與此有意義的工作。繼恆清法師於美國籌募經費,並獲得「北美印順導師基金會」應允支持後。四月二十四日仁俊長老由美來台,中華佛學研究所李志夫所長,中華電子佛典協會主委及總幹事等人於慧日講堂五樓報告中華電子佛典協會的成立及各項有關事宜,甚得長老的嘉許。此外,CBETA成立背後另一少為人知的因緣,就是於籌備會成立前,中華佛學研究所李志夫所長,副所長惠敏法師,台大釋恆清教授及筆者,曾夜訪法鼓山創辦人聖嚴法師,當場獲得法師指示,由中華佛學研究所支援人事、行政、場地、技術及部分經費等事宜,並指派中華佛學研究所副所長惠敏法師與網路資訊室杜正民主任,協同恆清法師負責電子佛典事務。商談中並建立一共識,認為佛典為佛教共同財產,宜廣邀教界、學界及電子佛典工作者參與此會,此項共識由下列各單位派員參加籌備會的與會名單可見一斑。

【表一】籌備會與會名單(依姓氏排列)
姓名 單位 E-Mail
Christian Wittern CBETA,法鼓山中華佛學研究所 cwitter@ccbs.ntu.edu.tw
丁榮錄 中華佛教護僧協會  
何億達 Open 98 stan@solar.com.tw
吳寶原 CBETA maha@tpts1.seed.net.tw
李志夫 法鼓山中華佛學研究所 chibNET@m2.dj.net.tw
杜正民 CBETA,法鼓山中華佛學研究所 aming@ccbs.ntu.edu.tw
邱大剛 台灣大學電機系 b83050@mail.ee.ntu.edu.tw
周海文 CBETA heaven@ccbs.ntu.edu.tw
周寶珠 慧炬雜誌社 tow@ms2.hinet.net
夏先生 電子佛典工作者  
張文明 普賢護法會網路中心 dnstudio@m2.dj.net.tw
張景全 電子佛典工作者 baustw@tpts5.seed.net.tw
張鴻洋 美國印順基金會 hychang@us.ibm.com
莊德明 中研院資訊所 derming@gate.sinica.edu.tw
童闓運 CBETA tone@tpts1.seed.net.tw
黃郁婷 CBETA tracyh57@ms22.hinet.net
曾濟群 法鼓人文社會學院 dddu@tpts6.seed.net.tw
劉信男 中華佛教百科文獻基金會 lsn46@mail.ncku.edu.tw
歐陽崇榮 國家圖書館  
蔡耀明 華梵大學 ymtymt@ms19.hinet.net
蕭清鳳 電子佛典工作者  
蕭鎮國 電子佛典工作者 Arthur_H@shera.com
譚德銘 電子佛典工作者  
謝清俊 中研院資訊所 hsieh@sinica.edu.tw
應景輝 中台禪寺資訊管理顧問 cts@mail.ctworld.org.tw
釋自衍 伽耶山基金會 luminary@seed.net.tw
釋見護 中台禪寺 cts@mail.ctworld.org.tw
釋恆清 臺大佛學研究中心 hcshih@ccms.ntu.edu.tw
釋厚觀 CBETA,印順文教基金會 mprajna@ms23.hinet.net
釋惠敏 CBETA,法鼓山中華佛學研究所 huimin@humanity.nia.edu.tw
釋廣淨 福嚴佛學院 sbhong@alumni.nctu.edu.tw
釋德晴 靜思精舍 pony@email.tzuchi.org.tw
釋慧瑞 佛光山資訊室 mstonexx@ms21.hinet.net


1998.05.18 首次公布 國際肯定

  1998年5月18日於太平洋鄰里協會(Pacific Neighborhood Consortium)會議,由中華佛典電子協會總幹事與顧問Dr. Christian Wittern(維習安)假中央研究院(以下簡稱「中研院」)活動中心第二會議室舉行說明會,首度對國外學者發表與介紹中華電子佛典協會的工作,參與人士皆為進行電子佛典工作多年的學者,如Dr. Lancaster、Dr. Kastumura、Dr. John Lehman、Dr. Matthew Ciolek、Dr. Charles Muller,以及中研院謝清俊教授等從事佛典電子化的學者,會中並得到很多寶貴的意見與建議。

  CBETA為不與當代其他漢文資料庫的進行脫節並且保持聯繫,協會總幹事及工作人員也於該季(4-6月)積極參與國內多種相關會議,如:

1. 四月十八日至十九日由世新大學圖書資訊學系及台灣傳技電腦共同舉辦的「21世紀資訊科學與技術的展望」
2. 五月一日由中研院漢籍電子文獻協調委員會舉辦的「人文計算研討會」
3. 五月十五日至十八日在中研院舉行的Pacific Neighborhood Consortium 1998
4. 五月二十一日資策會舉辦的「中文資訊處理標準公聽會」(ISO10646 / Unicode標準)
5. 五月二十七日由國家圖書館、台大電腦系統技術研發重點中心及資策會共同舉辦的「台灣史料數位化研討會」
6. 六月十二日至十三日由中研院跨單位舉辦的「漢籍電子文獻資料庫建置的回顧與前瞻研討會」等研討會。


  於此同時,CBETA的作業流程與各項規範,也已大致完成。工作進行中,「訂定規範」是相當耗費時間的,如版本格式、電腦缺字表達、組字式規範、通用字規範、電子佛典呈現方式,及《大正藏》內文格式與校勘輸入格式等重要的課題,都經詳細研討後再進行細目工作。這段期間,校對組提出「一般組合字常用部件」、「一般組合字字典部首」、「大正藏一般組合字」及「通用字形」的規範,以及資訊組的「看圖校對程式(SeeCheck)」、「比對程式(FGFC)」等程式測試完成。進而,「電子佛典呈現方式」及「大正藏內文格式與校勘輸入格式」的確定,對CBETA的作業都有相當大的助益。加以,CBETA各小組每日於網路上利用e-mail討論會內的事務與解決遇到的困難,因為各小組皆善於運用此工具進行內部的工作研討,使得會務的進行很順利並且節省時間。更重要的是,由輸入、校對、研發、資訊作業流程的確立,奠定CBETA往後作業暢通的基礎。


1998.06.20 參訪日本 取得授權

 ▲1998年與日本SAT委員商談《大正藏》合作與授權

  同時,為取得授權,CBETA主委惠敏法師、常委恆清法師、總幹事杜正民、顧問維習安一行四人於1998年6月20日至25日,赴東京與SAT(SAmganikikrtam Taisotripitakam, SAT)(註2)及大藏出版社洽談電子佛典的合作與版權問題,旋即趕赴京都與花園大學及京都大學做技術交流。

  此行與SAT的商談,雙方有誠意就《大正藏》的輸入校對工作進行合作,然CBETA必須先取得日本大藏出版社的授權之後,才進行SAT與CBETA進一步的合作事宜之洽談。茲將此行大事記錄於下:

1. 與SAT委員開會

時間:1998年6月21日(星期日)13時至17時

地點:日本東京大學佛教青年會館二樓會議室

與會人員:

SAT代表
委員:
江島惠教(Ejima Yasunori東京大學教授,前任SAT會長)
下田正弘(Shimoda Mashiro東京大學助教授,現任SAT會長)
桂 紹隆(Kastura Shoryuu廣島大學教授)
早島 理(Hayashima Osamu長崎大學教授)
石井公成(Ishii Kosei駒澤大學教授)

事務局:
吉岡司郎(Yoshioka Shiro)
戶田 隆(Toda Takashi)
師 茂樹(SAT技術人員)
佐籐 厚(SAT技術人員)

CBETA代表
惠敏法師、恆清法師、維習安、杜正民

討論事項:

(1) 介紹CBETA工作流程與內容
(2) 討論雙方合作事宜
(3) 安排與大藏出版社洽談版權

2. 大藏出版株式會社開會

時間:1998年6月22日(星期一)10時至12時

地點:日本大藏出版株式會社會議室

與會人員:

SAT代表
江島惠教(Ejima Yasunori東京大學教授,前任SAT會長)
桂 紹隆(Kastura Shoryuu廣島大學教授)
早島 理(Hayashima Osamu長崎大學教授)
石井公成(Ishii Kosei駒澤短期大學教授)

大藏出版株式會社代表
丸山八朗(出版企畫部部長)
谷村英治(編輯部科長)

CBETA代表
惠敏法師、恆清法師、維習安、杜正民

討論事項:

(1) 洽談授權事宜
(2) 初步取得同意
(3) 協商授權內容

3. 與Dr. App討論電子佛典事宜

時間:1998年6月24日(星期三)10時至12時

地點:花園大學國際禪學研究所會客室

與會人員:

Dr. Urs App (International Research Institute for Zen Buddhism, Hanazono University)

CBETA代表
惠敏法師、維習安、杜正民

討論事項:

(1) 介紹雙方工作內容
(2) 介紹CBETA工作內容
(3) Dr. App介紹SAT的前期背景
(4) 參觀ZENBASE工作室
(5) 討論佛學與資訊教學方案

4. 拜訪禪文化研究所資料庫

時間:1998年6月24日(星期三)13時30分至14時30分

地點:禪文化研究所辦公室與資料庫工作室

與會人員:

禪文化研究所代表
牳正隆法師(Ven. Masataka Toga禪文化研究所事務長)
西村惠學(Egaku Nishimura禪文化研究所資料庫技術人員)
神野恭行(Yasuyuki Kamino禪文化研究所研究員)

CBETA代表
惠敏法師、維習安、杜正民

討論事項:

(1) 介紹禪文化研究所資料庫工作內容--禪宗資料
(2) 介紹CBETA工作內容
(3) 討論資料交換事宜
(4) 禪文化研究所目前有大量的禪電子資料,但尚未公開
(5) 討論雙方是否有可能進一步交換資料

5. 於京都大學人文科學研究所討論造字

時間:1998年6月25日(星期四)9時至13時

地點:京都大學人文科學研究所辦公室、研究室與書庫等地方

與會人員:

京都大學人文科學研究所教授
勝村哲也教授(Dr. Katsumura Tetsuya京都大學人文科學研究所)
高田時雄教授(Dr.Takata Tokio京都大學人文科學研究所)
麥谷邦夫教授(Dr. Mugitani京都大學人文科學研究所)
丹羽先生(Mr. Niwa京都大學人文科學研究所技術人員)

CBETA代表
惠敏法師、維習安、杜正民

討論事項:

(1) 雙方介紹工作內容
(2) 介紹CBETA工作內容
(3) 簡介京都大學人文科學研究所目前與即將進行的一些大型資料庫計畫
(4) 討論有關缺字造字等事宜

  有關CBETA與大藏出版社的授權問題,雙方進行經過多次的交流與修改契約書,CBETA並委請王秋芬律師審查中日雙方的契約條文。終於,在1998年9月30日經由郵寄方式完成簽約。大藏出版社除授與CBETA使用《大正新脩大藏經》的授權外,並同意CBETA發行CD等權益。(註3)


1998.07.07 兩岸會議 媒體發布

  進而,於七月七日中華佛學研究所舉辦的「兩岸佛學教育博覽會與中文電子佛典運用展示」中,CBETA在師大展覽會場曾有兩場的展示:一為上午的「電子佛典的運用」,另一場則為下午的「電子佛典的製作」,此兩場現場的展示說明,可說是CBETA經由一段時間的運作之後,正式對外展示與發布消息。台灣各大報紙及佛教電視台並於隔天登出此項消息,因而獲得多方的關切。同時,網路組籌劃與準備多時的CBETA中英文網頁(http://ccbs.ntu.edu.tw/cbeta)於此時正式對外開放,並接獲許多使用者對電子藏經輸入工作嘉許與鼓勵的信件!(註4)


1998.07.30 北美報告 工作進度

  七月三十日,CBETA總幹事至美國紐約向北美印順導師基金會張鴻洋博士就上半年CBETA業務作口頭報告,其內容如下:

1. 日本之行相關事務的報告
(1) 六月二十一日與SAT會員的會議
(2) 六月二十二日與大藏出版社討論版權問題
(3) 其他日本之行相關事務的報告
2. 日本大藏出版社契約條文的討論
3. 就CBETA最近幾次內部會議,需要北美同意的問題討論
4. 簡介CBETA最近的工作內容
5. 簡介CBETA-WWW CD(內含網路資料及最近的成果:《八十華嚴》與《大正藏》第十冊)
6. 近日報紙有關CBETA的報導
7. CBETA財務報告等事務


1998.10.01 台灣大學 座談研討

  此外,從十月份起CBETA在本身的工作量達一定程度後,即積極與外界聯絡,以取得更多的技術支援與幫助,茲將十月份參與的活動簡列於下:

1998年10月1日(星期四)

  參加經濟部技術處與資訊工業策進會推廣服務處於台北國際會議中心舉辦的「SGML/XML應用實務研討會--掌握企業文件數位化管理與應用」。

  Rick Jelliffe(The XML and SGML Cookbook: Recipes for Structured Information, Prentice Hall, NY 1998 一書的作者)主講。

參與人員:維習安、杜正民

研討要點:

1. 介紹SGML/XML與HTML的基本概念
2. 網路上的解決方案--Pinnacles Application
3. XML的未來發展--Netscape 5

1998年10月2日(星期五)

  與台大資訊工程學系歐陽彥正教授討論CBETA的檢索軟體等問題。

參與人員:維習安、杜正民

討論要點:

1. 介紹台大數位圖書館與博物館的資料庫與製作
2. 台大電腦系統技術研發重點中心的工作概況
3. 提出CBETA的檢索需求

1998年10月6日(星期二)

  至中研院資訊所與謝清俊教授討論CBETA 的作業流程與進度。

參與人員:惠敏法師、恆清法師、維習安、杜正民

討論要點:

1. 定義上網「佛典資料」的用途、功能與目標
2. 如何使資料(data)成為資訊(information)
3. 討論Search Engine:(1) 中研院計算中心的檢索;(2) C-Smart 的檢索功能
4. SGML/XML:Structure Markup, Auto tagging, 版面資料(DTD定義)
5. 缺字與異體字:如何以SGML表達缺字或以.pdf呈現,缺字的管理(建議先花三個月的時間把缺字處理好)
6. 以最小單位表達完整的資訊(tags, images, coding 及缺字等)
7. 其他如Subject headings, Indexing, Thesaurus的詞彙建立
8. 總結:如何在電腦堛竁F佛經的知識及結構的建立(Data→Information→Knowledge Structure)

1998年10月8日(星期四)

  與台大歐陽彥正教授及美國陳樹新教授商討資料庫與檢索問題。

參與人員:恆清法師、杜正民

討論要點:

1. 簡介佛學資料庫與CBETA 的工作
2. 討論檢索與資料庫的問題
3. 提出檢索需求

1998年10月9日(星期五)

  參加國科會數位博物館推廣教育計畫小組與國科會台大電腦系統技術研發重點中心,在台灣大學思亮館所舉辦的「建構使用者導向的數位圖書館」。

  由Dr. Su-Shing Chen(Better Earth System & University of Missouri-Columbia)主講。

參與人員:杜正民

研討要點:

1. Dublin Metadata Core
2. Meta Information
3. MAKERS(MetadatA KnowledgE Representation Scheme)應用軟體介紹

1998年10月9日(星期五)

  與華康科技開發公司郭嘉生副總經理討論「佛典造字與呈現問題」。

參與人員:維習安、杜正民

討論要點:

1. DynaDoc對佛典的支援與將來的展望(Word→Printing Format→XDL→XML)
2. Gaiji Server的外字管理系統
3. 華康打算支援「大正藏」字形/由CBETA提供缺字編碼
4. 將來的展望:文字與圖檔同時重疊顯示

1998年10月12日(星期一)

  與Rick Jelliffe(The XML and SGML Cookbook: Recipes for Structured Information, Prentice Hall, NY 1998一書的作者)在點子科技公司討論佛典SGML的技術與問題。

參與人員:維習安、杜正民

討論要點:

1. 提出CBETA所需的SGML工具(如SGML Editor)
2. 介紹Virtual Reality的發展(VR, CALS計畫)

1998年10月14日(星期三)

  與台大歐陽彥正教授討論CBETA 的檢索軟體等問題。

參與人員:維習安、杜正民

討論要點:

1. SGML→JAVA SCRIPT→CLIENT (QUERY)
2. Pattern matching / Indexing base
3. 以metadata的方式(attributes要描述清楚)做DB Sever
4. 網路版/單機版 皆可使用
5. 可檢索全文/條目

1998年10月22日(星期三)

  「資訊檢索技術的新趨勢」研討會。

主辦:中研院資訊所,台大電腦系統研發重點中心,中華民國計算語言學會SIGIR

地點:南港中研院資訊所1F演講廳

主旨:

  隨著網路資訊的爆炸,資訊檢索技術的需求與挑戰與日俱增。資訊檢索研究必須結合不同領域的知識與技術,包括自然語言處理、資料庫技術、網路技術、Data Mining、Agent等。為了提供國內學者專家對新近發展的一些課題有進一步交流切磋的機會,中研院資訊所,台灣大學電腦系統研發重點中心,中華民國計算語言學會SIGIR在中研院共同舉辦本次研討會。

1998年10月23日(星期五)

  於台大佛學研究中心接待「兩岸禪學研討會」大陸來賓。

1. 介紹佛學網站
2. 介紹CBETA 電子佛典的工作現況
3. 研討合作的可能性

1998年10月29日(星期四)

  於台大佛學研究中心討論檢索問題

參與人員:恆清法師、黃國展、鄭世垚、杜正民

討論要點:

1. 有關網路檢索的有關問題
2. 討論CBETA檢索功能需求

1998年10月30日(星期五)

  於CBETA討論標記問題。

參與人員:維習安、杜正民及輸入組、校對組人員

討論要點:

1. 就目前CBETA 的標記問題進行討論
2. 介紹新概念與技術給CBETA有關人員參考

1998年10月30日(星期五)

  於台大資訊所與歐陽彥正教授討論檢索問題。

參與人員:維習安、杜正民

討論要點:

1. 確定台大資訊所將來的協助程度
2. 確認可支援的研究學生與指導老師
3. 討論檢索問題


1998.12.01 中研院內 交換心得

  1998年12月1日在中研院謝清俊教授的邀約與安排下,CBETA全體同仁假中研院資訊所演講廳,與中研院佛典輸入各所有關研究員及中研院計算中心資訊員做交流,CBETA的展示於會中獲得他們相當的鼓勵與肯定。這不啻給與終年辛勞的CBETA工作人員很大的激勵。茲將交流座談會的議程與內容簡列於下:

「電子佛典的組織與作業流程簡介」
--電子佛典交流座談會
1998.12.01
台北:中研院資訊所
議 程 時間
前言:中研院謝清俊教授 / CBETA主委 5分
簡報:總幹事(簡介CBETA的成立、作業流程等) 10分
分組報告:

一、輸入組

1. 介紹丹青4.0 FOR CBETA版本的特色及功能
2. 輸入組的作業流程
3. 相關檔案及統計資料等

二、校對組

1. 先以流程圖解釋CBETA作業流程
2. 目前CBETA重要的發展
a. 檔案比對
b. 看圖校對
c. 技術的運用
d. 發展的阻礙
3. 目前的狀況簡報:(如速度,品質及準確度)

三、資訊組

1. 補充說明校對組的工具
2. 介紹新近研發或正在研發的工具
四、研發組

1. 缺字的表達
2. 標記的運用
3. 其他
60分
交流時間 45分
中研院電算中心簡介與討論 55分


1998.12.20 慧日講堂 成果發表

  自1998年10月20日CBETA月會中,全員同意於該年年底前對外發表成果之後,全體同仁即全力投入成果發表會的各項籌備工作。十二月二十日,終於在如火如荼的準備中,CBETA的各項成果在發表日期前大致完成,並如期於慧日講堂舉行「中華電子佛典協會年度成果展」,本次發表的成果大致分為三項:

一、作業流程完全公開,提供有興趣於佛典電子化的單位參考

二、CBETA自行研發的程式,亦提供有興趣的單位作為佛典電子化之用

三、本年度CBETA佛典電子化的成果內容,包含:【下載第五冊至第十冊經文】、
  【線上閱讀第五冊至第十冊經文】、【發行測試版光碟】等

  CBETA於該年度確定將來最後成果以SGML/XMLTEI標記符號呈現,並期能結合良好的輸入介面以表達結果。而關於缺字的工作,則著重於現有缺字形、音、義及通用字的資料查詢及整理的工作等事項。

  簡言之,CBETA 1998年業務在各組的分工進行下,產生的具體成果回溯如下:


12/20:於慧日講堂舉行「中華電子佛典協會年度成果展」


11/16:校對組--《大智度論》校對完成
11/15:資訊組--CBETA Grep程式完成
11/02:校對組--《大毘婆沙論》校對完成


10/06:校對組--「涅槃部」校對完成


09/15:網路組--《大正新脩大藏經》第十冊(華嚴部下)開始上線測試


08/24:網路組--《大正新脩大藏經》第十冊《八十華嚴》開始上線測試


07/15:校對組--東坡《大正藏》第九冊修訂 071598
07/07:校對組--《大般若經》檔案比對及格式化全部完成


06/22:校對組--《八十華嚴》人工一校完成
06/15:校對組--第十冊校勘全部輸入完成
06/06:資訊組--特殊標記頻次統計程式完成


05/07:資訊組--《大正藏》格式化程式 (II) 測試版完成
05/04:校對組--《八十華嚴》第二次檔案比對全部完成


04/24:資訊組--看圖校對程式(SeeCheck)測試版完成
04/20:資訊組--字頻統計程式完成
04/13:校對組--《八十華嚴》第一次檔案比對全部完成
04/06:資訊組--三檔比對程式(FG3FC)測試版完成
04/04:資訊組--比對程式簡單版(FGFCe)完成


03/26:校對組--提出「通用字形」
03/26:校對組--設計「一般組合字」的倉頡、輕鬆輸入法
03/23:校對組--規範《大正藏》一般組合字
03/17:校對組--規範一般組合字字典部首
03/16:校對組--規範一般組合字常用部件
03/15:校對組--開始進行《八十華嚴》檔案比對作業


02/15:中華電子佛典協會成立



1999年 東西交流


1999.01.15 台灣舉辦 佛典會議

  接續1998年底的成果發表會後,1999年初CBETA即準備參加由教育部電算中心及中研院計算中心主辦,法鼓山中華佛學研究所、菩提文教基金會暨台大佛學研究中心協辦的第五屆「國際電子佛典推進協議會」(Electronic Buddhist Text Initiative, EBTI)。(註5)本次會議於1999年1月15日至21日,假中研院學術活動中心與地球科學研究所會議廳盛大舉行,主題豐盛內容充實,可說是呈現本世紀末國際佛典電子化的實況縮影。

  CBETA依《大正新脩大藏經》所完成的具有學術標準的嚴謹校對、根據國際標準的TEI(Text Encoding and Interchange P3/P4)規則之作業、可交換及跨平台的缺字處理方式、採用XML標記語言及普及版的推廣、學術版的研發等作業方針與流程之《CBETA電子大藏經》,於聯合會議中(註6)得到國內、外許多學者專家及使用者的肯定與讚賞,對CBETA的工作人員有相當的鼓舞作用。


1999.03.29 網路資料 建構開發

  3月29日,CBETA於中研院歷史語言研究所(以下簡稱「史語所」)舉辦的「漢學研究網路環境的開發座談會」中發表「佛學網路資料庫的建構與開發」,介紹CBETA及台灣佛學網路資料庫的建構現況,以取得日本大藏出版株式會社的授權,依學術界公認的《大正新脩大藏經》進行輸入、校對及校勘等基礎工作。因而,此項工作,即不同於多數佛典輸入單位的版本不一、校對不精湛、版權有問題等情形。再根據此基本特色與認知,CBETA繼續將已經完成校對的電子檔,進行符合國際標準的「標記(markup)工作」與「缺字處理」等作業。這些作業,可說是CBETA的另一特色,因為在處理標記時,CBETA完全依照人文學界所重視的TEI(Text Encoding Initiative)標準。另外,為配合新版TEI(P4)改用XML標記語言,CBETA從本年度開始進行 XML的標記工作。同時,與國內外重要單位合作處理漢文電腦缺字問題,進而兼顧普及與學術的雙重需求。


1999.06.10 電腦人文 東西交流

  CBETA電子佛典採用國際認可的TEI(Text Encoding and Interchange P3/P4)標準,以作為將來國際間交換的作業準則,此項課題一直是學者們所關切的。總幹事與顧問維習安於1999年6月在University of Virginia舉辦的「電腦與人文會議」(The Association for Computers and the Humanities, ACH/ALLC 1999 CONFERENCE)中,西方的專家學者對於CBETA採用符合人文學界標準的TEI深表讚賞。希望藉由此項作業,可提供西方人文學界對東方的漢文佛典有進一步的瞭解及運用。


1999.06.15 古籍文字 問題討論

  於六月十五日至十六日,CBETA亦曾參加中研院古籍協調委員會假中研院史語所舉辦的「古籍文字問題研討會」,此研討會邀請美國、日本、馬來西亞、大陸及香港地區就漢文電腦缺字問題加以討論,期能藉此研討會,就古籍缺字問題提出一共同解決的方案,CBETA並就目前缺字處理方式提出報告。

  總幹事於報告中提及,中國佛教從漢末開始佛典的傳譯,即有漢字「缺字」的問題存在,只是於當時並非以電腦做為文書處理的工具,因而多以「難字」、「奇字」表示之。譬如,從東吳支謙經姚秦鳩摩羅什至唐朝玄奘的譯經過程,即可看出「文字」的問題在佛教譯經史上,一直是個重要的課題,如支謙所說,因為「天竺言語與漢異音云,其書為天書,語為天語,名物不同,傳實不易」的緣故,而產生種種翻譯上的困難;後來道安將這些問題整理為「譯胡為秦,有五失本......三不易也」的說法;及至唐玄奘始提出「五種不翻」的理論。而這些不翻譯的字,於古時大都是以「音譯」的方法處理之,是以造出很多「難字」,而這些新造的字往往就形成現在所謂的「缺字」。可知,中國從佛典漢譯開始就已經隱藏所謂「缺字」的問題。

  此外,因為佛教「咒語」皆是「採取音譯,不重字義」,因而產生了許多新造的中文「奇字」,這些字往往都是中文字典中所不收錄的,因此經過數百年的佛典漢譯之後,佛教界即開始有各類的《音義》出現,以整理及解釋這些「難字」或「奇字」;加上,近年來流傳的新發現唐宋敦煌手抄本,其中有很多的「俗字」亦非字辭書所收錄的字,甚或是後世經文刻本所罕見,因而依現代的需求,這亦可說是一種「缺字」問題。

  上述這些問題與處理方式,在某種定義下與當代電腦的「缺字」問題是非常類似的。因此,該報告試從兩千年來的漢傳佛教史,觀察其處理「難字」、「奇字」、「咒語」、「俗字」的方法,以作為當代「缺字」處理之參考。(註7)


1999.06.27 設發行組 推廣佛典

  經長期的籌備,CBETA第一次推廣活動於1999年6月27日假台大資訊工程學系舉辦,當天參加的人員,計有五十多位來自台灣各佛教圖書館的學員。由於協辦單位「台大資訊工程學系」提供良好的場地與電腦設備,因此當天的推廣效果與學員反應都很好!為推展CBETA經文的發行,並與使用者的溝通,CBETA特別於今年成立發行組,著重於業務推廣活動,如每月固定出版電子刊物,將相關資訊與大眾分享,並與使用者多溝通,以蒐集使用者建議,彙整使用者的回饋,以供CBETA同仁作業參考。發行組並對本次舉辦的推廣活動所得到之回饋,進行檢討與改善,藉之發展友善型之介面及相關程式。如提出「簡易瀏覽器」的初步設計,及對將發行的經文做更改,以利使用者的運用。並完成「佛學辭典」上網供大眾利用。同時,發行組與網路組建立網路上「義工專用留言版」,公開招募義工;以及推廣電子佛典光碟至各佛學院所、佛學社團及相關佛學團體等工作。


1999.06.29 伽耶山會 藏經實作

  隨即於六月二十九日,CBETA參加伽耶山基金會於國家圖書館舉辦的「佛教資料電子化研討會」。CBETA主委惠敏法師於會中發表「大藏經電子化的實作:以大正新脩大藏經為例」,與會大眾對CBETA的走向、方針、定位與作業方式有相當的肯定與期許。

  發展至此,在研發組的研究與改良下,CBETA經文電子主檔(Source File)一律由原先採用的SGML標記語言改為XML標記語言,此時已經全部改檔完成。

  至於技術與介面方面,於CBETA的進度與各項作業方法趨向完整時,則成為繼「學術版」之後的另一重要考量。當時,CBETA、台大佛學研究中心與台大資訊工程學系合作開發「網路檢索軟體」,該學期已經完成有「異版本比對檢索」功能,此為台大資工系以Fuzzy Search的基本原理,所完成的一個檢索軟體。根據CBETA提出的多版本比對理念與需求,請該系師生幫忙撰寫可以同時檢索多種不同版本的功能。此檢索尚在測試中,如果將來技術臻至成熟時,對於祖師引用的佛典出處,或各種不同翻譯版本的比對等功能,將會有相當的助益。

  除了檢索軟體的研發外,CBETA並擬針對「不同版本的瀏覽器」進行初步的設計。


1999.07.10 佛學資訊 作品研討

  CBETA並在七月十日,於中華佛學研究所舉辦的「佛學與資訊」作品研討會(1999.07.10-11)中,展示與介紹CBETA的成果與未來的發展。會中就未來學術版的發展作詳盡的說明。

  校勘條目是CBETA版本不同於其他電子版的特色之一,因為國際間,除了日本少數的學術團體試圖輸入校勘條目外,其他工作團體因為無法取得版權,或不瞭解其重要性,所以並無完整的校勘條目輸入計畫。因此,CBETA希望於完成輸入與校對的工作後,尚有另一重要的工作項目待完成--含校勘條目的「學術版」之製作與發行。簡言之,為能讓工作順利進行,CBETA目前採兩階段的工作方式:首先完成高正確率、高品質的「普及版」;接著,擬發行含校勘條目的「學術版」--本版將以國際性及學術性作為主要的訴求,也就是期能完成以XML標記TEI國際文獻編碼標準,且以Unicode國際碼表達的「電子佛典」。至於功能方面,當可因為電子版底稿的準備翔實,因應時代的發展提供更好的功能,譬如檢索功能的提昇等。

  「學術版」的工作,目前在研發組的努力進行下,已經有了很良好的工作模式。研發組本季的主要工作是,設計及考量本年度成果發表的呈現,如擬以xml, unicode發行「佛典」的doc檔。採用此種方式,不但可以提供很好的Word使用介面,且能供讀者友善及方便使用的電子經文。


1999.07.12 俄莫斯科 歷史文獻

  本會總幹事於七月份應邀至莫斯科,參加俄羅斯科學院(Russian Academy of Sciences)舉辦的「蒙藏歷史文獻電腦資訊」(Computer Studies of Mongolian and Tibetan Historical Sources, 1999.07.12-14),並發表"Tibetan Net Resources in Taiwan",(註8)對台灣目前進行的藏文網路資源作一簡介,也就當前台灣發展的藏經與佛學資料庫作進一步的說明。與會大眾對台灣的佛學電腦資料發展相當讚嘆,並提出很多問題討論與建議。筆者於與會期間也進一步瞭解到俄羅斯地區尚有相當多的館藏蒙藏經文未整理,台灣當前大型電子佛典資料庫的建構經驗,或許可提供參考與交流。


1999.08.23 瑞士洛桑 推廣佛典

  CBETA總幹事與顧問,分別被邀請在深受國際佛學界所矚目的重要學術會議--第十二屆「國際佛學會議」(The International Association of Buddhist Studies Conference, IABS)八月二十三日至二十八日,於瑞士洛桑大學(University of Lausanne)的「電子佛典」場次中發表相關的論文,CBETA的成果獲國際佛學學者相當高度的肯定。對CBETA而言可說是在國際上一重要的里程碑。

  該次的IABS會議,不但是首次將「電子佛典」納入國際佛學會議中,且於大會中決議,下屆亦將加入「電子佛典」場次。首次將「電子佛典」的討論加入佛學會議中,除具有時代的指標意義外,更重要的是,可以看出「電子佛典」的研究進展已蔚為風氣,並成為未來佛學研究領域中,一個不容忽視的新議題。

  該次「佛典電子化」的議題中,有八篇論文發表:分別為台灣、美國各兩篇,韓國、英國、日本、尼泊爾各有一篇。維習安提出的論文,是<中國大藏經數位化>的論題,杜正民則以<台灣佛學數位資料庫>的議題提出論文。本次發表的「中華電子佛典協會」電子化佛典相關論文,受國際研究者高度的肯定與支持,許多與會學者紛紛提出討論,尤其是針對CBETA數位化佛典製作的技術,及如何使用等,提出諸多深入的討論與意見。會中許多學者最關心的是,在不同的平台如何使用這些資料、如何讓數位資料轉化為彼此相通的碼等國際間經文交流問題。

  在會議期間,CBETA除致贈舉辦單位《CBETA電子佛典系列》光碟外,並且和有興趣的與會學者結緣,使CBETA當時的成果與藏經全文,可以於國際佛教學者間廣為流通。(註9)


1999.10.16 法鼓研討 網路淨土

  十月十六日,CBETA在中華佛學研究所「網路與淨土」研討會中,作了一場不同於以往的展示,就是對法鼓山的信眾,說明藏經電子化的過程與各項功能的解說。這一場普及化的推廣與簡介,引起熱烈的反應與迴響,對CBETA普及版的製作與推廣有很好的參考價值。


1999.10.19 中正大學 漢文佛典

  於中正大學舉辦的「語言學與漢文佛典演講暨座談會」中,CBETA主委,總幹事與顧問各有一場的論文發表與簡介,從CBETA的工作流程、作業項目、成果內容至佛學應用,都有詳細的介紹。於會中得到很多的回饋與建議,與會人員對於CBETA的進度都很關心。

  至此,CBETA已經完成重要的漢譯「經、律、論」部分,也就是《大藏經》前三十二冊共計六千多萬字內容,同時完成標準化的電子資料庫。這項成果,堪稱是海內外佛教界及信徒獲得的一項千禧大禮。未來民眾可以同時透過網路搜尋或數位光碟,獲得完整的經典內容。預料對於今後佛教義理的流布,以及佛教未來進入科技網路的時代性,有極為深遠的影響。

  CBETA的研究成果將無償提供各界參考運用,希望未來能在國際學術交流的領域,以及大眾普及的需求上,同時有多元饒益的功能。為了達到此項目標,CBETA研發團隊兩年來均以「高效率、高品質、標準化、國際化」的專業態度,為佛教經典這項兼具人心需求及教門傳承的古老智慧,重新鍍上數位科技的風采。特別是,使用者可以從光碟獲得大藏經的內容,或者透過 CBETA網站(http://ccbs.ntu.edu.tw/cbeta)下載需要的經典,也能輸入關鍵字進行完整的檢索,堪稱方便。當時CBETA的網站部分已經開始服務,至於普及版的光碟預計在次年春季問世。


1999.12.19 第二年度 成果發表

  CBETA於十二月十九日下午二時,假慧日講堂二樓大殿舉辦成果發表會,出席的貴賓踴躍,討論熱絡、反應良好,對CBETA一年多來的工作給予相當的肯定。

  成果發表會完成的經文,計有《大正藏》第一至三十二冊之印度撰述部,含經、律、論及其他相關成果。而其中的密教部(《大正新脩大藏經》第十八至二十一冊)雖已完成初步校對,但因為咒文的電腦缺字很多,且加上大量的悉曇字問題,因此尚在做最後的處理,預計次年元月底之前,密教部將完成普及版作業。

  該次的成果發表會,除CBETA主委介紹漢文佛典電子化的緣起與展望,總幹事介紹CBETA的沿革及1999年成果發表內容,研發團隊簡介此次發表的成果外,特別邀請台大資訊工程系許清琦主任、歐陽彥正教授及中研院文獻處理實驗室謝清俊教授致辭及指導。他們對CBETA採用的技術與使用的標準皆給予相當的肯定!同時,天主教馬天賜神父,除讚嘆CBETA的成就外,並建議下次發表會能廣邀其他宗教朋友觀摩。

  簡言之,CBETA的成果發表可以分為網路與光碟版兩種,今將此兩種發行方式簡述於下:

一、網路資源

  中華電子佛典協會CBETA提供了以下的網路資源服務:1. 網站資源;2. 電子刊物;3. 電子郵件諮詢服務。

  在網站中,提供線上經文瀏覽、經文檢索、普及版經文下載,本會所開發之工具程式下載及相關技術報告。使用者可利用網路瀏覽器進入CBETA首頁點選。進入網頁之後,將會出現[簡介]、[技術]、[規劃]、[進度]、[成果]、[檢索]、[下載]、[留言]、[電子報]、[芳鄰]、[其它]、[導覽]等選項,供讀者閱讀與查詢。

  而電子刊物當時則分為每月定期發行的「中華電子佛典協會新聞電子報」和不定期發出的「CBETA之友通訊」。前者除固定的提供本會近況、電子佛典技術相關專題的報導之外,也有經典簡介、法語選粹、網際導覽、節慶介紹、心得分享和使用者交流等豐富的內容。後者則依需要,在經文更新、上網或是重要資訊發布時,以最快的方式將訊息傳達給讀者。

  電子郵件諮詢服務,則是當使用者對CBETA有任何建議、指導或是使用上的問題,皆可利用電子郵件或是網站留言的方式告之。對於使用者的建議,CBETA會轉達給相關部門,該部門將儘可能的快速答覆。更重要的是,如果有發現任何經文上的錯誤,CBETA會在查證之後,以最快的速度發出更正通知,隨時保持最新最正確的電子經文。

二、光碟版簡介

  中華電子佛典協會電子佛典系列光碟(測試版)的經文內容有《大正藏》第一至十七冊、第二十二至三十二冊的普及版經文。「經文資料」共分為有適合編輯使用的Word版,及可直接利用文字編輯器閱讀的App版與Normal版,與視窗介面下的HTMLHelp版等四種不同格式的經文檔,亦即CBETA電子佛典是由同一套XML電子主檔所產生,上述各種不同文件格式版本,提供讀者不同的使用需求。此外,光碟版內並含有《丁福保佛學辭典》,《東亞漢英辭典》,及本會開發的《名相資料簡易辭典》程式等「參考資料」。光碟內並包含Word格式的瀏覽器、全文檢索工具、解壓縮工具、HTMLHelp瀏覽器升級程式等「工具程式」。

  為讓使用者充分瞭解各項版本內容,進而再將經文版本作進一步的說明:

1. 普及(Normal)版:普及版為一般文字檔的格式,可利用任何支援中文Big5碼的文書處理器或是瀏覽器閱讀編輯。
2. App版:此為「行末句點」格式之文字檔,是為了方便部分檢索軟體能正確的檢索,因此每行行尾如果有不成句的字,則會移動到下一行的行首。
3. Word版:配合Microsoft Word97及Word2000格式,適合編輯使用,利用Word程式強大的排版和編輯能力以顯現更多的經文瀏覽效能。如果使用者的電腦上沒有安裝Word程式,可利用光碟中所附的Word Viewer工具來瀏覽。Word格式版本運用了大量的XML標記及CSS技術,另外也提供了相關的Word巨集。
4. HTMLHelp版:此版是以微軟公司的HTMLHelp瀏覽器為主(HTMLHelp為附於視窗98中輔助說明的瀏覽器,視窗95亦可以更新,具有目錄、索引、全文檢索多功能)。

  另外,CBETA擬於「學術版」內附上《大正藏》的註解欄等資料,藉此提供歷代各版本漢文大藏經的原貌。目前「學術版」正配合檢索軟體的開發,進行各項的作業,希望很快就能提供讀者更好的使用工具與版本。(註10)

2000年 成果發表


2000.01.11 美舊金山 國際會議

  2000年初,CBETA承續往年的國際活動,繼續參與國際電子佛典推進協會(EBTI)今年元月11日至17日於美國舊金山柏克萊大學舉辦的PNC聯合會議(含ECAI、EBTI等會議),CBETA的成果於會場上再次得到多位學者專家的肯定。更榮幸的是「北美印順導師基金會」董事長果冶法師及自翰法師等人蒞臨會場指導,並全程參與會議,讓本次CBETA的展示更具意義。由於EBTI是國際間電子佛典製作單位都會參與的大型會議,因此由此次的會議中,除了瞭解國際間電子佛典的發展情況外,並能與其他單位共同協調作業標準,以作為將來交換與發展之用,而不至於有閉門造車之虞。總之,此次的會議對CBETA不急功近利的製作方式、普及化與學術化兼備的考量、長期性的發展與經營方式及國際間資源交流的設想等,都得到相當的肯定。(註11)

  於彙整EBTI會議中所獲得的學者專家意見,及參酌上一年年底成果發表會後,各與會貴賓的使用報告與建議,CBETA開始光碟製作、各項修訂作業及準備光碟發行等事宜。然而,因為CBETA同仁對發行的產品有高度期許,如希望產出較無瑕疵的光碟、希望電子佛典能讓讀者方便使用,以及希望能有更豐富的內容等。因此,經過一次又一次的測試與改版,加上同仁們不辭辛勞的日夜趕工,終於在三月二十日製作出尚達滿意度的母片送交工廠壓製。此間也得到法鼓文化的鼎力協助,因此新版光碟於封面設計與包裝方面都有相當的改善。CBETA同仁於工廠送來光碟的當天,即開始寄發給相關單位與使用者,期能儘速送到讀者手中,讓他們先睹為快,也期能於近期內接獲讀者的回饋,作為下次改版參考用。

  除了例行的進度與作業外,CBETA此時以光碟製作為首要工作目標,亦即彙整與修訂去年底完成的《大正新脩大藏經》第一至三十二冊之印度撰述部(經、律、論)資料;及繼續「密教部」(《大正新脩大藏經》第十八至二十一冊)的咒文電腦缺字與悉曇字等工作為主,當時已經完成「密教部」普及版的作業。並於三月底壓製4,000張光碟(含助印1,500張)正式發行,同時已寄發給國內外佛學學者、佛學院所、佛教單位、圖書館等機構。CBETA並擬於近期內配合新光碟開始各項推廣活動。


2000.04.23 推廣講習 共享法喜

  CBETA於工作進度外,發行組同時也進行推廣。如於四月二十三日假台大資工系舉辦電子佛典推廣講習會,來自北台灣的許多朋友共享法喜。該季接受佛光衛視之新聞專訪,及發布推廣活動之相關消息。

  為能提供更好的服務,CBETA於該年度也到中南部推廣講習分享法喜。如六月十日至福嚴佛學院介紹中華電子佛典協會電子佛典之應用,並得到熱烈的迴響。此外,也舉辦新竹覺風圖書館(9/17)、嘉義安慧學苑(9/23)及高雄紫竹林精舍(10/4)三場推廣活動,將電子佛典的佳音和台灣中南部的朋友分享,得到許多良好的回饋。

  同時,發行組也定期發表電子刊物,發布相關進度與技術訊息。總之,發行組該季工作的重點,為推廣新版光碟,並協助光碟再版作業,舉辦相關的推廣活動,以得到使用者的建議與回饋。同時新版光碟已於三月下旬正式完成並陸續寄發。由於新版光碟已被索取一空,因此修正之後在六月中旬推出更新版光碟。

  除發行組的推廣工作外,研發組也進行修改各種必需程式、維護與更新各項資料等工作。其工作可分為兩部分,一為專門處理文獻資料的部分,另一為資訊軟體的部分。文獻處理的工作項目又可以分為缺字處理、xml檔處理、各種版本轉檔處理(含Doc版、HTMLHelp版、Normal版、App版及原始檔)。而配合這些工作的資訊軟體組,除了開發各種需要的工作軟體外,並撰述光碟的Setup程式、多版本轉檔程式、各種版本的比對及校對HTMLHelp版目錄等工作。

  新光碟的特色,除新增適用Unicode及多種語言平台的MS-Word版外,同時也有適用於Macintosh及其他檢索軟體的純文字Normal版與App版,此外也改良了HTMLHelp版的呈現與功能。本版並新增美國Dr. Muller的《東亞佛學名相辭典》及其他功能,使本次發行的光碟增色不少。

  CBETA於繁忙的光碟製作工作外,同時也進行悉曇字的輸入與處理,預計於該年六至七月間完成初稿,此部分的完成將是學界的一大突破,因為至目前為止,尚無大量悉曇字資料庫的製作。


2000.06.23 大英圖書 文化協會

  六月二十三日至二十九日,參加英國大英圖書館舉辦的「電子文化地圖協會」(2000 Electronic Culture Atlas Initiative),除發表論文外(註12),於會中也介紹CBETA目前的進度與成果,得到國際學者與工作者對CBETA工作的讚嘆。

  中華電子佛典協會多年來皆參加EBTI及國際其他會議,多次與大英圖書館國際敦煌計畫(IDP, The International Dunhuang Project at the British Library)主持人Dr. Susan Whitfield接觸,彼此間有相當的瞭解。因而,期能就台灣建構「佛學數位資料庫」的技術與經驗,有進一步的合作計畫進行。譬如建置一個具有高品質內容,且能夠充分展現結合資訊科技與人文社會科學研究成果的「敦煌佛學數位資料庫」,以期能藉由這個計畫的成果,展示佛學數位資料庫在網際網路社會中所能發揮的重大影響。

  而就CBETA的業務而言,當時主要工作除了承續校對原先的進度外,並將主力著重於研發組的標記、缺字處理及校勘、悉曇字的工作等項目,當時已經上網的資料有《大正藏》第一至四十冊。

  雖然後面幾冊有雙行小字等困難,不過校對組仍希望於年底前完成全部藏經(第一至五十五冊及第八十五冊)的初步校對工作。至於輸入組,則繼續每個月以大約2冊的進度進行校勘部分的輸入。


2000.06.28 數位典藏 佛典展示

  六月底,CBETA成員參加「中研院史語所」主辦的第三屆國際漢學會議之「數位典藏成果展示」(The third of the National Sinology Meeting -- "Digital Reservation of the Result Exhibition),於展示中得到很多學者的關心與建議。

  就CBETA整體事務而言,當時的推廣活動,包括從參加中研院第三屆漢學會議展示、七月底參加中華佛研所舉辦的「第十一屆佛學論文聯合發表會」展示活動,以「電子大藏經:CBETA電子佛典介紹」為題,及其他中南部佛學院所等一連串的推廣工作。

  而關於次年度光碟專案,當時也已經完成XSLT Solution一案。因為原來的XSLT Processor -- Saxon, 只能處理Unicode的XML檔,修改Saxon Java Source,使能處理Big5 XML檔,並能輸出各種不同Encoding。同時也進行以Perl/Tk作為安裝使用者介面的可行性做Perl Solution的測試。


2000.07.02 英佛學會 電子資源

  七月參加英國布里斯托大學(The University of Bristol)舉辦「第五屆英國佛學研究研討會(Fifth Annual Conference of the UK Association for Buddhist Studies 2000.06.30-07.02),並發表<電子大藏經與漢文佛學資源(Electronic Taisho Tripitaka and Chinese Buddhist Net Resources)>。

  該次會議是繼上年八月,於瑞士洛桑大學(University of Lausanne)參加的第十二屆「國際佛學會議」(XII IIBS, The International Association of Buddhist Studies Conference)發表與佛學研究相關的論文。此兩場皆是於國際佛學會議中,直接與佛學學者,就佛典電子化及佛學網路資源等議題加以討論。由於,這兩場與會人士大多是國際有名的佛學學者,因此所得到的回饋與建議都很有建設性。(註13)


2000.08.01 國際學者 商討合作

  八月份則有美國柏克萊大學Dr. Lancaster來訪,商討電子佛典合作事宜。就如何整合梵文、巴利文、藏文與漢文佛典資料庫的問題討論,並對CBETA將來的計畫與進展也有相當深度的討論。之後並有美國維吉尼亞大學Dr. Hopkins來訪,商討電子數位圖書館(Buddhist Digital Library)合作事宜。同時,也有德國宗教學出版單位Dr. Josssef Estermann與Dr. Georg Evers來訪,以及於泰國僧伽大學(Mahachulalongkornrajavidyalaya University)教學的學者來訪,參觀佛典作業及商討國際間電子佛典合作事宜。


2000.09.01 絲路學者 查經不易

  九月一日至十二日,總幹事陪同常委恆清法師參加國科會玄奘西域行(The World of Xuanzang and Silk Road)計畫,至絲路蒐集資料及洽談文物與文獻的授權問題。沿途拜訪「敦煌研究院」樊錦詩院長、「吐魯番地方文物局」柳洪亮局長、「新疆龜茲石窟研究所」霍旭初研究員、「新疆維吾爾自治區博物館」賈應逸研究員等人。

  於絲路中,得到許多學者對CBETA光碟的讚賞與感激。因為在全程絲路中,只有敦煌文物研究所有一套《大正藏》藏經。因此,其他各地的研究員,必須從老遠的喀什、庫車、烏魯木齊或吐魯番等地至敦煌查閱,如今有了CBETA光碟之後,再也不必長途勞累,奔向敦煌查閱經文了,此外,CBETA光碟檢索容易與方便使用,也是敦煌研究員所讚嘆的!


2000.10.02 聖彼得堡 文化交流

  惠敏法師及杜正民,參加俄國聖彼得堡大學東方研究學院(Faculty of Oriental Studies of Saint-Petersburg State University)舉辦的國際會議,並簽訂合作契約。同時參加「東亞-聖彼得堡-歐洲:文化與經濟交流會議」(EastAsia--Saint-Petersburg--Europe : inter-civilization contacts and perspectives on economic cooperation, 2000.10.02-08),也發表<玄奘西域行:文化交流之數位呈現>(The World of Xuanzang and Silk Road : A Presentation of Inter-civilization Contacts in Digital Format)。(註14)此次的介紹,誠如會議主持人所說,不但資料豐富,也為與會者開啟新的研究視野。相信對於今後的合作會有相當的助益。


2000.10.15 學術單位 標誌研究

  由於CBETA的TEI標記工作,為目前漢文資料庫中最為大量及完善,因此應邀參加中研院舉行的「文章內容標誌研究小組」研討會,由主委,總幹事,研發組人員與會,於下半年的議程中,共安排五場介紹CBETA電子佛典標誌講座。計有中研院、師大國文系、政大新聞系、台灣科技大學、元智大學、世新新聞系、中華佛學研究所等校教授及助理,參加「文章內容標誌(TEI)小組」的研討會。

  CBETA製作電子佛典的主要目的,就是要利用資訊科技的易於保存、複製、傳播及再製等電子媒體的便利性,進行《大正藏》電子化的作業。然而從紙本到電子檔的這個過程中,期能保存紙本中的資訊,如《大正藏》的編排格式,經名、譯者、作者、品名、偈頌、附文、校勘等資料。因此,必須在電子檔堨峞u標記」的方式記錄《大正藏》中的各種資訊。

  CBETA早期使用SGML做電子佛典標記,隨著標記語言及Internet工具的發展,於1999年已改為XML。XML的一大優點就是它可以自訂標籤(Tag),因此,可各自按照自己特殊需求訂定新的標籤。有了共同的標記語言XML,就可以用同樣的標記語言、標記格式來定義各自不同的標籤名稱。為了達到資源共享的交換目的,TEI(Text Encoding Initiative)整理出一套標籤集(Tag Set),以利電子文獻的分享與交流。


2000.11.15 文件編輯 佛典標記

▲2000年參加於美國柏克萊大學舉辦的PNC會議

  參加中研院計算中心及太平洋鄰里協會(PNC)合辦的「PNC2000數位典藏與TEI研討會」(The PNC 2000, National Digital Achieve and Text Encoding Interchange Workshop, 2000.11.15-16)。總幹事發表<TEI文件編輯--以佛典標記為例(TEI Text Encoding -- A Case Study of CBETA and TEI)>。顧問維習安發表<標記簡介及文章內容標誌引導(Introduction to Markup and the TEI Guidelines)>。

  此外,本會除應邀於十一月份於中研院資訊中心教授TEI的訓練課程外,並將於2001年元月在香港舉行的PNC會議中,對CBETA的TEI標記作業再做推廣。顧問維習安將推展TEI研習,總幹事杜正民將介紹電子佛典,並於會場展示與解說CBETA作業流程與成果內容。由此可知,CBETA工作內涵及所採用的技術受重視的情形。

  TEI的標籤集堙A有許多是各種文獻所共有的,並且可以與電子佛典共用的標記。因此,CBETA標記進行的方式,原則上參照與採取TEI已有定義的規範。如有不適宜者,會對所採用的TEI屬性(Attributes)修改後使用。如遇TEI規則所無者,如漢籍或佛經特有的「經」、「卷」、「品」與「會」等問題,則自訂新標籤,然後呈報給TEI協會參照或修訂。

  至於CBETA的TEI工作流程,為工作進行方便,大致分為校對組的簡單標記與研發組的TEI標記兩部分進行:

  所謂「簡單標記」,也就是在進入正式的XML標記之前,CBETA校對組會提供一個稱為「簡單標記版」的經文電子檔,如於行首資訊加上經號(N)、卷名(J)、作者行(A)、段落(P)等基本標記,提供給研發組作為TEI標記作業的基礎。而研發組的TEI標記,則是使用轉檔程式,將「簡單標記版」轉為「XML版」,然後經過詳細的檢驗比對與檢查。再以此作為基礎XML經文檔,以便最終的成果輸出。

  也就是,再依此XML經文檔,以各轉檔程式產生各種不同格式的經文檔,以滿足使用者不同的需求。例如:產生Normal與App兩種純文字版,以通用字表達缺字;產生HTMLHelp及DOC版則以Unicode表達缺字,並提供更好的編排等功能。

  CBETA現階段的工作重點在於電子佛典的基礎建立,目前對電子佛典所做的標記還是相當有限。希望能進一步運用這些標記,提供方便使用的功能與工具。


2000.12.05 高麗藏經 成果發表

  CBETA主委、總幹事及顧問,於十二月五日參加韓國高麗大藏經研究所(The Research Institute of Tripitaka Koreana)假韓國東國大學(Dongguk University, Seoul, Korea)舉辦的國際佛學會議(International Conference on Buddhism and the 21st Century Digital Information Society)及《高麗藏》成果發表(the completion of the digitization of the Korean Buddhist Canon, 2000.12.05-08)。並由維習安顧問發表「資訊社會中佛學研究新模式的省思」(Some Thoughts on New Modes of Research in Buddhist Studies in Society Based on Digital Information)。(註15)

  韓國這次的發表,除了高麗藏經的成果展示外,值得一提的是,韓國高麗大藏經研究所累積多年的經驗,同時也發行了《高麗大藏經異體字典》(註16)供參考。因為同為處理大量缺字的關係,會中對CBETA的缺字處理問題也進行討論,因此就CBETA校對組與研發組的缺字處理作簡單說明:

  校對組就所蒐集的缺字個別編號,成為CB碼(如CB3235)。每一組CB碼對應一個缺字、一組組字式。CBETA缺字的組字式,用加減乘除等十個符號來表示。把字加以增減組合,來敘述某個字的樣子,如[結-吉+且]、[宜-且+子]。(註17)

  研發組取得校對組所提供的缺字資料後,作以下三個部分的處理。(1) 加入「Gaiji缺字表」(註18),(2) 查詢《今昔文字鏡》的字碼(Mojikyo,簡稱M碼)、UNICODE碼、通用字、注音,並註明出處,(3) 編定缺字的部首、筆畫以及四角號碼。

  簡言之,CBETA的缺字處理分為編撰CB碼、組字式、《今昔文字鏡》M碼、通用字及Unicode幾部分。

2000.12.09 亞太經合 數位會議

  於中研院資訊所參加國科會舉辦的「亞太經濟合作(Asia-Pacific Economic Cooperation, APEC):數位博物館會議」(APEC 2000 Digital Museum Initiative: Information Technology for Sharing Humanistic Content, 2000.12.09)。並於會中報告<玄奘西域行>(Digital Museum -- The World of Xuanzang and Silk Road)計畫及電子佛典發展現況。

  上述種種會議與研討,不但於國際交流、學習新知、觀摩電子佛典技術與經營方針有相當幫助。同時,也讓CBETA電子佛典立足於國際學術界。(註19)

2001 未來展望

  如前述,中華電子佛典協會(CBETA),自1998年2月15日成立以來,蒙「北美印順導師基金會」、「中華佛學研究所」及各界的全力支持贊助,同仁們的同心協力,突破種種困難,達成任務。將於最近完成並發行《大正藏》第一至五十五冊及第八十五冊普及版電子藏經測試版。

  因此,CBETA擬於2001年4月29日(國定佛誕節前夕)下午二時,假慧日講堂二樓大殿,舉辦《大正藏》測試版成果發表會。這一階段作業的完成,意味著另一階段工作的開始。因此,僅以本段簡單介紹CBETA今後擬進行的作業:

1. 普及版

  CBETA將會參照與收集專家學者對新發行的測試版光碟,進行研究與改良後,擬大量發行與推廣。譬如,郵寄至世界主要圖書館、學校、研究機構及佛學學者之外,亦將推廣至所有需要藏經的信眾手中。

2. 學術版

  普及版的作業,主要是就經文本身進行電子化作業,而《大正藏》的校勘欄是學界很重視的部分。因此CBETA將於今年進行校勘欄的電子化作業,期能提供學界完整的資訊。並將藉XML經文檔,呈現各種不同年代的經文版本,譬如宋版、元版、明版或《高麗藏》等版本。

3. 新式標點測試版

  同時,CBETA也深深瞭解到藏經欲普及,首要有新式標點。因此於今年度,CBETA也將開始進行藏經新式標點的測試作業。由於此項工程龐大,因此將挑選較普及的幾本經文進行測試,期能提供讀者容易閱讀的新式標點經文。

4. 中國祖師論著電子化作業

  本年度擬開始有關中國祖師論著的電子化作業,首期將以《大正藏》較缺的禪師論著為主。目前除做一些籌備工作外,已開始進行禪師論著的OCR測試、並進行校對作業測試,及相關輸入事宜的規畫。

  CBETA為能永續經營,因此從2000年下半年度起,CBETA即開始中國祖師論著的測試工作,目前完成的有目錄輸入作業,以及部分圖檔掃描與經文的OCR辨識。由於此部分的作業處理問題不同於《大正藏》,因此事先的測試與評估是很重要的,目前也正進行OCR原件改良工作,期能有一較完整的作業軟體以利計畫進行。

5. 標準化與開放的空間

  由於CBETA一直是以國際文獻編碼協定(Text Encoding Initiative, TEI)的規範進行標記作業,並以XML經文檔作為唯一的原始檔管理,因此可因應不同需求,以產出不同的經文格式。

  同時,CBETA目前採用CVS(Concurrent Versions System)的版本管理軟體,可同時多人編輯,並有完整的修訂歷史記錄,CVS除幫助CBETA經文品質的提昇外,將來也擬考慮開放給相關各界對經文進行更新,期能共同維持與修訂經文。

6. 與國際其他佛學資料庫整合

  CBETA資料庫除了可單獨作漢文經文的閱讀與檢索之外,如能與國際間其他藏經資料庫合作,當能發揮更大的作用。譬如與韓國《高麗藏》圖文連接,以查對原文,或與日本藏經連結,以合成完整的新脩《大正藏》。進而更希望將來能與梵文、藏文、巴利文等藏經資料庫連結,以比對不同的佛典語言文獻資料。

  簡言之,這新的一年不但是CBETA的收割期,同時也是CBETA的轉型期,希望在大眾的關心與指導下,我們能更穩定更成熟的往前走,以期能開創一個普及化與學術性兼容,且具標準化的國際性佛典資料庫。

【附註】
註1:有關中華電子佛典的作業流程與成立初期簡介,如中華電子佛典協會成立緣起、目標、組織及部門組成與各組工作內容、人力概況、編製流程及工作概要等。請參閱杜正民,<漢文電子大藏經的製作緣起與作業流程:『中華電子佛典協會』簡介>,《佛學研究中心學報》,4期(1999年7月),頁347-369。以及杜正民,<以CBETA為例談大量文獻之建立--漢文藏經電子化作業簡說>,《中央研究院計算中心通訊》,15卷13期(1999年6月),頁117-123。以及杜正民,<中華電子佛典協會1999年度成果發表會--《大正藏》印度撰述部經、律、論電子佛典發行>,《現代佛教學會通訊》,5期(2000年1月)。
註2:SAT(SAmganikikrtam Taisotripitakam)是由日本全國各大學組成的佛典輸入團體,目前正建立「大正新修大藏經原典資料庫」
http://www.l.u-tokyo.ac.jp/~sat/big-5/index.html)。
註3:CBETA使用《大正新脩大藏經》的授權外,並同意CBETA發行CD等權益。僅此感謝1999年往生的江島惠教教授及多位日本SAT委員的協助,始能順利完成「中日《大正藏》版權簽約」的重要事情。
註4:相關報導請參閱CBETA網頁< http://ccbs.ntu.edu.tw/ cbeta/step/news.html >。
緊接著,於九月十五日網路組即依組際會議結論,先行將測試版置於網路上。先以「普及版」與「學術版」合併的方法上網。亦即,去除校勘符號及校勘欄,將缺字換成通用字,並提供缺字資料庫供人下載等方式,先行流通測試,以得知使用者的反應與需求,再行改良,以便將來正式上網之參考。
註5:EBTI從1993年在美國柏克萊成立至今,即以各種語文的佛教藏經電子化為標的,藉以達成佛典保存、研究、傳播的作用;並以資料分享、跨語言平台為推展項目,以達合作、分享、標準化的宗旨。基於上述標的與宗旨,EBTI開始進行國際間「學術單位」與「宗教團體」電子化的「推廣」與「協調」工作,不定期於世界各地舉辦研討會議與展示討論等活動,並根據不同的經典語言與工作項目分場次討論,對於佛典電子化產生很大的推廣效益。
有關國際佛典發展狀況的介紹,請參閱杜正民,<當代國際佛典電子化現況:電子佛典推進協議會(EBTI)簡介>,《佛教圖書館館訊》,15期(1998年9月),頁28-39。及杜正民,<從台北看國際電子佛典實況:1999 EBTI會議實錄>,《現代佛教學會會訊》,2期(1999年4月),頁10-17。
註6:不同於往年的單獨舉辦,今年的EBTI會議擴大為一大型的聯合會議(1999 EBTI, ECAI, SEER & PNC Joint Meeting),與會的團體除了EBTI之外,還有文化地圖協會(Electronic Cultural Atlas Initiative, ECAI),學者電子資源協會(Scholars Engaged in Electronic Resources, SEER)以及太平洋鄰里協會(Pacific Neighborhood Consortium, PNC)等團體參加。本次聯合會議與會的國內外學者多達三百多人,發表論文與展示研討者計有一百五十多位學者專家參加,而與會學者則分別來自十七個不同的國家,可說是一大型的國際會議。
註7:杜正民,1999年6月16日,<佛教藏經的文字問題與解決方案>,古籍的文字問題研討會(1999年6月14-16日),台北:中央研究院史語所。
註8:Aming Tu, 1999.07.12, "Tibetan Net Resources in Taiwan", Computer Studies of Mongolian and Tibetan Historical Sources (1999,07.12-14), Moscow : Russian Academy of Sciences.
註9:Journal of the Internaitonal Associtation of Buddhist Studies, Volume 23, Number 1, 2000. 於頁158有關於CBETA的報導及發行光碟的消息。
註10:本段摘錄自杜正民,<中華電子佛典協會1999年度成果發表會--《大正藏》印度撰述部經、律、論電子佛典發行>,《現代佛教學會通訊》,5期(2000年1月)。
註11:「標準化」與「國際化」,是CBETA發展目標。也就是除了推廣國際間的使用外,並將加強英文化的作業,CBETA常委恆清法師,曾建議於柏克萊舉辦的EBTI(Electronic Buddhist Text Initiative 2000)國際會議時除大量推廣CBETA的成品外,並將與國際佛學學者擴大合作。
註12:Aming Tu, 2000.06.27, "Xuanzang and Tang Dynasty Record of the Western Regions (Da Tang Xi Yu Ji)", 2000 Electronic Culture Atlas Initiative (2000.06.23-29), London: British Library.
註13:Aming Tu, 2000.07.02, "Electronic Taisho Tripitaka and Chinese Buddhist Net Resources", Fifth Annual Conference of the UK Association for Buddhist Studies (2000.06.30-07.02), Bristol: Bristol University。與Aming Tu, 1999.08.26, "Digital Library for Buddhist Studies", THE XIIth IABS (International Association of Buddhist Studies) CONFERENCE (1999.08.23-28), Lausanne: University of Lausanne, Swissland.
註14:Bhikkhu Huimin and Aming Tu, 2000.10.04, "The World of Xuanzang and Silk Road : A Presentation of Inter-civilization Contacts in Digital Format", East Asia -- Saint-Petersburg -- Europe : inter-civilization contacts and perspectives on economic cooperation, Saint-Petersburg : Faculty of Oriental Studies of Saint-Petersburg State University (2000.10.02-08).
註15:Christian Wittern, 2000.12.06, "Some Thoughts on New Modes of Research in Buddhist Studies in Society Based on Digital Information", International Conference on Buddhism and the 21st Century Digital Information Society, Seoul: Dongguk University (2000.12.05-08).
註16:韓國高麗大藏經研究所編,《高麗大藏經異體字典》,(漢城:韓國高麗大藏經研究所,2000年)。
註17:CBETA組字用字等資料,請上網(http://ccbs.ntu. edu.tw/cbeta)查閱「一般組合字字典部首」、「一般組合字常用部件」等缺字規範資料。
註18:Gaiji缺字表,包括:CB碼(cb)、M碼(mojikyo)、Unicode(uni)、組字式(des)、通用字(nor)、註記(note)、部首(rad)、筆畫(str)、字音(zhu)、四角號碼(fc),以及缺字圖檔。
註19:此外,文內所沒述及的部分,也就是國內外許許多多的學者與佛典電子化工作者經由電子郵件這種超越時間、空間甚或語言障礙的媒體,對CBETA於國際間的流傳與經營,也有相當的幫助。



[gaya首頁]   [圖書館服務]   [佛教圖書館館訊]   [館訊24期目次]