佛教圖書館館訊 第十八/十九期 88年 9月

佛教期刊文獻電子化的實作:

以台大佛學網路資料庫為例

台灣大學文學院佛學研究中心 釋恆清


一、台大佛學網路資料庫簡介

  台大文學院佛學研究中心之「佛學國際網路資料庫」(http://ccbs.ntu.edu.tw以下簡稱「佛學資料庫」),三年多來經篳路藍縷、辛苦經營,已收集中文、英文、歐文等各國語言之佛學資料,計八萬六千餘筆佛學條目及部分全文文章,堪稱為世界上資料量最豐富的佛學資料庫。(佛學網路資料庫項目,請參考圖一)

【圖一】「台大佛學網路資料庫」選項畫面



  拜現代科技之賜,「佛學資料庫」所有資料已全部置於網路上,全國各大圖書館也連接上佛學資料庫網址,如國家圖書館、臺大、師大、政大、清大、中正、中山、東吳、成大、中興、淡江等大學圖書館,都以World Wide Web或telnet的方式連接佛學資料庫供全國讀者免費使用。此外,「佛學資料庫」亦甚得國內外學者之讚賞,如英國大英博物館「國際敦煌學刊」(The International Dunhuang Project)曾撰文讚賞本站,國際佛教電子化協會(EBTI)負責人Dr. App亦曾為文推薦本站,《中日韓英佛教字典》的編輯人Dr. Muller也在網路上推薦本站網址給世界各佛學與漢學相關學者使用。且從本站的記錄可看出使用者的國家幾乎遍布全球,包含大陸、日本、美國、新加坡、馬來西亞、香港、比利時、法國、德國、英國、瑞典等國,因此本站於歐洲Heidelberg University(http://sino-sv3.sino.uni-heidelberg.de/)及美國Ohio State University(http://pears2.lib.ohio-state.edu)設Mirror Site,以利歐、美學者就近使用,佛學資料庫受國際重視的程度由此可知。(最近亦於美國MIT成立另一個Mirror Site,相關Mirror Site請參考圖二)

【圖二】「台大佛學網路資料庫」Mirror Site連結畫面



  隨著網路資訊的發達、各類資料庫的蓬勃發展、檢索系統不斷的更新與增加,讀者對全文資料庫有更迫切的需求。因此,深覺唯有「佛學全文資料庫」的製作,始能藉由當代的網路科技,從浩瀚的靜態圖書資料轉換為動態的線上服務,並藉由動態的線上網路技術,使「佛學資料庫」能提供從書目檢索到查閱全文的整套服務。希望能因「佛學書目與全文資料庫」的完成,提供國內外學術界一個輔助研究的最佳工具。

  總之,本資料庫目前的作業重點,除了繼續維護書目條目之外,就是全力加速全文資料庫的建置。

二、本資料庫之未來展望與資料分享

  因此,除了繼續蒐集佛學圖書與各項論文書目之外,本資料庫擬參照國內外全文資料庫的結構及其編製、修訂的規則與標準,在已完成的「佛學資料庫」基礎上,建立一個詳實、結構完整的「佛學全文資料庫」。主要內容將包含「佛教原典」與「當代文獻」兩大部分,其中「佛教原典」將以《大正新脩大藏經》中國撰述部為此期主要的工作範圍,而「當代文獻」則以中文和英文的學術論文為主,包括學報論文、期刊論文、會議論文等。本資料庫全文書目建置,如現置於台大佛學研究中心網路主機的「佛教經典系列」(http://ccbs.ntu.edu.tw/FULLTEXT/c-full.htm)及「期刊原文」(http://ccbs.ntu.edu.tw/FULLTEXT/c-full.htm),皆甚得使用者的讚嘆。

  本資料庫所有的資料,皆置於網路上供研究人員與相關工作人員作為研究的工具。總之,本研究計劃的主要目的是:

1. 建置書目資料庫,並繼續蒐集與更新中文和英文、日文書目資料,提昇資料庫的服務及提高資料庫
  品質。

2. 研製「佛學全文資料庫」,配合「佛學資料庫」的書目資料與檢索軟體,提供完整的資料和檢索功
  能。

3. 將編纂出來的全文文庫,以網路版及單機版的方式公開,供國內外學界與圖書資訊學界使用。

4. 提供編製經驗,作為將來其他學科建構網路資訊全文資料庫及檢索系統的參考。

  本資料庫工作完成後,全部置於本資料庫主機,以達專業分工、資料共享的現代化需求。因為,動員大量人力、物力編製的學術電子資料庫,其代價是極為昂貴的,因而非營利性的教育研究機構或研究者,除考慮資料對己身的價值之外,並應兼顧它對整個學術社群的價值。尤其在網路四通八達的時代,開放資料共享,可避免人力、財力等資源的浪費。因此,本中心完成的所有成果將完全免費提供學術界及教界共享。

三、佛學全文資料庫建置項目與步驟

  在建製「佛學資料庫」時,我們曾累積相當的經驗,可提供本期「佛學書目與全文資料庫」建置全面性的規畫和參考。因而就實際作業設計的建置項目應包括:

1. 規畫:就任務編組、資料庫規格、資料輸入、資料繕打、影像掃描、校對、標記、維護、備份等作
  通盤規畫。
2. 蒐集資料:就所需的書籍和論文等進行蒐集與整理。
3. 掃描文獻:按照所蒐集的資料分類,進行掃描,辨識文字。
4. 資料繕打:擬訂繕打規範,由資料輸入小組繕打。
5. 全文校對:擬訂校對規範,運用人工校對與電腦校對雙管進行。
6. 影像儲存:影像檔案往往耗費空間,要預擬儲存和備份方案。
7. 撰寫程式:建立資料庫,並撰寫程式,製作輸入及查詢介面。
8. 制定標記:制定標記作業方法、訂定標記規範並撰寫輔助程式,加速作業。
9. 造字管理:電腦所缺之字,經確認新字後,統一編碼,統一造字。
10. 資料上線:離線輸入的資料,以批次作業的方式上線。
11. 建立資料庫:隨時將資料庫安裝於指定的主機上。
12. 系統更新:根據需求,建構與更新全文檢索系統,使資料庫發揮更大的效益。

四、實務展示:以台大佛學網路資料庫為例

  本資料庫提供良好的檢索引擎供讀者使用(見圖三),目前網路資料庫共計有期刊及論文全文計一千餘篇,陸續還會增加中(見圖四)。其餘資料將於現場展示及解說。

【圖三】新版書目檢索系統畫面



【圖四】全文資料庫(依題名列示)瀏覽畫面




【研討報告】

編者按:本文為恆清法師於「佛教資料電子化研討會」上發表的報告,由本刊編輯組謄稿整理。

  各位法師、各位大德、主席,以及悟因法師,今天很高興來此介紹台大佛學研究中心的網站。有關台大佛學研究中心的網站,你可以把它當成一個佛學資訊的百貨公司,將資料規劃為一個個專櫃,可以依自己的需要進入專櫃瀏覽資料。

  當初構想這個網站的主要兩個觀念,一是有關所有佛學資訊的傳輸分享;二是網站與使用者間的溝通。我們即朝這二個目的、宗旨去製作這個網站。

  進入台大佛學研究中心網站首頁,接著點選「中文版」模式進入本站,可以看到佛學網路資料庫的各個項目,目前分五大類二十項,未來可依此模式無限的延伸增加資料。以下介紹本站各類佛學資料庫的內容。

一、中心資訊

  第一部分中心資訊,包括中心簡介、中心公告、教界消息、意見調查四個項目。

1. 中心簡介

  為台大佛學研究中心的簡介。

2. 中心公告

  有關台大佛學研究中心對外溝通或訊息公布的地方,如:昨天出爐的《佛學研究中心學報》第四期的訊息,就會在此公布,提供使用者下載(download)等等。所以,此項目的功能,為對外資料的提供。

3. 教界消息

  我們認為佛教界有很多消息可以透過網路讓大家分享。此項即是用來發表教界消息的。由於我們沒有那麼多類似記者性質的人力去收集最新的資訊,因此,我們希望佛教界、學術界、宗教界等單位,主動提供相關的活動訊息,只要發一個e-mail告知該單位的活動訊息,就會把該活動訊息放在這裡。這種方式比傳統的雜誌更具時效性。這是屬於服務性質的,但很多人不會利用這項功能,在座各位,只要你辦任何活動,通知我們,我們會義務幫你在這邊做廣告。除此之外,還提供與佛教界中文雜誌的連結,如:慈濟月刊等;若目前於本站尚未連結的,也歡迎提供連結的資訊,我們會將新的連結資訊上載,讓大家可以看到最新的訊息。

4. 意見調查

  本項目提供使用者發表對本站的意見或建議。即瀏覽本網站後,有什麼指教即可點選此項目,發e-mail給我們,我們會馬上回應。

  以上四項屬資訊的部分,即剛剛所講的互動,這對我們的製作過程而言,並不是太困難的。

二、資料檢索



  其實,本站中我們花費最多心力的,就是資料檢索這部分,共包括書目檢索、期刊原文、專書原文、圖書館錄四項。今天所要介紹的重點就是期刊原文這一個項目,以下會為大家詳細介紹。

1. 書目檢索

  目前大概有八、九萬筆的書目資料(bibliographies),這應該是目前全世界有關佛教專業網站中,資料收集較為齊全的。如何在這麼多資料中,將所需要的找出來呢?這就需要有一個很好的檢索系統。目前本站有新、舊版書目檢索系統,提供關鍵詞、題名、作者、出處等檢索欄位,使用者要會檢索,才能從八萬多筆資料中找出想要的資訊。另外,有一個「最常查詢詞彙」的功能(見圖一),假設沒有特定的查詢對象,只是瀏覽性質,就可利用這個功能進行瀏覽資料,如果剛好有所要找的資料,就可以由這裡找到。這些詞彙是我們實際去統計使用者的查詢次數所得的,依詞彙被查詢次數的高低排序,目前提供使用者最常查詢的前五十個辭彙供使用者參考,可以看到出現最多次數的資料。還有「釋恆清」這個詞彙,不是很多人查我的著作,而是我們製作的過程要不斷的測試,常常會以我的名字去做檢索的練習,而出現的次數也會被記錄到系統中。

【圖一】「最常查詢詞彙」瀏覽畫面



  以「佛性」為例,可以直接點選進入查詢。目前資料有八萬七千多筆,出現有「佛性」兩個字的資料有五百多筆,可以從頭到尾瀏覽一遍,每一筆資料會顯示題名(title)、作者(author)。如果覺得用瀏覽的方式看五百多筆資料太浪費時間,則可以用「限制」(limited)的功能,增加限制條件縮小查詢範圍,做進階查詢。利用增加限制條件的功能,篩選這五百多筆資料,如:要查詢佛性與般若有關的資料,則再輸入「般若」的檢索條件,系統就從五百多筆資料中再挑選出與般若有關的,檢索的結果也許變成一百筆,也許變成五十筆。所以,可以用限制的功能將檢索範圍縮小,以查詢到最符合所需要的資料。

  這是資料呈顯的形式,若要看詳細的資料,則在該筆資料上直接點選,會出現該筆書目的詳細資料,有題名、作者、出處、頁碼等。使用者可依這個資訊找到文章。另外,也提供文章的關鍵詞、摘要,該使用者可透過這些資訊大略瞭解文章內容,以及是否符合所需,再決定是否到圖書館去取得原文。

  如果在這些資料中對其他主題有興趣,可以不用透過打字而直接檢索。如:六祖壇經,從關鍵詞中有「六祖壇經」的直接點選,進行再查詢的功能,即可檢索出有關六祖壇經的文章。若有關「六祖壇經」的資料,共檢索出一百多筆,可以再點選其中一筆書目的詳細資料,如果又有相關的關鍵詞,又可以進行再查詢的功能,連結檢索所需要的資料。這個功能的優點是可以檢索出更多相關的資訊,或許是檢索前沒有想到的資料。

2. 期刊原文

  本資料庫提供全文的功能(見圖二),這是我們覺得值得引以為傲的。製作全文資料庫的過程是非常辛苦的。全文就是使用者不用到圖書館找原文,坐在家裡透過網路就可將所要的整篇文章下載或利用印表機列印出來,並且網路上每篇文章的頁碼也都完全照原文的頁碼,如果學者寫文章需要引文時,不必再去對照原書的頁數。所以這全文資料庫的構想是非常仔細的,將整篇文章的所有資訊(包括全文)提供給使用者,這大概是目前可以提供的最好的服務。將來我們更希望使用者在讀一篇文章時,如果有某一個名詞需要回佛典原文查詢時,可以提供再連結的功能。例如讀到一個「無生法忍」,但又不知道這一名相在哪一部佛典中出現過,可藉由連結的功能到大正藏看到名相的原典出處,然後可再回到本篇文章。換言之,即可從二手資料(secondary data)連結到原始資料(primary data)(原典),再從原始資料(大正藏)連結到二手資料,這是科技美妙的地方,也是我們的構想,但要靠以後的工程師繼續努力。

【圖二】期刊全文資料查詢畫面



  對於這麼多的資訊,如果有需要,可以透過e-mail的方式傳回自己的信箱。所以我們儘量設想最好、最方便的方式,讓使用者可以充分取得資料,這是我們的做法和目的。

  有關英文的資料也是一樣。英文的文章用反白(紅色)的方式表示所檢索字串的部分。有些文章沒有出現但被檢索出來是為什麼呢?如以“Buddha nature”來檢索,這一筆沒有Buddha nature,但點選進入詳細資料,雖然題名沒有這個名相,但出處題名有,也就是檢索的欄位不限於題名,只要出現在資料欄位內,都可以檢索到,以及可以再進行檢索。

  再以「聖嚴法師」為例,我們幫他建檔的資料共有三百多筆。在此,我希望大家可以透過檢索,來檢查我們是否有漏掉你自己或法師、學者等的文章,萬一有漏掉的話,可以在利用書目檢索下「資料校正及提供」的功能將資料填上,或資料有錯誤的也可在此提供正確的資料給我們更正。提供這個功能到目前為止,約有四、五年了,大概不到三個人在這個地方填寫資料。這資料庫的使用率很高,但很少有人利用這個便利的功能幫忙校正或提供缺漏的資料,讓我們感到很挫折,為什麼大家都用資料,可是都不幫忙校正呢?我們知道這資料一定有錯誤或漏失的地方,可是大家看到錯的或漏失的就算了,也不告訴我們。我們已將表格設定好了,大家只要舉手填空,e-mail給我們就可以了,收到後馬上會去更正、增加資料,這樣可以把這資料庫做得更好。希望大家以後踴躍透過這項功能提供正確的資料。

  為了方便使用者使用,我們也將書刊名列出。目前大概收錄了一千四百多筆全文。如果要從八、九萬多筆資料中去找,就如在茫茫大海中,不知道從何處找起;所以先以題名排,再以作者排列等等。因為外國人使用這資料庫的頻率很高,所以把英文文章全部放這堙C假若不從這邊進去,也可以用全文檢索的方式,從書刊名來檢索。從期刊刊名來看,因為這是英文版,所以中文沒有出現。以《中華佛學學報》為例,這是中華佛學研究所出版的,我們覺得很值得做,第一到十一期的部分,是由我們輸入建檔、校稿到完成;十一期以後的,就由中華佛學研究所自行製作,再將檔案給我們更新。所以,如果沒有《中華佛學學報》,不用擔心,只要到本網站來,即可連結到所要的期數及文章,再點選進去,非常方便就可以馬上看到文章全文。

  這個畫面是用期刊名稱(Journal Name)來排列的。我們覺得最有特色的期刊就是Philosophy east and west,這在西文期刊中是很好的期刊,其中有很多很好的佛學文章,我們有取得該期刊的同意,這是很重要的一點。

  我順便向大家說明介紹我們的辛苦製作過程。製作的過程,第一,要先取得版權同意書,也就是要收集一個人的文章,必須經過原著者的同意。現在大家都很重視著作權,所以,如果要做整本期刊的資料,如:《中華佛學學報》,那就要先取得中華佛學研究所的同意,另外,還要徵得每篇文章作者的同意,才可進行整本期刊資料的製作。因此先要取得與每一位作者聯絡的方式,然後發一封授權信函,對他說明緣由並請其簽名授權。到目前為止,所有學者中大概只有一、二位有問題,就是不太願意或有一點小意見,其他幾乎都會同意。所以光是取得國內、外每一著者的聯絡方式並獲得同意就已經很辛苦了。取得同意後,英文和中文的做法都一樣,就是先取得文章並進行影印。由於台灣很少有外文期刊的資料,所以國外的資料大多是我出國時去影印,或透過我的學生,如:蔡博士,他對我們貢獻很大,以前在UC柏克萊讀書時,幫我們影印很多五十年前很好的英文文章。影印回來,就開始製作。製作的過程是先掃描、比對、校稿,然後上網。一篇文章至少需要一個星期以上的人力,才能完成。所以,我們發現校稿是最難的,因為校稿要用人工,在找不到大批義工幫忙的情況下,進行的速度也就比較慢。

  此外,本站還有佛經原典、教學系統、其他資源等類,因限於時間無法一一介紹,還請各位到本站的每一項目去看一看,就像逛百貨公司一樣。每一個專櫃有其特色、缺點與限制,希望大家能將意見回應給中心知道。我的報告到此,謝謝。



[回gaya首頁]   [佛教圖書館館訊]   [館訊18/19期目次]