佛教圖書館館訊 第二十四期 89年12月

CBETA電子佛典缺字實務

中華電子佛典協會研發組副組長 王志攀


【摘要】:本文概介中華電子佛典協會製作《大正藏》第一至五十五冊及第八十五冊之電子佛典,缺字處理方式及其作業流程。

  總計五十六冊之《大正藏》,所得缺字約在一萬個字上下。其缺字處理主要由校對組以冊為單位收集缺字,切出缺字圖檔並加以編號及用組字式等方式表示後,再提供研發組加入缺字表、查詢字碼與編定缺字部首、筆劃及四角號碼等做進一步的處理和應用。同時透過處理電腦缺字的過程中,也對文字加以校勘,使電子化的經文正確度提高。

關鍵詞:中華電子佛典協會(Chinese Buddhist Electronic Text Association,
    簡稱CBETA);大正新脩大藏經;M碼;通用字;勘誤


  中華電子佛典協會(Chinese Buddhist Electronic Text Association,簡稱CBETA)的電子佛典資料庫,以《大正新脩大藏經》(以下簡稱《大正藏》)(大藏出版株式會社(c))第一卷至第五十五卷,以及第八十五卷,共計五十六卷的資料為底本,並正式取得該底本版權所有者--「大藏出版株式會社」有關輸入與公開的授權。

  《大正藏》第一卷到第八十五卷(《大正藏》一卷即一冊,為了和內文的卷區別,以下用《大正藏》第幾冊代替第幾卷,避免混淆),全部的字數,估計約有一億多字,而電腦缺字的部分,初步估計大約在一萬個字左右。如果從目前已經完成的八十五冊初稿121,690,795個字來看,在大五碼(Big5)中,有121,703,736個不同的字出現,缺字就有12,491字(不包括悉曇字)(註1)。

  根據統計,大五碼第一級字有5,401個字,第二級字7,652個字,共計13,053個字(Ken Lunde 著,CJKV Information Processing,頁72)。所以《大正藏》初稿缺字12,491個字,數量近大五碼字數13,053個。

  目前CBETA整理《大正藏》缺字情形,從第一冊到第五十冊,所得缺字近六千個;而最後六卷(第五十一冊至第五十五冊及第八十五冊)缺字,據初步檢索,數量相當大。初步估計五十六卷所得缺字,大概也在一萬個上下。

  以下簡介CBETA整理這些缺字的流程如下:

一、校對組缺字整理

  在校對組整理經文時,以《大正藏》每冊為單位做缺字的收集,收集到的缺字,除了切出缺字圖檔外,並且加以編號,然後把所得到的缺字用組字式等方式表示,提供研發組進一步處理和應用。

  而使用組字式整理《大正藏》電腦缺字的方式,優點在於,因為沒有使用造字檔,所以不需要安裝,任何中文系統的電腦,都可以顯示。

  校對組就所收集的缺字個別編號、組字,編號形式如CB0001,就是取CBETA縮寫字母的前兩個字母CB,加上四碼數字組成;對於這樣的編號,我們簡稱「CB碼」。每一組CB碼對應一個缺字、一組組字式。組字式的表示方式,就是把字加以增減組合,來敘述某個字的樣子,如[結-吉+且]、[宜-且+子],就是「組字」這兩個字用組字式表示的形式。

  CBETA缺字的組字式,用加減乘除等運算符號來表示,共使用十個符號;這十個符號,其中七個--「*」、「/」、「@」、「-」、「+」、「(」、「)」,用來表示字的左右上下分合關係。而問號--「?」,表示某字無法用組字方式表示的部分。另外二個半形符號--「[」、「]」,表示組字式的起迄。半形符號[ ]中,就是組字關係式裡字的分合關係;第一組七個,加上問號--「?」,以及第二組兩個,依字的形相,構成一個完整的組字關係式,簡稱組字式。以下表說明:

【符號範例說明表】
符號 說  明 範  例
* 表橫向連接 明=日*月
/ 表縱向連接 音=立/日
@ 表包含 因=囗@大 或 閒=門@月
- 表去掉某部分 青=請-言
-+ 若前後配合,表示去掉某部分,而
改以另一部分代替
閒=間-日+月
? 表字根特別,尚未找到足以表示者 背=(?*匕)/月
() 為運算分隔符號 繞=組-且+((土/(土*土))/兀)
[] 為文字分隔符號 羅[目*侯]羅母耶輸陀羅比丘尼

  CBETA組字式所用的字,稱為字根。所以稱為字根,因為不是毫無節制的任意使用,而是有一套標準字的規範,我們就把這一套組字用標準字稱為字根。為求組字方便,目前也採用全形注音ㄆ代表[枚-木]等相似字作字根,未來並不排除用英文字母做為組字用字根的可能(CBETA組字用字根,詳參:「一般組合字字典部首規範」(http://ccbs.ntu.edu.tw/cbeta/cbeta.htm))。

  校對組對缺字的整理,除了CB碼、組字式的編定外,還提供嘸蝦米等輸入碼和缺字圖檔。以下為缺字檔案的略表,可以瞭解校對組所提供缺字整理的情況。



二、研發組缺字整理

  研發組取得校對組所提供的缺字資料後,作以下三個部分的處理。(1) 加入ACCESS(r)格式的gaiji(缺字)缺字表,(2) 查詢《今昔文字鏡》的字碼(MOJIKYO(r) CODE,簡稱M碼)、UNICODE碼、通用字、注音,並註明出處(初期由校對組負責),(3) 編定缺字的部首、筆畫以及四角號碼。

  gaiji缺字表(見圖一),包括:CB碼(cb)、M碼(mojikyo)、Unicode(uni)、組字式(des)、通用字(nor)、註記(note)、部首(rad)、筆畫(str)、字音(zhu)、四角號碼(fc),以及缺字圖檔(見圖二)。

【圖一】ACCESS(r)格式的gaiji缺字表

【圖二】ACCESS(r)格式的缺字圖檔


  以下介紹M碼、通用字,並舉例略談CBETA對經文的勘誤(因為Unicode可以在《今昔文字鏡》檢索得到,而組字式前面已經略為介紹,註記欄主要登錄查詢缺字的出處,部首、筆畫、字音還沒有完全建置,所以這些都不介紹。至於四角號碼,只作檢索用途,而大部分的人都熟悉,所以也不贅述)。

(一)M碼

  日本《今昔文字鏡》光碟九萬多字,以《大漢和辭典》的字作基礎。所謂M碼,除了後來擴充的字外,就是《大漢和辭典》中四萬八千九百零二個字的字碼。如鏡字,《大漢和辭典》的字碼為40812,《文字鏡》的M碼是040812--《文字鏡》所以比《大漢和辭典》多一碼的原因,可能就是考慮到,缺字的增加會超過十萬筆,因此預作準備的處理方式。

  《今昔文字鏡》中的字,以部件一點一畫的方式構字,如右圖所示:

  因此檢索方便。而檢索方法,以鏡字為例,除了點、畫外,也可用金、立、日、儿等來搜尋,凡是符合檢索條件的字,都會列出來提供選擇。所以,檢索部件愈齊全,所找到的字愈少,檢索就愈快。如鏡字,用金、立、日、儿等部件一起當搜尋條件時,就只列出鏡字以及鏡字的其他體字型;如果只用金字當搜尋條件,包括鏡字,共出現1,500個字左右,而鏡字位在這些字群的中間位置,所以檢索的速度相對比較慢。例如右下圖所示:

(二)通用字

  所謂通用字,就是某字的異體字,或某字通用某字的字;使用通用字,在於方便電腦的呈現。如[一/巾]字,現在用匝,《康熙字典通解》記載:「韻會:『通作匝。』《前漢.高祖紀》:『圍宛城三匝。』」(上冊,頁五一八中欄)所以[一/巾]字的通用字就是「匝」。

  有關通用字的認定,大部分以字書上所能檢索到的實例,當作認證憑證;字書所沒有的,大部分從缺。在佛典電子化缺字實務中也發現,在為數可觀的缺字中,有一部分的電腦缺字在現代的字書中也沒有收錄的字,就是行書字或草書字,如以氐為偏旁的部分字,氐作[弓/一]。因此,CBETA所收集的缺字中,有一小部分字用草書、行書字體可以加以辨識,而檢出該字的通用字。

  以[弓/一]字為例,[弓/一]出現在《大正藏》第三十三冊,一七○七經。《大正藏》[弓/一]字圖樣如左:

[弓/一]字所在的上下行經文,CBETA《大正藏》原始經文簡單標記版(以下簡稱CBETA版)中,作如下表示:

T33n1707_p0345a03_##灠陌姨硐D正法由其國中不講經故諸鬼神瞋
T33n1707_p0345a04_##攭蟀G起七難惱亂國。二十八宿者角亢[弓/一]房
T33n1707_p0345a05_##齯艂擎葶O東方宿也。斗牛女虛危室壁是北
(《大正藏》第三十三冊,一七○七經,頁三四五上欄。上文,T代表《大正藏》,T後面的數字代表《大正藏》冊數,n和後面的數字代表經號,p和後面的數字代表頁碼,而a、b、c和後面的數字代表上、中、下的欄位和行號)

引文說,[弓/一]是二十八宿的東方七宿之一,《大漢和辭典》二十八宿條,東方七宿即「角亢氐房心尾箕」,(卷一,頁四三二第三欄)而上引經文,東方七宿作「角亢[弓/一]房心尾箕」,所以[弓/一]就是氐字。

  由[弓/一]就是氐字的發現,聯想推衍從[弓/一]字偏旁的相關字的檢索,在《大正藏》第三十四冊,一七二三經,找到[目*(弓/一)]字。[目*(弓/一)]字在CBETA版的上下相關經文如下:

T34n1723_p0854a18_##曭央C二繚繞。今從力小反。角睞者睞音洛代
T34n1723_p0854a19_##齯洁C玉篇童子不正也。視也。內[目*(弓/一)]也
T34n1723_p0854a20P##籪g。說是普賢(至)作禮而去贊曰。品第六段
(《大正藏》第三十四冊,一七二三經,頁八五四上欄)

前面已知[弓/一]即氐,所以[目*(弓/一)]就是[目*氐]。[目*氐],《康熙字典通解》:

  《類篇》:「視貌。」《玉篇》:「古文視字。」(中冊,頁一四六二)

《大正藏》[目*(弓/一)]字圖樣如下:

上引經文:「睞音洛代反。《玉篇》︰『童子不正也。』視也。內[目*(弓/一)]也。」按童子即瞳子。《一切經音義》卷十六「[目*丐]睞」條睞字下:「《蒼頡篇》云:『童子不正,內視也,從目來聲。』」是經文的「內[目*(弓/一)]」,就是《蒼頡篇》的「內視」,也就是[目*(弓/一)]即視,即[目*氐],因此[目*(弓/一)]的通用字就是視,所以CBETA《大正藏》普及版的[目*(弓/一)]字就用「視」字來代替。例如:

T34n1723_p0854a18曭央C二繚繞。今從力小反。角睞者睞音洛代
T34n1723_p0854a19齯洁C玉篇童子不正也。視也。內視也
T34n1723_p0854a20籪g。說是普賢(至)作禮而去贊曰。品第六段

  從上面二例可以知道,從氐的偏旁,都可能用[弓/一]這個行書體偏旁來呈現,因此低可能作[(仁-二)*(弓/一)],底也可能作[(序-予)@(弓/一)];檢《佛教古文書字典》(川澄勳編,山喜房佛書林,一九八二年一月十日發行),底字不作[(序-予)@(弓/一)],但低字正作[(仁-二)*(弓/一)](頁二一一),[(仁-二)*(弓/一)]字圖樣如下:

  像氐字作[弓/一]的情形,《大正藏》中,所在多有。原因是中國文字從傳說中的倉頡造字,而金文、甲骨文、大篆、小篆,到隸書的定型,又孳衍出楷書、行書、草書,因為使用文字的地區遼闊,南北地域又不同,加上經過千年的傳抄,各種字體互相雜用,以及通假等情形,雖然各體具備,文字表現豐富而精采,但是所產生的缺筆、訛字、俗寫等問題,也大量湧現。《大正藏》氐字作[弓/一],而[目*氐]字作[目*(弓/一)],就是字體互相雜用的結果。

(三)勘誤

  在處理電腦缺字的過程中,有時必須對文字加以校勘,以彌補處理缺字的不足。如《大正藏》第三十三冊,一七一四經--《般若波羅蜜多心經註解》作者,書前目錄作宗[泳-永+防]如[王*巳])同註,但內文宗[泳-永+防]作宗泐:

  般若波羅蜜多心經註解

  唐三藏法師玄奘奉 詔譯
  大明天界善世禪寺住持臣僧宗泐 演福講寺住持臣僧如[王*巳] 奉詔同註
  (頁五六九中欄)


經註所記載的作者,目錄和內文不同,或作宗[泳-永+防]、或作宗泐,[泳-永+防]、泐形近,一從方、一從力。《明史》志第七十四<釋家類>:

  宗泐《心經注》一卷
  (鼎文版,卷九十八,頁二四五三)


對於宗泐,《釋鑑稽古略續集》二說:

全室禪師,諱宗泐,字季潭,號全室,台之臨海人,族姓周,父吉甫,母葛氏。幼輒跏趺坐,八歲從笑隱訢公學法,十四剃度,二十受具。訢公開山龍翔,師與俱。寄意詞章,尤精[隸-木+士]古。後謁元叟於徑山掌記室,出世水西,遷中竺升雙徑,次五十五代。詔師與演福法師大璞[王*已]公,箋釋《心經》、《金剛》、《楞伽》三經,點簡藏經,制獻佛樂章,往西域求法。
(《大正藏》第四十九冊,二○三八經,頁九三七上欄)

這裡說宗泐和演福法師大璞[王*已]公,箋釋《心經》、《金剛》、《楞伽》三經。關於宗泐和演福法師大璞[王*已]箋釋《心經》、《金剛》、《楞伽》三經,是據《釋鑑稽古略續集》二:

丁巳洪武十年,詔天下沙門講《心經》、《金剛》、《楞伽》,命宗泐、如[王*已]等註釋頒行。御制演佛寺住持[王*已]太璞字。
(《大正藏》第四十九冊,二○三八經,頁九二八下欄)

  據《明史》和《釋鑑稽古略續集》載,宗泐所注《心經》,就是《般若波羅蜜多心經註解》,而兩書--《般若波羅蜜多心經註解》和《釋鑑稽古略續集》記載,作者名都作宗泐,那麼《大正藏》目錄作宗[泳-永+防],是形近而誤。所以,CBETA《大正藏》目錄,《波羅蜜多心經註解》的作者名,據《明史》和《釋鑑稽古略續集》,從內文作宗泐。

  另外,和宗泐同註《般若波羅蜜多心經註解》的作者,如[王*巳],字從王從巳,《卍正藏經》同(新文豐版,第六十八冊,頁一七四下欄);《大正藏》第四十九冊,頁九二八和頁九三七,則從王從已,《卍續藏經》同(中國佛教會版,第一三三冊,頁百二十上欄);而《二十五種藏經目錄對照考釋》,如[王*己],[王*己]字則作從王從己。

  檢索《大正藏》己、已、巳三字,多有雜用情形。《大正藏》己、已、巳雜用情形如下:

  大周長壽二年,歲次癸巳,九月丁亥、三月巳丑,佛授記寺譯。
  (第十六冊,六六○經,頁二九二上欄)

  以第十一主,恭帝元熙元年,歲次巳未。
  (第三十九冊,一八○一經,頁九四八中欄)


「大周長壽二年,歲次癸巳,九月丁亥、三月巳丑」,巳丑應作己丑;歲次巳未,應作己未——這是巳、己混用實例。

  復次,須菩提!菩薩不著已類而行布施。
  (第八冊,二三七經,頁七六二中欄)

  自觀已身地水火風空識分分不淨。
  (同上,二四五經,頁八三一中欄)


「菩薩不著已類而行布施」,已類應作己類;「自觀已身」,已身應作己身--這是已、己混用實例。

  《大正藏》己、已、巳雜用情形實例如上,而從己偏旁和從已、從巳偏旁的情形,如《大正藏》第三十三冊:「四大如牆壁,皆為無常所壞,故言[土*已]坼也。」(一七一五經,頁六二五下欄)[土*已],從土從已,字書沒有收錄。而「[土*已]坼」義,經文說「四大如牆壁,皆為無常所壞」,是壞義。查圮,從土從己,《說文》:「毀也。」(《說文解字注》,頁六九七下,蘭臺出版社,民國六十年十月再版)正與上文義合,所以[土*已]勘誤作圮,CBETA勘誤標記作[[土*已]>圮]。《大正藏》前五十冊共六十八處作[土*已],都作勘誤,不殫舉。

  關於[王*已]字,《大正藏》第五十二冊,二一○六經:

東晉周[王*已],字宣佩,義興陽羨人,晉平西將軍處之第二子也,位至吳興太守。
(頁四一六中欄)

「東晉周[王*已],字宣佩,義興陽羨人」,周[王*已],就是除三害的周處的兒子。《晉書》列傳第二十八,<周處傳>說:

周處,字子隱,義興陽羨人。(中略)有三子:[王*己]、靖、札。(中略)[王*己]字宣佩。
(鼎文版,卷五十八,頁一五六九-一五七二)

是周[王*已],實即周[王*己]之誤,從己誤作從已;則「如[王*已]」,應該就是「如[王*己]」,字從己非從已、也不從巳。《釋鑑稽古略續集》載宗泐、如[王*已]作《心經》、《金剛》、《楞伽》註釋後說:

《御制演佛寺住持[王*已]太璞字說》、《御制字說》,僧多捨俗,惟立字為名何也?以其法殊人主之教故也。邇來有僧,用三字為名,《曰[王*已]》、《曰太》、《曰璞》。且[王*已],玉之至精者也;太,無上之巨也;璞,實而不虛,混而未鑿。斯三字之用,果如是乎?若是,則仁者體之,又何為而不可哉!今僧用斯三字,理道深長、機根淺露者,莫可探其趣;若遇良工,必由雕琢而方見其形也。昔如來璞太虛,混厚坤故,發問於未判,孰雕琢而使澄清,列無量之象於穹壤,七曜運行其間,布海嶽於鴻龐,百川東注。此由大樸而至穹窿,果理之使然,氣質之變焉?吾聞混沌靜久,今僧捨俗認璞,必釋教之然哉!

「且[王*已],玉之至精者也」,查[王*已]字,《說文》無[王*已]、[王*巳]二字,《廣韻》也沒有[王*已]、[王*巳]二字,但有[王*己]字,是一種「佩玉」(黎明版,頁二五三第四欄)。因從《晉書》周[王*己],[王*己]字從己,以及《大正藏》己、已、巳雜用,並字書有[王*己]字而沒有[王*已]、[王*巳]二字綜合考查,《大正藏》《般若波羅蜜多心經註解》的作者如[王*己],[王*己]字從己不從已、巳。因此[王*已]、[王*巳]二字勘誤後作[王*己],形式如[[王*已]>[王*己]]、[[王*巳]>[王*己]]。CBETA版作以下表示:

T33n1714_p0569b17J##灝諨Y波羅蜜多心經註解
T33n1714_p0569b18_##
T33n1714_p0569b19Y##灟薴T藏法師玄奘奉 詔譯
T33n1714_p0569b20A##齯j明天界善世禪寺
T33n1714_p0569b21_##囍礅(臣)僧(宗泐)
T33n1714_p0569b22_##羉t福講寺
T33n1714_p0569b23_##囍礅(臣)僧(如[[王*巳]>[王*己]])奉詔同註

  又如《大正藏》第四十八冊,二○○一、二○○三、二○○六經「陜府鐵牛」五條(CBETA版):

T48n2001_p0043b21禷H陜府鐵牛。莫怪扶桑最先照。大都家住海
T48n2003_p0177a26 流(不是這一喝截卻爾舌頭。咄。驚走陜府鐵牛。嚇殺嘉州大象)
T48n2006_p0305b01齯j像[陜陝]府鐵牛。當甚破草鞋。少賣弄。兩肩
T48n2006_p0306a23矕(黑山鬼窟)孰能總同參(燈籠入露柱)那箇同大事(嘉州大像陜府
T48n2006_p0306a24躠K牛)何物同一質([夗/皿]脫丘)
T48n2006_p0307b22囍p何是學人轉身句。汾云。陜府灌銕牛

查一般字書,沒有「陜府鐵牛」條。檢索《佛光大辭典》「鐵牛」條:

河南陝府城外有大鐵牛,傳說是禹王為防黃河泛濫所鑄,為黃河之守護神。禪宗「鐵牛之機」一語,即謂其「體」不動、「用」無應疆茼萓b之大機用;又用來形容無相之佛心印。《碧巖錄》第三十八則(大四八•一七五下):「祖師心印,狀似鐵牛之機。」
(第七冊,頁六八七七)

而上面引文第五條:「如何是學人轉身句?汾云︰『陜府灌銕牛。』」《佛光大辭典》「汾陽三句」條:

即宋代臨濟宗汾陽善昭禪師接引學人時所立之三語句。即:(一)著力句,謂學人之力量須具備可成就宛如嘉州彌勒大石像之大根機。(二)轉身句,謂學人以其機用,固守本分,縱然雙足立地,牢不可破之陝府鐵牛亦無法比擬。(三)親切句,謂學人契入佛法時,疾速而緊密,猶如獅子張口齧咬獵物,其勢速疾而緊密相契。〔人天眼目卷二〕
(第三冊,頁二九八一)

經文「轉身句」下作「陜府灌銕牛」,銕牛即鐵牛;而《佛光大辭典》引<人天眼目>卷二則作「陝府鐵牛」。是「陜府灌銕牛」即「陝府鐵牛」。按,檢二十五史《宋史》,有「陝府」條而無「陜府」。《宋史.李昉傳》:

初,議罷天下職田及公使錢,昭遘以為不可。三司使姚仲孫惡其異己,請詰所以興利之實,昭遘爭不屈,遂罷判官,為白波發運使。因入奏事,仁宗謂曰:「前所論罷職田等事,卿言是也。」遷直史館、知陝州。諫官歐陽脩言:「陝府,關中要地,昭遘無治劇材,不宜遣。」改判三司理欠司,徙度支判官。(鼎文版,卷二六五,頁九一四五)

上文說昭遘因為反對罷天下職田和公使錢的事,宋仁宗要把昭遘遷直史館並知陝州,因歐陽脩的反對而作罷。其中歐陽脩所說的「陝府」,顯然就是宋仁宗說的「陝州」,而兩「陝」字都從入,和從人字的「陜」字形近。是陜、陝,一從人,一從入,形近而誤。所以CBETA版「陜府鐵牛」勘誤後作「陝府鐵牛」,形式如下:

T48n2001_p0043b21禷H[陜>陝]府鐵牛。莫怪扶桑最先照。大都家住海
T48n2003_p0177a26 流(不是這一喝截卻爾舌頭。咄。驚走[陜>陝]府鐵牛。嚇殺嘉州大象)
T48n2006_p0305b01齯j像[陜>陝]府鐵牛。當甚破草鞋。[51]少賣弄。[52]兩肩
T48n2006_p0306a23矕(黑山鬼窟)孰能總同參(燈籠入露柱)那箇同大事(嘉州大像[陜>陝]府
T48n2006_p0306a24躠K牛)何物同一質([夗/皿]脫丘)
T48n2006_p0307b22囍p何是學人轉身[*]句。[*]汾云。[陜>陝]府[34]灌銕牛

三、結語

  CBETA對缺字的整理,目前還只是資料性的匯集;就資料性的匯集方面,一開始就立下規範,如「大正藏缺字圖檔」、「基本通用字形」、「一般組合字字典部首規範」、「一般組字式基本規則」、「缺字資料庫」等。而CBETA「缺字資料庫」除了收集《大正藏》的缺字外,另編定輸入法,並作各字檢索字書的資訊,為日後進一步處理缺字預作準備。

  這種預作準備,目標是把所收集的缺字加以考證,完成CBETA「大正藏缺字檢索資料庫」,務使字字「字有例、例有考、考有證」,字義清楚,方便使用者利用本資訊庫。

【附註】

註1:詳參杜正民先生<佛教藏經的文字問題與解決方案>一文(載於:CBETA第二十一期電子報< http://ccbs.ntu.edu.tw/cbeta/news/index.htm >)。



[gaya首頁]   [圖書館服務]   [佛教圖書館館訊]   [館訊24期目次]