數位中文詞典的建置與功能 -...

9
數位中文詞典的建置與功能 黃沛榮 中國文化大學 [email protected] 摘要: 在資訊科技發達的今天,無論從研究的角度、教與學的立場或是商業的考量,製作 多功能的數位中文詞典都是不可或缺的。 數位詞典檢索及連結的功能,是紙本詞典無法比擬的,若有一種詞典能提供字形、 字音、字義、筆畫數、部首、部件、筆順、字源、構詞等資料,學生、教師與家長將會 如獲至寶。然而直至今日,雖已有此類產品出現,但是其深度與廣度,與理想目標距離 尚遠。在接受高難度挑戰的心態下,筆者根據個人理念,開發出一套數位中文詞典,並 已進入測試階段。本詞典無論對社會大眾查詢字詞、國小學生課業輔導、海外人士學習 中文,都可提供多元的語文信息,並帶來極大的便利。茲將筆者的構想說明如下: 一、規模: 1. 字集方面:收錄 13,500 字。 2. 詞彙方面,除一般詞典應有的規模外,尚收入:(1臺灣 TOCFL 詞彙。(2)中國 HSK 詞彙。(3)海內外重要華語教材的詞彙。(4)語文知 識及傳統文化相關詞彙。 二、資料: 1. 字形(傳統字與簡化字對照)。2. 音標(注音、拼音,包括一字多音)。3. 總筆 畫數(傳統字與簡化字)。4. 部首(傳統字)。5. 部件(傳統字)。6. 顯示靜態筆順(傳 統字與簡化字)。7. 單字、詞彙、成語、諺語等解釋,並配合外語對照。 三、功能: 1. 由單字連結到含有該字的詞彙或熟語,亦可由詞彙或熟語連結到其中任一單字。 2. 發音(有男性與女性、臺灣口音與中國口音對照者尤佳)。3. 顯示動態筆順(傳統字 與簡化字)。4. 字理解說。5. 古今字形演變。 四、檢索: 1. 可由字形、詞彙、讀音檢索,並提供音標輸入的小鍵盤。2. 提供漢字常用部件, 依其在形構上所在的位置檢索字形。此種檢索模式對不懂字音、部首、筆畫的漢字初學 者極有幫助。3. 輸入兩個以上的部件,即可顯示符合此一交集條件的字。輸入的部件愈 多,得出的結果愈精準。4. 輸入某一聲符,即可顯示詞典中聲符相同的字,且能直接點 選連結。 5. 將各種主流教材的詞彙或單字逐冊、逐課建檔,使用者點選某一教材及冊數、

Upload: others

Post on 12-Sep-2019

3 views

Category:

Documents


0 download

TRANSCRIPT

  • 數位中文詞典的建置與功能

    黃沛榮

    中國文化大學

    [email protected]

    摘要:

    在資訊科技發達的今天,無論從研究的角度、教與學的立場或是商業的考量,製作

    多功能的數位中文詞典都是不可或缺的。

    數位詞典檢索及連結的功能,是紙本詞典無法比擬的,若有一種詞典能提供字形、

    字音、字義、筆畫數、部首、部件、筆順、字源、構詞等資料,學生、教師與家長將會

    如獲至寶。然而直至今日,雖已有此類產品出現,但是其深度與廣度,與理想目標距離

    尚遠。在接受高難度挑戰的心態下,筆者根據個人理念,開發出一套數位中文詞典,並

    已進入測試階段。本詞典無論對社會大眾查詢字詞、國小學生課業輔導、海外人士學習

    中文,都可提供多元的語文信息,並帶來極大的便利。茲將筆者的構想說明如下:

    一、規模:

    1. 字集方面:收錄 13,500 字。2. 詞彙方面,除一般詞典應有的規模外,尚收入:(1)臺灣 TOCFL 詞彙。(2)中國 HSK 詞彙。(3)海內外重要華語教材的詞彙。(4)語文知識及傳統文化相關詞彙。

    二、資料:

    1. 字形(傳統字與簡化字對照)。2. 音標(注音、拼音,包括一字多音)。3. 總筆畫數(傳統字與簡化字)。4. 部首(傳統字)。5. 部件(傳統字)。6. 顯示靜態筆順(傳統字與簡化字)。7. 單字、詞彙、成語、諺語等解釋,並配合外語對照。

    三、功能:

    1. 由單字連結到含有該字的詞彙或熟語,亦可由詞彙或熟語連結到其中任一單字。2. 發音(有男性與女性、臺灣口音與中國口音對照者尤佳)。3. 顯示動態筆順(傳統字與簡化字)。4. 字理解說。5. 古今字形演變。

    四、檢索:

    1. 可由字形、詞彙、讀音檢索,並提供音標輸入的小鍵盤。2. 提供漢字常用部件,依其在形構上所在的位置檢索字形。此種檢索模式對不懂字音、部首、筆畫的漢字初學

    者極有幫助。3. 輸入兩個以上的部件,即可顯示符合此一交集條件的字。輸入的部件愈多,得出的結果愈精準。4. 輸入某一聲符,即可顯示詞典中聲符相同的字,且能直接點選連結。5. 將各種主流教材的詞彙或單字逐冊、逐課建檔,使用者點選某一教材及冊數、

  • 課次,即可看到課文中全部的生字,並可連結查詢。

    以上近二十個項目,百分之九十已成為本詞典的基本功能;目前除外語對照的部分

    外,其他將持續優化,逐步擴充。未來可視情況發展為不同版本的產品,例如透過「客

    製化」的模式,製作出符合某一地區使用者需求的版本。

    關鍵詞:中文詞典、數位詞典、學習詞典、華語、對外漢語、筆順、部首、形音義

    壹、建置的緣由與理念

    在資訊科技發達的今天,無論從研究的角度、教與學的立場或是商業的考量,製作

    多功能的數位中文詞典都是不可或缺的。

    數位詞典檢索及連結的功能,是紙本詞典無法比擬的,而現有的電子詞典雖然不

    少,但是針對中文學習而建置的詞典並不多見,更談不上能連結各種數位工具的多功能

    詞典。從華語文教學的立場來說,若有一種詞典能提供字形、字音、字義、筆畫數、部

    首、部件、筆順、字源、構詞等資料,學生、教師與家長將會如獲至寶。再者,學習中

    文的學生愈來愈多,未來智慧型手機、筆記型電腦、平板電腦等,都可與數位詞典連結,

    可謂商機無限。在技術不成問題、社會有此需求、市場深具潛力的條件下,理應有海內

    外的機構、廠商、電腦業者、出版社等願意投入心力、人力、物力,進行開發及建置的

    工作。

    然而直至今日,雖已有此類產品出現,但是其深度與廣度,與理想目標距離尚遠。

    在接受高難度挑戰的心態下,筆者根據個人語文研究的心得、辭典編纂的經驗,更從使

    用者的立場考量,設計出較理想的電子詞典的架構,並以此為藍圖,建置成一部數位中

    文詞典(暫名《新世紀華語文學習詞典》),並已進入測試階段。本詞典無論對社會大眾

    查詢字詞、國小學生課業輔導、海外人士學習中文,都可提供多元的語文信息,在使用

    上也極為方便。

    貳、詞典的架構與特色

    一、規模:

    1. 字集夠大:至少收錄 13,500 字以上,至於語文研究專用之版本,則收錄 18,500字。1

    2. 詞彙方面,除詞典應有規模外,還收入:

    (1)臺灣 TOCFL 詞彙。 1 此乃根據 Unicode 20,902 字,再刪除少數怪異的字。

  • (2)中國 HSK 詞彙。

    (3)海內外重要華語教材的詞彙。

    (4)語文知識及傳統文化相關詞彙(部分解釋附有圖片)。

    二、資料:

    1. 字形(以傳統字為主,對照簡化字;或以簡化字為主,對照傳統字)。

    2. 音標(注音、拼音,包括一字多音)。

    3. 總筆畫數(包括傳統字與簡化字)。

    4. 部首(傳統字)。

    5. 部件(傳統字)。

    6. 顯示單字的靜態筆順(包括傳統字與簡化字)。如:

    7. 單字、詞彙、成語、諺語等解釋,並搭配基本的外語解釋。

    例如果在檢索畫面中輸入「心」字,將會出現:

  • 三、功能:

    除在基本頁面顯示各種屬性外,本詞典還可經由點選,連結到第二頁面,包括:

    1. 由單字連結詞彙,由詞彙連結單字:

    例如在「心」頁面下點選「心血」,就會連結到「心血」的解釋;點選「小

    心」,就會連結到「小心」的解釋。亦可由某一詞彙或熟語連結到其中任何一

    個單字。

    2. 單字的發音:

    發音是電子詞典基本的功能。但是當前臺灣的國語、中國的普通話存在

    一些明顯差異,造成海外人士學習上的困擾。本系統邀請兩位華語教師,一

    位是臺灣的中年男教師,一位是中國年輕女教師(普通話能力二甲等級),以

    專業錄音設備錄製發音,可提供使用者比對學習。

    3. 顯示動態筆順(傳統字與簡化字):

    利用電腦動畫將每字筆畫按照書寫順序逐步顯示,目的在於擴大學習的

    管道,讓使用者透過視覺觀察,減輕手寫練習的負擔,並強化學習效果,如:

  • 4. 字理解說。

    5. 古今字形演變。

    字理指漢字結構的原理,是漢字教學中重要的一環。對於象形、指事、

    會意字,需要透過正確字說與數位字形去解釋其本形、本義;對於形聲、轉

    注字,亦需分析其意符與聲符。以下是「心」的字源解釋:

  • 四、檢索模式:

    1. 可由字形、詞彙、讀音檢索,並提供音標輸入的小鍵盤。如:

    2. 提供 119 個漢字常用部件,依其所在的位置檢索字形。

    此種檢索模式對不懂字音、部首、筆畫的漢字初學者極有幫助。如:

  • 這 119 個部件,是根據本人研發的漢字學習理論──學習漢字,先從 78個部件/部首字入手。將這 78 個部首加上變形部首,配合不同的字形結構,就可作基本漢字檢索的一種模式。例如在上述九宮格正中的格子輸入「日」

    字,「日」字下面輸入「十」,一按「確定」,就可檢出符合此一條件的「卓、

    草、嘲、廟、潮」五個字,使用者可連結想要查閱的字。

    個人認為,很難有一種檢索方式,可以用來查尋所有的漢字,電子詞典

    必須提供多元的檢索模式。對漢字初學者來說,既無法透過字音、部首、筆

    畫作檢索,因此上述方式可解決部分問題,是毫無疑問的。

    3. 輸入兩個以上的部件,即可顯示符合此一交集條件的字:

    輸入的部件愈多,得出的結果愈精準。例如外國學生看到「臨」字但不

    認識,只要在部件框輸入「口、口、口」,就可以查到部件中至少有三個「口」

    的字。

    4. 提供「聲符」檢索:

    輸入某一聲符,即可顯示詞典中相同聲符的字。例如輸入「堯」字,即

    可得到詞典中收錄的「僥墝嬈撓澆嘵嶢憢獟隢曉橈燒膮蕘遶磽穘繞翹蟯襓蹺

    譊趬蹺鐃饒顤驍髐鱙」等 31 個从「堯」得聲的字,且能直接連結。此一功能可連結同聲系的字,以從事古漢語聲韻研究,並可比較各字現代讀音,以歸

    納語音的變化,而得出如下的結果:

    【僥】ㄐ丨ㄠˇ 【墝】ㄑ丨ㄠ 【嬈】ㄖㄠˇ 【撓】ㄋㄠˊ

    【澆】ㄐ丨ㄠ 【嘵】ㄒ丨ㄠ 【嶢】丨ㄠˊ 【憢】ㄒ丨ㄠ

    【獟】丨ㄠˋ 【隢】ㄖㄠˋ 【曉】ㄒ丨ㄠˇ 【橈】ㄋㄠˊ

    【燒】ㄕㄠ 【膮】ㄒ丨ㄠ 【蕘】ㄖㄠˊ 【遶】ㄖㄠˋ

    【磽】ㄑ丨ㄠ 【穘】ㄒ丨ㄠ 【繞】ㄖㄠˋ 【翹】ㄑ丨ㄠˋ

    【蟯】ㄖㄠˊ 【襓】ㄖㄠˊ 【蹺】ㄑ丨ㄠ 【譊】ㄋㄠˊ

    【趬】ㄑ丨ㄠˊ 【鐃】ㄋㄠˊ 【饒】ㄖㄠˊ 【顤】丨ㄠˊ

    【驍】ㄒ丨ㄠ 【髐】ㄋㄠˊ 【鱙】ㄇ丨ㄠˊ

    由於每個字都有解釋,使用者可比對各字的字義與聲符「堯」之間的字

    義關係,去研究聲符兼義(聲符示源)的問題。

    5. 由教材查尋單字或詞彙:

    從海外人士學習中文的角度而言,要輸入單字、部首、部件、讀音的資

    料去檢索,並不容易;但是學習中文者都會使用某一種教材,因此,本系統

    將各種主流教材的詞彙或單字逐冊、逐課建檔,只要點選某一教材及冊、課,

  • 即可看到課文中全部的生字,並可連結查詢。2在此種情況下,學生無需輸入

    任何文字或符號,光憑滑鼠的點選,即可查到想要查的字:

    這是本系統具有創意的檢索介面。如果點選《新版實用視聽華語》,第 3冊,第 1 課,就會出現該課的生字,以供連結:

    2 目前已完成連結的教材或字詞表有:HSK 詞彙表、TOCFL 詞彙表、《中文》、《中文聽說讀寫》、《今日臺灣》、《你好》、《新版實用視聽華語》、《新實用漢語課本》、《遠東生活華語》等,近期將擴展為二十種。

  • 五、結語

    上述詞典的種種理念及功能,是就個人研究的心得,配合詞典功能上的考慮、使用

    的方便性、使用者的需求等因素而設計的,並將逐步完善且持續擴充。由於不同的使用

    者有不同的需求,因此未來也會依此發展為不同的產品。例如小學生的需求是以字、詞、

    成語的用法為主,並且要有例句;但是臺灣及港澳的學生要的是傳統字為主、簡化字作

    對照的版本,中國及新加坡學生要的是以簡化字為主、傳統字作對照的版本。至於海外

    的使用者,則需適度加入該國的外語解釋。上述不同地區所內建的通行教材,亦未必相

    同。

    本系統能夠順利建置,奠基於本人三、四十年來漢字基礎研究工作的成果,包括下

    列三點:

    1. 建立大規模語文屬性表,各種屬性可相互連結。

    2. 擁有一部收錄 13,500 字、約 60,000 詞的中文詞典。

    3. 陸續開發各種古文字形、筆順圖形、筆順動畫、華語文轉換工具等。

    將此三種成果加以組織,就成為本詞典的核心架構。其中種種創意,都是本人心血

    所繫;在資料的整合上,工作團隊的優秀表現是成功的最大因素。另外,本詞典每一部

    分的著作權均屬本人所有或已取得授權,對未來擴充工作的進行也會較為順利。至於本

    詞典的未來發展,將以內容優化及多語文對照為主要目標,並將透過各種管道,提供海

    內外人士使用,以達到推廣語文、傳播文化之目的。