語料庫在語文領域教科書開發之應用 - naer.edu.t · 華文作文評分...

38
語料庫在語文領域教科書開發之應用 林慶隆 201731010:50~11:50 國家教育研究院台北院區10F國際會議廳 十二年國民基本教育課程教科書開發專題演講

Upload: others

Post on 04-Oct-2019

25 views

Category:

Documents


0 download

TRANSCRIPT

  • 語料庫在語文領域教科書開發之應用

    林慶隆

    2017年3月10日 10:50~11:50

    國家教育研究院台北院區10F國際會議廳

    十二年國民基本教育課程教科書開發專題演講

  • 大綱

    • 建置應用語料庫及標準體系計畫簡介 • 語料庫系統在教科書開發上的應用 • 標準體系在教科書開發上的應用 • 教育部國語辭典在教科書開發上的應用 • 展望

  • ○建構永續發展基礎,建立符合華語文教學需求之標準體系

    一、建構及應用語料庫

    二、訂定華語文分級標準

    三、訂定國際接軌之華語文能力指標

    壹、建置應用語料庫及標準體系計畫簡介

  • 持續編纂核心詞彙

    辦理語料庫應用推廣活動

    建置 應用語料庫

    擴建語料庫系統

    擴建口語語料

    擴建雙語語料

    擴建華語中介語語料

    擴建書面語語料

    建置 標準體系

    持續建置能力指標

    並測試分級標準檢索系統

    驗證中文文本可讀性公式

    持續建置分級標準

    ○計畫目標

    專家 以語料庫為基礎

  • 國教院華語文語料庫

    中研院平衡語料庫

    其他單位

    語料庫特性

    書面語 報紙、圖書 新聞為主

    口語 持續蒐集 少量 政大、高師大

    華語中介語 持續蒐集 無 臺灣師大

    雙語(華英) 持續蒐集 無

    維護 持續維護更新 2007年止

    整合應用

    標準體系建置 設計上兼顧研究與應用,並持續進行應用推廣活動

    語言學研究為主

    以學術研究為主,除臺灣師大外,規模多不大,故難以整合應用

    教材編輯

    詞典編輯

    資料驅動學習

    ○國內各類語料庫的現況比較

    • 國教院嘗試整合其他單位可授權語料,包括臺灣師大華測中心的部分華語中介語以及政大徐嘉慧教授口語語料,惟其他單位因著作權問題無法授權。

  • ○華語文語料庫(COCT)現況

    華語文語料庫Corpus of

    Contemporary Taiwanese Mandarin (COCT)

    華語中介語語料 37萬字(79萬字)

    雙語語料 300萬字

    (640萬字)

    書面語語料 1億5,000萬字

    (2億6,000萬字)

    口語語料 300萬字

    (1,260萬字)

  • 推廣活動: 2015 華語文語料庫應用工作坊 2016 語料庫於華語文應用論壇 2016 華語文語料庫於辭典編輯之觀摩與競賽

    已開發之雛形系統: 中文分詞系統 國教院索引典系統 雙語索引典系統 中介語索引典系統 近義詞查詢系統 教材分級檢索系統

    ○語料庫應用現況與規劃

    語料庫

    分級標準 能力指標

    教材、文法、電子書 學習者辭典

    教學學習應用 語文教學軟體 APP E-learning 平台

    課程規劃 教學

    測驗評量

    詞彙索引典 雙語詞彙索引典 跨語料庫索引典 搭配詞參考工具 華文語言搜尋引擎

    華文例句自動產生 華文拼字檢查工具 華文文法檢查工具 易混淆字詞表 易讀性自動分級

    華文作文評分 華文試題自動產生

    雙語檢索 翻譯輔助

    進行中的應用: 漢字分級標準 詞語分級標準 語法分級標準

    進行中的應用: 學習者能力指標

    學習者辭典編輯之研究

  • 貳、語料庫系統在教科書開發上的應用 一.國教院分詞系統 二.國教院索引典系統 三.國教院中介語檢索系統 四.國教院華英雙語索引典系統 五.國教究院近義詞檢索系統

  • 一、國教院分詞系統

    –中文分詞系統是所有中文處理相關研究的基礎,可應用在下列範疇: −語料庫語言學研究

    −全文檢索 −圖書資訊檢索 −文件自動分類

    −知識庫系統

    −資料採礦 −大數據分析

  • 網址 http://coct.naer.edu.tw/Segmentor/

    簡報者簡報註解詞性參附件

  • 詞性標記

    動詞 名詞 連接詞

    副詞

    其他

  • 自拍是年輕人回應生活的方式。

    自拍 是 年輕人 回應 生活 的 方式 。

    中文分詞

    新詞發現:自拍

    應用範例

  • 二、國教院索引典系統 –國教院索引典內容包括圖書語料、新聞語料、口語語料等等,應用範圍廣泛: −漢字、詞語及語法點頻率查詢

    −基礎詞語例句編寫依據

    −詞典編撰之詞彙訊息來源

    −數據驅動學習理論所運用之主要工具,例如:語言教學之搭配詞查詢

  • 網址 http://coct.naer.edu.tw/cqpweb/

  • 畢業

    「畢業」的搭配詞

    應用範例

  • 三、國教院中介語檢索系統 • 中介語索引典提供中介語查詢及分析的工具,其應用包括:

    − 觀察語言學習者習得語言的過程

    − 分析母語負遷移對華語學習的影響

    − 針對語言學習者常犯偏誤編寫教材

    − 針對語言學習者常犯偏誤強化教學

    − 提供語言評量參考

  • 網址 http://coct.naer.edu.tw/cqpweb/

  • 觀察二語學習者常犯的錯誤

    應用範例

  • 四、國教院華英雙語索引典系統 • 本系統接受中文或英文的查詢詞,可能的應用包括:

    − 基礎詞語編寫之英文翻譯查詢

    − 英文寫作導引

    − 華語教學時提供擴充詞彙選項

    − 中文及英文搭配詞訊息

    − 詞典編撰之詞彙訊息來源

  • 網址 http://coct.naer.edu.tw/bc/

  • 應用範例

  • 五、國教院近義詞檢索系統 近義詞系統是以語料庫為基礎,自動計算語義向量而得出

    近義詞的工具,其應用如下: −詞典之近義詞及反義詞 資料來源

    −華語教學時提供擴充詞彙選項

  • 網址 http://coct.naer.edu.tw/word2vec/

  • 應用範例

  • 参、標準體系在教科書開發上的應用 一.標準體系簡介 二.標準體系成果範例 三.標準體系應用在教科書開發 四.標準體系公告期程

  • 一、標準體系簡介

    • 定義: – 針對二語學習者訂定之華語文能力指標、及漢字、詞彙、語法點分級標準。

    • 方法: – 華語文能力指標,採四等七級架構。 – 以語料庫統計法為主,採用本院華語文應用語料庫之書面語語料、新聞語料、口語語料、華語教材語料為統計依據。

    – 以專家法為輔,依據能力指標進行必要的調校。

  • Pre-A(200) 的,不,好,有,個,天,上,小,去,多,就,家,起,得,兒,子,他,,三,喜,今,友,…

    A1(300) 邊,色,眼,畫,習,長,動,亮,張,物,把,玉,菜,田,拍,等,像,關,,間,著/着,…

    A2(300) 立,甲,乙,首,陳,猜,變,合,形,數,展,派,器,珍,捷,娃,佳,實,害,而,利,…

    B1(500) 欣,芳,莉,古,德,強,偉,寶,積,愁,閃,嗯,噢,遙,謎,晶,養,詩,族,之,戰,卻/却,任,…

    B2(600) 稻,趙,魔,奔,官,朝,秦,靈,狐,楊,孟,狸,盡,射,魯,仙,仲,羅,魏,劉,喻,劍,珊,玲,婷,曹…

    C1(600) 君,妮,蓓,臣,獻,龜,雁,奉,賦,蒙,陵,祈,侯,梁,呂,蜀,晏,藺,斯,昭,韓,郭,范,萱,韋,堯…

    C2(600) 晉,桓,祇,蒼,簫,竽,噶,宓,囊,摟,髓,駱,壤,扭,搓,軸,醞,昆,魁,瑣,穀,剎,邏,蝴,喇,廂…

    二、分級標準成果草案—漢字

  • 二、分級標準成果草案—詞語

    Pre-A(500) 我,我們,大家,誰,歲,名字,一,兩,十,幾,半,多,少,第~,剛剛/剛,今天…

    A1(800) ~方,~處,~部,人口,土,小心,小時候,之外,公司,心情,父母,父親,母親…

    A2(1200) ~性,~所,~者,~室,一切,小學,工具,互相,內容,反正,反應,支,比賽,付出…

    B1(2500) 事業,經濟,嘗試,決心,苦,頓,神,氣氛,似的,排,當地,達,調查,愉快…

    B2(5000) 折磨,應用,親近,罪,場所,災難,準,否認,糟糕,驚,誕生,抗議,藉著,治療,撐,靈魂…

    C1(8000) 聯想,指點,耀眼,議論,艱苦,消耗,冰冷,腔,照料,有無,掌管,不善,精,先行,擬,情願,託,縮,結實…

    C2(10000-12000)

    伺候,批准,附錄,萌芽,評斷,好似,縫隙,裂,逮到,拉扯,褐色,風聲,過錯,太空,史料,深奧,躊躇,軌跡,來歷,近似,雀躍,捉摸…

  • 語法點類型 語法點內容 語法點範例 級別(舉例) 比較類1 A比B… 他比弟弟年輕三歲 A1 比較類2 A跟B一樣 姐姐跟妹妹一樣瘦 A1 比較類3 A(沒)有B…這/那麼 雨沒有昨天那麼大 B1 比較類4 一M比一M 商品的價格一家比家便宜 C1

    比較類5 比起來 和先進國家比起來,這裡的東西很便宜 A2

    比較類7 A不如B 選手今天的表現不如過去穩定 A2 比較類8 比不上 腳踏車的速度比不上公共汽車 A2 比較類9 比較 橘子和香蕉,他比較喜歡香蕉 A1 比較類11 …SV於… 他的成績高於全校平均 A2 比較類12 A不及B 吃藥不及運動有效 B1 比較類13 A與B相比 現代與古代相比,各方面都進步很多 A2 比較類14 A不亞於B 父親對孩子的愛不亞於母親 B2

    比較類15 相比之下 和以前的作品相比之下,這本書賣得比較好 A1

    二、分級標準成果草案—語法點

  • 三、標準體系應用在教科書開發

  • 四、標準體系公告期程

    1. 能力指標初稿 (5月)

    2. 漢字分級表 (7月)

    3. 詞語分級表 (12月)

    4. 語法點分級表 (12月)

  • 肆、教育部國語辭典 在教科書開發上的應用

  • 一、教育部國語字、辭典主要適用對象

    字、辭典名 收字、收詞數 主要適用對象

    《國語小字典》 http://dict.mini.moe.edu.tw/

    約4千餘字 國小學童及教師

    《國語辭典簡編本》 http://dict.concised.moe.edu.tw/

    約4萬5千餘字詞 國中小學生及初習華語文人士

    《重編國語辭典修訂本》 http://dict.revised.moe.edu.tw/

    約17萬字詞 對歷史語言有興趣之研究者、教師或一般民眾

    《異體字字典》 http://dict.variants.moe.edu.tw/

    約有10萬字 語文教育及學術研究者利用

    《成語典》 http://dict.idioms.moe.edu.tw/

    正文收錄1千5百餘組成語(約5000條)

    社會大眾

  • 國小學童及教師

    對歷史語言有興趣之 研究者、教師或一般民眾

    日平均人次

    Chart1

    重編國語辭典修訂本

    國語辭典簡編本

    國語小字典

    成語典

    異體字字典

    國中小學生及初習華語文人士

    社會大眾

    語文教育及學術研究的利用

    日平均人次

    55225

    4536

    4857

    7531

    2720

    工作表1

    辭典日平均人次

    重編國語辭典修訂本55225

    國語辭典簡編本4536

    國語小字典4857

    成語典7531

    異體字字典2720

    辭典筆數

    重編國語辭典修訂本18000

    異體字字典1900

    國與小字典0

    國語辭典簡編本2000

    成語典1700

    工作表1

    日平均人次

    工作表2

    筆數

    工作表3

  • 二、教科書開發應用

    –教育部各典取音或有差異,乃因其各有編輯目標與服務對象,並非字音依據。 例如:《重編國語辭典修訂本》為大型語言辭典,兼收古今音;《國語辭典簡編本》為現代語言辭典,原則上不取錄古典字音;《國語小字典》以小學生為適用對象,於多音字僅取其常用者。

    –教科書的多音字音讀請依據教育部《國語一字多音審訂表》或參考依《國語一字多音審訂表》取音之《國語小字典》、《國語辭典簡編本》 。

    –教科書的詞語解釋請優先參考《國語辭典簡編本》。

    35

  • 教育部《國語辭典簡編本》及《重編國語辭典修訂本》內容

  • 伍、展望

    37

  • 敬請指教

    語料庫在語文領域教科書開發之應用大綱投影片編號 3投影片編號 4○國內各類語料庫的現況比較○華語文語料庫(COCT)現況○語料庫應用現況與規劃貳、語料庫系統在教科書開發上的應用一、國教院分詞系統投影片編號 10投影片編號 11投影片編號 12投影片編號 13投影片編號 14投影片編號 15投影片編號 16投影片編號 17投影片編號 18投影片編號 19投影片編號 20投影片編號 21投影片編號 22投影片編號 23投影片編號 24参、標準體系在教科書開發上的應用一、標準體系簡介二、分級標準成果草案—漢字二、分級標準成果草案—詞語二、分級標準成果草案—語法點三、標準體系應用在教科書開發四、標準體系公告期程肆、教育部國語辭典�在教科書開發上的應用一、教育部國語字、辭典主要適用對象投影片編號 34二、教科書開發應用教育部《國語辭典簡編本》及《重編國語辭典修訂本》內容伍、展望投影片編號 38