意味属性の共起による 「 a の b」 型名詞句の翻訳規則
DESCRIPTION
意味属性の共起による 「 A の B」 型名詞句の翻訳規則. 鳥取大学 工学部 ○徳久雅人 守谷有司 村上仁一 池原 悟. 1.はじめに. 「A の B」 型名詞句の機械翻訳 日本語での意味は多彩 ⇒ 様々な英語表現に翻訳 教師の経験 ⇒ experience as a teacher 左側の脳 ⇒ left side of brain. A. B. B. as. A. A. B. A. of. B. 先行研究. 「A の B」 型名詞句の意味分類・意味解析 [島津ら86],[冨浦ら95] - PowerPoint PPT PresentationTRANSCRIPT
2003/9/10 FIT2003 1
意味属性の共起による「 A の B 」型名詞句の翻訳規
則
鳥取大学 工学部○ 徳久雅人 守谷有司 村上仁一 池原 悟
2003/9/10 FIT2003 2
1.はじめに
• 「 A の B 」型名詞句の機械翻訳日本語での意味は多彩⇒ 様々な英語表現に翻訳
教師の経験 ⇒ experience as a teacher
左側の脳 ⇒ left side of brain
A B B as A
A B A of B
2003/9/10 FIT2003 3
先行研究
• 「 A の B 」型名詞句の意味分類・意味解析[ 島津ら 86],[ 冨浦ら 95]
• 用例ベースによる翻訳 [ 飯盛ら 96]⇒ 意味的関係を用いた網羅的規則作成が困難
• 意味属性・文法属性による翻訳規則[ 池原ら 02]
⇒ 検討した英語表現は8つ,自動化未着手
2003/9/10 FIT2003 4
本研究の目的
「 A の B 」型名詞句の機械翻訳• 広範な英語表現に対応• 意味属性を用いた規則の半自動作成
■ 手順• 大規模な日英表現対を収集・分類• 意味属性の共起を用いた規則の作成• 相補的規則の追加• 実験
2003/9/10 FIT2003 5
2.英語表現の分類
• 本研究で取り扱う名詞句– 係り受け関係がある名詞句
例文:リンゴの木に花が咲いている。対訳: The apple trees are in blossom.
• 取り扱わない名詞句– 英訳部分が名詞句でない.
例文:食事の支度ができましたから,席に着いて下さい。対訳: When the meal is ready, please come to your seat.
– 複合名詞,形式名詞などの場合
標本の収集
ハトは平和の象徴だ。 / The dove is the symbol of peace.
手作業で確認
「 A の B 」アライメント
手作業で再収集
日英文対応コーパス: 33万件
「 A の B 」の抽出平和,象徴
辞書引きpeace, symbol
表現の抜粋symbol of peace
失敗
成功約3万件の標本を収集
2003/9/10 FIT2003 7
英語表現の分類
• 英語表現の選択規則を作るために,英語表現を分類
分類結果: 英語表現 49 種類翻訳対象: 28種類(出現頻度が10件以
上) 標本全体の 99 %をカバー
candle flame (ロウソクの炎) ⇒ A + B 型star in the sky (空の星) ⇒ B in A 型
英語表現 割合所有格 + B
26.61
B of A 21.54A + B 14.95形容詞 + B
7.71
A’s B 6.14A of B 5.39B for A 4.33前置詞 + B
3.43
B + A 1.92B in A 1.07
英語表現 割合B to A 0.99B on A 0.88B at A 0.53B from A 0.49A in B 0.36 : :単語 0.14A from B 0.06B against A 0.06A to B 0.06
英語表現 割合A with B 0.05A at B 0.04B around A 0.04B such as A 0.01 : :B through A 0.01B within A 0.01 : :A under B 0.003B aboard A 0.003
規則作成対象
3.意味属性規則の作成
意味属性: 日本語語彙大系の一般名詞意味属性• 形態素解析結果は意味属性が曖昧• 5,000件を手作業で絞り込み,学習データに
(例) 林檎の花 / apple blossom 林檎 (【果樹】,【果物】) 花 (【花(本体)】,【舞踊・演劇・諸芸】,【興隆】)
if 【果樹】の【花(本体)】 then A+B 型
2003/9/10 FIT2003 10
一般名詞意味属性体系
名詞
具体 抽象
果物 菓子果樹 樹木
植物
生物 無生物
動物
…
……
…… …… …… ………
林檎果物
果樹一般名詞
3.意味属性規則の作成
意味属性: 日本語語彙大系の一般名詞意味属性• 形態素解析結果は意味属性が曖昧• 5,000件を手作業で絞り込み,学習データに
(例) 林檎の花 / apple blossom 林檎 (【果樹】,【果物】) 花 (【花(本体)】,【舞踊・演劇・諸芸】,【興隆】)
if 【果樹】の【花(本体)】 then A+B 型
汎化による規則の自動生成
• 意味属性の汎化による規則のカバー率向上
店のカレーif 【商店】の【飯】 then B at A 型
2項目についての汎化 【商店】の上位概念 ⇒ 【店舗等】 【飯】の上位概念 ⇒ 【料理】
if 【店舗等】の【料理】 then B at A 型「レストランのピザ」にもマッチ
[中井ら 99] の手法により他の規則との競合を回
避
意味属性規則の生成例if A 意味属性
B 意味属性
then 英語表現
【図書館】 【出版物】
B in A
【情報】 【概要】 A in B【場所】 【壁】 B of A【帳】 【枠】 B of A【スポーツ】
【競争】 A + B
【神仏】 【助力】 A for B【神仏】 【援助】 A for B
: : :
2003/9/10 FIT2003 14
意味属性規則の生成数英語表現 規則数
(件)A + B 46,315B in A 23,894B from A 6,946A of B 6,107A on B 1,010B as A 597
: :合計: 440,545 個
2003/9/10 FIT2003 15
4.相補的規則の作成
• 意味属性による一般規則がなじまない先行研究 [ 飯盛ら 96],[ 池原ら 02]
• 「名詞字面」による規則 ... 英語 6 表現, 90規則「係る動詞」による規則 ... 英語 6 表現, 47規則(例) 「彼の家」 ⇒ 所有格 + B 「上着の雪を払う」 ⇒ B from A
2003/9/10 FIT2003 16
5.実験
• 目的: 英語表現型の選択性能を評価• 方法:
– 「 A の B 」型名詞句を含む文を入力(規則作成に使わなかった標本 1,000 件)
– 単語訳し分けは不問.英語表現型に注目– 評価者1名(大学院生)
• 評価基準:◎:対訳と一致○ :対訳と一致しないが規則の表現でも可△:動詞などによっては規則の表現でも可× :誤った英語表現
2003/9/10 FIT2003 17
○ .例文:患者の体温正解: the patient’s temperature A’s B 型出力: temperature of a patient B of A 型
△.例文:彼の指示 (を受ける)正解: instruction from him B from A 型出力: his instruction 所有格 +B 型
2003/9/10 FIT2003 18
実験結果評価
規則◎ ○ △ ×
意味属性規則 42.1 % 18.0 % 19.3 % 20.6 %同上 + 相補規則 53.3 % 16.0 % 13.7 % 17.0 %
※ 形態素解析誤りは評価対象外
選択精度: 意味属性規則のみ ...60.1 %(◎と○) 相補規則と併用 ........69.3 %
6.考察:誤りの原因i ) 単語に複数の意味属性がある場合入力: 屋上の望遠鏡正解: the telescope on the roof ( B on A 型)出力: the telescope in the roof ( B in A 型)
屋上【上】
【家屋(部分〈場(その他)〉)】
意味属性解析結果
適用規則if 【家屋】の【機械】 then 「 B in A 」 型
⇒ 複数の意味属性からなる条件の記述今後の課題
2003/9/10 FIT2003 20
ii ) 類似する意味関係に様々な英語表現
列車の車掌
タクシーの運転手
292【運転手】293【乗務員(その他)】
291【乗務員】
taxi driver (A+B)
conductors on this train (B on A)
オートバイのライダーmotorcyclist (単語)意味属性では
困難
汎化による生成は過剰
2003/9/10 FIT2003 21
7.おわりに• まとめ
– 「 A の B 」型名詞句とその対訳を約 3 万件収集
– 28 種類の英語表現に着目 (カバー率 99 % )
– 意味属性規則を半自動生成 ( 5千→ 44 万個)
– 手作業で相補規則を作成 ( 137個)
– 表現選択実験• 意味属性規則のみの正解率: 60.1 %• 補足規則と併用時の正解率: 69.3 %
2003/9/10 FIT2003 22
今後の課題
• 自動生成のために– 意味属性の絞込みの自動化
• 選択精度向上のために– 複数の意味属性を条件とする規則の設計– 動詞規則(結合価パターン)の強化
• 翻訳のために– 名詞訳語選択