romanisierung : chinesische schriftzeichen -> pinyin

12
Romanisierung: Chinesi sche Schriftzeichen -> Pinyin Vortragende: Jue Wang, Wenchao Li

Upload: lazar

Post on 25-Jan-2016

30 views

Category:

Documents


3 download

DESCRIPTION

Romanisierung : Chinesische Schriftzeichen -> Pinyin. Vortragende: Jue Wang, Wenchao Li. Überblick. Chinesische Schriftzeichen Pinyin Schwierigkeiten und L ösungen Test Programme. Chinesische Schriftzeichen. Anzahl:. Verwendungsumfang. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Romanisierung : Chinesische Schriftzeichen -> Pinyin

Romanisierung: Chinesische Schriftzeichen -> Pinyin

Vortragende: Jue Wang, Wenchao Li

Page 2: Romanisierung : Chinesische Schriftzeichen -> Pinyin

Überblick

• Chinesische Schriftzeichen

• Pinyin

• Schwierigkeiten und Lösungen

• Test Programme

Page 3: Romanisierung : Chinesische Schriftzeichen -> Pinyin

Chinesische Schriftzeichen

• Anzahl:

Page 4: Romanisierung : Chinesische Schriftzeichen -> Pinyin

Verwendungsumfang

• Chinesische Zeichen werden außerdem in der japanischen Schrift als Kanji, der koreanischen Schrift als Hanja und in der vietnamesischen Schrift als chữ Hán verwendet.

Page 5: Romanisierung : Chinesische Schriftzeichen -> Pinyin

Kodierung von chinesischer Schriftzeichen

• CNS11643: 76,067

• BIG-5: 13,053

• GBK: 20,912

• Unicode CJK: 20,902

• Unicode CJK + ExtA + ExtB : >70,000

Page 6: Romanisierung : Chinesische Schriftzeichen -> Pinyin

Pinyin

• Pinyin (chin. 拼音 , Pīnyīn): die offizielle chinesische Romanisierung des Hochchinesischen in der Volksrepublik China. – Eigentlich heißt es Hànyǔ Pīnyīn Wénzì (chin.

汉语拼音文字 / 漢語拼音文字 „ Zeichen zur Fixierung der Laute im Chinesischen“).

– Eine Lautumschrift für chinesische Zeichen – http://de.wikipedia.org/wiki/Pinyin– Aussprache: Anaute, Auslaute– Bezeichnung der Töne: Tone

Page 7: Romanisierung : Chinesische Schriftzeichen -> Pinyin

Schwierigkeiten

Chinesisch - das klingt ja alles gleich

• Jedes chinesische Schriftzeichen steht für ein Wort.

• llerdings gibt es nur 415 Silben. Diese werden in ihrer Aussprache durch 4 verschiedene Töne unterschieden.

Page 8: Romanisierung : Chinesische Schriftzeichen -> Pinyin

1. Lösung: 2_gram

• 2_gram Mathing Method:

Zeitaufwand für Länge Aufsatz

Page 9: Romanisierung : Chinesische Schriftzeichen -> Pinyin

2. Lösung : Tokenisieren

• The Maximum Matching Method

• The Opposite Directional Maximum Matching Method

• The Optimum Matching Method

• 中国 / 经济 / 发展 / 很 / 快。• Chinesische/ Wirtschaft/ entwickelt/ sehr/ s

chnell.

Page 10: Romanisierung : Chinesische Schriftzeichen -> Pinyin

Tokenisieren:Personennamen

• Nachname: Personennamen

• List der Nachnamen

Page 11: Romanisierung : Chinesische Schriftzeichen -> Pinyin

Program

• Einzelnes Zeichen --- Alle Möglichkeiten ausliefern: 啊

• Phrase: entsprechende Möglichkeit von Ergebnis des Tokenisieren

评论 / 语言 ping2lun4/yu3yan2

评 / 论语 / 言 ping2/lun2yu3/yan2

Page 12: Romanisierung : Chinesische Schriftzeichen -> Pinyin

Program laufen