romanisierung : chinesische schriftzeichen -> pinyin
DESCRIPTION
Romanisierung : Chinesische Schriftzeichen -> Pinyin. Vortragende: Jue Wang, Wenchao Li. Überblick. Chinesische Schriftzeichen Pinyin Schwierigkeiten und L ösungen Test Programme. Chinesische Schriftzeichen. Anzahl:. Verwendungsumfang. - PowerPoint PPT PresentationTRANSCRIPT
Romanisierung: Chinesische Schriftzeichen -> Pinyin
Vortragende: Jue Wang, Wenchao Li
Überblick
• Chinesische Schriftzeichen
• Pinyin
• Schwierigkeiten und Lösungen
• Test Programme
Chinesische Schriftzeichen
• Anzahl:
Verwendungsumfang
• Chinesische Zeichen werden außerdem in der japanischen Schrift als Kanji, der koreanischen Schrift als Hanja und in der vietnamesischen Schrift als chữ Hán verwendet.
Kodierung von chinesischer Schriftzeichen
• CNS11643: 76,067
• BIG-5: 13,053
• GBK: 20,912
• Unicode CJK: 20,902
• Unicode CJK + ExtA + ExtB : >70,000
Pinyin
• Pinyin (chin. 拼音 , Pīnyīn): die offizielle chinesische Romanisierung des Hochchinesischen in der Volksrepublik China. – Eigentlich heißt es Hànyǔ Pīnyīn Wénzì (chin.
汉语拼音文字 / 漢語拼音文字 „ Zeichen zur Fixierung der Laute im Chinesischen“).
– Eine Lautumschrift für chinesische Zeichen – http://de.wikipedia.org/wiki/Pinyin– Aussprache: Anaute, Auslaute– Bezeichnung der Töne: Tone
Schwierigkeiten
Chinesisch - das klingt ja alles gleich
• Jedes chinesische Schriftzeichen steht für ein Wort.
• llerdings gibt es nur 415 Silben. Diese werden in ihrer Aussprache durch 4 verschiedene Töne unterschieden.
1. Lösung: 2_gram
• 2_gram Mathing Method:
Zeitaufwand für Länge Aufsatz
2. Lösung : Tokenisieren
• The Maximum Matching Method
• The Opposite Directional Maximum Matching Method
• The Optimum Matching Method
• 中国 / 经济 / 发展 / 很 / 快。• Chinesische/ Wirtschaft/ entwickelt/ sehr/ s
chnell.
Tokenisieren:Personennamen
• Nachname: Personennamen
• List der Nachnamen
Program
• Einzelnes Zeichen --- Alle Möglichkeiten ausliefern: 啊
• Phrase: entsprechende Möglichkeit von Ergebnis des Tokenisieren
评论 / 语言 ping2lun4/yu3yan2
评 / 论语 / 言 ping2/lun2yu3/yan2
Program laufen