mạng thần kinh nhân tạo

121
VIN KHOA HC VÀ CÔNG NGHVIT NAM VIN CÔNG NGHTHÔNG TIN 18 Hoàng Quc Vit, Hà Ni BÁO CÁO TNG KT KHOA HC VÀ KTHUT ĐỀ TÀI NGHIÊN CU PHÁT TRIN CÔNG NGHNHN DNG, TNG HP VÀ XLÝ NGÔN NGTING VIT Thi gian thc hin: 2001- 6/2004 Chnhim đề tài: GS.TSKH. Bch Hưng Khang HÀ NÔI, 12/2004 Bn quyn 2004 thuc Vin Công nghthông tin Đơn xin sao chép toàn bhoc tng phn tài liu này phi gi đến Vin trưởng Vin Công nghthông tin trtrường hp sdng vi mc đích nghiên cu

Upload: struct-designpro

Post on 19-Feb-2016

234 views

Category:

Documents


0 download

DESCRIPTION

Mạng thần kinh nhân tạo và các phương pháp nhận dạng

TRANSCRIPT

Page 1: Mạng thần kinh nhân tạo

VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN CÔNG NGHỆ THÔNG TIN

18 Hoàng Quốc Việt, Hà Nội

BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI

NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ

TIẾNG VIỆT Thời gian thực hiện: 2001- 6/2004

Chủ nhiệm đề tài: GS.TSKH. Bạch Hưng Khang

HÀ NÔI, 12/2004

Bản quyền 2004 thuộc Viện Công nghệ thông tin

Đơn xin sao chép toàn bộ hoặc từng phần tài liệu này phải gửi đến Viện trưởng Viện Công nghệ thông tin trừ trường hợp sử dụng

với mục đích nghiên cứu

Page 2: Mạng thần kinh nhân tạo

2

VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN CÔNG NGHỆ THÔNG TIN

18 Hoàng Quốc Việt, Hà Nội

BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI

NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ

TIẾNG VIỆT Thời gian thực hiện: 2001- 6/2004

Chủ nhiệm đề tài: GS.TSKH. Bạch Hưng Khang

HÀ NỘI, 12/2004

Tài liệu này được chuẩn bị trên cơ sở kết quả thực hiện Đề tài cấp Nhà nước mã số KC01-03

Page 3: Mạng thần kinh nhân tạo

3

DANH SÁCH NHỮNG NGƯỜI THỰC HIỆN CHÍNH

TT Họ và tên Chức vụ,

học vị Đơn vị công

tác Nhiệm vụ thuộc đề tài

1 Bạch Hưng Khang GS.TSKH NCVCC

Viện CNTT Chủ nhiệm đề tài

2 Ngô Cao Sơn KS Viện CNTT Thư ký 3 Lương Chi Mai TS. NCVC Viện CNTT Chủ trì nhánh nghiên cứu 4 Ngô Quốc Tạo PGS. TS.

NCVC Viện CNTT Chủ trì nhánh nghiên cứu

5 Lê Khánh Hùng TS. Viện NCUDCN

Chủ trì nhánh nghiên cứu

6 Vũ Kim Bảng TS Trung tâm Ngữ âm học thực nghiệm

Chủ trì nhánh nghiên cứu

7 Hồ Tú Bảo GS. TSKH Viện CNTT Chủ trì nhánh nghiên cứu 8 Nguyễn Thị Minh

Huyền Thạc sĩ ĐHKHTN

Hà nội Chủ trì nhánh nghiên cứu

9 Đàm Hiếu Dũng KS Trung tâm kỹ thuật thông tấn

Chủ trì nhánh nghiên cứu

10 Ngô Hoàng Huy KS Viện CNTT Trưởng nhóm

Đơn vị phối hợp

Hoạt động của các tổ chức phối hợp tham gia thực hiện dự án

TT Tên tổ chức Địa chỉ Hoạt động/đóng góp cho đề tài 1 Trung tâm Ngữ âm học thực

nghiệm, Viện Ngôn ngữ học, Trung tâm khoa học xã hội và nhân văn.

22 Lý Thái Tổ

Xây dựng CSDL ngữ âm, phân tich các đặc trưng ngôn ngữ, ngữ âm, thanh điệu cho tiếng Việt: - Phân tích phổ của các âm vị

khó. - Nghiên cứu cấu trúc nguyên

âm. - Nghiên cứu cấu trúc âm tiếng

Việt, tổng hợp giọng nói. 2 Trug tâm nghiên cứu ứng

dụng quang điện tử, Viện nghiên cứu ứng dụng công nghệ.

C6 Thanh xuân bắc, Hà nội

Nghiên cứu và phát triển phương pháp dịch tự động Việt - Anh

3 Khoa Toán – Cơ – Tin học, Bộ môn Tin học, ĐHKHTN Hà nội

Nguyễn Trãi, Hà nội

Nghiên cứu phương pháp dóng hàng trong các văn bản song ngữ Pháp - Việt / Việt – Pháp

4 Trung tâm kỹ thuật thông tấn – TTXVN

5 Lý Thường Kiệt

Xây dựng công nghệ Coding ngữ nghĩa của âm thanh

Page 4: Mạng thần kinh nhân tạo

4

5 Nhóm nghiên cứu triển khai của Công ty NetNam

18 Đường Hoàng Quốc Việt

Tích hợp công nghệ tổng hợp và nhận dạng tiếng Việt với các dịch vụ số của INTERNET thế hệ hai và ứng dụng.

6 GS John-Paul Hosom, CSLU- Center of Spoken Language Understanding, OGI, USA

Cascade Building 20000 N.W. Walker Road Beaverton, OR 97006

Cung cấp công cụ và phương pháp nhận dạng bằng HMM và ANN, CSDL tiếng Việt qua mạng điện thoại.

7 GS Hansjoerg Mixdorff, University of Applied Science, Berlin

Steinstr. 27 A, 12307 Berlin Germany

Phương pháp và mô hình Fujisaki cho các ngôn ngữ có thanh điệu

8 GS Hiroya Fujisaki, Frontier Informatics, School of Frontier Science, University of Tokyo

7-3-1 Hongo Bunkyo-ku, Tokyo 113003 Japan

Phương pháp và mô hình Fujisaki cho các ngôn ngữ có thanh điệu

Page 5: Mạng thần kinh nhân tạo

5

TÓM TẮT Kể từ thế hệ máy tính điện tử (MTĐT) đầu tiên, giới nghiên cứu và công nghệ đã ý thức được rằng muốn phát huy khả năng xử lý của MTĐT thì phải tìm cách để máy và người có thể giao tiếp với nhau bằng ngôn ngữ tự nhiên. Trong đó có rất nhiều vấn đề khác nhau cần giải quyết nhưng một số vấn đề mấu chốt trong giao tiếp người máy là xử lý ngôn ngữ tự nhiên, tổng hợp, nhận dạng tiếng nói, chữ viết, dịch tự động. Sau gần nửa thế kỷ nghiên cứu và thử nghiệm, hiện nay đã có một số phần mềm thương phẩm, chủ yếu cho tiếng Anh. Đối với tiếng Việt là một ngôn ngữ đơn âm có thanh điệu còn chưa có nhiều nghiên cứu và kết quả. Mục đích của đề tài là nghiên cứu khảo sát xây dựng các phương pháp hiệu quả cho tổng hợp, nhận dạng và xử lý ngôn ngữ tiếng Việt. Ba nội dung chính quan hệ chặt chẽ với nhau được nghiên cứu trong đề tài KC01-03 là:

1. Nhận dạng và tổng hợp tiếng Việt 2. Nhận dạng chữ Việt in và viết tay có hạn chế 3. Xử lý ngôn ngữ tự nhiên tiếng Việt (các giải pháp trong xử lý ngôn ngữ tự

nhiên tiếng Việt, nhằm tới mục đích dịch tự động). Các nội dung của đề tài tập trung vào nghiên cứu đặc thù trong ngữ âm, thanh điệu, văn phạm tiếng Việt; kế thừa, phát triển các công cụ trong tổng hợp, nhận dạng, phân tích văn phạm, dịch tự động để áp dụng hiệu quả cho tiếng Việt. Đề tài vừa phát triển một số giải pháp, phương pháp và công cụ cơ bản, vừa từng bước tạo ra một số sản phẩm thiết thực phục vụ cho ứng dụng. Mỗi nhánh của đề tài đều có những sản phẩm phần mềm như phần mềm tổng hợp tiếng Việt VnVoice 2.0, phần mềm nhận dạng lệnh VnCommand, phần mềm viết chính tả phụ thuộc giọng đọc VnDictator; phần mềm nhận dạng chữ Việt in VnDOCR 3.0; phần mềm nhận dạng phiếu điều tra MarkRead 2.0 có modul tích hợp chữ viết tay hạn chế; phần mềm dịch tự động Việt – Anh EVTRAN 2.5. Ngoài những sản phẩm nói trên còn có các kết quả ở dạng công cụ phục vụ cho nghiên cứu tiếng Việt như phương pháp và công nghệ xây dựng CSDL ngữ âm tiếng Việt, dóng hàng song ngữ, mô hình từ điển điện tử cho xử lý ngôn ngữ tự nhiên. Đề tài cũng đã đóng góp các bài nghiên cứu đã được công bố ở các tạp chí, hội nghị trong và ngoài nước,làm phong phú thêm về mặt lý thuyết cho tổng hợp và nhận dạng ngôn ngữ đơn âm đa thanh điệu, một mảng chưa có thật nhiều kết quả trên thế giới.

Page 6: Mạng thần kinh nhân tạo

6

MỤC LỤC

1. Lời mở đầu ................................................................................................... 7 2. Nội dung chính của báo cáo......................................................................... 7

2.1 Tổng quan tình hình nghiên cứu trong và ngoài nước ......................... 7 2.2 Những nội dung đã thực hiện ...............................................................10

2.2.1 Kết quả nghiên cứu về Tổng hợp và Nhận dạng tiếng Việt ........10

2.2.1.1 Các kết quả nghiên cứu .......................................................10 Khảo sát về ngữ âm tiếng Việt...................................................10 Tổng hợp tiếng Việt ...................................................................11 Nhận dạng tiếng Việt .................................................................12

2.2.1.2 Sản phẩm phần mềm ..........................................................17 Hệ thống Tổng hợp tiếng nói VnVoice 2.0 ...............................17 Chương trình nhận dạng lệnh VnCommand..............................18 Chương trình đọc chính tả VnDictator .....................................18 Chương trình xây dựng công nghệ coding ngữ nghĩa của âm thanh .............................................................19

2.2.1.3 Về triển khai ứng dụng........................................................20 Ứng dụng của tổng hợp tiếng nói ..............................................20

2.2.2 Nghiên cứu phát triển kỹ thuật nhận dạng chữ in và

viết tay tiếng Việt.......................................................................20 Nhận dạng chữ Việt in VnDOCR 3.0 ........................................22 Nhận dạng chữ viết tay có hạn chế ............................................22

2.2.3 Nghiên cứu phát triển các kỹ thuật xử lý ngôn ngữ

tự nhiên tiếng Việt ....................................................................24 2.2.3.1 Dịch tự độngViệt – Anh ......................................................24 2.2.3.2 Dóng hàng văn bản song ngữ Pháp-Việt.............................26 2.2.3.2 Mô hình từ điển điện tử .......................................................28

2.3 Tổng quát hoá và đánh giá kết quả thu được........................................28 2.4 Kết luận và kiến nghị............................................................................29 2.5 Tài liệu tham khảo................................................................................31

Page 7: Mạng thần kinh nhân tạo

7

1. LỜI MỞ ĐẦU Nhận dạng và xử lý ngôn ngữ nói và viết tiếng Việt là nhu cầu thiết yếu của phát triển và ứng dụng công nghệ thông tin ở Việt nam. Giới nghiên cứu và công nghiệp trên thế giới do theo đuổi các nghiên cứu cơ bản và công nghệ này từ hàng chục năm qua, gần đây đã thu được nhiều thành tựu quan trọng. Khác với các sản phẩm khác của công nghệ thông tin, sản phẩm về tiếng nói, chữ viết và ngôn ngữ Việt không thể mua được từ nước ngoài, chỉ có thể do người Việt làm ra trên cơ sở tiếp thu được các thành tựu khoa học công nghệ trên thế giới và theo đuổi thực hiện lâu dài. Những năm qua trong khuôn khổ chương trình trọng điểm nhà nước, một số kết quả nghiên cứu và sản phẩm về nhận dạng và xử lý tiếng Việt - tập trung cho nhận dạng chữ Việt in - đã thành công và bắt đầu được sử dụng rộng rãi. Đề tài này nhằm theo đuổi những nghiên cứu và phát triển phải thực hiện lâu dài về tiếng Việt trên máy tính với sự triển khai một số phương hướng mới. Mục tiêu của đề tài là nghiên cứu làm chủ các phương pháp, kỹ thuật tiên tiến trong một số lĩnh vực của trí tuệ nhân tạo và lý thuyết nhận dạng trên thế giới để xây dựng các phương pháp hiệu quả cho nhận dạng tiếng nói, chữ viết, và xử lý ngôn ngữ tự nhiên tiếng Việt. Đề tài vừa tiếp tục xây dựng các phương pháp và công cụ cơ bản vừa từng bước tạo ra một số sản phẩm thiết thực nhằm giải quyết một số bài toán cấp bách trong phát triển và ứng dụng công nghệ thông tin ở Việt nam. Ba nội dung chính quan hệ chặt chẽ với nhau được nghiên cứu trong đề tài là:

1. Nhận dạng và tổng hợp tiếng Việt 2. Nhận dạng chữ Việt in và viết tay 3. Xử lý ngôn ngữ tự nhiên tiếng Việt

2. NỘI DUNG CHÍNH CỦA BÁO CÁO 2.1. Tổng quan tình hình nghiên cứu trong và ngoài nước

Ba lĩnh vực (1) nhận dạng và tổng hợp tiếng nói, (2) nhận dạng chữ, và (3)

xử lý ngôn ngữ tự nhiên có liên quan mật thiết với nhau, và là nền tảng cho sự phát triển và ứng dụng công nghệ thông tin của mọi quốc gia

Nhận dạng tiếng nói nhằm chuyển thông tin từ tiếng nói con người vào máy tính, và tổng hợp tiếng nói nhằm tự động tạo ra tiếng người nói bằng máy tính. Cùng với sự phát triển nhanh chóng của công nghệ thông tin nói chung và mạng Internet nói riêng, nhận dạng và tổng hợp tiếng nói càng ngày càng trở nên là một xu hướng tất yếu cho những máy tính thế kỉ 21. Trong vòng 50 năm qua, rất nhiều thuật toán được đề xuất và triển khai trên các hệ tự động nhận dạng và tổng hợp tiếng nói. Trên thế giới đã có nhiều bộ phần mềm thương mại dành cho tiếng Anh như IBM ViaVoice, Dragon Naturally Speaking, L&H Voice Xpress. Những phần mềm này cung cấp các chức năng chủ yếu như: nhập văn bản vào máy, đọc văn bản thành lời, duyệt Web bằng giọng nói. Gần đây nhất hãng Microsoft đã công bố việc tích hợp VUI (Voice User Interface) thay cho GUI (Graphic User Interface) truyền thống vào phiên bản hệ điều hành Windows thế hệ mới với mật danh

Page 8: Mạng thần kinh nhân tạo

8

Whistler. Kết quả này có ý nghĩa rất lớn trong giao tiếp người-máy: thay vì giao tiếp với máy tính qua những biểu tượng và cửa sổ, các máy tính trong tương lai chỉ giao tiếp với con người bằng những mệnh lệnh đơn giản. Nhận dạng và tổng hợp tiếng nói có vai trò quan trọng đối với việc phát triển các hệ thông tin di động thế hệ thứ 3 (3G), với các tính năng ưu việt tập trung trong chiếc máy điện thoại di động mà một trong các dịch vụ điển hình là hệ thống thông điệp hợp nhất (Unified Messaging System - UMS). Sản phẩm về các bo mạch của Dialogic đã tích hợp các công nghệ tổng hợp và nhận dạng tiếng nói qua điện thoại cho nhiều ngôn ngữ hệ Latinh. Ngoài ra, một trong những ứng dụng điển hình và mang tính chất kinh điển từ trước tới nay của nhận dạng tiếng phục vụ cho điều khiển bằng giọng nói và bảo mật, cho tự động hoá văn phòng, những ứng dụng rộng rãi trong viễn thông, bảo tồn văn hoá, hỗ trợ người khuyết tật...

Về lĩnh vực nhận dạng chữ, các phần mềm thương phẩm nhận dạng chữ in cho các ngôn ngữ hệ Latinh và Slavơ đã đạt được chất lượng nhận dạng rất cao, ví dụ như OMNIPAGE 11.0 của Caere (Mỹ), Fine Reader 7.0 của ABBYY (Nga), Yonde OCR của Aisoft và KanjiScan (Nhật). Để đạt tới các phiên bản với chất lượng cao như vậy, từ hơn 10 năm nay, các hãng phần mềm này vẫn phải liên tục cho phát triển hoàn thiện các chức năng nhận dạng cũng như tiền và hậu xử lý. Nhưng đối với chữ viết tay trực tuyến hoặc gián tiếp, chất lượng nhận dạng thấp hơn nhiều và các phương pháp hiện nay mới chỉ nhận dạng được chữ viết tay có hạn chế. Vì vậy trên các tạp chí chuyên ngành về nhận dạng, các chủ đề này vẫn còn đang được đề cập đến nhiều với các cách tiếp cận khác nhau, đề cập tới các phương pháp cải tiến để tăng chất lượng nhận dạng, tách và cắt chữ, và kết hợp với ngữ nghĩa của từng ngôn ngữ cụ thể.

Xử lý ngôn ngữ tự nhiên là lĩnh vực nhằm làm cho máy tính có thể hiểu và sử dụng được ngôn ngữ tự nhiên của con người (cả ngôn ngữ nói và ngôn ngữ viết), bao gồm các hệ dịch tự động, tìm kiếm thông tin, tổng hợp văn bản tự động, tính toán ngôn ngữ, v.v.

Dịch văn bản từ một ngôn ngữ qua ngôn ngữ khác bằng máy tính là mơ ước từ buổi đầu của công nghệ thông tin. Với thành tựu nghiên cứu về xử lý ngôn ngữ tự nhiên bắt đầu từ những năm 60, cùng với sự tiến bộ nhanh chóng của kỹ thuật tính toán, việc dịch tự động ngôn ngữ tự nhiên đang được từng bước ứng dụng. Hiện nay trên thế giới đã có nhiều hệ dịch máy thương phẩm với chất lượng chấp nhận được (SYSTRAN, GLOBALINK, STYLUS, IBM, ...). Các cặp ngôn ngữ đã được thực hiện chủ yếu là những ngôn ngữ Âu châu (bao gồm Anh-Pháp, Pháp-Anh, Anh-Đức, Anh-Tây ban nha, Anh-Nga, Anh-Nhật, Nhật-Anh, v.v. và một số sản phẩm dịch một chiều khác). Các sản phẩm dịch tự động được sử dụng phổ biến từ những phần mềm cho các hệ máy lớn, trạm làm việc và máy tính cá nhân đến những thiết bị dịch tự động chuyên dụng cầm tay. Trên thế giới chưa có thương phẩm nào biên dịch Anh-Việt hay Việt-Anh.

Tình hình nghiên cứu trong nước: Nghiên cứu về nhận dạng và ứng dụng đã được tiến hành ở nước ta từ khá sớm. Các chương trình trọng điểm quốc gia về tin học, CNTT từ năm 1981 đến nay đều có nội dung nghiên cứu về nhận dạng. Đặc biệt từ năm 1991 đến nay, trong

Page 9: Mạng thần kinh nhân tạo

9

chương trình khoa học và công nghệ KC-01 (giai đoạn 1991-1995, 1996-2000), các vấn đề về Nhận dạng và xử lý thông tin hình ảnh đã được quan tâm và là nội dung nghiên cứu chính của đề tài KC-01-10, KC-01-07. Các đề tài đều được nghiệm thu đánh giá xuất sắc. Tuy nhiên trong giai đoạn này mới chỉ tập trung nỗ lực vào vấn đề nhận dạng chữ (sản phẩm VnDOCR 1.0 và 2.0) và một phần về dịch tự động (sản phẩm EVETRAN 1.0), nhận dạng và tổng hợp tiếng nói mới là những nghiên cứu thử nghiệm. Mặc dù trên thế giới đã có những bước tiến khá dài trong lĩnh vực nhận dạng-tổng hợp tiếng nói, và xử lý ngôn ngữ tự nhiên, ở Việt nam vấn đề này chỉ mới được quan tâm và chưa nhiều người nghiên cứu. Trong khi đó nhu cầu giao tiếp với máy tính bằng tiếng Việt đang ngày càng cấp thiết bởi chúng ta không thể lúc nào cũng sử dụng các phần mềm nhận dạng và tổng hợp tiếng nói với ngôn ngữ là tiếng Anh. Nhận dạng, tổng hợp tiếng nói Việt, nhận dạng chữ viết Việt, máy hiểu ngôn ngữ Việt không chỉ cần những nghiên cứu cơ bản và kỹ thuật chung, mà còn phải dựa trên các đặc trưng ngôn ngữ tiếng Việt. Đã có những bước đi ban đầu của một số cơ sở có tiến hành nghiên cứu về lĩnh vực này: - Phòng Nhận dạng và Công nghệ Tri thức, Viện Công nghệ Thông tin, - Trung tâm MICA, Đại học Bách khoa, Hà nội - Nhóm nghiên cứu của Bộ môn Khoa học Máy tính, Khoa CNTT, ĐHBK Hà

Nội, - Nhóm nghiên cứu của Khoa Công nghệ Thông tin, Trường Đại học Khoa học

Tự nhiên, TP. Hồ Chí Minh, - Công ty CDIT, Tổng Công ty Bưu chính Viễn thông Việt nam - Softext, Viện ứng dụng công nghệ và còn một số công trình của các cá nhân làm đề tài thạc sĩ và tiến sĩ. Về nhận dạng và tổng hợp tiếng Việt: Trước hết đây là vấn đề khó, đòi hỏi phải có tập trung nghiên cứu trong thời gian dài. Trong thời gian qua, các nghiên cứu còn tản mạn, các kết quả tập trung chủ yếu vào thử nghiệm bước đầu tổng hợp tiếng Việt dựa trên một số kỹ thuật cơ bản, và giải quyết các ứng dụng điều khiển bằng giọng nói với lượng từ vựng nhỏ để có thể triển khai nhanh, để minh họa và thực tế là chưa khai thác đặc điểm riêng của ngữ âm tiếng Việt. Trong đề tài KC-01-10, các nội dung về tổng hợp và nhận dạng tiếng Việt mới được tiến hành nghiên cứu ở hai năm cuối (1999-2000). Vì thế chưa có sản phẩm có khả năng ứng dụng rộng rãi chẳng hạn cho các ứng dụng văn phòng hay các ứng dụng trong viễn thông. Về nhận dạng chữ Việt: Phòng Nhận dạng và Công nghệ tri thức Viện CNTT đã bước đầu thành công trong lĩnh vực nhận dạng chữ Việt in, đã và đang phát triển phần mềm Nhận dạng VnDOCR 2.0 hiện đang thương mại hoá rộng rãi trên thị trường. Cũng như bất kỳ một sản phẩm phần mềm nào, VnDOCR cần được hoàn thiện để giải quyết các yêu cầu cao hơn về chất lượng nhận dạng trên các văn bản đầu vào xấu hơn, các tài liệu cũ, v.v. Ngoài ra, các khoa Công nghệ Thông tin của các trường đại học như Bách khoa Hà nội, Đại học Quốc gia, Đại học KHTN TP

Page 10: Mạng thần kinh nhân tạo

10

Hồ Chí Minh cho sinh viên làm luận văn cao học hoặc cử nhân về nhận dạng chữ, nhưng đều ở dạng tiếp cận kiến thức, chưa thành dạng thương phẩm. Sản phẩm Image Scan của Công ty CadPro cũng có giới thiệu bước đầu trên thị trường. Ngoài ra vấn đề nhận dạng chữ viết tay tiếng Việt cũng cần được đặt ra để giải quyết cho từng bài toán cụ thể.

Về xử lý ngôn ngữ tự nhiên tiếng Việt: Các nghiên cứu hướng nhiều vào dịch tự động. Sản phẩm phần mềm EVTRAN (Phòng thí nghiệm Công nghệ Phần mềm máy tính, Trung tâm Công nghệ vi điện tử và Tin học) biên dịch tự động Anh Việt đã có mặt trên thị trường. Hiện nay đã có phiên bản EVTRAN 2.0 với nhiều tính năng trợ lý ngôn ngữ thuận tiện. Đây cũng là thương phẩm duy nhất về dịch tự động Anh-Việt. EVTRAN đã được phát triển trên mười năm (bắt đầu từ năm 1990). Sản phẩm đã góp phần hỗ trợ mọi người trong việc đọc hiểu văn bản tiếng Anh và biên dịch sang tiếng Việt. Tuy nhiên chưa có hệ dịch cho chiều ngược lại (Việt- Anh). Cũng như hấu hết các sản phẩm dịch tự động hiện nay trên thế giới, do vấn đề quá khó, EVTRAN còn phải được theo đuổi lâu dài để dần hoàn thiện. Điều đáng chú ý là cần chú trọng hơn đến các nghiên cứu và công cụ cơ sở của xử lý ngôn ngữ tự nhiên tiếng Việt, như từ điển điện tử, phân tích và hiểu tiếng Việt trên máy tính...

2.2. Những nội dung đã thực hiện 2.2.1 Kết quả về Tổng hợp và Nhận dạng tiếng Việt Khảo sát về ngữ âm tiếng Việt Để có thể tiến hành nghiên cứu về tổng hợp cũng như nhận dạng tiếng Việt, đề tài ban đầu phải tập trung vào nghiên cứu các khía cạnh ngữ âm của tiếng Việt. Tiếng Việt là ngôn ngữ đơn âm (monosyllable) và có thanh điệu (tonal). Tiếng Việt có 6 thanh theo truyền thống (thanh không, hỏi, ngã, nặng, sắc, huyền), và 8 thanh theo ngữ âm học, có khoảng 6.700 âm tiết có nghĩa (trong số hơn 19.000 âm tiết có thể). Âm tiết nào của tiếng Việt cũng mang một thanh điệu và cấu trúc ổn định. Cấu trúc tổng quát của âm tiết tiếng Việt được trình bày như sau Cấu trúc tổng quát của một âm tiết tiếng Việt là (C1)(w)V(C2). Trong đó C1 là phụ âm đầu, (w) là âm đệm, V là âm chính và C2 là âm cuối. Âm đầu thường là phụ âm, được gọi là phụ âm đầu. Âm đệm nằm giữa âm đầu và âm chính làm thay đổi âm sắc của âm tiết. Âm chính luôn luôn có mặt trong mọi âm tiết và có chức năng qui định âm sắc chủ yếu của âm tiết. Âm chính luôn là nguyên âm. Âm cuối

Thanh điệu

Âm đầu Phần vần

Âm đệm Âm chính Âm cuối

Page 11: Mạng thần kinh nhân tạo

11

là phụ âm hoặc là bán nguyên âm, có chức năng là cơ sở để phân chia loại hình âm tiết, để nhận ra sự phân bố, xuất hiện của thanh điệu. Âm đầu, âm đệm và âm cuối có thể khuyết trong một số trường hợp. Thanh điệu luôn có mặt trong âm tiết và có chức năng khu biệt âm tiết về cao độ và thanh điệu là yếu tố siêu đoạn tính. Để xây dựng CSDL âm (cho hai giọng Nam và Nữ chuẩn Hà nội), chia phần vần thành các nhóm đặc trưng, thu mẫu âm thanh, đo số liệu Pitch bằng máy Sonagraph, từ đó rút ra số liệu đặc trưng cho 8 thanh tiếng Việt. Đề tài đã tập trung phân tích âm tiết tiếng Việt, cụ thể phân tích ảnh hưởng thanh điệu của phụ âm dấu hữu thanh, nguyên âm chính, phụ âm cuối; phân tích các yếu tố âm như sự tắc họng, yếu tố định lượng như trường độ (duration). Tiếng Việt gồm 22 phụ âm đầu, 20 phần chính (âm đệm và nguyên âm chính) và 155 phần vần không dấu, với các phân tích trên:

• 22 phụ âm đầu chia thành 4 nhóm: + vô thanh (stop, voiceless): p, t, k-c-q + âm xát (fricative): ph, x, kh, h, v, d, đ, ch, ng-ngh, g-gh, th + âm vang (resonant or cororal): m, n, nh, l + âm bật đầu lưỡi (retroflex): tr, s, gi, r

• 20 phần chính: + âm đệm (zero-/u/) + nguyên âm chính: a, ă, â, e, ê, i, ia, iê, o, oa, oe, ơ,

ô, u, uâ, uyê, uyu, uô, ư, ươ. • 155 phần vần:

+ Thu phần vần với thanh không dấu và không tận cùng bởi tắc vô thanh, khoảng gần 100 vần

+ Thu phần vần với các thanh sắc (acute-mark) cho các âm tận cùng là là p, t, k, khoảng 55 vần

2.2.1.1 Tổng hợp tiếng Việt Trong thời gian thực hiện Đề tài, đã nghiên cứu 3 phương pháp tổng hợp tiếng Việt: 1/ghi âm thuần tuý (cho toàn bộ từ điển); 2/ kết nối các đơn vị âm cơ bản của ngôn ngữ (các âm cơ bản được ghi sẵn) để tạo thành một mẫu âm thanh cho âm tiết bất kỳ (số đơn vị cơ bản là rất nhỏ, không hạn chế số lượng từ), 3/ tái tạo lại tiếng trên cơ sơ phân tích các tham số âm học của tiếng nói (như các phooc măng, tần số cơ bản). Sau khi nghiên cứu, đề tài đã lựa chọn phương pháp kết nối các đơn vị âm cơ bản của ngôn ngữ (PSOLA – Pitch Synchronize OverLap Adding), là bước đầu nghiên cứu để tìm hiểu bản chất của âm tiết và có thể tạo ra sản phẩm nhằm đưa tới các định hướng ứng dụng cụ thể, đã tiến hành lựa chọn biểu diễn nhỏ nhất có thể cho tiếng Việt. Với cách lựa chọn giải pháp trên, vấn đề đặt ra là nghiên cứu tổng hợp tiếng nói ở mức từ & cụm từ tiếng Việt. Các vấn đề nghiên cứu và các công cụ sau đã được được thực hiện và phát triển nhằm giải quyết vấn đề trên: − Nghiên cứu các bộ đơn vị khác nhau cho tổng hợp tiếng Việt, − Tìm kiếm từ và gán nhãn từ loại, tích hợp phần phân đoạn từ trong câu tiếng

Việt,

Page 12: Mạng thần kinh nhân tạo

12

− Phân tích hiện tượng từ láy trong ngôn ngữ tiếng Việt, − Lập bộ các mẫu của cặp các thanh điệu của một từ, − Khảo sát ban đầu các quy luật về khoảng lặng giữa các từ, giữa các âm tiết, − Phân tích hiện tượng biến thanh khi phát âm một từ đôi, từ ba, − Đang tích hợp thuật toán kết nối các âm tiết trong một từ để thể hiện khả năng

đọc dính âm. Kết quả của các nghiên cứu trên đã làm tăng chất lượng tiếng nói tổng hợp so với các phiên bản tiếng nói tổng hợp đầu tiên của đề tài. Hiện tại chất lượng tiếng nói tổng hợp trong phiên bản hiện tại đã đạt khoảng 75-80% tiếng nói tự nhiên (xem đánh giá). Trong giai đoạn nghiên cứu tiếp theo, để có thể tiến tới giải quyết vấn đề ngôn điệu (prosody), đề tài đang nghiên cứu mô hình Fujisaki, một mô hình đã được chứng tỏ có hiệu quả cho các ngôn ngữ có thanh điệu. − Ghi bộ dữ liệu âm cho tổng hợp tiếng Việt

• Lựa chọn các mẫu cộng tác viên (CTV) nói giọng Hà Nội (21 người đọc); • Ghi âm theo tiêu chuẩn phân tích: 21 CTV x 3 lần người x 9 nguyên âm; • Phân tích hệ Phooc măng của 21 CTV theo tần số (Hz). • Tổng kết hệ Phooc măng của nguyên âm tiếng Việt phục vụ cho tổng hợp

tiếng Việt bằng phương pháp Phooc măng. Sản phẩm phần mềm: Hệ thống Tổng hợp tiếng nói VnVoice 2.0

Phương pháp

Hệ thống tổng hợp tiếng nói (từ văn bản chữ in tiếng Việt thành tiếng nói) dựa trên kỹ thuật PSOLA - Pitch Synchronize OverLap Adding với bộ đơn vị âm đủ nhỏ cho phép thực hiện nhanh việc tạo CSDL âm và có khả năng tích hợp vào các ứng dụng nhúng. Với phiên bản VnVoice 2.0, CSDL âm bao gồm 19 phụ âm đầu có tính ngữ cảnh, 12 nguyên âm chính, hơn 700 vần với đầy đủ thanh, tổng số hơn 900 đơn vị. Phiên bản VnVoice 1.0 có CSDL gồm 330 đơn vị, gồm 19 phụ âm đầu có tính ngữ cảnh 12 nguyên âm chính và 163 vần không mang thanh hoặc vần mang thanh sắc cho các vần kết thúc bằng p,t,c-ch, với bộ đơn vị này chương trình phải thay đổi F0 để tạo các thanh khác nhau từ vần gốc.

• Dựa trên phương pháp ghép nối các đơn vị âm cơ bản, sử dụng phương pháp PSOLA (khoảng 900 đơn vị) dung lượng bộ nhớ 6MB RAM

• Tổng hợp được tất cả các thanh tiếng Việt, bao gồm cả thanh ngã và thanh nặng.

• Đọc các khuôn dạng phi từ: biểu thức số, ngày tháng, giờ điện tử, tiền Việt, các đơn vị đo lường, các xâu viết tắt thông dụng.

• Đọc tự động văn bản hỗn hợp Việt - Anh, hoặc thuần Việt, hoặc thuần Anh. Chức năng hoạt động − Giao diện:

Page 13: Mạng thần kinh nhân tạo

13

• Đọc các văn bản từ các nguồn: trên clipboard, các khoản mục trên Menu của chương trình, văn bản từ bàn phím gõ vào, văn bản trên các Website, trong các ứng dụng Microsoft Word, Outlook Express.

Phương pháp đánh giá độ hiểu và độ tự nhiên của phần mềm tổng hợp tiếng Việt VnVoice − Để đánh giá độ hiểu của tiếng Việt tổng hợp, đề tài đã làm thực hiện những

đánh giá và kết quả thống kê trên 100 đối tượng sau: Nhóm A (50 người, khác nhau về tuổi và giới tính) là những người nghiên cứu và sử dụng tiếng Việt, do vậy yêu cầu của họ khi nghe chương trình tổng hợp tiếng Việt là khắt khe hơn, Nhóm B (50 người, khác nhau về tuổi và giới tính) chiếm số đông trong xã hội, yêu cầu quan trọng nhất cho việc đánh giá tiếng Việt tổng hợp là mức độ hiểu của họ là bao nhiêu. Kết quả cụ thể như sau (đề tài có bản thống kê so sánh chi tiết) : Đối với nhóm A:

Ý kiến thống nhất: - Đánh giá của cả hai nhóm về chất lượng của nguyên âm và phụ âm cuối

tốt là tương đối thống nhất - Nhóm A1 (cán bộ nghiên cứu ngôn ngữ): có 68% đánh giá phụ âm đầu

của văn bản tổng hợp có lỗi, nhóm A2 là 58%. - Nhóm A2 (phóng viên): có 64% đánh giá tốc độ của văn bản tổng hợp là

chậm, nhóm A2 là 84%. Ý kiến khác biệt: Sự khác biệt lớn nhất là đánh giá về lỗi thanh điệu và so sánh với lời nói thực:

- 100% nhóm A1 cho rằng thanh điệu của lời nói tổng hợp không có lỗi. Trong khi đó chỉ có 54% của nhóm A2 cho rằng thanh điệu của lời nói tổng hợp không có lỗi.

- 48% nhóm A1 cho rằng giọng nói tổng hợp đạt tỉ lệ 90% so với tiếng nói thực, 36% nhóm A2 đánh giá giọng nói tổng hợp đạt tỉ lệ 50% so với tiếng nói thực Đối với nhóm B, chia làm 2 nhóm nhỏ B1 (công chức) và nhóm nhỏ B2

(người khiếm thị): Đánh giá hiểu khi nghe: nhóm B1 có 92% , nhóm B2 có 40%. Đánh giá giọng nói tốt, dễ hiểu: nhóm B1 có 4%, nhóm B2 có 36%.

Nhận xét tổng quan: − Về cơ bản giọng nói tổng hợp VnVoice đã thực hiện được một cách cơ bản

chức năng chuyển văn bản sang giọng nói. Giọng nói ở bước đầu đã đạt được ở mức độ rõ ràng, mạch lạc và người nghe có thể hiểu được đoạn văn bản.Trong giai đoạn đầu tiên, sản phẩm của đề tài chưa tập trung giải quyết vấn đề ngữ điệu mà chỉ tập trung giải quyết đọc rõ âm tiết và một phần tính đều trong câu, do đã có áp dụng việc phân tích câu. Tuy nhiên một số từ ghép chưa đảm bảo tính đều do giải quyết trường độ trong các cặp âm tiết với kết thúc bằng phụ âm

Page 14: Mạng thần kinh nhân tạo

14

tắc vô thanh p-t-c-ch chưa triệt để do cần có những nghiên cứu sâu sắc hơn. Việc nghiên cứu mô hình Fujisaki (một mô hình đã được chứng tỏ có hiệu quả với các ngôn ngữ có thanh điệu như tiếng Trung, tiếng Thái) mà đề tài đang nghiên cứu và đã có những kết quả ban đầu nhằm giải quyết trong giai đoạn tiếp theo về ngữ điệu của câu tổng hợp và trường độ trong câu.

− Các lỗi tập trung ở một số phụ âm đầu, thanh điệu (do dữ liệu âm thanh) và tốc độ đọc chậm (xử lý thuật toán). Những lỗi này có thể sớm khắc phục được

− Vấn đề còn tồn tại lớn nhất là ngữ điệu trong câu: sự kết nối giữ các âm tiết, ngừng nghỉ sau các dấu câu kể cả trường độ của những âm tiết mang trọng âm câu.

Có thể khẳng định giọng nói tổng hợp VnVoice của đề tài đã giải quyết căn bản vấn đề tổng hợp âm tiết tiếng Việt. Những vấn đề thuộc phạm vi ngoài âm tiết: từ láy, ghép, cụm từ (thành ngữ, tục ngữ…) và câu còn cần tiếp tục hoàn thiện. 2.2.1.2 Nhận dạng tiếng Việt Mục tiêu của đề tài là nghiên cứu các phương pháp nhận dạng câu liên tục tiếng Việt với lượng từ vựng cỡ nhỏ và trung bình. Sau khi đạt được những kết quả và kinh nghiệm trong tạo lập CSDL ngữ âm và đánh giá giải pháp, tiến tới nhận dạng câu liên tục với lượng từ vựng lớn. Các vấn đề sau đã được giải quyết: − Nghiên cứu, phân tích các đặc trưng ngữ âm, thông số của tiếng Việt, văn phạm

tiếng Việt phục vụ cho nhận dạng tiếng nói, đặc biệt là các vấn đề liên quan đến thanh điệu và độ dài của các phụ âm đầu và vần. • Xây dựng module xử lý mô hình ngôn ngữ với phân loại nhóm từ và tính

các bảng xác suất chuyển trạng thái âm tiết. − Nghiên cứu một số khía cạnh của ngôn ngữ tiếng Việt, đặc biệt về từ vựng học

(lexicon), ngữ âm và văn phạm tiếng Việt (grammar). • Xây dựng module phân tích văn bản tiếng Việt (VTA) chuẩn hoá văn bản,

tìm kiếm kết thúc câu, phân lớp từ sử dụng mô hình ngôn ngữ n-grams với các phép làm trơn, phân lớp văn bản theo từng chủ đề, tìm kiếm từ khoá trong văn bản, phân đoạn từ và gán nhãn từ loại trong văn bản, xây dựng bộ văn phạm tiếng Việt (ứng dụng cho cả tổng hợp và nhận dạng tiếng Việt).

− Nghiên cứu để tạo lập CSDL các mẫu câu để tạo tham số huấn luyện cho mô hình 3 mức: âm tiết - âm vị - âm học.

− Nghiên cứu bài toán nhận dạng tiếng nói liên tục trên CSDL từ vựng cỡ nhỏ, trung bình, tiến tới lớn CSDL lớn. Các mô hình và giải pháp sau đã được khảo sát và áp dụng cụ thể để phát triển các chưong trình nhận dạng câu lệnh liên tục, các chữ số tiếng Việt phát âm liên tục: • Nghiên cứu mô hình Markov ẩn và mạng nơ ron nhân tạo, các mô hình lai

ghép giữa mạng nơ ron nhân tạo và mô hình Markov ẩn trong huấn luyện tham số nhận dạng tiếng nói liên tục.

• Khai thác các bộ mã nguồn mở như CSLU Toolkit, HTK nhằm áp dụng phương pháp mô hình Markov ẩn và mạng nơ ron nhân tạo để nhận dạng trên bộ CSDL nhỏ và vừa.

• Nghiên cứu các vấn đề làm trơn xác suất khi tính các bảng chuyển trạng thái xác suất của các âm tiết tiếng Việt rời.

Page 15: Mạng thần kinh nhân tạo

15

− Nghiên cứu các cách tiếp cận nhận dạng tiếng nói trong thời gian thực, hướng tói các ứng dụng thực tế.

− Khai thác các môi trường phát triển như MATLAB, PRAAT với các công cụ về xử lý tín hiệu tiếng nói.

− Xây dựng CSDL ngữ âm • CSDL tiếng nói gồm 250 giọng với bộ từ vựng là chữ số, chữ cái, lệnh • CSDL tiếng nói của 1 giọng với hơn 3000 mẫu vần, 3000 mẫu phụ âm đầu. • Thiết lập được CSDL văn bản gồm 265-800 câu tiếng Việt làm mẫu huấn

luyện, CSDL câu và gán nhãn bằng tay để huấn luyện đơn vị âm trong ngữ cảnh.

2.2.1.2 Sản phẩm phần mềm Chương trình nhận dạng lệnh VnCommand A. Nhận dạng lệnh, trình diễn khả năng điều khiển chương trình ứng dụng trên Windows. Mục đích Phần mềm nhận dạng lệnh ứng dụng trong điều khiển thay thế cho người dùng nhấn chuột hoặc gõ lệnh từ bản phím. CSDL gồm tập các lệnh nhỏ (dưới 100 lệnh). Kết quả của sản phẩm: chỉ ra khả năng tạo ra một hệ thống nhận dạng lệnh tiếng Việt, độc lập người nói với độ chính xác rât cao trên một tập lệnh với độ đồng âm giữa các lệnh thấp. Phương pháp nhận dạng: Sử dụng mô hình Markov GMM thông thường (Gaussian Markov Model) với huấn luyện riêng rẽ từng tổ hợp âm và giai đoạn nhận dạng là khá nhanh. Bước 1. Xử lý tiếng nói trong thời gian thực, theo từng khung cỡ 20 mili giây, mỗi khung được lấy đặc trưng bởi các hệ số MFCC và hệ số năng lượng.

Vòng lặp xác định điểm kết thúc của một đoạn tiếng nói, nếu tìm thấy thoát khỏi vòng lặp.

Bước 2. Chuyển qua mô hình GMM của từng tổ hợp âm. Bước 3. Quyết định nhận dạng. Chức năng hoạt động − Điều khiển máy tính thực hiện một số lệnh trong phần mềm ứng dụng phổ dụng − Nhận dạng độc lập người nói một số lệnh của Internet Explorer bao gồm tích

hợp các modul sau: • Modul nhận dạng từ đơn lẻ trạng thái tĩnh. • Tập từ vựng

Page 16: Mạng thần kinh nhân tạo

16

Bảng lệnh Internet Explorer

Ghi Trang ngầm định

In Tải lại trang

Tuỳ chọn in Xem mã nguồn

Xem để in Toàn màn hình

Gửi nội dung Trang ưa thích

Gửi địa chỉ Gửi thư

Thuộc tính Đọc thư

Ngừng kết nối mạng Tuỳ chọn

Xoá Trợ giúp

Copy Ghi tệp

Dán Ghi file

Chọn hết Tìm kiếm

• Modul thu nhận tín hiệu tiếng nói từ các nguồn vào Audio, Headphone, File • Tìm kiếm các diểm đầu-cuối của một từ (cụm từ) trong môi trờng thời gian

thực. − Giao diện

• Hệ thống chạy nền, gồm nhiều luồng, màn hình ứng dụng thu gọn gồm nhiều dịch vụ nền

• Cửa hội thoại cho phép thay đổi tham số nhận dạng, lấy thông số nền như độ nhiễu của môi trường xung quanh.

− Phạm vi ứng dụng : • Ứng dụng cho các hệ thống điều khiển bằng giọng nói • Số lượng từ vựng cho trước, có thể lên đến 200 khẩu lệnh (các lệnh có độ

đồng âm thấp). • Việc quyết định nhận dạng tương đối dễ dàng, cho phép nhúng vào các hệ

thống với tài nguyên thấp (bộ nhớ, năng lực tính toán...) Đánh giá thực nghiệm module VnCommand − Môi trường thu tín hiệu : văn phòng, trường học. − Thiết bị thu nhận tín hiệu: card âm thanh onboard trên máy NoteBook. − Số lượng giọng và mẫu huấn luyện: 200 người, 100 nam, 100 nữ giọng miền

Bắc. Mỗi người đọc 1 lệnh 1 lần. trong đó số lượng âm tiết rời là 40, đọc rời rạc (có ngừng giữa các âm tiết ) hay dính âm.

Page 17: Mạng thần kinh nhân tạo

17

− Số lượng giọng kiểm tra : 38, một số giọng không đọc đủ mẫu − Kết quả nhận dạng : sai số 2/695 *100 (sai 2 lỗi trên tổng số 695 âm kiểm tra),

hệ thống cho độ chính xác là 99.7% Nhận xét : − Hệ thống huấn luyện từng tổ hợp âm là riêng rẽ, vì thế việc thêm một vài tổ

hợp âm mới là dễ dàng và độc lập với những mô hình của các tổ hợp âm. Tuy nhiên độ chính xác sẽ kém đi với những tổ hợp có sự đồng âm.

− Mô hình là bất biến với tốc độ phát âm, có thể đọc nhanh hoặc đọc chậm một tổ hợp âm, độ chính xác vẫn khá cao.

− Hệ thống là độc lập người nói, độ chính xác sẽ rất cao nếu có một cơ sở dữ liệu cỡ 1000 giọng khác nhau. Hiện tại chương trình đã xử lý 240 giọng trên một cơ sở dữ liệu 300 giọng đọc.

Chương trình nhận dạng lệnh 10 chữ số tiếng Việt liên tục qua điện thoại Mục tiêu Xây dựng hệ thống nhận dạng mười chữ số tiếng Việt liên tục qua mạng điện thoại, dùng hệ thống nhận dạng lai ghép giữa mạng nơ ron nhân tạo và mô hình Markov ẩn (ANN/HMM) Phương pháp nhận dạng Phương pháp nghiên cứu sử dụng hệ thống nhận dạng lai ghép giữa mạng neuron và mô hình Markov ẩn HMM/ANN (Hidden Markov Model/ Artificial Intelligent Network). Đây là phương pháp nhận dạng tiên tiến, đã được sử dụng rộng rãi tại nhiều trung tâm nghiên cứu trên thế giới, tận dụng hai ưu điểm của HMM và ANN: khả năng phân lớp của mạng neuron và khả năng mô hình hoá thông tin thời gian của mô hình Markov ẩn. Có khá nhiều kiến trúc hệ thống lai ghép HMM/ANN đã được đề xuất, trong đó thông dụng nhất là kiến trúc dùng mạng MLP làm xác suất phát xạ quan sát trong các hệ thống mạng lai ghép. Hàm bj(k) trong mô hình Markov ẩn không phải hàm mất độ xác suất mà là giá trị xác suất đầu ra của mạng ANN. Hình dưới đây miêu tả quan hệ giữa các mô hình HMM và mạng neuron ANN. Mỗi nút ra của mạng ANN tương ứng với một trạng thái của mô hình HMM. Trạng thái của âm vị /oo/ trong hai từ ”bốn” và ”một” có chung nhau một nút ra của mạng ANN. Như vậy mỗi một category của một âm vị tương ứng với mỗi trạng thái.

...

...

...

b-oo+n m-oo+tc

C¸c m« h×nhMarkov

C¸c nót ra cñaANN

C¸c nót Èncña ANN

C c nót vµo

Page 18: Mạng thần kinh nhân tạo

18

Hệ thống lai ghép HMM/ANN được huấn luyện bằng huấn luyện nhúng (embedded). Tưng ứng với mỗi phát âm, các mô hình Markov ẩn của các đơn vị nhận dạng trong phát âm đó được nối ghép lại với nhau tạo thành một mô hình HMM lớn. Thuật toán forward-backward được áp dụng để điều chỉnh các tham số của các mô hình lớn này. Các giá trị output của mạng ANN được dùng làm xác suất phát xạ quan sát của mỗi trạng thái trong mô hình. Trong mỗi vòng lặp của huấn luyện forward-backward, thuật toán Viterbi được áp dụng để tìm ra dãy các trạng thái tốt nhất trong mô hình HMM lớn tương ứng với phát âm dùng để huấn luyện. Từ dãy trạng thái này, tại mỗi thời điểm tương ứng với một khung thời gian tín hiệu tiếng nói, ta sẽ có giá trị output của mạng ANN. Nút output tưng ứng với trạng thái hiện tại có giá trị là 1, các nút output khác có giá trị 0. Từ các giá trị output này, mạng ANN được huấn luyện lại bằng thủ tục truyền ngược sai số. Chức năng hoạt động − Khai thác môi trường tín hiệu tiếng nói trên điện thoại, cụ thể khai thác và lập

trình trên card Dialogic cho môi trường Windows. Với card Dialogic JCT120LS cung cấp 12 kênh riêng biệt với các khả năng sau: • Thu, mã hóa và nén âm thanh trong thời gian thực • Phát những files âm thanh • Phát / phát hiện các Tones như DTMF, MF • Khởi động và nhận các cuộc gọi giao diện điện thoại, khởi động lặp vòng • Thực thi việc phân tích tiến trình cuộc gọi

− Nhận dạng đạt độ chính xác 97,46% ở mức từ gần tương đương với các công bố về nhận dạng mười chữ số liên tục trên thế giới như tiếng Anh, Ý, Tây ban nha (cao nhất là 98,01%).

Phương pháp và kết quả đánh giá − Cơ sở dữ liệu tiếng nói được sử dụng được trích ra từ hai cơ sở dữ liệu tiếng

nói điện thoại “22 Language v1.2”, và “Multi-Language Telephone Speech v1.2” của trung tâm CSLU (Center for Speech Language Understanding), Viện Sau Đại học Oregon, Hoa kỳ. Đề tài đã có hợp tác với trung tâm này trong quá trình nghiên cứu triển khai nhận dạng mười chữ số liên tục.

− CSDL tiếng nói bao gồm 442 câu, 2345 từ, 243 người nói (165 nam, 78 nữ), thu âm theo hình thức phỏng vấn qua điện thoại. Câu dài nhất có 18 từ và câu ngắn nhất có 1 từ. Các câu được thu âm theo PCM 8kHz, 8bit mã hoá. Cơ sở dữ liệu được chia thành ba tập: tập dữ liệu huấn luyện (training set) và tập dữ liệu kiểm tra (test set). Tập dữ liệu huấn luyện bao gồm 300 câu, 1686 từ, do 158 người nói (104 nam và 54 nữ). Tập dữ liệu phát triển có 74 câu, 342 từ do 38 người nói (27 nam, 11 nữ) , tập dữ liệu kiểm tra có 68 câu, 317 từ do 47 người nói (34 nam, 13 nữ). Để đảm bảo tính khách quan, người nói trong tập dữ liệu kiểm tra là độc lập với người nói trong tập dữ liệu huấn luyện. Độ chính xác 97,58% được thực hiện trên tập dữ liệu thử này.

Page 19: Mạng thần kinh nhân tạo

19

− Người nói phát âm các câu bao gồm các chữ số như: số điện thoại, địa chỉ, số bưu điện, tuổi, ... Các câu được thu âm từ nhiều máy điện thoại khác nhau. Kiểu của máy điện thoại và đặc tính của kênh thoại không được xác định. Các câu thu được đa dạng và khác nhau về tốc độ phát âm; về độ to nhỏ; có câu được người nói nói trong văn phòng yên tĩnh, có câu có lẫn nhiều tạp âm như tiếng đài, ti vi xen vào khi người nói ngồi trong nhà, hay tiếng ô tô khi người nói đứng tại trạm bưu điện công cộng,... Tất cả các câu trong cơ sở dữ liệu tiếng đều được phiên âm chính tả và gán nhãn bằng tay tại mức âm vị.

Chương trình đọc chính tả VnDictator Đánh giá thực nghiệm Module thử nghiệm VnDictator (chưa thử nghiệm kết hợp mô hình ngôn ngữ) Mục đích: Nghiên cứu, đề xuất các cách tiếp cận nhận dạng tiếng nói rời rạc hoặc liên tục, phụ thuộc hoặc không phụ thuộc người nói với lượng từ vựng lớn (là tòan bộ từ điển âm tiết, từ tiếng Việt). Phương pháp nhận dạng: − Có hai lược đồ đã thử nghiệm:

• Dựa trên từng khung tiếng nói (phương pháp frame-based) • Dựa trên từng đoạn được gán nhãn (phương pháp segment-based), phát

triển thêm mô hình tích hợp nhận dạng thanh điệu. Các nhãn ở đây là phụ âm đầu, nguyên âm chính, âm cuối của một âm tiết. Kết quả nhận dạng riêng rẽ từng thành phần với kết quả đầu ra có thể nhiều hơn 1, sau đó kết hợp với từ điển âm tiết và mô hình ngôn ngữ để cho ra một câu có nhiều khả năng nhất.

− Sử dụng mô hình Markov ẩn HMM kiểu cạnh tranh (Có tích hợp phương pháp học dựa trên sự khác nhau của từng cặp âm tiếng nói). • Huấn luyện riêng rẽ từng đơn vị âm với mô hình HMM thông thường • Chia các âm thành các lớp như với phụ âm đầu lớp âm mũi, lớp âm xát vô

thanh, lớp âm xát hữu thanh, lớp âm tắc vô thanh, lớp âm xát hữu thanh. • Huấn luyện phân biệt theo từng lớp bằng cách chỉnh sửa đồng thời tất cả

các mô hình trong cùng một lớp dựa trên các mẫu huấn luyện được đưa vào − Mô tả thuật toán

Bước 1. Khởi tạo tham số cho bộ phân tích F0 Bước 2. Tải các tham số của 5 thanh điệu và các phụ âm đầu, nguyên âm, âm cuối vào bộ nhớ Bước 3. Xử lý buff bộ đệm trong thời gian thực, ta thu được các tham số đặc trưnng, mẫu tín hiệu, phần phân đọan các thành phần âm tiết. Bước 4. Nhận dạng âm tiết từ các thành phần nhận dạng âm đầu, nguyên âm, âm cuối, tone và kiểm tra trong từ điển âm tiết

Kết quả thử nghiệm: Phương pháp segment-based

Page 20: Mạng thần kinh nhân tạo

20

− Thuật toán phân đoạn âm tiết rời thành các thành phần phụ âm đầu, nguyên âm

chính, âm cuối dựa trên ngưỡng của năng lượng, trong đó phụ âm đầu và âm cuối có năng lượng thấp, khoảng 10%-15% so với năng lượng của thành phần nguyên âm.

− Danh sách các đơn vị âm dùng trong chương trình: • 19 phụ âm đầu: ng-ngh, nh, m, n, l, v, s, ph, kh, g, h, q-c-k, d-r, t, th, ch, đ,

b, không_phụ_âm • 12 nguyên âm chính: i, ê, e, iê, ư, ơ, a, ươ, u, ô, o, uô • 7 âm cuối: m, n, i, u, nh, ng, không_âm_cuối • 8 thanh điệu

Đánh giá độ chính xác : − Tập huấn luyện: hơn 3970 âm tiết − Tập kiểm tra : 3500 âm tiết − Trong phần này có sử dụng một số khái niệm về nhận dạng n-best nếu trong kết

quả nhận dạng đưa ra n phần tử "tốt nhất" của phép quyết định. Thường người sử dụng chỉ quan tâm tới 1-best tức là buộc kết quả đầu ra là duy nhất, tuy vậy trong các bài toán nhận dạng tiếng nói, thường phải chia thành nhiều pha nhận dạng trước khi cho ra kết quả cuối cùng vì vậy người ta thường lấy 1, 2, 3 hoặc thậm chí 5-best ở các pha trước để chuyển tới pha quyết định tiếp theo. • Nhận dạng 19 phụ âm đầu: kết quả với 1-best đạt 88%, 2-best là 93% • Nhận dạng nguyên âm đơn, đôi trong vần: đạt 95,75% cho 3-best, • Nhận dạng phụ âm cuối đạt 91,7% cho 3-best, • Nhận dạng thanh điệu: độ chính xác trung bình khoảng 95%. cho âm tiết

đọc rời, một giọng đọc phát thanh viên. Với chỉ 5 thanh (phát thanh viên này có thanh huyền trùng với thanh hỏi). Phải kết hợp với các điều kiện khác để phân biệt thanh huyền và thanh hỏi.

− Kết quả nhận dạng cụ thể vầ thanh điệu, 19 phụ âm đầu, 7 phụ âm cuối, 12 nguyên âm chính cho một giọng nữ được chỉ ra trong các Bảng 1 đến Bảng 4 sau:

STT Thanh điệu Số mẫu huấn luyện

Số mẫu kiểm tra Kết quả

1 Thanh ngã(x) 214 54 96,20% 2 Thanh huyền (f) 422 110 99,00% 3 Thanh hỏi (r) 394 101 93,06% 4 Thanh ngang (midle) 438 215 96,70% 5 Thanh sắc (s) 417 182 98,30%

6 Thanh sắc có kết thúc âm tiết /p/, /t/, /k/ (s2) 273 78 97,40%

7 Thanh nặng (j) 341 94 98.90% 8 Thanh nặng có kết thúc âm

tiết /p/, /t/, /k/ (j2) 187 46 93,40%

Page 21: Mạng thần kinh nhân tạo

21

Độ chính xác trung bình cho thanh điệu 95,75% Bảng 1: Kết quả nhận dạng thanh điệu giọng nữ.

Phụ âm đầu

Tỉ lệ mẫu sai 1-best và đúng tương ứng (%)

Tỉ lệ mẫu sai 2-best và

đúng tương ứng (%)

Ng 6/72 ; 91,6 3/72 ; 95,8 Nh 6/74 ; 91,8 0/74 ; 100 M 1/101 ; 99 1/101 ; 99 N 3/78 ; 96 1/78 ; 98,7 L 3/106 ; 97 2/106 ; 98,1 Null 9/100 ; 91 8/100 ; 92 S 5/101 ; 95 2/101 ; 98 Ph 3/53 ; 94,3 1/53 ; 98 Kh 1/90 ; 98,8 0/90 ; 100 G 10/34 ; 70,5 4/34 ; 88,2 H 5/101 ; 95 2/101 ; 98 Q 5/100 ; 95 5/100 ; 95 D 7/103 ; 93,2 0/103 ; 100 T 15/106 ; 85,8 11/106 ; 89,6 Th 0/102 ; 100 0/102 ; 100 Ch 1/100 ; 99 1/100 ; 99 Đ 7/100 ; 93 4/100 ; 96 B 2/100 ; 98 1/100 ; 99 V 10/101 ; 90 6/101 ; 94 Tổng 99/1722 52/1722 Độ chính xác 94,2% 96,9%

Bảng 2: Kết quả nhận dạng 19 phụ âm đầu.

Phụ âm cuối

Tỉ lệ mẫu sai 1-best(%)

Tỉ lệ mẫu sai 2-best (%)

M 64/300 ; 78,6 31/300 ; 89,6 N 43/300 ; 85,6 12/300 ; 96 I 8/288 ; 97,2 2/288 ; 99,3 U 17/150 ; 88,6 9/150 ; 94 Nh 46/150 ; 69,3 19/150 ; 87,3 Ng 50/300 ; 83,3 16/300 ; 94,6 Null 113/312; 63,7 59/312 ; 81 Tổng 341/1800 148/1800 Độ chính xác 81.% 91,7%

Bảng 3: Kết quả nhận dạng 7 phụ âm cuối.

Page 22: Mạng thần kinh nhân tạo

22

Nguyên

âm chính Tỉ lệ mẫu sai

1-best(%) Tỉ lệ mẫu sai 3-best (%)

I 16/100 ; 84 2/100 ; 98 Ê 16/100 ; 84 4/100 ; 96 E 16/100 ; 84 0/100 ; 100 Iê 12/100 ; 88 4/100 ; 96 Ư 22/100 ; 78 6/100 ; 94 Ơ 96/200 ; 52 28/200 ; 86 A 12/200 ; 94 1/200 ; 99,5 Ươ 22/69 ; 68 12/69 ; 82,6 U 35/80 ; 56,2 4/80 ; 95 Ô 3/200 ; 98,5 1/200 ; 99,5 O 2/200 ; 99 2/200 ; 99 Uô 14/50 ; 72 1/50 ; 98 Tổng 266/1499 65/1499 Độ chính xác 82,2% 95,6%

Bảng 4: Kết quả nhận dạng 12 nguyên âm chính.

− Tích hợp từ điển âm tiết: Lọc từ 18 khả năng tổ hợp âm tiết từ kết quả nhận

dạng để rt gọ xuống 1-5best : chưa đánh giá độ rút gọn được là bao nhiêu phần trăm

− Tích hợp mô hình ngôn ngữ trên toàn bộ câu: chưa thực hiện được để tích hợp xác định lưới âm vị từ mỗi âm tiết để từ đó nhân ra 1 -3 câu tốt nhất có thể.

Chức năng hoạt động − Nhận dạng phu thuộc người nói (giọng của phát thanh viên đã được huấn

luyện), lượng từ vựng đọc về cơ bản không hạn chế, thay thế cho việc người dùng gõ phím: • Module huấn luyện tham số cho các mô hình nhận dạng. • Module nhận dạng thanh điệu thử nghiệm. • Module nhận dạng tiếng nói liên kết (connected speech) • Module phân lớp người nói ứng dụng cho việc nâng cao chất lượng nhận

dạng tiếng nói độc lập người nói và nhận dạng người nói. − Giao diện

• Hệ thống chạy nền, gồm nhiều luồng, màn hình ứng dụng thu gọn gồm nhiều dịch vụ nền,

• Cửa hội thoại cho phép thay dổi tham số nhận dạng, lấy thông số nền như độ nhiễu của môi trường xung quanh.

Page 23: Mạng thần kinh nhân tạo

23

Nhận xét : − Với chương trình nhận dạng toàn bộ âm tiết tiếng Việt, đề tài đã giải quyết ba

vấn đề: • Huấn luyện âm vị trong ngữ cảnh câu và kết hợp mô hình ngôn ngữ để nhận

dạng câu, • Cải tiến chất lượng nhận dạng âm vị cho mô hình HMM gồm 19 phụ âm

đầu, 12 nguyên âm chính và các âm cuối, • Nhận dạng thanh điệu tiếng Việt.

− Mỗi vấn đề trên đều có những đặc điểm khác cơ bản so với tiếng Anh và cả với các tiếng Trung, Thái gần với tiếng Việt. Cụ thể: • Các âm vị tiếng Việt ngắn hơn rất nhiều so với âm vị tiếng Anh, một số âm

kết thúc với p, t, c-ch không có trong tiếng Trung, tiếng Thái, • Thanh điệu tiếng Việt phức tạp hơn so với các ngôn ngữ có thanh điệu

khác. − Không thể nhận dạng tốt một âm tiết (mặc dù chương trình đã nhận khá chính

xác các âm tiết có phụ âm đầu b, d, đ, c, ch, kh , vì thế để nâng cao độ chính xác phải tích hợp mô hình ngôn ngữ dù là đang xét với câu đọc rời rạc so với câu đọc liên tục)

− Bắt buộc phải dùng mô hình ngôn ngữ trong mọi bài tóan nhận dạng từ điển lớn, tuy nhiên cách áp dụng là rất khác nhau giữa tiếng Anh và tiếng Việt, trong đó âm tiết là một thành phần quan trọng để biểu diễn từ tiếng Việt. Mô hình ngôn ngữ phải cải tiến cho các từ đôi, ba, …

− Không thể hoàn tòan giao phó cho việc lựa chọn câu tốt nhất dựa trên mô hình ngôn ngữ, vì nó có thể đưa ra các kết quả rất “ngớ ngẩn” trong một vài trường hợp, khi mà nếu tích hợp mô hình xử lý âm tiết vào ta có thể đóan nhận từng âm tiết kết quả là gần với kết quả mong muốn hơn.

− Huấn luyện phân biệt các đơn vị âm là yếu tố quan trọng để giảm sự ngẫu nhiên trong kết quả đưa ra của mô hình Markov ẩn thuần túy dựa trên thống kê.

Đánh giá thực nghiệm Module thử nghiệm VnDictator (thử nghiệm kết hợp mô hình ngôn ngữ) Mục tiêu: Xây dựng phần mềm nhận dạng kiểu đọc chính tả tiếng Việt các từ rời với lượng từ vựng không hạn chế thay thế cho người dùng gõ phím. Phần mềm có khả năng nhận dạng tiếng nói của phát thanh viên, đọc chậm trong môi trường có độ nhiễu nhỏ. Phương pháp nhận dạng Phuơng pháp nhận dạng dùng Mô hình Markov ẩn trong công cụ HTK của Đại học Cambridge, xây dựng mỗi mô hình Markov cho một đơn vị nhận dạng (phone). Sử dụng phương pháp HMM cho huấn luyện nhúng, dùng 9/10 file dữ liệu âm thanh

Page 24: Mạng thần kinh nhân tạo

24

và phiên âm văn bản tương ứng cho huấn luyện, 10% còn lại dùng làm dữ liệu kiểm tra. − Trích trọn các đặc điểm Hệ thống nhận dạng làm việc dựa trên các khung tín hiệu (frame) 10ms. Phương pháp trích trọn đặc điểm PLP (Perceptron) được áp dụng cho mỗi khung tín hiệu tạo ra một vector gồm 39 đặc tính bao gồm: 12 giá trị hệ số PLP và giá trị năng lượng, 13 giá trị đạo hàm của các giá trị trên, 13 giá trị đạo hàm mức 2 của giá trị trên. Phương pháp xử lý tín hiệu dùng kích thước cửa sổ Hamming là 25sm, số mạch lọc là 22, hệ số dùng để nhấn mạnh (pre-emphasis) là 0.97, phương pháp CMS được áp dụng để lọc bỏ nhiễu. − Mô hình Markov ẩn Hệ thống nhận dạng dùng các mô hình Markov ẩn cho các đơn vị ngữ âm cơ bản là âm vị. Mỗi mô hình Markov chứa nhiều trạng thái, trong đó có một trạng thái khởi đầu và một trạng thái kết thúc là các trạng thái đặc biệt không phát sinh quan sát (non-emitting), nghĩa là không có xác suất phát xạ quan sát bj(ot) kết hợp với các trạng thái này. Mỗi mô hình Markov ẩn bao gồm năm trạng thái trong đó có trạng thái khởi đầu và trạng thái kết thúc.

Mô hình Markov ẩn dùng trong thử nghiệm Đối với các trạng thái không phải là trạng thái đầu và trạng thái cuối, xác suất phát xạ quan sát là một hàm mật độ xác suất được xây dựng trên cơ sở các hàm mật độ xác suất Gauss. Hàm này bao gồm một hoặc nhiều các dòng (stream), mỗi dòng có thể có một hoặc nhiều thành phần trộn bao gồm các hàm mật độ xác suất Gauss. Cấu trúc nhiều dòng cho phép hệ thống mô hình hoá nhiều dòng thông tin khác nhau. Thông thường số lượng dòng tối đa là 4 dòng. − Định nghĩa từ điển Từ điển được định nghĩa trong một tệp văn bản bao gồm các từ vựng mà hệ thống có thể nhận dạng được và các phiên âm của các từ này thành các âm vị của hệ thống. Một từ điển bao gồm nhiều dòng, mỗi dòng tương ứng với một từ và phiên âm của nó. Một từ có thể có nhiều phiên âm khác nhau. Đối với các ngôn ngữ nước ngoài, các bộ từ điển dùng cho các hệ thống nhận dạng đã được nghiên cứu kỹ từ lâu. Mỗi trung tâm nghiên cứu tự xây dựng một bộ từ điển của riêng mình, ví dụ như các bộ từ điển phiên âm nối tiếng của tiếng Anh: bộ

Page 25: Mạng thần kinh nhân tạo

25

từ điển của CMU bao gồm 100 000 từ tiếng Anh; bộ từ điển Beep, bao gồm phiên âm 250 000 từ tiến Anh. Đối với ngôn ngữ tiếng Việt, rất tiếc là cho tới thời điểm hiện nay chưa có một bộ từ điển phiên âm với kích thước lớn nào được công bố cho các hệ thống nhận dạng. Việc nghiên cứu để xây dựng một bộ từ điển bao gồm tất cả các âm tiết tiếng Việt là một vấn đề cần được quan tâm nghiên cứu. Để tiến hành xây dựng bộ từ điển gồm khoảng 4000 âm tiết cho hệ thống nhận dạng, chúng tôi xây dựng một chương trình tự động phân tích một âm tiết thành các âm vị tương ứng. Sở dĩ có thể xây dựng một chương trình tự động như vậy là do tiếng Việt có một cấu trúc bền vững, ổn định. Sự kết hợp giữa các âm vị trong tiếng Việt để tạo thành từ có qui luật và có thể lập trình được. Để tiến hành phân tích một từ thành các âm vị, chúng tôi sử dụng các giao trình sách giáo khoa tiếng Việt, trong đó nếu có sự không thống nhất tạm thời giữa các giáo trình, chúng tôi sử dụng tài liệu của Nguyễn Thiện Thuật. Ví dụ về một phần từ điển như sau:

soo s oo sp soo s oo sil ddieen dd ie n sp ddieen dd ie n sil thoai th w aw i sp thoai th w aw i sil quen k w e n sp quen k w e n sil thuooc th uo kc sp thuooc th uo kc sil cua k uo sp cua k uo sil

− Huấn luyện mô hình Markov ẩn Đầu tiên các âm đơn gồm các đơn vị nhận dạng cơ bản được huấn luyện. Sau một quá trình gán nhãn cưỡng bức, các âm đơn được huấn luyện lại một lần nữa trước khi các âm đơn này được sao chép thành các âm ba. Chúng tôi sử dụng các âm ba giới nội từ (word internal), ngữ cảnh chỉ ảnh hưởng tới các âm ba trong một từ, các từ được coi là cách nhau bởi một khoảng yên lặng. Sau khi các âm ba được huấn luyện, có khoảng 400 âm ba không có đủ dữ liệu để huấn luyện. Các âm ba này được buộc (tied) vào nhau để chia xẻ chung nhau dữ liệu huấn luyện.

Để huấn luyện các mô hình Markov ẩn chúng tôi sử dụng hàm trộn gồm 8 hàm Gauss. Đầu tiên các mô hình với một hàm Gauss được huấn luyện với một hàm Gauss, sau đó hàm này được sao chép thành 2 hàm Gauss. Sau khi các âm ba được huấn luyện với các hàm vừa được tạo, chúng lại tiếp tục được sử dụng để sao chép

Page 26: Mạng thần kinh nhân tạo

26

tạo thành các hàm Gauss mới. Quá trình lặp lại cho đến khi số lượng hàm Gauss đạt được như mong muốn.

Trong quá trình nhận dạng chúng tôi sử dụng mô hình ngôn ngữ bigram để đưa các thông tin về mô hình ngôn ngữ vào trong quá trình tìm kiếm Viterbi. Xác suất xuất hiện của các từ cũng như của cặp các từ được đưa vào trong mạng tìm kiếm. Chức năng hoạt động − Thử nghiệm nhận dạng giọng đọc chính tả tiếng Việt, đọc chậm trong môi

trường văn phòng độ nhiễu thấp. Kết quả đánh giá thử nghiệm

− CSDL tiếng nói bao gồm 23.434 câu thu từ các bài trên VOV (Voice of

Vietnam ), quãng 28.000 âm tiết gồm giọng đọc của gần 30 phát thanh viên, trong đó có 4 giọng nữ. Tổng cộng có khoảng 4.400 âm tiết khác nhau trên tổng số 6.700 âm tiết có nghĩa trong tiếng Việt. Mỗi câu có trung bình từ 5 dến 15 âm tiết. Các câu được thu âm theo PCM 16kHz, sử dụng 16 bit mã hoá.. Tất cả dữ liệu được gán với văn bản.

Nhận xét Dù rằng một số giải pháp đã tích hợp vào hệ VnDictator mới chỉ là thử nghiệm nhưng nó đã chứng tỏ khả năng sử dụng được và sẽ đạt được nhiều kết quả hơn nếu được đầu tư nhiều hơn về thời gian. − Như đăng ký, chương trình nhận dạng đọc chính tả tiếng Việt là chương trình

thử nghiệm, chỉ nhận dạng giọng đọc phụ thuộc người nói, (giọng của phát thanh viên) và môi trường văn phòng có độ ồn thấp. Vấn đề còn sai số trong nhận dạng tự động là điều không thể tránh khỏi. Trong phương pháp được sử dụng, ngoài mô hình nhận dạng còn kết hợp cả mô hình ngôn ngữ. Kết quả nhận dạng trên câu chưa thật chính xác phụ thuộc cả vào hai yếu tố: dữ liệu huấn luyện cho nhận dạng còn thiếu, một trong những vấn đề then chốt trong nhận dạng là phải đảm bảo đủ dữ liệu huấn luyện, Việc xây dựng CSDL phải là một dự án co qui mô lớn. Ngoài ra, cũng dựa trên CSDL lớn mới có thể huấn luyện mô hình ngôn ngữ phong phú. Trong chương trình thử nghiệm đăng ký trong đề tài, chỉ tập trung với một bộ dữ liệu huấn luyện (truyên Dế mèn phiêu lưu ký) nên sai số là điều không thể tránh khỏi. Nhưng cách tiếp cận của đề tài bám theo những kết quả nghiên cứu về nhận dạng trên thế giới, kết hợp với đặc thù ngữ âm và mô hình ngôn ngữ tiếng Việt nên đảm bảo hướng đi đúng đắn trong các nghiên cứu tiếp theo.

Nghiên cứu thử nghiệm xây dựng công nghệ coding ngữ nghĩa của âm thanh

Page 27: Mạng thần kinh nhân tạo

27

Ngoài hai nội dung nghiên cứu về tổng hợp và nhận dạng tiếng Việt như đã trình bày trong hai phần trên, một nhánh nghiên cứu khác của đề tài nhằm tập trung vào một giải pháp mới không kinh điển, với hy vọng tạo ra cách tiếp cận mới. Nội dung nghiên cứu định hướng giải pháp theo ba lớp và cũng là ba giai đoạn nghiên cứu như sau: − Lớp thứ nhất: Tìm hiểu quá trình biến đổi tín hiệu dao động âm thành tín hiệu

điện mà các dây thần kinh thính giác truyền về não. Qua đó xây dựng các thuật toán cụ thể tác động lên chuỗi âm thanh số để thu được các số liệu phản ánh tín hiệu âm tương tự như những tín hiệu mà cơ quan thính giác của con người nhận được.

− Lớp thứ hai: Nghiên cứu để xây dựng các đối tượng và cơ sở dữ liệu nhận dạng tiếng nói từ các tín hiệu nói trên. Hệ thống này cần tuân theo một số nguyên tắc của “phản xạ có điều kiện”.

− Lớp thứ ba: Nghiên cứu quá trình dự báo ngữ nghĩa của tiếng nói, trên cơ sở “đã nhận ra một số âm”. Trong đó trọng tâm là tổng hợp và áp dụng các qui luật ngôn ngữ để lựa chọn dự báo ngữ nghĩa mà người phát âm muốn truyền đạt.

Theo hướng này, đến nay, nhánh đề tài mới đạt một số kết quả thuộc lớp thứ nhất và lớp thứ hai. Lớp thứ ba định hướng cho giai đoạn nghiên cứu tiếp theo. Cụ thể là: Các kết quả về lý thuyết: − Xác định tần số của các nốt nhạc đàn dương cầm bằng cách ghi âm số và ứng

dụng thuật toán tính pitch. Sau đó dùng giả thiết các nốt nhạc cách đều trên trục logarit của tần số, hiệu chỉnh các giá trị tần số của mọi nốt nhạc.

− Đề xuất "Phổ sensor" trên cơ sở tìm hiểu giải phẫu học của cơ quan thính giác và khả năng phân biệt nốt nhạc của nó. Phổ sensor được xem như là bức tranh tín hiệu mà các dây thần kinh thính giác chuyển về não.

− Xây dựng phương pháp toán để xác định các giá trị của phổ sensor, và phương pháp để xác định một hệ số thực nghiệm đề cập trong phương pháp toán.

− Với qui ước âm cơ bản là âm tiết khi phát âm không đòi hỏi bất kỳ một chuyển động nào của khoang miệng, đã chọn ra 9 âm cơ bản trong tiếng Việt.

− Chọn chiều hướng vi phân của phổ sensor theo tần số để hình thành “dạng phổ sensor”. Việc so sánh ngữ nghĩa của các phổ sensor được thực hiện qua việc so sánh độ trùng nhau giữa các “dạng phổ sensor”.

− Đề xuất một tệp dữ liệu bao gồm phổ sensor của các âm cơ bản (hoặc các dạng đặc trưng của nó) và các tham số bổ trợ với tên gọi là "nhận thức ngữ âm", làm cơ sở để thực hiện nhận dạng tiếng nói. Việc xây dựng tệp dữ liệu này tuân theo một số tiêu chí của phản xạ có điều kiện.

Các kết quả ứng dụng thử nghiệm: − Bảng xác định các tần số trung tâm của các sensor từ 16hz đến 20khz (vùng

nghe được). Trong đó 29 tần số (in đậm) giới hạn từ 266hz đến 4256hz là vùng đủ để nghe được tiếng nói.

Page 28: Mạng thần kinh nhân tạo

28

Do Re Mi Pha Son La Si 16.63 18.36 20.27 22.38 24.70 27.28 30.12 33.25 36.71 40.53 44.75 49.41 54.55 60.23 66.50 73.42 81.06 89.50 98.82 109.1 120.5 133.0 146.8 162.1 179.0 197.6 218.2 240.9 266.0 293.7 324.3 358.0 395.3 436.4 481.8 532.0 587.4 648.5 716.0 790.5 872.8 963.7 1064 1174 1297 1432 1581 1746 1927 2128 2350 2594 2864 3162 3491 3855 4256 4699 5188 5728 6324 6983 7710 8512 9398 10380 11460 12650 13970 15420 17020 18800 20750

− Hệ số thực nghiệm Kn trong công thức tính giá trị của sensor:

Kn = 0.9 - 0.016*n Trong đó n là chỉ số thứ tự của sensor

− Xây dựng tệp dữ liệu “nhận thức ngữ âm” của 9 âm cơ bản, theo phương pháp địa chỉ hóa từ dạng phổ sensor với 413 địa chỉ được dạy.

Chương trình xây dựng công nghệ coding ngữ nghĩa của âm thanh − Môi trường: chương trình phát triển trên ngôn ngữ Visual C++ 6.0 để chạy

trên máy PC có HĐH từ Win 98 trở lên. − Xây dựng ứng dụng vnptich để dùng máy tính PC làm công cụ chủ yếu phục vụ

việc nghiên cứu trong phạm vi đề tài. Ứng dụng vnptich có các tính năng cơ bản để xử lý âm thanh số như: giao tiếp với soundcard, với ổ đĩa v.v... và được tích hợp mọi thuật toán riêng của đề tài này.

− Xây dựng thuật toán tổng hợp chuỗi tín hiệu âm tần, để tạo tín hiệu PCM của các âm tần chuẩn.

− Xây dựng thuật toán phân tích Fourier và đánh giá mức độ chính xác của thuật toán thông qua việc dùng thuật toán này để phân tích các chuẩn PCM được tạo ra bới thuật toán nêu trên.

− Xây dựng thuật toán xác định pitch theo phương pháp Cepstrum. − Xây dựng thuật toán tính phổ sensor theo phương pháp nêu trên. − Xây dựng thuật toán tổng hợp chuỗi tín hiệu âm từ một bộ tần số hài, hoặc từ

một nhóm các tần số cho trước, với biên độ bị điều tiết bởi một hàm phổ theo tần số và theo thời gian.

− Xây dựng các thuật toán để tạo dựng tệp dữ liệu nhận thức ngữ âm.

2.2.1.3 Về triển khai ứng dụng Ứng dụng của tổng hợp tiếng nói

Page 29: Mạng thần kinh nhân tạo

29

− Nâng cấp Module đọc tiếng Việt trong hệ thống thông điệp hợp nhất (UMS) phối hợp với nhóm nghiên cứu phát triển của công ty NetNam.

− Triển khai tích hợp Module đọc tiếng Việt kết nối với phần mềm JAWS đọc

màn hình qua Microsoft SAPI cho người khiếm thị. Modul tích hợp đang được thử nghiệm cho người khiếm thị tại Viện vệ sinh dịch tễ, khả năng sẽ được cung cấp cho Hội người mù Việt nam sau khi hoàn thiện. Hiện tại đã có 8 đặt hàng của Hội người khiếm thị và ..... bộ VnVoice đã được thương mại hoá.

− Tích hợp module tổng hợp tiếng Việt 3i School Voice Portal: Chức năng truy

cập CSDL học sinh như: nghe điểm các môn học, sự chuyên cần, khen thưởng, kỷ luật, tình trạng đóng học phí, nghe họ tên người đăng nhập hệ thống: • Chức năng studio: Thu âm thông báo của nhà trường, thay đổi tốc độ phát

âm trên điện thoại • Chức năng hộp thư thoại, từ điển phát âm tiếng Anh trên điện thoại, thông

báo của nhà trường từ văn bản, dùng module tổng hợp tiếng nói VnVoice. 2.2.2 Nghiên cứu phát triển kỹ thuật nhận dạng chữ in và viết tay tiếng Việt Mục tiêu Nhu cầu tự động hoá văn phòng đã thúc đẩy sự ra đời của các chương trình nhận dạng văn bản, nhận dạng tiếng nói. Chương trình nhận dạng chữ Việt in VnDOCR phiên bản 1.0 ra đời (trong khuôn khổ của đề tài thuộc chương trình KHCN01-10) nhằm đáp ứng nhu cầu nói trên. Phiên bản nâng cấp VnDOCR 3.0 là một nội dung nghiên cứu của đề tài KC01-03, nâng cao chất lưọng nhận dạng. Phương pháp Trong chương trình này, việc nhận dạng văn bản dựa chủ yếu vào các thuật toán nhận dạng và cho kết quả khá tốt đối với văn bản đầu vào rõ nét, sạch sẽ. Mô hình của quá trình nhận dạng trong VnDOCR 3.0 được biểu diễn như sau: − Khối nhận dạng OCR: thực hiện các thuật toán nhận dạng, đầu vào là ảnh của

văn bản, đầu ra là văn bản thô, chưa sửa chính tả. − Khối tự động kiểm tra chính tả: Kiểm tra văn bản thô, tự động sửa những lỗi

chính tả đơn giản, đánh dấu những cụm ký tự sai chính tả không tự động sửa được. Khối kiểm tra chính tả bán tự động: cùng với người dùng, sửa những lỗi chính tả cuối cùng trước khi đưa ra văn bản hoàn chỉnh

Phương pháp nhận dạng Nghiên cứu hai thành phần chủ yếu trong một thuật toán nhận dạng là trích chọn đặc tính (feature extraction) và phân loại (classification) dựa trên đặc tính:

Page 30: Mạng thần kinh nhân tạo

30

• Các đặc tính của ký tự được trích chọn bằng cách tiếp cận thống kê có kết hợp với cách tiếp cận cấu trúc đảm bảo tính nhận dạng không cần khai báo font (omnifont) và kích cỡ chữ. Hai cách tiếp cận trên là những cách tiếp cận truyền thống trong nhận dạng, tuy nhiên các tác giả của sản phẩm đã đề xuất một cách tiếp cận tổ hợp (xem bài báo [7, 9, 10, 11]) và đã chứng tỏ tính hiệu quả của cách tiếp cận tổ hợp này trong chất lượng của phần mềm. Theo cách tiếp cận của chúng tôi, các ký tự ảnh được rút gọn vào khung m x n (đã thử nghiệm trên khung 8 x 8 và 16 x 16), sau đó thật toán phân loại được áp dụng trên các khung này.

Ảnh bitmap của kí tự và ma trận mẫu tương ứng.

Để biểu diễn bản chất của thuật toán do các kí tự được biểu diễn như một ma trận nhị phân kích thước m x n, dưới đây đưa ra một khái niệm cơ bản của thuật toán về tính nhúng của một ma trận này vào trong một ma trận khác. Từ mục tiêu đó cần có định nghĩa một ma trận nhỏ nhất trong một tập các ma trận, độ khác biệt của hai ma trận và độ khác biệt của một ma trận so với lớp các ma trận. Mục tiêu cuối cùng là phải tìm ra một ma trận có độ khác biệt nhỏ nhất so với tập các lớp ma trận mẫu.

Gọi Tm x n = {tp}m x n là tập các ma trận nhị phân của các kí tự kích thước m x n

Định nghĩa 1: Giả sử hai ma trận t1, t2 ∈ T. Ta nói rằng t1 được nhúng trong t2 (kí hiệu bởi t1 t2) nếu t1[i, j ] ≤ t2[i, j] với ∀i = 1, 2, ..., m, ∀j = 1, 2, ..., n

Định nghĩa 2: Giả sử C ⊆ T, t ∈ C. ta nói rằng t là ma trận nhỏ nhất trong C nếu ti ∈ C: t ti Định nghĩa 3: Giả sử hai ma trận t1, t2 ∈ T. Độ khác biệt của t1 với t2 được định nghĩa như sau: d(t1, t2') = card ({(i,j)⏐ t1[i,j] < t2[i,j] }) .

Định nghĩa 4: Giả sử ma trận t ∈ T, Cq ⊆ T. Độ khác biệt của t với Cq được định nghĩa như sau:

d(t, Cq) = min d(t, t') t’∈Cq

Định nghĩa 5: Giả sử ma trận t ∈ T, C1, C2, ...CK ⊆ T. Ta nói rằng Cq , q ∈ {1, 2, ...,K} là lớp mẫu đối sánh tốt nhất với t nếu:

Page 31: Mạng thần kinh nhân tạo

31

d(t, Cq) = min d(t, ,Cj) 1 ≤j ≤K Tóm lại, nói một cách mô tả, bài toán nhận dạng đặt ra là giả sử tồn tại K lớp mẫu chữ Cj, j=1, ..., K, khi xuất hiện một chữ mới ta cần xếp nó vào một trong các lớp này sao cho thoả mãn định nghĩa 5.

• Thuật toán phân loại mẫu học (tập các ký tự cần nhận dạng) được phân thành 2

giai đoạn với mục đích tăng tốc độ và độ chính xác: - Thuật toán phân loại thô (dùng để phân nhóm các chữ đồng dạng về mặt cấu trúc) - Thuật toán phân loại mịn (các hàm đánh giá và đối sánh phức tạp dần) - Tiêu chuẩn đối sánh nhanh dựa trên nghiên cứu và đề xuất độ đo đồng dạng giữa hai ảnh ký tự.

Phương pháp kết hợp kiến thức chính tả Tuy nhiên, khi gặp các văn bản bị mờ khiến chữ bị đứt nét hoặc các văn bản nhoè khiến các chữ bị dính với nhau thì chất lượng nhận dạng vẫn còn chưa cao. Việc phát triển các thuật toán nhận dạng để giải quyết vấn đề trên rất khó thực hiện và cũng chỉ có giới hạn nhất định. Do đó, cần có thêm kiến thức về đối tượng được nhận dạng để cải tiến chất lượng nhận dạng. Đối tượng đó chính là văn bản tiếng Việt. Kiến thức về văn bản tiếng Việt phù hợp với việc áp dụng cho máy tính thực hiện là chính tả tiếng Việt. Như vậy cần phải kết hợp kiến thức về chính tả tiếng Việt để góp phần làm nâng cao chất lượng nhận dạng. Đây cũng là hướng tiếp cận của các chương trình nhận dạng văn bản nổi tiếng trên thế giới. Với khối tự động kiểm tra chính tả, yêu cầu của khối này là: 1/ Hạn chế tối đa việc sửa âm tiết đúng thành sai, 2/ Sửa được một số lượng đáng kể số lỗi trên văn bản thô, 3/ Thời gian thực hiện phải đủ nhanh sao cho người dùng nhanh chóng có được văn bản hoàn chỉnh hơn là hoàn toàn sửa lỗi bằng tay. Vấn đề là tìm được một cách tiếp cận sửa lỗi chính tả sao cho phù hợp với những yêu cầu đã đề ra. Như đã trình bày ở trên, cách tiếp cận ở mức độ từ vựng và cú pháp, ngữ nghĩa hiện vẫn còn là những vấn đề khó, các thuật toán hiện thời đòi hỏi nhiều thời gian và độ chính xác chưa cao. Với những gì đã trình bày ở mục 2 thì ta thấy cách tiếp cận sửa lỗi chính tả ở mức âm tiết đảm bảo thoả mãn điều kiện 1/ và 3/ so với hai cách tiếp cận còn lại. Hơn nữa, trong thực tế số lượng các lỗi sai thực sự về mặt âm tiết ở văn bản thô đối với ảnh đầu vào chất lượng kém là khá lớn nên nếu được thực hiện tốt cách tiếp cận này sẽ đảm bảo thoả mãn được điều kiện 2/. Thông thường, lỗi chính tả được xử lý theo thứ tự: Âm tiết - Từ vựng - Ngữ nghĩa. Sau đây là một số phương pháp được sử dụng trong VnDOCR 3.0. − Phát hiện sai: Các phương pháp phát hiện sai đều không thể hoàn toàn chính

xác và đều có lỗi. Lỗi sai gồm có 2 loại: âm tiết đúng được coi là sai và âm tiết sai được coi là đúng. Như vậy, thuật toán phát hiện sai phải đề ra những tiêu

Page 32: Mạng thần kinh nhân tạo

32

chuẩn nhận biết các trường hợp trên, tránh việc sửa nhầm. Tóm lại sử dụng những cách đoán nhận như trên ta vẫn phải chấp nhận một tỷ lệ sai nào đó. Trong quá trình kiểm nghiệm thực tế có thể đưa ra thêm một số tiêu chuẩn mới hoặc điều chỉnh lại các tiêu chuẩn đã đề ra để giảm tỷ lệ lỗi đối với các loại văn bản thông dụng.

− Sửa sai: Quá trình sửa sai gồm hai bước: 1/ Từ một âm tiết bị sai tìm ra các âm tiết đúng tương ứng, các âm tiết đúng này là các ứng cử viên. 2/ Chọn ra trong số các ứng cử viên nói trên một ứng cử viên có khả năng là đúng nhất. Các phương pháp sửa chủ yếu sử dụng luật cấu tạo âm tiết và sử dụng kiến thức liên quan đến vị trí và mối liên hệ giữa các ký tự. Lựa chọn âm tiết đúng trong nhiều khả năng sử dụng điểm về n-gram của nó cao.

Quá trình kiểm tra chính tả tự động được thực hiện tương đối đơn giản hơn và thực tế là nó đã tiết kiệm được đáng kể thời gian xử lý của người dùng. Tính hiệu quả của nó phụ thuộc vào các thuật toán phát hiện sai, sửa sai, và lựa chọn ứng cử viên. Hướng phát triển tiếp theo của phần này là: tăng cường tốc độ thực hiện; cải tiến độ chính xác của các thuật toán phát hiện sai, sửa sai; bổ sung thêm dữ liệu về các dạng sai, dữ liệu để xây dựng mô hình n-gram cho thật hoàn chỉnh; Xây dựng một mô hình sửa lỗi chính tả hoàn thiện hơn mô hình hiện có. Mô hình áp dụng việc sửa chính tả được trình bày ở trên không phải là duy nhất. Ví dụ như có thể tích hợp quá trình sửa lỗi chính tả tự động vào trong quá trình nhận dạng. Cách làm này có lợi điểm là thay vì làm việc với văn bản thô, quá trình sửa chính tả sẽ có nhiều thông tin hơn từ quá trình nhận dạng. Hoặc quá trình sửa lỗi chính tả tự động không chỉ dừng ở mức âm tiết mà có thể thực hiện sửa lỗi ở các mức cao hơn như từ vựng, cú pháp... Chức năng của phần mềm Nhận dạng chữ Việt in VnDOCR 3.0 VnDOCR 3.0 là phiên bản nâng cấp chính thức của VnDOCR 2.0 sau hai năm phát triển các tính năng mới và sửa lỗi. Phiên bản này có những tính năng mới nổi trội sau đây: − Tự động phát hiện được bảng biểu. − Tự động kiểm tra chính tả tiếng Việt ngay sau khi nhận dạng xong, tự động

thay thế những từ nhận dạng sai bằng những từ có trong từ điển với độ chính xác cao.

− Nhận dạng đa luồng cho phép vừa nhận dạng vừa quét tài liệu, giúp giảm đáng kể về cả thời gian lẫn công sức của người sử dụng.

− Cho phép quét nhiều trang tài liệu mà không cần khởi tạo lại máy quét – việc khởi tạo lại máy quét sau khi quét một trang tài liệu thường thấy với các máy quét dòng HP – Tính năng này giúp cho việc quét sách báo với khối lượng tương đối lớn dễ dàng hơn rất nhiều.

− Chất lượng nhận dạng trên 98% với các văn bản có chất lượng trung bình, in từ các máy in lazer, sách, báo, tạp chí phát hành hiện nay.

Page 33: Mạng thần kinh nhân tạo

33

− Lưu văn bản hỗ trợ ba loại bảng mã tiếng Việt phổ biến nhất hiện nay là Unicode TCVN6990-2001, TCVN5712 (ABC), VNI.

Phương pháp và kết quả đánh giá CSDL văn bản test:

• Các dạng văn bản dùng để test: - Văn bản dạng công văn, tài liệu in từ máy in Lazer với các kiểu phông chữ

khác nhau: Arial, Avant, Helvetica, Time, Time New Roman, Courier, có kích thước của kí tự từ 8 đến 72 điểm.

- Bài báo trên các loại báo như: Hà nội mới, Lao động, PC World Việt Nam, Tuổi trẻ TP HCM, Thể thao, Thời báo Kinh tế Việt Nam, Kinh doanh tiếp thị, Thời báo tài chính Việt Nam, Đầu tư, Thanh niên, Tièn phong, An ninh thue dô, Công an TP HCM, Công an nhân dân, Đại đoàn kết, Tuổi trẻ, An ninh thế giới, Lao động xã hội.

• Tiêu chí để kiểm tra: Quét ảnh: - Quét đen/trắng - Văn bản được quét ở độ phân giải 300 dpi. Đối với các loại tài liệu có cỡ

chữ nhỏ như các cột báo, nên đặt độ phân giải 400 dpi. - Đối với một só tài liệu cần lựa chọn độ Sáng tối (Brightness) và Tương

phản (Contrast). Việc lụa chọn thích hợp các tham số này sẽ làm tăng chất lượng nhận dạng và giảm đáng kể thời gian chỉnh sửa văn bản sau nhận dạng.

- Văn bản nên đặt thẳng, không bị nghiêng hoặc xoay. Chương trình cho phép xoay văn bản một góc nghiêng nhỏ hơn 15o, tuy nhiên nếu không phải can thiệp sau khi quét, chất lượng nhận dạng thường đảm bảo hơn.

• Số lượng văn bản test: - Lựa chọn bất kỳ các văn bản trên các tài liệu đã nói trên - Số lượng văn bản dùng để test: quãng 500 trang A4 và các cột báo - Độ chính xác mức từ quãng 98%.

Nhận dạng chữ viết tay có hạn chế Cho đến năm 2001 Việt Nam hiện tại chưa có sản phẩm nào về nhận dạng dấu quang học có cả chữ viết tay hạn chế. Mục tiêu Nghiên cứu, thiết kế và cài đặt thử nghiệm một số mô hình nhận dạng số và chữ viết tay hạn chế trong hệ thống MarkRead. Chữ viết tay hạn chế gồm các số và chữ

Page 34: Mạng thần kinh nhân tạo

34

viết tách rời nhau giống chữ in và viết trong các ô hình chữ nhật của các phiếu điều tra. (MarkRead - Phần mềm nhận dạng dấu quang học phục vụ nhập liệu tự động phiếu điều tra, kiểm phiếu, thi trắc nghiệm, kiểm tra, phiếu thăm dò ý kiến và các phiếu mẫu văn phòng khác chứa các ô hình vuông, chữ nhật, hình tròn, elip có đánh dấu). Phương pháp − Nghiên cứu phương pháp nhận dạng chữ viết tay hạn chế theo mô hình nhận

dạng cấu trúc, − Nghiên cứu phương pháp nhận dạng theo đối sánh mẫu, − Nghiên cứu phương pháp nhận dạng bằng biểu đồ tần xuất (histogram), − Nghiên cứu phương pháp nhận dạng tổ hợp. Phương pháp nhận dạng đối sánh mẫu Chữ viết tay hạn chế trong hệ thống MarkRead là các chữ/số được viết riêng rẽ rời nhau và gần giống chữ in hoa, mực viết cần rõ ràng để khi quét vào máy quét giữ được hình ảnh các chữ rõ ràng. Chúng tôi đã nghiên cứu nhiều phương pháp nhận dạng và đã cài đặt trong hệ thống nhận dạng MarkRead phương pháp nhận dạng theo đối sánh mẫu. � Trích chọn đặc trưng: với một mẫu a, trích các thông số gọi là đặc trưng của mẫu đó. Kí hiệu đặc trưng của mẫu a là Fa. � Học mẫu: một tập mẫu được dùng để học bằng cách lưu đặc trưng các mẫu học đó vào cơ sở dữ liệu, kí hiệu là L. � Nhận dạng: với mỗi mẫu vào là x chưa biết, ta trích chọn đặc trưng tương ứng Fx. Tìm trong cơ sở dữ liệu đặc trưng Fb ∈L “gần giống” với Fx nhất theo nghĩa:

)Fd(F,min)F,d(F xLFxb ∈=

Khi đó mẫu x được nhận dạng là mẫu b trong cơ sở dữ liệu. Trích chọn đặc trưng: Phân đoạn: Từ ảnh vào, tiến hành phân đoạn ảnh thành dạng đen/trắng

Page 35: Mạng thần kinh nhân tạo

35

� Xác định vùng chứa chữ: thông qua trọng tâm � Chuẩn hóa hóa các kí tự : chuẩn hóa thành ma trận 27 27 � Tính trọng số I ứng với ma trận ảnh kí tự T: I[i][j] được tính bằng bình phương khoảng cách từ điểm (i,j) đến điểm đen gần nhất trong T.

]z)-(jk)-[(iminz)](k,j),[(i,dminI[i][j] 22

B(T)z)(k,

2

B(T)z)(k,+==

∈∈

Trong đó: B(T) là tập các điểm đen của T:

B(T)={(i,j)| T[i][j]=0}

� Khoảng cách giữa hai đối tượng I, I’ được tính bằng: ∑

= B(I))B(I'j)(i,

| [i][j]I'-I[i][j] | )I'd(I,U

Trong đó B(I), B(I’) là tập các điểm đen của I và I’:

ảnh phân ngưỡng T

Ma trận trọng số I

Page 36: Mạng thần kinh nhân tạo

36

B(I)={(i,j)| I[i][j]=0}, B(I’)={(i,j)| I’[i][j]=0} Học đối với phương pháp đối sánh mẫu Kí hiệu tập các mẫu để huấn luyện là K và C(Fa,L) là kết quả nhận dạng đặc trưng của mẫu a với tập dữ liệu học là L. C(x) là nhãn của mẫu x (tên của chữ). Thuật toán học của phương pháp đối sánh mẫu được thực hiện như sau: Vào: K – tập các mẫu cần huấn luyện Ra: L – tập các đặc trưng mẫu đã được học L = ∅ repeat

ok = 1; for x ∈ K do begin

if C(x) ≠ C(Fx,L) then begin

L:= L∪{Fx} ok:= 0

end_if end_for

until (ok);

Kết quả thực nghiệm CSDL thử nghiệm: các kiểu chữ và số viết tay do 250 người viết, độ phân giải 300dpi có kích cỡ khoảng 50 50, sau đó cắt các chữ cái và chữ số thành các ảnh kí tự riêng rẽ, rồi chuẩn hóa thành ma trận 27x27. − Trong đó tập các số được dùng làm mẫu 14000 mẫu, trong đó tập huấn luyện

gồm 10.000 và tập test 4000. − Tập các chữ cái gồm 42000 mẫu chữ chia làm 2 tập: tập huấn luyện gồm 30000 mẫu

và tập test 12000 mẫu. − Tập các mấu số của MNIST gồm 60.000 (20x20) chia làm 2 tập, tập học

50.000, tập test 10.000.

Kết quả thực nghiệm ở mức kí tự riêng rẽ với độ chính xác như sau: − Đối với các kí tự là chữ kết quả nhận dạng đạt 80%. − Đối với các kí tự là số kết quả nhận dạng đạt 85% Một số kiểu mẫu gây ra nhận nhầm, sai:

� ảnh các chữ số có nhiễu.

Page 37: Mạng thần kinh nhân tạo

37

� ảnh các chữ có nhiễu hoặc thiếu nét

Page 38: Mạng thần kinh nhân tạo

38

Kết quả nhận dạng trên các cách tiếp cận khác nhau: − Nhận dạng bằng đối sánh mẫu, có tỷ lệ với chữ (số) là 80% (85%). − Nhận dạng bằng cấu trúc xương ký tự, có tỷ lệ với chữ (số) là 75% (80%) . − Nhận dạng bằng histogram, có tỷ lệ với chữ (số) là 77 % (84%) . Sản phẩm

MarkRead 1.0: Nhập tự động các phiếu điều tra, thi trắc nghiệm dưới dạng đánh dấu và số, chũ viết tay trong các ô định sẵn. − Chức năng hoạt động:

• Quét phiếu điều tra theo lô hoặc từng trang, • Tiền xử lý: xoá nhiễu, tăng giảm độ dày, nối các nét đứt, phát hiện góc

nghiêng trang tài liệu với góc nhỏ hơn 15o và hiệu chỉnh lề. • Chọn vùng chứa dấu hoặc cữ viết tay hạn chế trong các ô hoặc bảng một

chiều. • Nhận dạng các ô được đánh dấu, kết hợp các ô để nhận dạng số/chữ viết tay

hạn chế. • Ghi dữ liệu đã được nhận dạng ra các tệp của nhiều hệ quản trị CSDL phổ

dụng. − Giao diện:

• Hình thức giao diện theo chuẩn của các phần mềm Microsoft, có các thao tác trên tệp, soạn thảo, hiển thị ảnh / kết quả nhận dạng, các thao tác trên các bản ghi, nhận dạng và trợ giúp, giao diện được thể hiện bằng tiếng Việt (font TCVN3 ABC), hoặc tiếng Anh.

• Các chức năng được được thể hiện qua giao diện thực đon, thanh công cụ hoặc thực đơn động.

• Chọn máy quét, chọn số trang/phiếu (bản ghi kết quả), số trang/hàng, ngưỡng nhận dạng, kích thước của các đối tượng chứa dấu.

2.2.3. Nghiên cứu phát triển các kỹ thuật xử lý ngôn ngữ tự nhiên tiếng Việt

Page 39: Mạng thần kinh nhân tạo

39

Do xu hướng toàn cầu hoá đi kèm với địa phương hoá, nhu cầu dịch trong tất cả các lĩnh vực không ngừng tăng lên. Trong khi đó, lĩnh vực dịch tự động tuy đã ra đời từ hơn 50 năm trước, nhưng cho đến nay kết quả vẫn còn hết sức hạn chế. Đề tài đã nghiên cứu một số cách tiếp cận khác nhau trong dịc tự động. Một trong những kết quả chính của đề tài là dựa trên một số cách tiếp cận dựa trên cấu trúc văn phạm của các ngôn ngữ để tiến hành dịch tự động và tiếp tục phát triển phần mềm EVTRAN cho phần dịch Việt – Anh. Đồng thời một xu hướng mới đã ra đời trong những năm gần đây nhằm tận dụng khai thác kho tàng khổng lồ các văn bản dịch trong nhiều thứ tiếng, thuộc đủ thể loại như văn học, báo chí, hàn lâm hay luật học. Việc sử dụng kho tài nguyên gồm các bản dịch đa phần có chất lượng rất tốt này để xây dựng các bộ nhớ dịch hay các bộ từ vựng đa ngữ trong các hệ thống dịch máy có vẻ là một giải pháp hợp lí. Cách khai thác kho văn bản dịch đa ngữ hay còn gọi là văn bản song song (parallel texts) này là thực hiện việc dóng hàng (alignment), tức là tìm kiếm tự động các tương ứng dịch trong các văn bản vốn được dịch ra từ cùng một văn bản gốc nào đó. Các tương ứng dịch này có thể ở các mức độ chi tiết khác nhau: có khi chỉ đòi hỏi ít chi tiết là mức đoạn, phổ biến nhất là ở mức câu, và chi tiết, lí tưởng hơn là mức ngữ đoạn hoặc từ. Chính vì vậy ở 3 phần tiếp sau của, trình bày các nghiên cứu và kết quả về: - Dịch Việt Anh theo cách tiếp cận dựa trên cấu trúc văn phạm - Dóng hàng các văn bản song ngữ Phap- Việt, tiền thân của khuynh hướng dịch

tự động - Xây dựng mô hình từ điển điện tử cho tiếng Việt, một công cụ thiết yếu cung

cấp nguồn tri thức giúp giúp máy tính có thể hiểu được ngônngữ con người vF đóng vai trò nền tảng cho các nghiên cứu vè ngôn ngữ tự nhiên.

2.2.3.1 Dịch tự độngViệt - Anh Nghiên cứu

− Đề xuất văn phạm định biên (bound controlled grammar) – một dạng mở rộng của mô hình văn phạm phi ngữ cảnh, chỉ ra một số tính chất của văn phạm, trong đó chứng minh được rằng lớp ngôn ngữ định biên là bao đóng của lớp ngôn ngữ phi ngữ cảnh đối với phép giao. Điều đó có nghĩa rằng văn phạm định biên là sự mở rộng đủ và tối thiểu cho lớp ngôn ngữ phi ngữ cảnh để thành một tập hợp đóng kín đối với phép hợp và phép giao. Ý nghĩa của văn phạm định biên là ở chỗ các kết quả lý thuyết và giải thuật trên lớp ngôn ngữ phi ngữ cảnh đều có thể áp dụng cho ngôn ngữ định biên. Nói riêng, các giải thuật phân tích văn phạm phi ngữ cảnh cũng như độ phức tạp của chúng được giữ nguyên gần như hoàn toàn trong văn phạm định biên.

− Đề xuất văn phạm cảm ngữ đoạn (phrase sensitive grammar) – một phát triển tiếp tục của văn phạm định biên cho phép mô tả được nhiều tính chất phụ thuộc ngữ cảnh của ngôn ngữ tự nhiên, đặc biệt, đề xuất khái niệm ngữ đoạn như một yếu tố ràng buộc trọng tâm trong định nghĩa các cấu trúc của ngôn ngữ. Một số tính chất của văn phạm:

Page 40: Mạng thần kinh nhân tạo

40

• Các phần tử từ vựng, cú pháp, ngữ nghĩa và tập quy tắc được tổ chức thành hệ phân cấp (dàn đại số)

• Đưa vào khái niệm “phần tử được đánh dấu” để thể hiện những ràng buộc ngữ nghĩa trong quy tắc văn phạm, đặc biệt, để biểu diễn các nút có số nhánh biến thiên trong cây phân cấp ngữ nghĩa. Bộ phân tích không dựng cây cú pháp mà dựng mô hình biểu diễn bên trong (cây phân cấp ngữ nghĩa) của câu văn trên cơ sở áp dụng các quy tắc cảm ngữ đoạn.

− Đề xuất phương pháp giải quyết nhập nhằng ứng dụng trong xử lý ngôn ngữ tự nhiên dựa trên sự phân cấp của hệ luật sinh sử dụng một mô hình logic mới, trong đó miền giá trị không phải là nhị phân (true, false – như trong logic cổ điển) hay một đoạn liên tục (các số thực từ 0 đến 1 – như trong logic mờ) mà là một dàn đại số. Giải pháp đề xuất một mô hình hình thức cho sự “lập luận theo lẽ thường” (common-sense reasoning) đối với tri thức ngôn ngữ. Mô hình phân cấp ngữ nghĩa áp dụng trong văn phạm cảm ngữ đoạn cho ta một công cụ để mô tả những quy tắc ngôn ngữ, vốn rất khó diễn đạt bằng toán học. Với cách tiếp cận được đề xuất, mỗi luật sinh đều có một phạm vi tác dụng trong khuôn khổ một hệ phân cấp miền tác dụng của tập luật. Tập các miền tác dụng của bộ luật tạo nên một phủ trên toàn bộ ngôn ngữ. Những kết quả nghiên cứu này tạo thành nền tảng để xây dựng một giải pháp dịch máy liên ngữ khả thi (hiện đang được phát triển tại Viện Ứng dụng Công nghệ). Cách tiếp cận có các đặc trưng cơ bản sau: • Bộ phân tích không dựng cây cú pháp mà dựng mô hình biểu diễn bên trong

(cây phân cấp ngữ nghĩa) của câu văn • Bước Tổng hợp là quá trình đơn ngữ, được thực hiện hoàn toàn độc lập với

quá trình Phân tích. Vì vậy, trong mô hình dịch máy được đề xuất, công đoạn tổng hợp văn bản khó hơn nhiều so với khâu phân tích, và văn bản được sản sinh ra sẽ tự nhiên, bản ngữ hơn, không phụ thuộc vào cách đặt câu của văn bản gốc.

− Phát triển giải thuật phân tích văn phạm cảm ngữ đoạn. Xây dựng mô hình xử lý nhập nhằng cho kho ngữ liệu được tổ chức theo mô hình phân cấp dựa vào logic trên dàn và văn phạm cảm ngữ đoạn. Thuật toán phân tích theo sơ đồ dưới lên và từ phải sang trái (bottom-up right-most analysis) dựng cây phân tích ngữ nghĩa không phụ thuộc ngôn ngữ và họ các bộ giá trị trạng thái liên ngôn ngữ.

− Phát triển giải thuật tổng hợp văn phạm cảm ngữ đoạn. Xây dựng sơ đồ tổng hợp văn bản

− Ứng dụng một phần các kết quả lý thuyết và công nghệ được phát triển vào phần mềm dịch máy

− Ứng dụng một số heuristics nhằm cải thiện tốc độ cho giải thuật phân tích văn phạm và biên dịch văn bản

− Xây dựng hệ phân cấp từ loại tiếng Việt để đưa vào cơ sở tri thức tiếng Việt trên cơ sở mô hình ngữ nghĩa chung cho Hệ thống từ loại tiếng Việt, áp dụng lý thuyết dàn (lattice) làm mô hình ngữ nghĩa cho hệ thống từ loại tiếng Việt.

− Khảo sát trên 400.000 mẫu câu song ngữ Việt-Anh thông dụng.

Page 41: Mạng thần kinh nhân tạo

41

− Xây dựng cơ sở tri thức dịch máy Anh Việt – Việt Anh bao gồm: • Trên 7.600 quy tắc văn phạm và biên dịch Anh-Việt và Việt-Anh • Trên 230.000 đơn vị từ vựng dịch Anh-Việt • Trên 260.000 đơn vị từ vựng dịch Việt-Anh

Sản phẩm phần mềm Phần mềm EVTRAN 2.5 dịch hai chiều Anh-Việt, Việt-Anh (dịch Việt – Anh là sản phẩm đăng ký của đề tài) là sản phẩm ứng dụng một phần kết quả lý thuyết và công nghệ đã trình bày trên vào phần mềm dịch máy. Ngoài ra, một trong những đóng góp của đề tài là ứng dụngmột số giải pháp kiểm - thử (heuristic) nhằm cải tiến tốc độ cho giải thuật phân tích văn phạm và biên dịch văn bản. − Đặc trưng kỹ thuật chính của phần mềm EVTRAN 2.0:

• Dịch hai chiều Anh-Việt và Việt-Anh • Chương trình tự động đoán nhận ngôn ngữ nguồn • Cơ sở tri thức dịch máy Anh Việt – Việt Anh bao gồm:

+ Trên 7.600 quy tắc văn phạm và biên dịch Anh-Việt và Việt-Anh + Trên 230.000 đơn vị từ vựng dịch Anh-Việt + Trên 260.000 đơn vị từ vựng dịch Việt-Anh

• Có tính năng đa ngữ, có thể dễ dàng đưa một cặp ngôn ngữ mới vào hệ thống để biên dịch qua lại giữa hai ngôn ngữ mà không cần phải lập trình.

• Có khả năng vận dụng tri thức ngôn ngữ trong phân tích : kho ngữ liệu càng lớn thì tốc độ phân tích câu – và tương ứng – tốc độ biên dịch văn bản càng cao, trái với các giải thuật phân tích đơn định (chẳng hạn đối với giải thuật Early thì thời gian phân tích tỷ lệ nghịch với bình phương kích thước của bộ quy tắc văn phạm).

• Có các công cụ cập nhật tri thức ngôn ngữ và biểu diễn trực quan cây cú pháp để hỗ trợ việc hiệu chỉnh cơ sở tri thức

• Có kèm theo một số từ điển tra cứu thông dụng (Computing Dictionary, Thesaurus, Từ điển Anh-Việt và Việt-Anh, Oxford Advanced Learner’s Encyclopedic Dictionary, Webster’s Dictionary,...) để tiện việc cập nhật dữ liệu ngôn ngữ

Đánh giá kết quả Nguyên lý thiết kế của phần mềm dựa vào việc mở rộng mô hình văn phạm để có thể mô tả được đầy đủ hơn các yếu tố của ngôn ngữ tự nhiên. Do khối lượng công việc cần làm để có được sản phẩm chất lượng cao là rất lớn. Trong khuôn khổ của đề tài chúng tôi đã thực hiện cả nghiên cứu lý thuyết và triển khai công nghệ.

Về mặt Lý thuyết có những kết quả sau: − Phát triển mô hình văn phạm cảm ngữ đoạn làm công cụ hình thức để mô tả

ngôn ngữ tự nhiên − Đưa ra một cách tiếp cận trong việc hình thức hóa sự lập luận theo lẽ thường để

mô tả tri thức ngôn ngữ và giải quyết nhập nhằng;

Page 42: Mạng thần kinh nhân tạo

42

− Giới thiệu mô hình dịch máy liên ngữ dựa trên Cây phân cấp ngữ nghĩa – một mô hình biểu diễn tri thức ngôn ngữ độc lập với các ngôn ngữ tự nhiên.

Về mặt Công nghệ có những kết quả sau: − Xây dựng được khung ứng dụng dịch Việt – Anh. − Áp dụng một phần những kết quả nghiên cứu lý thuyết trong phần mềm. Chúng

tôi sẽ tiếp tục áp dụng những kết quả trên, nhất là mô hình dịch mới dựa trên cấu trúc trung gian là cây phân cấp ngữ nghĩa sẽ được tích hợp trong phiên bản tiếp theo của sản phẩm.

− Nhập trên 250.000 mục từ vựng và 5.000 quy tắc dịch Việt-Anh (Khối lượng theo đăng ký đề tài là 150.000 mục từ vựng và 5.000 quy tắc dịch)

− Thông thường các hệ dịch tự động đa dụng (ứng dụng cho nhiều lĩnh vực) đòi hỏi khoảng 600.000 mục từ vựng và 26.000 quy tắc dịch (theo số liệu của công ty Logomedia – một công ty chuyên kinh doanh sản phẩm dịch máy). Chúng tôi sẽ tiếp tục bổ sung dữ liệu tri thức ngôn ngữ để sản phẩm có thể bao quát được hầu hết các tình huống ngôn ngữ tiếng Việt. Đây là quá trình lâu dài và đòi hỏi công sức lớn (vào thời điểm này đã có trên 270.000 mục từ).

− Hiện nay, phần mềm có thể biên dịch một số mẫu câu thông thường với độ chính xác hạn chế. Quá trình phát triển tiếp theo là duyệt, dịch thử và hiệu chỉnh cơ sở tri thức trên một lượng văn bản Internet tiếng Việt và tiếng Anh đủ lớn để tiếp tụng nâng cao chất lượng dịch.

− Trong quá trình thử nghiệm, chúng tôi đã khảo sát dịch thử một văn bản gồm 94 câu. Chất lượng dịch Việt-Anh đạt 23 câu xem hiểu tạm chấp nhận được. Sau khi bổ sung 16 từ, số câu có thể hiểu đúng là 47. Sau khi bổ sung 6 thành ngữ và 5 quy tắc văn phạm còn thiếu, có thể hiểu được 62 câu trong bản dịch với hành văn rõ ràng hơn.

− Từ kết quả thử nghiệm và từ các phân tích đã nêu trên, ta có thể đi đến kết luận: • Rất khó giới hạn việc chuẩn bị cơ sở tri thức ngôn ngữ cho một lĩnh vực

chuyên môn hay một lớp cấu trúc văn phạm hẹp. • Cần phải thử nghiệm trên một lượng văn bản thực tế đủ lớn để tinh chỉnh

sản phẩm – Đây là một công việc rất mất công. • Cần phải kết hợp với việc hoàn thiện mô hình dịch tự động để có những cải

thiện về chất lượng dịch máy.

2.2.3.2 Dóng hàng văn bản song ngữ Pháp-Việt Cho đến nay các hệ thống dóng hàng ở mức câu đã được kết quả khá tốt, với độ chính xác xấp xỉ 95% mà chỉ sử dụng các thông tin thống kê khá độc lập với ngôn ngữ, trừ trường hợp các văn bản dịch không thật sự "song song" (chẳng hạn như dịch lược bớt nhiều). Trong khi đó các hệ thống dóng hàng ở mức từ, ngữ đoạn thì kết quả kém chính xác hơn và hiển nhiên phụ thuộc vào từng cặp ngôn ngữ cụ thể. Trong khuôn khổ của dự án này, chúng tôi tập trung nghiên cứu dóng hàng ở mức câu và mức từ/ngữ cho các văn bản song ngữ Pháp - Việt. Đối với việc dóng hàng ở mức câu, chúng tôi áp dụng phương pháp đã được nhóm triển khai ở giai đoạn

Page 43: Mạng thần kinh nhân tạo

43

trước cho các cặp ngôn ngữ Ấn - Âu cho cặp tiếng Pháp - Việt và đánh giá kết quả nhằm điều chỉnh các tham số của hệ thống một cách phù hợp nhất. Đối với việc dóng hàng ở mức từ ngữ, nghiên cứu tập trung vào việc cải tiến kĩ thuật dóng hàng ở mức từ sử dụng phương pháp vectơ khoảng cách bằng cách kết hợp với kĩ thuật dóng hàng có cấu trúc. Việc dóng hàng văn bản song ngữ ở mức từ đòi hỏi bước tiền xử lí là phân tích từ ngữ trong các văn bản được xét. Điều này đòi hỏi các công cụ phân tích văn bản trong từng ngôn ngữ, ở đây là tiếng Pháp và tiếng Việt. Trong khi các công cụ và tài nguyên ngôn ngữ cho phân tích các ngôn ngữ Ấn Âu nói chung và tiếng Pháp nói riêng được phát triển đa dạng từ nhiều năm nay thì công cụ và đặc biệt là tài nguyên ngôn ngữ cho việc phân tích tiếng Việt có thể nói là không có gì. Khó khăn là chưa có một sự hợp tác chặt chẽ giữa những nhà nghiên cứu Việt ngữ và những người làm Tin học: cộng đồng ngôn ngữ học trong nước khá "thờ ơ" với lĩnh vực công nghệ ngôn ngữ và rất hiếm người nghiên cứu ngôn ngữ hình thức. Trong khi đó các nhà ngôn ngữ cho đến nay vẫn khó thống nhất với nhau về những vấn đề nền tảng của phân tích ngôn ngữ như từ loại tiếng Việt, phân tích thành phần câu. Vì những lí do đó, các nghiên cứu trong khuôn khổ đề tài này đã tập trung đa phần thời gian và nhân lực để xây dựng và phát triển tài nguyên ngôn ngữ và công cụ chuẩn mực cho việc phân tích văn bản tiếng Việt, bao gồm xây dựng kho từ vựng chứa thông tin ngữ pháp, phân tách và gán nhãn từ loại cho các đơn vị từ vựng trong văn bản bằng phương pháp thống kê, xây dựng văn phạm phân tích ngữ pháp tiếng Việt (theo hệ hình thức TAG). Đây là những ngữ liệu và công cụ cơ bản mà các nghiên cứu về xử lí ngôn ngữ tự nhiên đều cần đến. Các kho ngữ liệu này được mã hoá theo cấu trúc XML đang được xem xét đưa vào chuẩn quốc tể về biểu diễn và quản lí tài nguyên ngôn ngữ (ISO TC 37 SC4). Nội dung nghiên cứu lý thuyết

− Phương pháp phân tách từ tiếng Việt: sử dụng ôtômat để nhận dạng chuỗi kí tự tương ứng với đơn vị từ vựng trong từ điển.

− Xây dựng bộ nhãn từ loại tiếng Việt: tiến hành mô tả từ vựng theo mô hình hai lớp, tương thích với mô hình MULTEXT cho các ngôn ngữ Tây Âu và Đông Âu. Chọn phương pháp quá trình ngẫu nhiên để giải quyết bài toán gán nhãn từ vựng.

− Xây dựng văn phạm tiếng Việt theo hệ hình thức TAG (Tree Adjoining Grammar)

− Dóng hàng song ngữ: Kết hợp phương pháp dóng hàng sử dụng vectơ khoảng cách và phương pháp dóng hàng dựa vào văn bản có cấu trúc.

Sản phẩm − Dóng hàng:

• Công cụ phần mềm: hệ thống có khả năng xác định các tương đương dịch ở mức từ/ngữ đoạn trong các văn bản song ngữ Pháp - Việt, nhằm hỗ trợ cho việc dịch tự động hay dịch tay, cũng như phục vụ cho các nghiên cứu ngôn ngữ về từ vựng, thuật ngữ trong một hay nhiều ngôn ngữ hoặc có thể hỗ trợ cho việc học tiếng.

Page 44: Mạng thần kinh nhân tạo

44

• Kho ngữ liệu: kho văn bản song ngữ Pháp - Việt và Anh - Việt được thu thập và mã hoá theo sơ đồ biểu diễn đang được xem xét đưa vào chuẩn quốc tế về biểu diễn và quản lí tài nguyên ngôn ngữ quốc tế.

− Sản phẩm kèm theo: • Công cụ phần mềm: Bộ công cụ xử lí tự động văn bản tiếng Việt như phần

mềm tách từ (tokenizer), phần mềm gán nhãn từ loại tự động (POS tagger), phần mềm đối chiếu từ loại (concordancer), phần mềm phân tích cú pháp câu tiếng Việt (parser).

• Kho ngữ liệu: Cơ sở ngữ liệu tiếng Việt gồm bộ từ vựng có mô tả các thông tin ngữ pháp, từ vựng; kho văn bản tiếng Việt có gán nhãn từ loại, tập quy tắc ngữ pháp. Cũng như kho ngữ liệu song ngữ ở trên, kho ngữ liệu tiếng Việt này cũng được mã hoá theo sơ đồ biểu diễn đang được xem xét đưa vào chuẩn quốc tể về biểu diễn và quản lí tài nguyên ngôn ngữ.

Trả lời ý kiến nhận xét − Trong quá trình nghiên cứu, nhóm nhận thức được tầm quan trọng của việc xây

dựng một kho ngữ liệu có chú giải ngữ pháp - không chỉ trong giới hạn của đề tài này mà phục vụ cho tất cả các nghiên cứu khác cần đến phân tích văn bản (tham khảo hội thảo về tài nguyên ngôn ngữ LREC - http://www.lrec-conf.org/). Vì vậy bộ công cụ nhóm đã xây dựng là nhằm đáp ứng việc quản lí, cập nhật dữ liệu lâu dài. Nhóm cũng quan tâm đến việc theo đuổi các sơ đồ mã hoá chuẩn quốc tế (đang được nghiên cứu, thảo luận trong dự án ISO TC37 SC4), hướng tới mục tiêu trao đổi tri thức tiếng Việt trong cộng đồng nghiên cứu ứng dụng đa ngữ.

− Phần mềm gán nhãn sử dụng một kho văn bản gán nhãn bằng tay làm dữ liệu huấn luyện. Việc gán nhãn bằng tay đòi hỏi nhiều công sức, đặc biệt trong điều kiện vấn đề phân loại từ tiếng Việt có rất nhiều tranh cãi trong giới ngôn ngữ học, chưa đi đến kết luận chuẩn mực. Cũng như các hệ thống quản lí kho văn bản có chú ngữ pháp khác trên thế giới, hệ thống của chúng tôi thực hiện gán nhãn tự động với cơ sở tri thức “học được” từ kho văn bản gán nhãn bằng tay với kích thước nhỏ (100 nghìn từ, so với các hệ thống khác sử dụng hàng triệu từ); sau đó chỉnh sửa kết quả bằng tay để mở rộng không ngừng kho văn bản mẫu. Ngoài ra, bộ nhãn đưa ra cũng cần được tiếp tục đánh giá và chỉnh sửa đề phản ánh tốt hơn quan hệ ngữ pháp giữa các từ. Về mặt phương pháp luận, nhóm sử dụng phương pháp đơn giản vì thực ra vấn đề quan trọng cần giải quyết trước là xây dựng kho từ vựng và ngữ liệu mẫu. Các phương pháp đơn giản hay cải tiến theo đánh giá của các hệ thống cho kết quả khác nhau dưới 2% phần trăm nếu có một kho ngữ liệu mẫu đủ lớn.

− Tóm lại, đây là đề tài cần phải tiếp tục nghiên cứu lâu dài và có nhiều can thiệp hơn nữa của giới ngôn ngữ học. Nhóm hiện đang tiếp tục nghiên cứu và sắp tới sẽ phổ biến phần mềm và triển khai các hoạt động hợp tác nghiên cứu với các nhà ngôn ngữ.

− Về phần mềm dóng hàng, hiện tại nhóm đang đánh giá kết quả dóng hàng ở mức từ (kết quả dóng hàng ở mức câu cho kết quả đạt yêu cầu - đạt 98 -> 99% đối với văn bản song ngữ có chất lượng dịch tốt). Kho dữ liệu song ngữ thu

Page 45: Mạng thần kinh nhân tạo

45

thập được cũng được mã hoá theo sơ đồ XML chuẩn được thiết kế cho các kho ngữ liệu đơn và đa ngữ trong cộng đồng nghiên cứu xử lí ngôn ngữ tự nhiên.

− Kết luận: nhóm thực hiện mục tiêu xây dựng một hệ thống nghiên cứu mở và hợp tác với các nhóm nghiên cứu khác - điều kiện cần thiết để thúc đẩy việc nghiên cứu xử lí tự động tiếng Việt vốn chậm hơn các nước tiên tiến nhiều chục năm.

2.2.3.2 Mô hình từ điển điện tử

Một trong các mục tiêu quan trọng của ngành Công nghệ thông tin là làm cho máy tính có khả năng giao tiếp với con người bằng ngôn ngữ của con người (ngôn ngữ tự nhiên). Tương tự việc con người cần đến từ điển khi học và sử dụng một ngôn ngữ, máy tính cần có từ điển của riêng mình để có thể hiểu và sử dụng các từ trong một ngôn ngữ tự nhiên. Từ điển điện tử cung cấp nguồn tri thức giúp máy tính có thể hiểu được ngôn ngữ con người và đóng vai trò nền tảng cho các nghiên cứu về ngôn ngữ tự nhiên. Khác với các từ điển trên máy tính dành cho con người như Lạc Việt Từ điển, Click and See hay Kim từ điển… từ điển điện tử được thiết kế riêng cho các ứng dụng xử lý ngôn ngữ tự nhiên như dịch máy, trả lời tự động… Vì vậy hệ thống ngữ nghĩa (cách biểu diễn nghĩa của từ) trong từ điển điện tử không được lưu trữ dưới dạng ngôn ngữ tự nhiên như trong từ điển thông thường mà phải ở một số dạng đặc biệt để máy tính có thể xử lý được như mạng ngữ nghĩa, frame… Để có thể thấy rõ hơn vai trò của từ điển điện tử ta hãy xét một số ví dụ sau đây: Xây dựng engine tìm kiếm dựa trên ngữ nghĩa: với các engine tìm kiếm thông dụng như Google hay Yahoo, ta có thể tìm được những văn bản có chứa một từ khóa nào đó. Tuy nhiên, với các từ khóa đa nghĩa như table (là “bàn” hoặc “bảng biểu”) và nếu người dùng chỉ muốn tìm các văn bản có chứa từ “table” với nghĩa “bảng biểu” thì các engine tìm kiếm hiện nay sẽ trả về rất nhiều tài liệu không liên quan. Trong trường hợp này nếu ta thực hiện việc chỉ mục các văn bản không phải theo sự xuất hiện của từ khóa mà theo nghĩa của từ thì ta có thể dễ dàng giải quyết vấn đề nêu trên. Xây dựng hệ quản trị cơ sở dữ liệu cho phép truy vấn dựa trên ngữ nghĩa: Giả sử ta có câu truy vấn sau: “Hãy tìm tất cả những người trí thức đang sống trong khu phố X”. Với một hệ quản trị cơ sở dữ liệu thông thường trong điều kiện ta chỉ có trường mô tả nghề nghiệp, ta không thể thực hiện được câu truy vấn này bởi trong cơ sở dữ liệu không lưu trữ bản ghi nào có giá trị trường nghề nghiệp là “trí thức” cả. Tuy nhiên, với sự hỗ trợ của từ điển điện tử, ta có thể biết rằng “bác sỹ”, “kỹ sư”, “nhà văn”, “nhà thơ”… là những nghề nghiệp của giới trí thức. Vì vậy ta có thể tìm ra tất cả các bản ghi có chứa những từ này. Trên thế giới, đã có rất nhiều dự án lớn kéo dài nhiều năm nghiên cứu về từ điển điện tử như dự án WORDNET tại Đại học Princeton, dự án Cyc phát triển bởi công ty CYCORP, dự án EDR của Viện nghiên cứu về từ điển điện tử của Nhật bản. Tại Việt Nam, từ điển điện tử cũng đã bắt đầu được sử dụng trong một số ứng dụng xử lý ngôn ngữ tự nhiên tiếng Việt. Mặc dù vậy, các từ điển này được thiết

Page 46: Mạng thần kinh nhân tạo

46

kế chuyên biệt cho từng ứng dụng cụ thể nên chúng khó có thể được áp dụng một cách rộng rãi. Hơn nữa, việc thiếu những nghiên cứu chuyên sâu về từ điển điện tử đã phần nào ảnh hưởng đến chất lượng của các từ điển này. Trong khuôn khổ đề tài KC01-03, chúng tôi đã thực hiện được những công việc sau:

− Nghiên cứu đánh giá các từ điển điện tử nổi tiếng trên thế giới như Cyc, WordNet, EDR.

− Dựa trên các nghiên cứu đó, xây dựng được một mô hình chi tiết cho từ điển điện tử tiếng Việt, phù hợp với các yêu cầu đa dạng của các ứng dụng xử lý ngôn ngữ tự nhiên tiếng Việt nhưng vẫn đảm bảo tính khả thi.

− Xác định các bước cần thực hiện cũng như các vấn đề cần giải quyết để xây dựng nên từ điển hoàn chỉnh.

Trả lời ý kiến nhận xét − Đây là một nhánh nhỏ của đề tài nhằm nghiên cứu mô hình lý thuyết và đưa ra

mô hình của từ điển điện tử (TĐĐT) cho tiếng Việt. − TĐĐT cho tiếng Việt là công cụ cơ bản để hiểu ngôn ngữ trên máy tính, ý

nghĩa tương tự như con người cầ có từ điển liên quan đến các đề tài khác với dịch tự động, tuy nhiên do mục tiêu chỉ làm mô hình nên chưa thể kết nối ngay được. Đây là một vấn đề phức tạp (Nhật bản có cả một Viện chuyên ngành làm chuyện này) nên mục tiêu chỉ giới hạn như vậy, làm cơ sở cho các nghiên cứu tiếp theo.

Nhận xét về tên "Mô hình từ điển" hay "Từ điển mô hình" là chưa chính xác. Đã viết rõ từ đầu đây là "Mô hình của từ điển điện tử". Trong thời gian tới, chúng tôi sẽ tiến hành xây dựng một số chương trình thử nghiệm dùng cho việc xây dựng từ điển, nhập dữ liệu mẫu với một số lượng nhỏ các từ, kết nối dữ liệu của từ điển mẫu với các chương trình ứng dụng, sử dụng từ điển mẫu cố gắng giải quyết một số vấn đề của xử lý ngôn ngữ tự nhiên cho tiếng Việt. Mô hình VMTD mới chỉ là bước đầu trong quá trình xây dựng một từ điển điện tử thực sự. Quá trình này đòi hỏi phải có sự đầu tư nghiên cứu lâu dài của nhiều chuyên gia về ngôn ngữ học cũng như về tin học để có thể xây dựng được một từ điển điện tử chất lượng cao. 2.3. Tổng quát hoá và đánh giá kết quả thu được Lần đầu tiên ở Việt Nam có một đề tài nghiên cứu cấp nhà nước về nhận dạng, tổng hợp và xử lý tiếng Việt, một vấn đề hết sức quan trọng của CNTT mang đặc thù Việt Nam. Tập thể cán bộ tham gia đề tài đã thực hiện đầy đủ các nhiệm vụ đặt ra trong thuyết minh đề cương ban đầu cũng như trong hợp đồng. Đề tài trong ba năm thực hiện đã tập trung nghiên cứu vào những vấn đề cơ bản nhất trong ba nội dung đã đăng ký là 1/ Nhận dạng và tổng hợp tiếng Việt; 2/ Nhận dạng chữ Việt in và viết tay có hạn chế, 3/ Xử lý ngôn ngữ tự nhiên tiếng Việt (các giải pháp trong xử lý ngôn ngữ tự nhiên tiếng Việt, nhằm tới mục đích dịch tự động).

Page 47: Mạng thần kinh nhân tạo

47

Đề tài đã tạo ra một số phần mềm ứng dụng, trong số đó đã có sản phẩm trở thành thương phẩm. Do thời gian mới thực hiện trong vòng ba năm, việc triển khai các sản phẩm này vào thực tế còn cần thời gian để xem xét, tuy nhiên đã có thể đánh giá bước đầu về các chỉ tiêu chất lượng thông qua tính ổn định của phương pháp và khối lượng dữ liệu thử nghiệm lớn. Cùng với các kết quả đó, đề tài đã hoàn thành 19 bài báo, báo cáo khoa học, trong đó có 3 bài đăng ở nước ngoài. Các kết quả này đã góp phần làm phong phú thêm về mặt lý thuyết thổng hợp, nhận dạng ngôn ngữ đơn âm đa thanh điệu, một mảng chưa có thật nhiều kết quả trên thế giới. Một trong những kết quả quan trọng của đề tài là đã tạo ra được đội ngũ nghiên cứu có năng lực, có kinh nghiệm, nhiệt tình, và đi đúng hướng, Trong vòng 3 năm qua, đã có 01 luận văn tiến sĩ đã bảo vệ thành công về nhận dạng tiếng nói, 01 luận văn tiến sĩ đang thực hiện về tổng hợp tiếng nói đã có nhiều kết quả, 01 luận văn tiến sĩ sắp bảo vệ về dóng hàng tự động các ngôn ngữ Pháp - Việt / Việt – Pháp (tại CH pháp), 03 luận văn thạc sĩ đã bảo vệ về nhận dạng chữ viết tay và xử lý ngôn ngữ tự nhiên cũng như nhiều luận văn thạc sĩ và đại học đang thực hiện về các hướng nghiên cứu này cả ở trong và ngoài nước. Đề tài cũng đã góp phần tạo ra sự hợp tác có hiệu quả giữa một số tập thể nghiên cứu trong nước và với một số trung tâm nghiên cứu ở nước ngoài. 2.4. Kết luận và kiến nghị Kết luận: Đề tài thực hiện đầy đủ những nội dung và kết quả đã đăng ký, đảm bảo đúng tiến độ. Sau đây là một số kết quả dưới hình thức những phần mềm đã được ứng dụng hoặc sẵn sàng ứng dụng: − Nhận dạng chữ Việt in: Sản phẩm VnDOCR 3.0 là phiên bản hoàn thiện nhất

cho đến nay và được người dùng đánh gí cao. − Nhận dạng chữ viết tay có hạn chế: lần đầu tiên được nghiên cứu ở Việt Nam.

Các kết quả đã đựoc ứng dụng để xây dựng phần mềm MarkRead - phần mềm nhập liệu tự động các phiếu điều tra, thi trắc nghiệm.

− Tổng hợp tiếng nói: Sản phẩm VnVocice 2.0 đang ứng dụng thử nghiệm trong hệ thống thông điệp hợp nhất UMS và dang thử nghiệm giúp người khiếm thị. Giọng đọc trong VnVoice 2.0 đã có thể chấp nhận để hiểu được văn bản, nhưng cần phải tiếp tục hoàn thiện để đạt đến mức độ tự nhiên cao hơn nữa.

− Nhận dạng tiếng nói: Các kết quả nghiên cứu được thể hiện trong VnCommand. Với phần mềm này, máy tính có thể nhận dạng được một tập các lệnh (khoảng 100 lệnh), kể cả 10 chữ số. VnDictator: Phần mềm nhận dạng tiếng nói kiểu đọc chính tả, đọc chậm (kiểu phát thanh viên) trong môi trường có độ nhiễu nhỏ. Ngoài 2 sản phẩm trên, đề tài còn nghiên cứu phương pháp và công nghệ xây dựng CSDL tiếng nói, bước đầu xây dựng CSDL tiếng nói (cỡ nhỏ) phục vụ cho việc nghiên cứu và thử nghiệm nhạn dạng và tổng hợp tiếng nói. Đồng thời

Page 48: Mạng thần kinh nhân tạo

48

đề tài cũng tiến hành nghiên cứu thử nghiệm cách tiếp cận không kinh điển với hy vọng tạo ra một giải pháp mới cho vấn đề tổng hợp và nhận dạng tiếng Việt.

− Dịch tự động: Phần mềm EVTRAN 2.5 dich Anh–Việt, Việt–Anh (dịch Việt– Anh là sản phẩm đăng ký của đề tài)

Kiến nghị: Tuy nhiên vấn đề xử lý ngôn ngữ tự nhiên, tổng hợp và nhận dạng tiếng Việt, chữ Việt (đặc biệt là chữ viết tay) là vấn đề khó, những kết quả thu được mới chỉ là những kết qả bước đầu, đặt nền móng cho những nghiên cứu tiếp theo. Hiện nay trên thế giới, mặc dầu các hướng nghiên cứu này được đầu tư tập trung và kéo dài trong rất nhiều năm, nhưng vẫn còn rất nhiều vấn đề mở, bởi tất cả những bài toán liên quan đến nhận thức con người là vô tận, cần đặt ra những bước đi cụ thể và giải quyết triệt để cho từng lớp bài toán, từ đơn giản đến phức tạp dần. Đây là hưóng nghiên cứu quan trọng đề tài đề nghị Chương trình KC01 tiếp tục hỗ trợ hướng nghiên cứu này với những định hướng tiếp theo như sau: a. Hỗ trợ để triển khai ứng dụng các kết quả đã đạt được liên quan đến nhận dạng và tổng hợp tiếng Việt vào thực tế, cụ thể một số ứng dụng sau: − Xây dựng phần mềm nhập số liệu tự động bằng giọng nói cho các bảng tính,

chương trình kế toán… − Tích hợp phần nhận dạng lệnh, chuỗi số, từ khoá, khuôn mẫu câu cho hệ

School Voice Portal − Tích hợp hệ nhận dạng 10 chữ số tiếng Việt liên tục độc lập người nói trên môi

trường điện thoại với card Dialogic trong các hệ thống tra cứu tài khoản qua điện thoại.

− Tích hợp hệ nhận dạng 10 chữ số tiếng Việt liên tục độc lập người nói trên môi trường điện thoại di động

− Triển khai phần tổng hợp tiếng nói cho người khiếm thị (đọc màn hình, đọc văn bản...)

− Tiếp tục tích hợp những kết quả lý thuyết và công nghệ đã đạt được (trong khuôn khổ nghiên cứu của đề tài) cũng như bổ sung và hiệu chỉnh cơ sở tri thức ngôn ngữ vào sản phẩm để nâng cao chất lượng trong phiên bản tiếp theo (dự kiến hoàn tất trong năm 2005) và tiến tới bổ sung các ngôn ngữ khác vào hệ thống dich tự động.

b. Hỗ trợ những nghiên cứu tiếp theo: Như đã trình bày, tổng hợp nhận dạng tiếng nói và xử lý ngôn ngữ tự nhiên tiếng Việt là những vấn đề lớn, phức tạp và khó. Các kết quả của đề tài mớí chỉ là bước đầu, để việc đầu tư của nhà nước có hiệu quả, đưa ra được những sản phẩm thiết thực, việc tiếp tục nghiên cứu là cần thiết. Để việc nghiên cứu hiệu quả hơn đã đến lúc tách ra thành hai đề tài độc lập. Hai đề tài đó có thể là:

Page 49: Mạng thần kinh nhân tạo

49

1/ Tổng hợp và Nhận dạng tiếng Việt với các nội dung chính: − Xây dựng CSDL tiéng (nói) Việt. Đây là một vấn đề lớn cần được đầu tư

nghiêm túc của Nhà nước theo kinh nghiệm về xây dựng CSDL tiếng nói của nước ngoài, ví dụ như TIMIT (Mỹ). CSDL tiếng nói sẽ phục vụ cho cộng đồng nghiên cứu về tổng hợp và nhận dạng tiếng Việt.

− Nghiên cứu về tổng hợp và nhận dạng tiếng Việt, chủ yếu sẽ tập trung vào xây dựng các mô hình hiệu quả cho ngôn điệu tiếng Việt và nhận dạng thanh điệu tiếng Việt.

2/ Dịch tự động − Nghiên cứu các cách tiếp cận để lựa chọn những cách tiếp cận phù hợp. − Nghiên cứu một cách hệ thống về ngôn ngữ tiếng Việt, bổ sung và hiệu chỉnh

cơ sở tri thức ngôn ngữ. − Thiết kế, xây dựng hệ thống dịch đa ngữ. 2.5. Tài liệu tham khảo A. Tổng hợp và nhận dạng tiếng Việt

1. Jie Zhu, Fei-li Chen, “The analysis and application of a new endpoint detection method based on distance of aurocorrelated similarity”, SJTU & Bell Labs Communications And Network Joint Laboratory Shanghai Jiao Tong University, Shanghai Jiao Tong University, Shanghai, 2003, P.R.China.

2. Carl D.Mitchell and Anand R.Setlur, “Improve spelling recognition using a tree based fast lexical match”, Lucent Technologies Bell Laboratories 2000 N.Naperville Rd. Naperville, IL 60566, USA, ICASSP 1999, pp.24-29.

3. Lawrence R. Rabiner, Stephen E. Levinson, “A Speaker-Independent, Syntax-Directed, Connected Word Recognition System Based on Hidden Markov Models and Level Building”, IEEE Transaction on Acoustic, Speech and Signal Processing, Vol ASSP-33, N. 3, June 1985, pp 561-573.

4. M. Ibnkahla, “Application of neural networks to digital communications - a survey”, Signal Procesing 80(2000), pp.1185-1215.

5. Lawrence Rabiner, “Fundamental of speech recognition”, 1995. 6. A.Samouelian - “Knowledge based approach to consonant recognition”,

Department of electrical and Computer Engineering, University of Wollongong, Northfields Avennue, Wollongong, NSW 2522, Australia.

7. Tan Lee and P.C. Ching- “A Neural Network Based Speech Recognition System for Isolated Cantonese Syllables”, Department of electronic Engineering, The Chinese University of Hong Kong, N.T., Hong Kong, ICASSP - 1997, pp.3269-3272.

8. TungHui Chiang, CCLMDS’96 “Towards a Speaker-Independent Large-Vocabulary Mandarin Dictation System”, ICASSP 1997, pp 1799-1802.

9. Vũ Kim Bảng, “Khái niệm ngữ âm học”, Tạp chí ngôn ngữ số 5 – 1999.

Page 50: Mạng thần kinh nhân tạo

50

10. Vũ Kim Bảng, “Hệ Phooc mang của 9 nguyên âm đơn tiếng Hà Nội”- Tạp chí ngôn ngữ số 15-2002.

B. Nhận dạng chữ Việt in

11. René Sennhauser, Improving the recognition accuracy of text recognition

systems using typographical constraints, Elẻctonec PublishingUBLISHING, VOL 6(3), 273-282, September 1993.

12. [Fletcher et al.] L.A. Fletcher, R.Kasturi. A robust algorithm for text string separation from mixed text/graphics images. In IEEE Trans.Pattern. Ana. Machine Intell. 10, Vol.6, 1998, 910-918.

13. Luong Chi Mai, Nguyen Duc Dzung, Ngo Quoc Tao. A new method of OCR based on a structure of character. Proceeding of AMPST 96, Bradford, UK, 1996.

14. Giovanni Seni, V Kripasundar and Rohini K. Srihari, Generalizing edit distance to incorporate domain information: Hand written text recognition as a case study

C. Nhận dạng phiếu điều tra và chữ viết tay có hạn chế

15. Ng« Quèc T¹o, §ç N¨ng Toµn, NguyÔn ThÞ Thanh T©n, "PhiÕu ®iÒu tra vµ hÖ thèng nhËp phiÕu ®iÒu tra tù ®éng", Mét sè vÊn ®Ò chän läc cña c«ng nghÖ th«ng tin, NXB KHKT Hµ Néi 2002.

16. L-¬ng Chi Mai, §ç N¨ng Toµn, Ng« Thµnh Trung, VÒ mét ph-¬ng ph¸p x¸c ®Þnh ng-ìng tù ®éng trong ph©n tÝch trang v¨n b¶n, Kû yÕu héi th¶o Quèc gia lÇn thø 5, "Mét sè vÊn ®Ò chän läc cña c«ng nghÖ th«ng tin", NXBKHKT, Hµ Néi 2003.

17. Ngô Quốc Tạo, Phạm Văn Hùng, “Nhận dạng chữ viết tay hạn chế sử dụng các đặc trưng về cấu trúc chữ”, Kỷ yếu hội thảo Quốc gia lần thứ 5 "Một số vấn đề chọn lọc của Công nghệ thông tin", NXBKHKT, Hà Nội 2003.

18. Ngô Quốc Tạo, Phạm Văn Hùng, "Một số phương pháp Nhận dạng chữ viết tay hận chế", Kỷ yếu Héi th¶o khoa häc quèc gia lÇn thø nhÊt Nghiªn cøu ph¸t triÓn vµ øng dông C«ng nghÖ th«ng tin vµ TruyÒn th«ng, 2/2003.

19. Ng« Quèc T¹o, §ç N¨ng Toµn vµ céng sù, "ThiÕt kÕ vµ cµi ®Æt thö nghiÖm hÖ nhËp phiÕu ®iÒu tra d¹ng dÊu MarkRead", Héi th¶o khoa häc quèc gia lÇn thø nhÊt Nghiªn cøu ph¸t triÓn vµ øng dông C«ng nghÖ th«ng tin vµ TruyÒn th«ng, 2/2003.

D. Dịch Việt – Anh

20. Noam Chomsky, On certain formal properties of grammars, Inform Control, vol 2, p.137-167, 1959.

21. Christian Boitet (2002) A rationale for using UNL as an Interlingua and more in various domains, Geta, Clips, Imag, 385, av. de la bibliothèque, BP 53, F-38041 Grenoble cedex 9, France, Christian.Boitet@ imag.fr, LREC-

Page 51: Mạng thần kinh nhân tạo

51

02 First International Workshop on UNL, other Interlinguas and their Applications, 1 June 2002

22. Bonnie Dorr and Nizar Habash (2002) Interlingua Approximation: A Generation-Heavy Approach, University of Maryland, Institute for Advanced Computer Studies, {bonnie,habash} @umiacs.umd.edu (UNITRAN)

23. John Hutchins W. (2003) Machine translation: half a century of research and use, UNED summer school at Ávila, Spain, July 2003], http://ourworld.compuserve.com/ homepages/

24. Stephen D. Richardson (2002) Achieving commercial-quality translation with example-based methods, Stephen D. Richardson, William B. Dolan, Arul Menezes, Jessie Pinkham, Microsoft Research, One Microsoft Way, Redmond, WA 98052, {steveri, billdol, arulm, jessiep}@ microsoft. com

25. Arturo Trujillo (1999) Translation Engines: techniques for Machine Translation. Springer-Verlag, Berlin, 1999.

26. Kevin Knight (1995) Integrating Knowledge Bases and Statistics in MT, Kevin Knight, Ishwar Chander, Matthew Haines, Vasileios Hatzivassiloglou, Eduard Hovy, Masayo Iida, Steve K. Luk, Akitoshi Okumura, Richard Whitney, Kenji Yamada, USC Information Science Institute, 4676 Admiralty Way, Marina del Rey, CA 90292

27. DeryleW. Lonsdale, Alexander M. Franz, and John R. R. Leavitt (1994) Large-Scale Machine Translation: An Interlingua Approach, Center for Machine Translation, Carnegie Mellon University, Pittsburgh, Pa., USA, 15213, Email: [email protected], [email protected], [email protected]. edu (KANT)

28. Michele Banko and Eric Brill (2002) Scaling to Very Very Large Corpora for Natural Language Disambiguation, Microsoft Research, 1 Microsoft Way, Redmond, WA 98052 USA, {mbanko, brill}@ microsoft.com

29. Unification and Some New Grammatical Formalisms, Aravind K. Joshi, Department of Computer and Information Science, University of Pennsylvania (Nguồn : Internet)

30. ISHIZAKI Shun, UCHIDA Hiroshi, (1998) On Interlingua for Multilingual Machine Translation, 1998, IPSJ SIGNotes Natural Language Abstract No.070 – 003

31. Lê Khánh Hùng (2003) Văn phạm cảm ngữ đoạn, Báo cáo khoa học tại hội thảo quốc gia lần thứ sáu “Một số vấn đề chọn lọc của CNTT và TT”, Thái nguyên, 8-2003.

32. Lê Khánh Hùng, Trần Cảnh (2003) Về một số hạn chế của mô hình văn phạm Chomsky, Tạp chí Bưu chính Viễn thông, Chuyên san, 10, 2003.

33. Lê Khánh Hùng (2003) Một Phương pháp Dịch máy Liên ngữ. Kỷ yếu Hội thảo Khoa học Quốc gia lần thứ nhất về Nghiên cứu, Phát triển và Ứng dụng CNTT&TT, Hà nội, 2003.

E. Dóng hàng các văn bản song ngữ Pháp - Việt / Việt – Pháp

Page 52: Mạng thần kinh nhân tạo

52

34. Abney S., "Part-of-Speech Tagging and Partial Parsing", in Young S. and Bloothooft (Eds), Corpus-Based Methods in Language and Speech processing, Kluwer Academic Publishers, Dodreht (The Netherlands), 1997.

35. Brill E., "Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging", Computational Linguistics, 21(4), December 199, p.543-565.

36. Cao Xuân Hạo, Tiếng Việt - mấy vấn đề ngữ âm, ngữ pháp, ngữ nghĩa, NXB Giáo dục, 2000.

37. Dermatas E., Kokkinakis G., "Automatic Stochastic Tagging of Natural Language Texts", Computational Linguistics 21.2, 1995, p. 137 - 163.

38. Diệp Quang Ban, Hoàng Văn Thung, Ngữ pháp tiếng Việt (2 tập), NXB Giáo dục, 1999.

39. El-Bèze M, Spriet T., "Etiquetage probabiliste et contraintes syntaxiques", Actes de la conférence sur le Traitement Automatique du Langage Naturel (TALN95), Marseille, France,14-16/6/1995.

40. Hoàng Phê (chủ biên), Từ điển tiếng Việt 2002, Nhà xuất bản Đà Nẵng - Trung Tâm Từ Điển Học.

41. Hữu Đạt, Trần Trí Dõi, Đào Thanh Lan, Cơ sở tiếng Việt, NXB Giáo dục, 1998.

42. Kuipec J., "Robust Part-of-Speech Tagging Using a Hidden Markov Model", Computer Speech and Language, vol. 6, 1992, p. 225-242.

43. Levinger M., Ornan U., Itai A., "Learning morpho-lexical probabilities from an untagged corpus with an application to Hebrew", Comutational Linguistics, 21(3), 1995, p. 383-404.

44. MacMahon J.G., Smith F.J., "Improving statistical language model performance with automatically generated word hierarchies", Computational Linguistics, 19(2), 1993, p. 313-330.

45. Mason O., Tufis D., "Tagging Romanian Texts: a Case Study for QTAG, a Language Independent Probabilistic Tagger", 1st International Conference on Language Ressources and Evaluation (LREC98), Granada (Spain), 28-30 May 1998, p. 589-596.

F. Mô hình từ điển điện tử

46. Cheng-Ming Guo. Machine Tractable Dictionaries, Design and

Construction, Ablex Publishing Corporation, Northwood, New Jersey 1995. 47. Donald E. Walker, Antonio Zampolli, Nicoletta Calzolari. Automation the

lexicon, Oxford University Press 1995. 48. Douglas B. Lenat, R.V. Guha. Building large knowledge-based systems:

representation and inference in the CYC project, Addison-Wesley Pub. Co., 1989, c1990.

49. Fellbaum, Christiane. WordNet: An electronic lexical database, MIT Press 1998.

Page 53: Mạng thần kinh nhân tạo

53

50. German Rigau, Eneko Agirre. Disambiguating bilingual nominal entries against WordNet. In Proceedings of The Computational Lexicon Workshop. Seventh European Summer School in Logic, Language and Information, ESSLLI’95, Barcelona, Spain, 1995.

51. Japan Electronic Dictionary Research Institute, Ltd. EDR Electronic Dictionary Technical Guide, 1993.

52. Jordi Atserias, Salvador Climent, Xavier Farreres, German Rigau, Horacio Rodriguez. Combining multi methods for the Automatic construction of multilingual WordNet, in Proceeding of RANLP, Bulgaria, 1997.

53. Latifur R. Khan, Eduard H. Hovy. Improving the Precision of Lexicon-to-Ontology Alignment Algorithms, in Proceedings of the AMTA/SIG-IL First Workshop on Interlinguas, San Diego, CA October, 1997.

54. Piek Vossen. EuroWordNet: a multilingual database with lexical semantic network, Dordrecht: Kluwer Academic, 1998.

55. Vincent B.Y.Ooi. Computer Corpus Lexicography, Edinburgh University Press, 1998.

56. Yorick A. Wilks, Brian M. Slator, and Louise M. Guthrie. Electric Words, MIT Press, 1996.

57. Diệp Quang Ban. Ngữ Pháp Tiếng Việt, NXB Giáo Dục 2000 (in Vietnamese).

58. Nguyễn Thị Quy. Vị từ hành động tiếng Việt và các tham tố của nó, NXB Khoa học Xã hội, 1995 (in Vietnamese).

59. Trung tâm Khoa học Xã hội và Nhân văn Quốc Gia. Ngữ Pháp Tiếng Việt, NXB Khoa học Xã hội, 2000 (in Vietnamese).

Page 54: Mạng thần kinh nhân tạo

D1-1-ĐGMOI

BẢN TỰ ĐÁNH GIÁ VỀ TÌNH HÌNH THỰC HIỆN VÀ NHỮNG ĐÓNG GÓP MỚI

CỦA ĐỀ TÀI KH&CN CẤP NHÀ NƯỚC (Kèm theo Quyết định số 13/2004/QĐ-BKHCN ngày 25/5/2004

của Bộ trưởng Bộ Khoa học và Công nghệ) 1. Tên Đề tài NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ TIẾNG VIỆT Mã số: KC01-03 2. Thuộc Chương trình: Khoa học và Công nghệ trọng điểm cấp Nhà nước giai đoạn 2001 – 2005: “Nghiên cứu khoa học và phát triển Công nghệ thông tin và truyền thông”, Mã số KC01. 3. Chủ nhiệm Đề tài: GS.TSKH. Bạch Hưng Khang 4. Cơ quan chủ trì Đề tài: Viện Công nghệ thông tin, Viện Khoa học và Công nghệ Việt Nam. 5. Thời gian thực hiện (BĐ-KT): từ tháng 10 năm 2001 – tháng 6 năm 2004 6. Tổng kinh phí thực hiện Đề tài: 2 tỷ đồng Trong đó, kinh phí từ NSNN: 2 tỷ đồng 7. Tình hình thực hiện Đề tài so với Hợp đồng 7.1/ Về mức độ hoàn thành khối lượng công việc Đã hoàn thành các nhiệm vụ đã đăng ký trong hợp đồng: bao gồm 8 sản phẩm với các chức năng cụ thể như sau: 1. Hệ thống tổng hợp tiếng nói VnVoice − Tổng hợp văn bản chữ in tiếng Việt (với các mã Unicod, TCVN 5712, VNI)

thành tiếng nói. − Đọc rõ ràng các âm tiết tiếng Việt. − Đọc các khuôn dạng phi từ: biểu thức số, ngày tháng, giờ điện tử, tiền Việt, các

đơn vị đo lường, các xâu viết tắt thông dụng. − Đọc tự động văn bản hỗn hợp Việt - Anh, hoặc thuần Việt, hoặc thuần Anh.

Page 55: Mạng thần kinh nhân tạo

2

− Đọc các văn bản từ các nguồn: trên clipboard, văn bản từ bàn phím gõ vào, văn bản trên các Website, trong các ứng dụng Microsoft Word, Outlook Express.

− Dựa trên phương pháp ghép nối các đơn vị âm cơ bản, sử dụng phương pháp

PSOLA cho 2 bộ đơn vị: 1/khoảng 300 đơn vị âm cơ bản, dung lượng bộ nhớ 1,5MB RAM, gồm phụ âm đầu và phần vần không thanh điệu, tổng hợp thanh điệu, tổng hợp được tất cả các thanh tiếng Việt, bao gồm cả thanh ngã và thanh nặng; 2/ khoảng 900 đơn vị âm cơ bản, dung lượng bộ nhớ 6 MB RAM, gồm phụ âm đầu và phần vần có thanh điệu.

− Để đánh giá độ hiểu của tiếng Việt tổng hợp, đề tài đã thực hiện những đánh

giá và kết quả thống kê trên 100 đối tượng sau: Nhóm A (50 người, khác nhau về tuổi và giới tính) là những người nghiên cứu tiếng Việt(A1) và phóng viên (A2), do vậy yêu cầu của họ khi nghe chương trình tổng hợp tiếng Việt là khắt khe hơn. Nhóm B (50 người, khác nhau về tuổi và giới tính) chiếm số đông trong xã hội gồm công chức (B1) và người khiếm thị (B2), yêu cầu quan trọng nhất cho việc đánh giá tiếng Việt tổng hợp là mức độ hiểu của họ là bao nhiêu. Kết quả cụ thể như sau (đề tài có bản thống kê so sánh chi tiết) : Đối với nhóm A:

Ý kiến thống nhất: - Đánh giá của cả hai nhóm về chất lượng của nguyên âm và phụ âm cuối

tốt là tương đối thống nhất - Nhóm A1: có 68% đánh giá phụ âm đầu của văn bản tổng hợp có lỗi,

nhóm A2 là 58%. - Nhóm A2: có 64% đánh giá tốc độ của văn bản tổng hợp là chậm, nhóm

A2 là 84%. Ý kiến khác biệt: Sự khác biệt lớn nhất là đánh giá về lỗi thanh điệu và so sánh với lời nói thực:

- 100% nhóm A1 cho rằng thanh điệu của lời nói tổng hợp không có lỗi. Trong khi đó chỉ có 54% của nhóm A2 cho rằng thanh điệu của lời nói tổng hợp không có lỗi.

- 48% nhóm A1 cho rằng giọng nói tổng hợp đạt tỉ lệ 90% so với tiếng nói thực, 36% nhóm A2 đánh giá giọng nói tổng hợp đạt tỉ lệ 50% so với tiếng nói thực Đối với nhóm B: Đánh giá hiểu khi nghe: nhóm B1 có 92% , nhóm B2 có 40%. Đánh giá giọng nói tốt, dễ hiểu: nhóm B1 có 4%, nhóm B2 có 36%.

VnVoice đã giải quyết căn bản vấn đề tổng hợp âm tiết Tiếng Việt. Hiện còn tồn tại các lỗi tập trung ở một số phụ âm đầu, thanh điệu và tốc độ đọc. Những lỗi này có thể sớm khắc phục. Hai vấn đề lớn cần tiếp tục nghiên cứu để giải quyết vấn đề ngữ điệu trong câu, và những vấn đề ngoài phạm vi âm tiết như từ láy, ghép, cụm từ...

Page 56: Mạng thần kinh nhân tạo

3

Trả lời ý kiến nhận xét − VnVoice đã thực hiện chức năng chuyển văn bản thành tiếng nói. Bước đầu đã

đạt được tiêu chuẩn rõ ràng, mạch lạc và người nghe có thể hiểu được văn bản. Trong giai đoạn này, đề tài tập trung chủ yếu vào việc đọc rõ âm tiết và một phần tính đều trong câu mà chưa tập trung giải quyết vấn đề ngữ điệu. Một số từ ghép chưa đảm bảo tính đều vì cần phải có từ những nghiên cứu sâu sắc hơn để giải quyết vấn đề trường độ trong các cặp âm tiết với kết thúc bằng phụ âm tắc vô thanh p-t-c-ch. Vấn đề ngữ điệu là tồn tại lớn nhất của VnVoice. Đề tài đã nghiên cứu, thử nghiệm mô hình Fujisaki, và thu được những kết quả ban đầu nhằm giải quyết vấn đề ngữ điệu và trường độ của câu tổng hợp.

− Tổng hợp nhận dạng tiếng nói đã trở nên cấp thiết ở Việt nam, cho nên trong những năm gần đây có một số tập thể nghiên cứu và thử nghiệm. Tuy nhiên cho đến nay chưa có một sản phẩm nào được xuất hiện dưới dạng thương phẩm, đề tài chưa có điều kiện tiếp cận để so sánh. Trong các hội thảo khoa học, các buối bảo vệ luận án, những người làm trong lĩnh vực này có dịp trao đổi học thuật với nhau. Qua các buổi trao đổi có thể có một vài nhận xét sau: • Trung tâm CDIT của Tổng công ty Bưu chính Viễn thông áp dụng phương

pháp ghi âm các âm tiết tiếng Việt và sử dụng PSOLA để ghép nối các âm tiết đã được ghi âm. Do được ghi âm âm tiết nên âm đọc mang tính tự nhiên nhiều hơn, tuy nhiên CSDL âm lớn và thực chất đây chưa phải là giải pháp tổng hợp tiếng nói thật sự. Hệ thống sẽ không đọc được các âm tiết nếu chưa được ghi âm trước.

• VnSpeech của Softext, Viện ứng dung công nghệ chọn giải pháp tổng hợp theo phân tích formant

• Chương trình tổng hợp tiếng Việt của Trung tâm MICA có giải pháp tương tự như cách tiếp cận trong Đề tài này.

Mỗi phương pháp tiếp cận có những ưu nhuợc điểm khác nhau, chủ yếu phải khảo sát xem những phương pháp nào có khả năng giải quyết được các vấn đề về độ tự nhiên và khả năng ứng dụng.

− Trước khi có đề tài cấp nhà nước Viện Khoa học và Công nghệ Việt nam đã giao cho Viện Công nghệ thông tin nghiên cứu về vấn đề này dưới hình thức một nhiệm vụ đặt hàng. Các nghiên cứu trong quá trình thực hiện nhiệm vụ này đã đặt cơ sở khoa học cho việc hình thành đề cương nghiên cứu KC01-03, một số kết quả của nhiệm vụ (các bộ dữ liệu) được sử dụng tiếp tục để thử nghiệm trong các nghiên cứu tiếp theo. Việc đầu tư của Viện KHCN VN đã tạo điều kiện nghiên cứu về các phương án tổng hợp tiếng Việt bằng phương pháp ghép nối âm vị, đã giúp đề tài xây dựng được 2 bộ dữ liệu cho tổng hợp, phục vụ cho các hướng ứng dụng khác nhau. Bộ dữ liệu thứ hai khoảng 900 đơn vị âm cơ bản, dung lượng bộ nhớ 6 MB RAM, gồm phụ âm đầu và phần vần có thanh điệu nhằm định hướng cho các ứng dụng có tài nguyên lớn hơn, nhưng đảm bảo tính tổng hợp thực sự

Page 57: Mạng thần kinh nhân tạo

4

2. Phần mềm nhận dạng lênh VnCommand − Phần mềm nhận dạng lệnh ứng dụng trong điều khiển thay thế cho người dùng

nhấn chuột hoặc gõ lệnh từ bản phím. − Điều khiển máy tính thực hiện một số lệnh (23 lệnh) trong Internet Explorer

bao gồm tích hợp các modul sau: • Huấn luyện gần 200 giọng mẫu và 50 giọng kiểm tra trong đó số lượng âm

tiết rời là 40, đọc rời rạc (có ngừng giữa các âm tiết ) hay dính âm. • Modul nhận dạng từ đơn lẻ trạng thái tĩnh • Modul thu nhận tín hiệu tiếng nói từ các nguồn vào Audio, Headphone, File • Tìm kiếm các diểm đầu-cuối của một từ (cụm từ) trong môi trờng thời gian

thực. − CSDL gồm tập các lệnh nhỏ (dưới 100 lệnh), hệ thống độc lập người nói.

Trả lời ý kiến nhận xét − Phương pháp đánh giá tỉ lệ độ chính xác của nhận dạng 10 chữ số tiếng Việt

liên tục tuân theo phương pháp trong nhận dạng về đánh giá độ chính xác trên tập dữ liệu học, dữ liệu kiểm tra. Cụ thể như sau: Cơ sở dữ liệu tiếng nói được sử dụng được trích ra từ hai cơ sở dữ liệu tiếng

nói điện thoại “22 Language v1.2”, và “Multi-Language Telephone Speech v1.2” của trung tâm CSLU (Center for Speech Language Understanding), Viện Sau Đại học Oregon, Hoa kỳ. Đề tài đã có hợp tác với trung tâm này trong quá trình nghiên cứu triển khai nhận dạng mười chữ số liên tục.

CSDL tiếng nói bao gồm 442 câu, 2345 từ, 243 người nói (165 nam, 78 nữ), thu âm theo hình thức phỏng vấn qua điện thoại. Câu dài nhất có 18 từ và câu ngắn nhất có 1 từ. Các câu được thu âm theo PCM 8kHz, 8bit mã hoá. Cơ sở dữ liệu được chia thành ba tập: tập dữ liệu huấn luyện (training set) và tập dữ liệu kiểm tra (test set). Tập dữ liệu huấn luyện bao gồm 300 câu, 1686 từ, do 158 người nói (104 nam và 54 nữ). Tập dữ liệu phát triển có 74 câu, 342 từ do 38 người nói (27 nam, 11 nữ) , tập dữ liệu kiểm tra có 68 câu, 317 từ do 47 người nói (34 nam, 13 nữ). Để đảm bảo tính khách quan, người nói trong tập dữ liệu kiểm tra là độc lập với người nói trong tập dữ liệu huấn luyện. Độ chính xác 97,58% được thực hiện trên tập dữ liệu thử này.

Người nói phát âm các câu bao gồm các chữ số như: số điện thoại, địa chỉ, số bưu điện, tuổi, ... Các câu được thu âm từ nhiều máy điện thoại khác nhau. Kiểu của máy điện thoại và đặc tính của kênh thoại không được xác định. Các câu thu được đa dạng và khác nhau về tốc độ phát âm; về độ to nhỏ; có câu được người nói nói trong văn phòng yên tĩnh, có câu có lẫn nhiều tạp âm như tiếng đài, ti vi xen vào khi người nói ngồi trong nhà, hay tiếng ô tô khi người nói đứng tại trạm bưu điện công cộng,... Tất cả các câu trong cơ sở dữ liệu tiếng đều được phiên âm chính tả và gán nhãn bằng tay tại mức âm vị.

Page 58: Mạng thần kinh nhân tạo

5

− Với tập lệnh Internet Explorer, nhận dạng không phụ thuộc người nói độ chính xác trên 95 % trong điều kiện đọc tự nhiên (đọc nhanh, đọc chậm), rõ ràng.

3. Chương trình thử nghiệm đọc chính tả VnDictator − Chương trình nhận dạng kiểu đọc chính tả tiếng Việt các từ đọc rõ ràng với

lượng từ vựng không hạn chế thay thế cho người dùng gõ phím. − Nhận dạng phu thuộc người nói (giọng của phát thanh viên đã được huấn

luyện), lượng từ vựng đọc về cơ bản không hạn chế, thay thế cho việc người dùng gõ phím: • Module huấn luyện tham số cho các mô hình nhận dạng. • Module nhận dạng thanh điệu thử nghiệm. • Module nhận dạng từ rời • Module huấn luyện mô hình ngôn ngữ cho văn bản

Trả lời ý kiến nhận xét

− Với chương trình nhận dạng toàn bộ âm tiết tiếng Việt, đề tài đã giải quyết ba

vấn đề: • Huấn luyện âm vị trong ngữ cảnh câu và kết hợp mô hình ngôn ngữ để

nhận dạng câu, • Cải tiến chất lượng nhận dạng âm vị cho mô hình HMM gồm 19 phụ âm

đầu, 12 nguyên âm chính và các âm cuối, • Nhận dạng thanh điệu tiếng Việt. Mỗi vấn đề trên đều có những đặc điểm khác cơ bản so với tiếng Anh và cả với các tiếng Trung, Thái là ngôn ngữ có thanh điệu gần với tiếng Việt. Cụ thể: • Mô hình ngôn ngữ phải cải tiến cho các từ đôi, ba, … • Các âm vị tiếng Việt ngắn hơn rất nhiều so với âm vị tiếng Anh, một số âm

kết thúc với p, t, c-ch không có trong tiếng Trung, tiếng Thái, • Thanh điệu tiếng Việt phức tạp hơn so với các ngôn ngữ có thanh điệu

khác. Vì vậy, dù rằng một số giải pháp đã tích hợp vào hệ VnDictator mới chỉ là thử nghiệm nhưng nó đã chứng tỏ khả năng sử dụng được và sẽ đạt được nhiều kết quả hơn nếu được đầu tư nhiều hơn về thời gian.

− Như đăng ký, chương trình nhận dạng đọc chính tả tiếng Việt là chương trình

thử nghiệm, chỉ nhận dạng giọng đọc phụ thuộc người nói, (giọng của phát thanh viên) và môi trường văn phòng có độ ồn thấp. Vấn đề còn sai số trong nhận dạng tự động là điều không thể tránh khỏi. Trong phương pháp được sử dụng, ngoài mô hình nhận dạng còn kết hợp cả mô hình ngôn ngữ. Kết quả nhận dạng trên câu chưa thật chính xác phụ thuộc cả vào hai yếu tố: dữ liệu huấn luyện cho nhận dạng còn thiếu, một trong những vấn đề then chốt trong nhận dạng là phải đảm bảo đủ dữ liệu huấn luyện, Việc xây dựng CSDL phải

Page 59: Mạng thần kinh nhân tạo

6

là một dự án co qui mô lớn. Ngoài ra, cũng dựa trên CSDL lớn mới có thể huấn luyện mô hình ngôn ngữ phong phú. Trong chương trình thử nghiệm đăng ký trong đề tài, chỉ tập trung với một bộ dữ liệu huấn luyện (truyên Dế mèn phiêu lưu ký) nên sai số là điều không thể tránh khỏi. Nhưng cách tiếp cận của đề tài bám theo những kết quả nghiên cứu về nhận dạng trên thế giới, kết hợp với đặc thù ngữ âm và mô hình ngôn ngữ tiếng Việt nên đảm bảo hướng đi đúng đắn trong các nghiên cứu tiếp theo.

4. Phần mềm thương phẩm nhận dạng phiếu điều tra, nhâp liệu tự động

MarkRead phiên bản beta và 1.0 có tích hợp nhận dạng chữ viết tay hạn chế

− Phát triển phần mềm nhập tự động MarkRead các phiếu điều tra, thi trắc

nghiệm dưới dạng đánh dấu và bổ sung chức năng nhận dạng số, chữ viết tay hạn chế (chữ viết tay dạng in hoa, không dính ký tự).

− Đã thu thập các chữ và số viết tay do 250 người viết, độ phân giải 300dpi, 50x50. Trong đó

− Tập số: 14000 mẫu số chia làm 2 tập: tập học 10000 và tập test 4000 − Tập chữ: 42000 mẫu chữ chia làm 2 tập: tập học 30000 và tập test 12000 − Chúng tôi cũng thử nghiệm với − 60000 mấu số của MNIST (20x20) chia làm 2 tập: tập học 50000, tập test

10000 − Độ chính xác của nhận dạng chuỗi số và chữ tiếng Việt không dấu khoảng trên

90% với tập dữ liệu test trên. 5. Phần mềm thuơng phẩm nhận dạng chữ in tiếng Việt VnDOCR 3.0 VnDOCR 3.0 là phiên bản nâng cấp của VnDOCR 2.0 sau hai năm phát triển các tính năng mới và sửa lỗi. Phiên bản này có những tính năng mới sau đây: − Tự động nhận dạng bảng biểu. − Nhận dạng đa luồng cho phép vừa nhận dạng vừa quét tài liệu, giúp giảm đáng

kể về cả thời gian lẫn công sức của người sử dụng. − Lưu văn bản hỗ trợ ba loại bảng mã tiếng Việt phổ biến nhất hiện nay là

Unicode (các phiên ảnh trước hỗ trợ TCVN 5712 - ABC, VNI). − Tự động kiểm tra chính tả tiếng Việt ngay sau khi nhận dạng xong, tự động

thay thế những từ nhận dạng sai bằng những từ có trong từ điển với độ chính xác cao. Độ chính xác nhận dạng trên 98% với các văn bản có chất lượng trung bình, in từ các máy in lazer, sách, báo, tạp chí phát hành hiện nay.

6. Phần mềm dịch thuật Việt Anh Phát triển phần mềm EVTRAN 2.5 dịch Việt-Anh (dịch Việt – Anh là sản phẩm đăng ký của đề tài), dich Anh Việt là chức năng của EVTRRAN 2.0.

Page 60: Mạng thần kinh nhân tạo

7

Các hệ dịch tự động trên thế giới đều có tính chất hỗ trợ dịch để xem hiểu, không phải dịch thay người. EVTRAN không phải là ngoại lệ. Tất nhiên chất lượng dịch Việt – Anh của EVTRAN còn tiếp tục phải được cải thiện. Trong khuôn khổ nhánh đề tài chỉ đặt ra yêu cầu hạn chế. Phần mềm phải được tiếp tục bổ sung tri thức ngôn ngữ (cả hai chiều Anh-Việt và Việt-Anh) trước khi đưa ra công bố rộng rãi. Nguyên lý thiết kế của phần mềm dựa vào việc mở rộng mô hình văn phạm để có thể mô tả được đầy đủ hơn các yếu tố của ngôn ngữ tự nhiên. Do khối lượng công việc cần làm để có được sản phẩm chất lượng cao là rất lớn. Trong khuôn khổ của đề tài chúng tôi đã thực hiện cả nghiên cứu lý thuyết và triển khai công nghệ.

Về mặt Lý thuyết có những kết quả sau: − Phát triển mô hình văn phạm cảm ngữ đoạn làm công cụ hình thức để mô tả

ngôn ngữ tự nhiên − Đưa ra một cách tiếp cận trong việc hình thức hóa sự lập luận theo lẽ thường

để mô tả tri thức ngôn ngữ và giải quyết nhập nhằng; − Giới thiệu mô hình dịch máy liên ngữ dựa trên Cây phân cấp ngữ nghĩa – một

mô hình biểu diễn tri thức ngôn ngữ độc lập với các ngôn ngữ tự nhiên. Về mặt Công nghệ có những kết quả sau: − Xây dựng được khung ứng dụng dịch Việt – Anh. − Áp dụng một phần những kết quả nghiên cứu lý thuyết trong phần mềm.

Chúng tôi sẽ tiếp tục áp dụng những kết quả trên, nhất là mô hình dịch mới dựa trên cấu trúc trung gian là cây phân cấp ngữ nghĩa sẽ được tích hợp trong phiên bản tiếp theo của sản phẩm.

− Nhập trên 250.000 mục từ vựng và 5.000 quy tắc dịch Việt-Anh (Khối lượng theo đăng ký đề tài là 150.000 mục từ vựng và 5.000 quy tắc dịch)

− Thông thường các hệ dịch tự động đa dụng (ứng dụng cho nhiều lĩnh vực) đòi hỏi khoảng 600.000 mục từ vựng và 26.000 quy tắc dịch (theo số liệu của công ty Logomedia – một công ty chuyên kinh doanh sản phẩm dịch máy). Chúng tôi sẽ tiếp tục bổ sung dữ liệu tri thức ngôn ngữ để sản phẩm có thể bao quát được hầu hết các tình huống ngôn ngữ tiếng Việt. Đây là quá trình lâu dài và đòi hỏi công sức lớn (vào thời điểm này đã có trên 270.000 mục từ).

Trả lời ý kiến nhận xét EVTRAN là sản phẩm dịch máy theo phương pháp chuyển đổi, dựa trên luật. Những phần mềm dịch máy thương phẩm phổ biến nhất và chất lượng cao nhất trên thế giới hiện nay đều đi theo cách này : SYSTRAN (BabelFish), Power Translator, ProMT (Reverso), Softissimo, Universal Translator,... Đó cũng là cách lựa chọn khả thi cho tiếng Việt vì chúng ta không có kho ngữ liệu song ngữ điện tử Anh Việt nào. Sở dĩ phương pháp dịch máy thống kê hay phương pháp dịch máy dựa trên ví dụ có thể thực hiện đối với tiếng Anh và tiếng Pháp là vì sẵn có các

Page 61: Mạng thần kinh nhân tạo

8

kho ngữ liệu song ngữ khổng lồ (IBM có Văn bản các cuộc thảo luận của Nghị viện Canada do nước này có hai ngôn ngữ chính thức : Anh, Pháp). Như vậy, những nghiên cứu ở Việt nam về dịch máy dựa trên kho ngữ liệu chưa thể đi đến sản phẩm trong tương lai gần được. Mặt khác các phương pháp này (trên thế giới) chưa cho thấy chất lượng tốt hơn (Cụ thể là Translation Manager của IBM chưa tốt hơn Systran hay ProMT). Điều cần nhấn mạnh là tất cả các sản phẩm dịch máy trên thế giới đều là dịch thô. 7. Phần mềm dóng hàng các văn bản song ngữ Pháp - Việt − Sản phẩm dóng hàng:

• Công cụ phần mềm: hệ thống có khả năng xác định các tương đương dịch ở mức từ/ngữ đoạn trong các văn bản song ngữ Pháp - Việt, nhằm hỗ trợ cho việc dịch tự động hay dịch tay, cũng như phục vụ cho các nghiên cứu ngôn ngữ về từ vựng, thuật ngữ trong một hay nhiều ngôn ngữ hoặc có thể hỗ trợ cho việc học tiếng.

• Kho ngữ liệu: kho văn bản song ngữ Pháp - Việt và Anh - Việt được thu thập và mã hoá theo sơ đồ biểu diễn đang được xem xét đưa vào chuẩn quốc tế về biểu diễn và quản lí tài nguyên ngôn ngữ quốc tế.

− Sản phẩm kèm theo: • Công cụ phần mềm: Bộ công cụ xử lí tự động văn bản tiếng Việt như phần

mềm tách từ (tokenizer), phần mềm gán nhãn từ loại tự động (POS tagger), phần mềm đối chiếu từ loại (concordancer), phần mềm phân tích cú pháp câu tiếng Việt (parser).

• Kho ngữ liệu: Cơ sở ngữ liệu tiếng Việt gồm bộ từ vựng có mô tả các thông tin ngữ pháp, từ vựng; kho văn bản tiếng Việt có gán nhãn từ loại, tập quy tắc ngữ pháp. Cũng như kho ngữ liệu song ngữ ở trên, kho ngữ liệu tiếng Việt này cũng được mã hoá theo sơ đồ biểu diễn đang được xem xét đưa vào chuẩn quốc tể về biểu diễn và quản lí tài nguyên ngôn ngữ.

Trả lời ý kiến nhận xét − Trong quá trình nghiên cứu, nhóm nhận thức được tầm quan trọng của việc xây

dựng một kho ngữ liệu có chú giải ngữ pháp - không chỉ trong giới hạn của đề tài này mà phục vụ cho tất cả các nghiên cứu khác cần đến phân tích văn bản (tham khảo hội thảo về tài nguyên ngôn ngữ LREC - http://www.lrec-conf.org/). Vì vậy bộ công cụ nhóm đã xây dựng là nhằm đáp ứng việc quản lí, cập nhật dữ liệu lâu dài. Nhóm cũng quan tâm đến việc theo đuổi các sơ đồ mã hoá chuẩn quốc tế (đang được nghiên cứu, thảo luận trong dự án ISO TC37 SC4), hướng tới mục tiêu trao đổi tri thức tiếng Việt trong cộng đồng nghiên cứu ứng dụng đa ngữ.

− Phần mềm gán nhãn sử dụng một kho văn bản gán nhãn bằng tay làm dữ liệu huấn luyện. Việc gán nhãn bằng tay đòi hỏi nhiều công sức, đặc biệt trong điều kiện vấn đề phân loại từ tiếng Việt có rất nhiều tranh cãi trong giới ngôn ngữ học, chưa đi đến kết luận chuẩn mực. Cũng như các hệ thống quản lí kho văn

Page 62: Mạng thần kinh nhân tạo

9

bản có chú ngữ pháp khác trên thế giới, hệ thống của chúng tôi thực hiện gán nhãn tự động với cơ sở tri thức “học được” từ kho văn bản gán nhãn bằng tay với kích thước nhỏ (100 nghìn từ, so với các hệ thống khác sử dụng hàng triệu từ); sau đó chỉnh sửa kết quả bằng tay để mở rộng không ngừng kho văn bản mẫu. Ngoài ra, bộ nhãn đưa ra cũng cần được tiếp tục đánh giá và chỉnh sửa đề phản ánh tốt hơn quan hệ ngữ pháp giữa các từ. Về mặt phương pháp luận, nhóm sử dụng phương pháp đơn giản vì thực ra vấn đề quan trọng cần giải quyết trước là xây dựng kho từ vựng và ngữ liệu mẫu. Các phương pháp đơn giản hay cải tiến theo đánh giá của các hệ thống cho kết quả khác nhau dưới 2% phần trăm nếu có một kho ngữ liệu mẫu đủ lớn.

− Tóm lại, đây là đề tài cần phải tiếp tục nghiên cứu lâu dài và có nhiều can thiệp hơn nữa của giới ngôn ngữ học. Nhóm hiện đang tiếp tục nghiên cứu và sắp tới sẽ phổ biến phần mềm và triển khai các hoạt động hợp tác nghiên cứu với các nhà ngôn ngữ.

− Về phần mềm dóng hàng, hiện tại nhóm đang đánh giá kết quả dóng hàng ở mức từ (kết quả dóng hàng ở mức câu cho kết quả đạt yêu cầu - đạt 98 -> 99% đối với văn bản song ngữ có chất lượng dịch tốt). Kho dữ liệu song ngữ thu thập được cũng được mã hoá theo sơ đồ XML chuẩn được thiết kế cho các kho ngữ liệu đơn và đa ngữ trong cộng đồng nghiên cứu xử lí ngôn ngữ tự nhiên.

− Kết luận: nhóm thực hiện mục tiêu xây dựng một hệ thống nghiên cứu mở và hợp tác với các nhóm nghiên cứu khác - điều kiện cần thiết để thúc đẩy việc nghiên cứu xử lí tự động tiếng Việt vốn chậm hơn các nước tiên tiến nhiều chục năm.

8. Mô hình từ điển điện tử tiếng Việt − Nghiên cứu các từ điển trên thế giới theo định hướng cho việc dịch tự động. − Đưa ra được một mô hình từ điển gồm có các từ điển con sau đây: từ điển từ

tiếng Việt và tiếng Anh, từ điển song ngữ Anh – Việt, Việt – Anh, từ điển đồng hiện diện tiếng Anh, tiếng Việt, từ điển phân loại khái niệm và từ điển mô tả khái niệm.

− Xây dựng được một công cụ cho phép nhập dữ liệu theo đúng khuôn dạng của mô hình từ điển đã được đề xuất.

Trả lời ý kiến nhận xét − Đây là một nhánh nhỏ của đề tài nhằm nghiên cứu mô hình lý thuyết và đưa ra

mô hình của từ điển điện tử (TĐĐT) cho tiếng Việt. − TĐĐT cho tiếng Việt là công cụ cơ bản để hiểu ngôn ngữ trên máy tính, ý

nghĩa tương tự như con người cần có từ điển trong các lĩnh vực chuyên ngành khác nhau. TĐĐT có liên quan đến lĩnh vực dịch tự động, tuy nhiên do mục tiêu chỉ làm mô hình nên chưa thể kết nối ngay được. Đây là một vấn đề phức

Page 63: Mạng thần kinh nhân tạo

10

tạp (Nhật bản có cả một Viện chuyên ngành làm chuyện này) nên mục tiêu chỉ giới hạn như vậy, làm cơ sở cho các nghiên cứu tiếp theo.

− Về tên "Mô hình từ điển" hay "Từ điển mô hình" là chưa chính xác. Ở đây nên hiểu là "Mô hình của từ điển điện tử".

7.2/ Về các yêu cầu khoa học và chỉ tiêu cơ bản của các sản phẩm KHCN Đạt cơ bản các chỉ tiêu khoa học kỹ thuật như đã đăng ký. 7.3/ Về tiến độ thực hiện: Đề tài được gia hạn thực hiện cho đến hết tháng 6 năm 2004. Và tại thời điểm nghiệm thu, mọi sản phẩm của đề tài đều đảm bảo đạt những yêu cầu như trong đăng ký. 8. Về những đóng góp mới của Đề tài:

Trên cơ sở so sánh với những thông tin đã được công bố trên các ấn phẩm trong và ngoài nước đến thời điểm kết thúc Đề tài, Đề tài có những điểm mới sau đây: 8.1/ Về giải pháp khoa học - công nghệ Các vấn đề liên quan đến ngôn ngữ nói, viết và dịch có những quan hệ mật thiết với nhau do cùng phải giải quyết vấn đề ngôn ngữ của một quốc gia. Các kết quả nghiên cứu về xử lý ngôn ngữ tự nhiên tiếng Việt như vấn đề phân tích văn bản, cú pháp, các đánh giá thống kê trên kho văn bản tiếng Việt, mô hình ngôn ngữ… nhằm phục vụ các nghiên cứu trong tổng hợp tiếng Việt, tạo CSDL văn bản đảm bảo độ đa dạng của các âm tiết, từ vựng với các tổ hợp thanh điệu khác nhau, đảm bảo cho xây dựng CSDL ngữ âm cho nhận dạng tiếng Việt. Để tạo tiền đề và phương pháp luận cho những nghiên cứu có định hướng, đề tài nhằm giải quyết một số vấn đề cơ bản trong các hướng chính sau:

1. Tổng hợp Nhận dạng và nhận dạng tiếng Việt: 2. Nhận dạng chữ Việt in và viết tay có hạn chế: 3. Xử lý ngôn ngữ tự nhiên tiếng Việt: các giải pháp trong xử lý ngôn ngữ tự

nhiên tiếng Việt, nhằm hướng tới mục đích dịch tự động. 8.2/ Về phương pháp nghiên cứu Khác với các sản phẩm khác của công nghệ thông tin, sản phẩm về tiếng nói, chữ viết và ngôn ngữ Việt không thể mua được từ nước ngoài, chỉ có thể do người Việt làm ra trên cơ sở tiếp thu được các thành tựu khoa học công nghệ trên thế giới và theo đuổi thực hiện lâu dài. − Về lý thuyết:

• Khảo sát một cách hệ thống phương pháp và kết quả của các đề án lớn trên thế giới về 3 định hướng chính như đã nêu trên. Tìm ra những vấn đề then

Page 64: Mạng thần kinh nhân tạo

11

chốt cấn giải quyết, tìm ra hướng đi riêng dựa trên các kết quả nghiên cứu và kinh nghiệm đã có của các tập thể thành viên đề tài.

• Tập trung vào nghiên cứu bản chất của ngữ âm và thanh điệu tiếng Việt (cho chủ đề tổng hợp và nhận dạng tiếng), cấu trúc văn phạm và xây dựng cơ sở tri thức văn bản tiếng Việt (cho chủ đề xử lý ngôn ngữ, dịch tự động) là nội dung quan trọng mà các tập thể thành viên đề tài đã có nhiều kết quả và kinh nghiệm.

− Về phát triển thuật giải và chương trình: • Khảo sát hệ thống các thuật toán đã có trong các lĩnh vực nhận dạng, xử lý

ngôn ngữ. Tập trung một lực lượng nghiên cứu trẻ và giỏi về thuật toán để phát triển các thuật toán mới.

• Dùng các phương tiện và công cụ hiện đại để đạt chất lượng và hiệu quả cao nhất. Đẩy mạnh hợp tác quốc tế để tận dụng các cơ hội và khả năng này.

8.3/ Những đóng góp mới khác − Đề tài đã đóng góp các bài nghiên cứu đã được công bố ở các tạp chí, hội nghị

trong và ngoài nước, làm phong phú thêm về mặt lý thuyết cho tổng hợp và nhận dạng ngôn ngữ đơn âm đa thanh điệu, một mảng chưa có thật nhiều kết quả trên thế giới.

− Lần đầu tiên trong chương trình KC01 có một Đề tài về các vấn đề liên quan đến xử lý tiếng Việt. Các nội dung nghiên cứu của xử lý ngôn ngữ tự nhiên rất phong phú và khó.

− Đề tài đã thúc đẩy các nỗ lực nghiên cứu của công đồng những người làm công nghệ thông tin và ngôn ngữ học trực tiếp tham gia hoặc chưa tham gia đề tài.

− Sau 3 năm thực hiện đề tài đã hoàn thành nhiệm vụ đặt ra. Tuy nhiên các kết quả thu được trong lĩnh vực xử lý ngôn ngữ tự nhiên tiếng Việt mới chỉ là mở đầu, nhiều vấn đề lớn đặt ra cần phải tiếp tục giải quyết. Trong thời gian tới cần có những kế hoạch đầu tư nghiên cứu toàn diện hơn, thu hút được đông đảo hơn lực lượng nghiên cứu trong lĩnh vực CNTT cũng như ngôn ngữ họcđể cùng nhau giải quyết một vấn đề hết sức quan trọng đối với CNTT mang đặc thù Việt Nam – Xử lý ngôn ngữ tự nhiên tiếng Việt.

CHỦ NHIỆM ĐỀ TÀI

GS .TSKH Bạch Hưng Khang

Page 65: Mạng thần kinh nhân tạo

1

Céng hoµ x∙ héi chñ nghÜa ViÖt Nam §éc lËp - Tù do - H¹nh phóc ----------------------------------

Hµ Néi, ngµy 30 th¸ng 10 n¨m 2001 Sè: 03/2001 /H§ - §TCT-KC01

Hîp ®ång Nghiªn cøu khoa häc vµ ph¸t triÓn c«ng nghÖ

(dïng cho §Ò tµi KH&CN thuéc c¸c Ch−¬ng tr×nh KHCN träng ®iÓm cÊp Nhµ n−íc giai ®o¹n 3 n¨m 2001 - 2003)

- C¨n cø LuËt Khoa häc vµ C«ng nghÖ ngµy 9 th¸ng 6 n¨m 2000; - C¨n cø QuyÕt ®Þnh sè 82/2001/Q§-TTg ngµy 24/5/2001 cña Thñ t−íng ChÝnh phñ vÒ viÖc phª duyÖt ph−¬ng h−íng, môc tiªu, nhiÖm vô khoa häc vµ c«ng nghÖ chñ yÕu vµ danh môc c¸c Ch−¬ng tr×nh khoa häc vµ c«ng nghÖ träng ®iÓm cÊp Nhµ n−íc giai ®o¹n 3 n¨m 2001 - 2003; - C¨n cø QuyÕt ®Þnh sè 41/2001/Q§-BKHCNMT ngµy 18/7/2001 cña Bé tr−ëng Bé Khoa häc, C«ng nghÖ vµ M«i tr−êng vÒ viÖc ban hµnh Quy ®Þnh t¹m thêi vÒ viÖc qu¶n lý Ch−¬ng tr×nh khoa häc vµ c«ng nghÖ träng ®iÓm cÊp Nhµ n−íc giai ®o¹n 3 n¨m 2001-2003; - C¨n cø QuyÕt ®Þnh sè 1822/Q§-BKHCNMT ngµy12/09/2001 cña Bé tr−ëng Bé KHCNMT vÒ viÖc phª duyÖt danh s¸ch tæ chøc vµ c¸ nh©n tróng tuyÓn §Ò tµi m· sè KC 01.03 vµ QuyÕt ®Þnh sè 2188/Q§- BKHCNMT vÒ viÖc phª duyÖt kinh phÝ c¸c ®Ò tµi ®· tróng tuyÓn ®ît 1 thuéc Ch−¬ng tr×nh Khoa häc vµ C«ng nghÖ träng ®iÓm cÊp Nhµ n−íc giai ®o¹n 5 n¨m 2001 - 2005, m· sè KC01;

Chóng t«i gåm: 1. Bªn giao (Bªn A) lµ: a/ Ban Chñ nhiÖm Ch−¬ng tr×nh KC 01 §¹i diÖn lµ ¤ng: Vò §×nh Cù Chøc danh trong BCN Ch−¬ng tr×nh: Chñ nhiÖm ch−¬ng tr×nh §Þa chØ: V¨n Phßng quèc héi ; Tel: 08042830 b/ V¨n phßng Ch−¬ng tr×nh KC 01 ®Æt t¹i: Tr−êng §¹i häc B¸ch Khoa Hµ Néi §¹i diÖn lµ ¤ng: NguyÔn Thóc H¶i Sè tµi kho¶n: ....................................... T¹i ng©n hµng: ...................................

Page 66: Mạng thần kinh nhân tạo

2

2. Bªn nhËn (Bªn B) lµ: a/ C¬ quan chñ tr× ®Ò tµi: ViÖn C«ng nghÖ Th«ng tin, §−êng Hoµng Quèc ViÖt, CÇu giÊy, Hµ néi §¹i diÖn lµ «ng: GS. TSKH. B¹ch H−ng Khang Chøc vô: ViÖn tr−ëng ViÖn C«ng nghÖ Th«ng tin §Þa chØ: §−êng Hoµng Quèc ViÖt, CÇu giÊy, Hµ néi. Tel: 04-7564 908 (CQ)/ 04- 7534 548 (NR) Fax: 04-7564 217 Sè tµi kho¶n: 001.1.00.001 4364 T¹i ng©n hµng: Ngo¹i th−¬ng ViÖt nam, 23 Phan Chu Trinh b/ Chñ nhiÖm ®Ò tµi ¤ng: GS. TSKH NNVCC B¹ch H−ng Khang

§Þa chØ: ViÖn C«ng nghÖ Th«ng tin, §−êng Hoµng Quèc ViÖt, CÇu giÊy, Hµ néi; Tel: 04-7564 908 (CQ)/ 04- 7534 548 (NR) Fax: 04-7564 217

Hai bªn tho¶ thuËn ký kÕt hîp ®ång nghiªn cøu khoa häc vµ ph¸t triÓn c«ng nghÖ (sau ®©y gäi t¾t lµ Hîp ®ång) víi c¸c ®iÒu kho¶n sau:

I. §èi t−îng hîp ®ång §iÒu 1: Bªn B cam kÕt thùc hiÖn ®Ò tµi KC - 01 - 03

"Nghiªn cøu ph¸t triÓn c«ng nghÖ nhËn d¹ng, tæng hîp vμ xö lý ng«n ng÷ tiÕng viÖt"

thuéc Ch−¬ng tr×nh KC - 01 theo c¸c néi dung trong ThuyÕt minh §Ò tµi. ThuyÕt minh §Ò tµi KC 01- 03, Phô lôc 1 vµ 2 kÌm theo lµ bé phËn cña Hîp ®ång. §iÒu 2: Thêi gian thùc hiÖn ®Ò tµi lµ 27 th¸ng, tõ th¸ng 10/2001 ®Õn th¸ng 12/2003 §iÒu 3: Bªn A phèi hîp víi Bé KHCNMT ®¸nh gi¸ vµ nghiÖm thu kÕt qu¶ thùc hiÖn ®Ò tµi theo c¸c yªu cÇu, chØ tiªu nªu trong ThuyÕt minh §Ò tµi, Phô lôc 1 vµ 2 kÌm theo trong Hîp ®ång.

II. Tμi chÝnh cña hîp ®ång

§iÒu 4: Kinh phÝ ®Ó thùc hiÖn ®Ò tµi lµ: 2000 triÖu ®ång. (B»ng ch÷: Hai ngh×n triÖu ®ång)

Page 67: Mạng thần kinh nhân tạo

3

§iÒu 5: Bªn A cã tr¸ch nhiÖm cÊp cho Bªn B sè kinh phÝ ghi ë §iÒu 4 ®Ó thùc hiÖn ®Ò tµi theo tiÕn ®é sau: Sè TT §ît Kinh phÝ (triÖu ®ång) Thêi gian

1

§ît 1 250 n¨m 2001

2

§ît 2 850 n¨m 2002

3

§ît 3 900 n¨m 2003

Tr−íc mçi ®ît cÊp kinh phÝ tiÕp theo, trªn c¬ së cã b¸o c¸o t×nh h×nh thùc hiÖn ®Ò tµi Bªn A sÏ phèi hîp víi Bé KHCNMT tiÕn hµnh xem xÐt vµ kh¼ng ®Þnh kÕt qu¶ ®¹t ®−îc theo tiÕn ®é thùc hiÖn nªu trong ThuyÕt minh §Ò tµi. NÕu Bªn B kh«ng hoµn thµnh c«ng viÖc ®óng tiÕn ®é, Bªn A cã thÓ kiÕn nghÞ thay ®æi tiÕn ®é hoÆc ngõng viÖc cÊp kinh phÝ. §iÒu 6: Bªn B cã tr¸ch nhiÖm b¸o c¸o ®Þnh kú cho Bªn A vµ Bé KHCNMT vÒ t×nh h×nh thùc hiÖn ®Ò tµi (theo HD1 BiÓu mÉu C-BC-01-THTH), b¸o c¸o quyÕt to¸n hoÆc b¸o c¸o t×nh h×nh sö dông sè kinh phÝ ®· nhËn ®−îc theo chÕ ®é hiÖn hµnh tr−íc khi nhËn kinh phÝ cña ®ît tiÕp theo. §iÒu 7: Hµng n¨m Bªn A sÏ phèi hîp víi Bé KHCNMT tiÕn hµnh kiÓm tra t×nh h×nh thùc hiÖn ®Ò tµi theo c¸c néi dung ghi trong Phô lôc 2 kÌm theo trong Hîp ®ång.

III. Tr×nh tù giao nhËn s¶n phÈm §iÒu 8: Khi kÕt thóc ®Ò tµi, Bªn B ph¶i chuyÓn cho Bªn A nh÷ng tµi liÖu vµ chuÈn bÞ ®Çy ®ñ c¸c mÉu s¶n phÈm nªu trong ThuyÕt minh §Ò tµi, Phô lôc 1 kÌm theo trong Hîp ®ång, b¸o c¸o quyÕt to¸n tµi chÝnh cña ®Ò tµi ®Ó ®¸nh gi¸ vµ nghiÖm thu. §iÒu 9: Trong thêi gian 15 ngµy sau khi Bªn B ®· thùc hiÖn xong néi dung nªu ë §iÒu 8 vµ quyÕt to¸n kinh phÝ, Bªn A phèi hîp víi Bé KHCNMT tiÕn hµnh ®¸nh gi¸ vµ nghiÖm thu ®Ò tµi, nghiÖm thu vµ thanh lý Hîp ®ång. §iÒu 10: Bªn B ®−îc h−ëng quyÒn t¸c gi¶ vµ c¸c quyÒn lîi kh¸c theo chÕ ®é hiÖn hµnh liªn quan tíi quyÒn t¸c gi¶.

IV. Tr¸ch nhiÖm cña c¸c bªn §iÒu 11: Trong qu¸ tr×nh thùc hiÖn ®Ò tµi: - NÕu Bªn nµo nhËn thÊy cÇn ®×nh chØ thùc hiÖn Hîp ®ång víi nh÷ng lý do chÝnh ®¸ng th× cÇn th«ng b¸o b»ng v¨n b¶n cho Bªn kia biÕt tr−íc 15 ngµy ®Ó tiÕn hµnh x¸c ®Þnh tr¸ch nhiÖm cña c¸c Bªn vµ lËp biªn b¶n xö lý. - NÕu cã c¸c yªu cÇu thay ®æi hoÆc bæ sung Hîp ®ång, hai Bªn ph¶i kÞp thêi tháa thuËn b»ng v¨n b¶n. C¸c thay ®æi hoÆc bæ sung nªu trªn lµ bé phËn cña Hîp ®ång lµm c¨n cø khi nghiÖm thu.

Page 68: Mạng thần kinh nhân tạo

4

§iÒu 12: Hai Bªn cam kÕt thùc hiÖn ®óng c¸c ®iÒu kho¶n ghi trong Hîp ®ång. Bªn nµo kh«ng hoµn thµnh hoÆc hoµn thµnh kh«ng ®Çy ®ñ c¸c ®iÒu kho¶n ghi trong Hîp ®ång sÏ ph¶i chÞu tr¸ch nhiÖm theo luËt ph¸p hiÖn hµnh. §iÒu 13: Hai Bªn cã tr¸ch nhiÖm b¶o mËt c¸c s¶n phÈm khoa häc theo quy ®Þnh hiÖn hµnh. §iÒu 14: Hîp ®ång nµy cã hiÖu lùc tõ ngµy ký. Hîp ®ång ®−îc lµm thµnh 8 b¶n cã gi¸ trÞ nh− nhau, mçi Bªn gi÷ 4 b¶n.

Bªn A (Bªn giao) Bªn B (Bªn nhËn) Ban Chñ nhiÖm Ch−¬ng tr×nh KC01 C¬ quan chñ tr× §Ò tµi KC01-03 (Ch÷ ký, ghi râ hä vµ tªn) (DÊu, ch÷ ký, ghi râ hä vµ tªn) Ch¸nh V¨n Phßng Ch−¬ng tr×nh KC01 Chñ nhiÖm §Ò tµi KC01-03 (DÊu, ch÷ ký, ghi râ hä vµ tªn) (Ch÷ ký, ghi râ hä vµ tªn)

Page 69: Mạng thần kinh nhân tạo

5

Phô lôc 1 (kÌm theo Hîp ®ång sè:........../200 ..../H§ - §TCT-KC ......................)

B¶ng 1

Danh môc tµi liÖu

TT Tªn tµi liÖu Sè l−îng

Ghi Chó

1 B¸o c¸o ®Þnh kú t×nh h×nh thùc hiÖn §Ò tµi (ghi thêi gian nép b¸o c¸o)

05 Theo HD1 BiÓu mÉu C-BC-01-THTH

2 B¸o c¸o tæng kÕt khoa häc vµ kü thuËt §Ò tµi

15 Theo HD2 BiÓu mÉu C-BC-02-TKKHKT

3 B¸o c¸o tãm t¾t tæng kÕt khoa häc vµ kü thuËt §Ò tµi

15 Theo HD3 BiÓu mÉu C-BC-03-BTTT

4 B¸o c¸o thèng kª §Ò tµi 15 Theo HD4 BiÓu mÉu C-BC-04-TK

B¶ng 2

Danh môc s¶n phÈm KHCN

TT Tªn s¶n phÈm Sè l−îng

ChØ tiªu Kinh tÕ - kü thuËt Ghi Chó

1

HÖ thèng tæng hîp tiÕng nãi (tõ v¨n b¶n ch÷ in tiÕng ViÖt thµnh tiÕng nãi)

1 - HÖ thèng ®−îc thiÕt kÕ trªn nÒn c«ng nghÖ cña Microsoft: + Ng«n ng÷ lËp tr×nh Visual C++

6.0 (kü thuËt COM), ch¹y trªn Windows.

+ Khai th¸c th− viÖn tæng hîp tiÕng Anh SDK (Speech Developer Kit)

+ Sö dông ®Þnh d¹ng XML - ChÊt l−îng tiÕng nãi tæng hîp ®¹t

kho¶ng 70-80% tiÕng nãi tù nhiªn - Tæng hîp ®−îc 6 thanh tiÕng ViÖt - §äc c¸c v¨n b¶n viÕt b»ng c¸c m·

tiÕng ViÖt kh¸c nhau nh− VNI, Unicode, TCVN-3, VIQR

- §äc c¸c khu«n d¹ng phi tõ nh− biÓu thøc sè, ngµy th¸ng, giê ®iÖn tö, tiÒn ViÖt Nam, c¸c ®¬n vÞ ®o l−êng, c¸c x©u viÕt t¾t th«ng dông.

- Xö lý v¨n b¶n th«ng minh: ph¸t hiÖn tù ®éng côm tõ vµ nhãm tõ kho¸ (cã tÇn sè xuÊt hiÖn cao, vÞ trÝ xuÊt hiÖn...)

Page 70: Mạng thần kinh nhân tạo

6

- Ph¸t hiÖn tù ®éng c¸c côm tõ tiÕng Anh trong v¨n b¶n hçn hîp ViÖt – Anh (khai th¸c c¸c engine tæng hîp tiÕng Anh).

- Gi¶i ph¸p tÝch hîp giao diÖn nhóng tiÕng nãi cho phÇn mÒm vµ thiÕt bÞ: ®äc v¨n b¶n tõ nhiÒu nguån kh¸c nhau nh− clipboard, tuú chän cña menu, bµn phÝm, tÖp FTP, tÖp HTTP, Microsoft Word, Internet Explorer, email (Outlook Express, Microsoft Outlook)

- TÝch hîp trong hÖ thèng th«ng ®iÖp hîp nhÊt (Unified Mesaging System)...

2

PhÇn mÒm NhËn d¹ng lÖnh øng dông trong ®iÒu khiÓn

- Ch−¬ng tr×nh ®−îc thiÕt kÕ trªn nÒn c«ng nghÖ cña Microsoft: + Ng«n ng÷ lËp tr×nh Visual C++

6.0 (kü thuËt COM), ch¹y trªn Windows.

+ Khai th¸c th− viÖn nhóng tiÕng nãi SDK (Speech Developer Kit)

- HÖ thèng ®éc lËp ng−êi nãi - §é chÝnh x¸c cao, trªn 95% - M«i tr−êng v¨n phßng cã ®é ån Ýt - Sè l−îng tõ vùng nhá h¬n 100 - §iÒu khiÓn b»ng lÖnh trªn tr×nh

duyÖt cña Microsoft Word, Internet Explorer...

- Khai th¸c c¸c øng dông nhóng trªn nÒn c¸c chip DSP (Digtal Signal Processor).

3

Ch−¬ng tr×nh thö nghiÖm ®äc chÝnh t¶ (speech – to – text ) tiÕng ViÖt

- Ch−¬ng tr×nh ®−îc thiÕt kÕ trªn nÒn c«ng nghÖ cña Microsoft: + Ng«n ng÷ lËp tr×nh Visual C++

6.0 , ch¹y trªn Windows. + Khai th¸c th− viÖn nhóng tiÕng

nãi SDK (Speech Developer Kit)

+ Khai th¸c sö dông th− viÖn Markov Èn (HTK) cña CSLU

- HÖ thèng phô thuéc ng−êi nãi - Tèc ®é ®äc chËm r·i, râ rµng

(giäng ph¸t thanh viªn Hµ néi) - NhËn d¹ng tõ víi toµn bé tõ ®iÓn

Page 71: Mạng thần kinh nhân tạo

7

tiÕng ViÖt (nhËn d¹ng thanh ®iÖu, c¸c phô ©m ®Çu vµ phÇn vÇn)

- Xö lý tèc ®é, tÝn hiÖu tiÕng nãi vµo trong thêi gian thùc.

- M«i tr−êng cã ®é ån Ýt (m«i tr−êng phßng thÝ nghiÖm, v¨n phßng).

4

PhÇn mÒm th−¬ng phÈm nhËn d¹ng c¸c phiÕu ®iÒu tra, nhËp liÖu tù ®éng cã tÝch hîp nhËn d¹ng ch÷ ViÖt viÕt tay, phiªn b¶n beta vµ 1.0

ChÊt l−îng nhËn d¹ng cña phÇn mÒm: - Häc ch÷ mÉu ch÷ ViÖt viÕt tay - NhËn d¹ng ch÷ ViÖt viÕt tay, ch÷

sè viÕt tay cã h¹n chÕ (trong c¸c mÉu phiÕu ®iÒu tra) ®¹t kho¶ng 70-80%.

- HiÖu chØnh kÕt qu¶ nhËn d¹ng ch÷ ViÖt viÕt tay.

- N©ng cao chÊt l−îng ¶nh phiÕu ®iÒu tra

- HiÖu chØnh trang v¨n b¶n theo mÉu (vÒ gãc quay, ®é dÞch lÒ cña trang v¨n b¶n so víi phiÕu mÉu).

- Ph¸t hiÖn c¸c ®èi t−îng chøa dÊu vµ ch÷ ë trang mÉu tù ®éng.

- NhËn d¹ng c¸c dÊu trong c¸c « chøa dÊu (trong phiÕu cÇn nhËn d¹ng).

- NhËn d¹ng c¸c c©u hái cã nhiÒu ph−¬ng ¸n lùa chän d¹ng LIST(chän mét c©u tr¶ lêi), MULTIPLE(nhiÒu c©u hái mçi c©u d¹ng LIST ®−îc tr¶ lêi ®éc lËp), BOOL(cã/kh«ng), GRID(ghÐp c¸c tr¶ lêi LIST thµnh x©u).

5

PhÇn mÒm th−¬ng phÈm nhËn d¹ng ch÷ in tiÕng ViÖt phiªn b¶n 3.0

ChÊt l−îng nhËn d¹ng phÇn mÒm: - §é chÝnh x¸c nhËn d¹ng ch÷ ViÖt

in víi c¸c ph«ng ch÷ hiÖn cã trªn c¸c tµi liÖu, s¸ch b¸o, v¨n b¶n hµnh chÝnh (®· qua photocopy) hiÖn nay, ®¹t 98-99%.

- ChÊt l−îng nhËn d¹ng sau kiÓm tra ph©n tÝch c©u, ph©n tÝch ng÷ nghÜa ®¹t trªn 99%

- NhËn d¹ng tù ®éng trang (ph©n tÝch trang) tµi liÖu víi c¸c tµi liÖu cã cÊu tróc phøc t¹p ®¹t ®é chÝnh x¸c trªn 90%

- NhËn d¹ng tù ®éng b¶ng biÓu.

Page 72: Mạng thần kinh nhân tạo

8

6 PhÇn mÒm dÞch thuËt ViÖt-Anh.

- Bé ph©n tÝch cho phÐp xö lý c¸c t×nh huèng phi ng÷ c¶nh vµ phô thuéc ng÷ c¶nh (trong ph¹m vi h¹n ®Þnh – scope dependent)

- Tèc ®é biªn dÞch tù ®éng ®¹t kh«ng d−íi 5000 tõ / phót (t−¬ng ®−¬ng 10 trang A4).

- ChÊt l−îng dich thuËt cã thÓ xem hiÓu nh÷ng v¨n b¶n tiÕng ViÖt ®óng v¨n ph¹m (®èi víi nh÷ng ng−êi hiÓu tiÕng Anh vµ kh«ng biÕt tiÕng ViÖt).

- HÖ v¨n ph¹m h×nh thøc tiÕng ViÖt bao gåm c¸c yÕu tè chÝnh cña luËt hµnh v¨n tiÕngViÖt.

- Kho mÉu c©u tiÕng ViÖt tõ nhiÒu nguån kh¸c nhau vµ bao gåm nh÷ng ®Æc tr−ng chÝnh cña c¸c mÉu c©u tiÕng ViÖt th«ng th−êng.

- C¬ së tri thøc bao gåm: . 5000 qui t¾c v¨n ph¹m tiÕng ViÖt vµ dÞch ViÖt – Anh. . 150.000 ®¬n vÞ tõ vùng ViÖt – Anh . 300.000 – 1.000.000 mÉu c©u tiÕng ViÖt th«ng dông.

7

PhÇn mÒm dãng hµng c¸c v¨n b¶n song ng÷ Ph¸p – ViÖt

Yªu cÇu phÇn mÒm: - Dãng hµng cã kh¶ n¨ng ®¹t ®Õn

møc tõ/ng÷ ®o¹n trong c¸c v¨n b¶n song ng÷ Ph¸p-ViÖt, nh»m hç trî cho viÖc dÞch tù ®éng còng nh− dÞch tay, vµ phôc vô cho c¸c nghiªn cøu ng«n ng÷ vÒ tõ vùng, thuËt ng÷ trong mét hay nhiÒu ng«n ng÷ còng nh− hç trî cho viÖc häc tiÕng.

- Cho mét tËp v¨n b¶n song ng÷ ®· m· ho¸ theo ®Þnh d¹ng XML (cã g¾n thÎ ®Õn møc c©u), ch−¬ng tr×nh thùc hiÖn dãng hµng b¸n tù ®éng (cã sù can thiÖp cña ng−êi sö dông) ®Ó t×m c¸c t−¬ng ®−¬ng dÞch ë møc tõ vùng. KÕt qu¶ thu ®−îc bæ sung vµo c¬ së d÷ liÖu còng ®−îc m· ho¸ theo ®Þnh d¹ng XML (sö dông TEI: Text Encoding Initiative). C¬ së d÷ liÖu nµy sÏ cã

Page 73: Mạng thần kinh nhân tạo

9

thÓ ®−îc khai th¸c tuú theo môc ®Ých sö dông.

- S¶n phÈm phô: C¸c c«ng cô xö lý tù ®éng v¨n b¶n tiÕng ViÖt nh− phÇn mÒm g¸n nh·n tõ lo¹i tù ®éng (phôc vô cho viÖc nghiªn cøu tõ vùng), phÇn mÒm ph©n tÝch có ph¸p c©u tiÕng ViÖt, v.v., mét bé v¨n ph¹m sinh tiÕng ViÖt, vµ c¸c c¬ së d÷ liÖu tõ vùng ®¬n ng÷ hay ®a ng÷ cïng víi c¸c tµi nguyªn v¨n b¶n ®a ng÷.

8

M« h×nh vµ hÖ thö nghiÖm tõ ®iÓn ®iÖn tö tiÕng ViÖt

- Mang ®Æc tÝnh cña c¸c hÖ tõ ®iÓn ®iÖn tö hiÖn ®¹i trªn thÕ giíi vµ ®Ëc tr−ng tiÕng ViÖt, ®¶m b¶o tÝnh hiÖn ®¹i vµ gi¸ trÞ sö dông l©u dµi.

- M« h×nh tõ ®iÓn bao gåm c¸c tõ ®iÓn thµnh phÇn x©y dùng theo c¸c nguyªn t¾c (a) ®éc lËp gi÷a th«ng tin cÊu tróc ë c¸c møc h×nh th¸i, có ph¸p víi møc ng÷ nghÜa; (b) th«ng tin h×nh th¸i vµ có ph¸p ®−îc kh¸i qu¸t ®éc lËp víi c¸c quy t¾c ng÷ ph¸p vµ thuËt to¸n, (3) cã quy m« ®ñ lín chøa ®−îc c¸c tõ vùng th«ng th−êng.

- C¸c m« h×nh tõ ®iÓn, c«ng cô ®Ó x©y dùng c¸c tõ ®iÓn nµy vµ hÖ thö nghiÖm gåm: (1) M« h×nh tõ ®iÓn tõ: bao gåm tõ

®iÓn tõ vùng th«ng th−êng tiÕng ViÖt, tiÕng Anh vµ c¸c tõ ®iÓn thuËt ng÷ chuyªn ngµnh.

(2) M« h×nh tõ ®iÓn kh¸i niÖm: gåm tõ ®iÓn ph©n lo¹i kh¸i niÖm vµ tõ ®iÓn miªu t¶ kh¸i niÖm

(3) M« h×nh tõ ®iÓn ®ång hiÖn: tõ ®iÓn ®ång hiÖn tiÕng ViÖt vµ tõ ®iÓn ®ång hiÖn tiÕng Anh.

(4) M« h×nh õ ®iÓn song ng÷: ViÖt-Anh vµ Anh-ViÖt.

Page 74: Mạng thần kinh nhân tạo

10

Phô lôc 2 (kÌm theo Hîp ®ång sè:........../200 ..../H§ - §TCT-KC .................)

B¶ng 3

Néi dung vµ kÕt qu¶ n¨m 2001

TT C¸c néi dung, c«ng viÖc cô thÓ S¶n phÈm ph¶i ®¹t Ghi chó

Qu¶n lý triÓn khai thùc hiÖn ®Ò tµi - X©y dùng ®Ò c−¬ng nghiªn cøu

ph¸t triÓn c«ng nghÖ nhËn d¹ng, tæng hîp vµ xö lý ng«n ng÷ tiÕng ViÖt giai ®o¹n 2001-2003

- Tæ chøc nghiÖm thu cÊp c¬ së c¸c néi dung c«ng viÖc ®· ®¨ng ký n¨m 2001

1

HÖ thèng tæng hîp tiÕng nãi T×m hiÓu c¸c c«ng nghÖ cña Microsoft:

+ Ng«n ng÷ lËp tr×nh Visual C++ 6.0 (kü thuËt COM), ch¹y trªn Windows.

+ Khai th¸c th− viÖn tæng hîp tiÕng Anh S DK (Speech Developer Kit).

Ph©n tÝch ng÷ ©m tiÕng ViÖt: + Phô ©m ®Çu. + PhÇn vÇn. + Tr−êng ®é. + Thanh ®iÖu tiÕng ViÖt .

T×m hiÓu c¸c ph−¬ng phÊp tæng hîp tiÕng Anh:

+ Tæng hîp theo Forman. + Tæng hîp theo ph−¬ng ph¸p kÕt nèi ©m vÞ.

Ph−¬ng ph¸p thiÕt kÕ bé ©m vÞ chuÈn cho tæng hîp tiÕng ViÖt.

Ph−¬ng ph¸p chuÈn ho¸ v¨n b¶n phôc vô cho tæng hîp tiÕng nãi.

Kü thuËt lËp tr×nh : COM Sö dông th− viÖn SDK cña Microsoft. B¶ng sè liÖu thanh ®iÖu tiÕng ViÖt C¸c thèng kª quan hÖ tr−êng ®é/thanh ®iÖu. Quan hÖ phô ©m ®Çu,vÇn /thanh ®iÖu.

2

PhÇn mÒm NhËn d¹ng lÖnh - T×m hiÓu c¸c ph−¬ng ph¸p nhËn

d¹ng tiÕng nãi: - Kü thuËt c¨n chØnh thêi gian

Modul cµi ®Æt thuËt to¸n DTW.

Page 75: Mạng thần kinh nhân tạo

11

®éng (DTW-Dynamic Time Warping)

- T×m hiÓu c¸c ph−¬ng ph¸p trÝch ®Æc tr−ng tiÕng nãi theo tõng frame:

+ Dù b¸o tuyÕn tÝnh LPC. + HÖ sè MFC theo kiÓu ng©n hµng läc. - Thu tÝn hiÖu tõ Microphone.

Modul trÝch ®Æc tr−ng tiÕng nãi theo hai ph−¬ng ph¸p: + LPC + MFC.

3

Ch−¬ng tr×nh ®äc chÝnh t¶ T×m hiÓu ®é phøc t¹p cña hÖ nhËn d¹ng víi l−¬ng tõ vùng lín. Nguyªn t¾c thiÕt kÕ bé ©m ®¬n vÞ. T×m hiÓu c¸c ph−¬ng ph¸p nhËn d¹ng ®· c«ng bè vÒ c¸c ng«n ng÷ cã thanh ®iÖu.

B¸o c¸o vÒ mét sè c¸ch tiÕp cËn trong nhËn d¹ng víi tõ vùng lín.

4

PhÇn mÒm NhËn d¹ng phiÕu ®iÒu tra - ThiÕt kÕ giao diÖn MarkRead+Tµi liÖu kü thuËt - Ph¸t hiÖn c¸c ®èi t−îng chøa dÊu vµ ch÷ ë trang mÉu tù ®éng - NhËn d¹ng c¸c dÊu trong c¸c « chøa dÊu (trong phiÕu cÇn nhËn d¹ng).

Tµi liÖu thiÕt kÕ + kü thuËt tæng quan cña MarkRead Chøc n¨ng t¸ch h×nh chøa dÊu, nhËn d¹ng dÊu (elip, ch÷ nh©t) NhËn d¹ng c¸c dÊu chøa trong c¸c h×nh elip, ch÷ nhËt

5

PhÇn mÒm NhËn d¹ng ch÷ ViÖt in - ThiÕt kÕ l¹i giao diÖn vµ x¸c ®Þnh

c¸c chøc n¨ng cÇn n©ng cÊp trong phiªn b¶n ph¸t triÓn

- KÕt hîp víi nhãm xö lý ng«n ng÷ x¸c ®Þnh m« h×nh kiÓn tra chÝnh t¶ dùa trªn ph©n tÝch c©u

Tµi liÖu thiÕt kÕ giao diÖn vµ c¸c chøc n¨ng n©ng cÊp. B¸o c¸o vÒ M« h×nh kiÓm tra chÝnh t¶

6 PhÇn mÒm dÞch thuËt ViÖt - Anh X©y dùng m« h×nh v¨n ph¹m phô thuéc ph¹m vi Nghiªn cøu ¸p dông m« h×nh v¨n ph¹m phô thuéc ph¹m vi trong ph©n tÝch ng÷ nghÜa tiÕng ViÖt. Nghiªn cøu ¸p dông m«h×nh v¨n ph¹m phô thuéc ph¹m vi trong ph©n tÝch ng÷ dông tiÕng ViÖt. Ph¸t triÓn m« h×nh v¨n ph¹m Phô thuéc ph¹m vi ®Ó øng dông vµo dÞch m¸y ViÖt-Anh

B¸o c¸o Khoa häc D÷ liÖu cho B¸o c¸o Khoa häc D÷ liÖu cho B¸o c¸o Khoa häc Gi¶i thuËt ph©n tÝch

Page 76: Mạng thần kinh nhân tạo

12

7 Dãng hµng c¸c v¨n b¶n song ng÷ Ph¸p-ViÖt X©y dùng kho tµi nguyªn ng«n ng÷ vµ chuÈn ho¸ viÖc biÓu diÔn d÷ liÖu: - X©y dùng kho v¨n b¶n lín

(corpus) song ng÷ Ph¸p-ViÖt, m· ho¸ theo khu«n d¹ng XML víi c¸c chØ dÉn TEI (Text Encoding Initiative), ®Æt thÎ ®Õn møc c©u/®o¹n c©u.

- M· ho¸ tõ ®iÓn tõ vùng tiÕng ViÖt theo khu«n d¹ng XML. C¸c th«ng tin ng«n ng÷ vÒ tõ vùng thu ®−îc trong nghiªn cøu vÒ sau sÏ ®−îc bæ sung vµo CSDL XML nµy.

ViÕt ch−¬ng tr×nh ph©n t¸ch c©u thµnh ®¬n vÞ tõ vùng víi yªu cÇu: - D÷ liÖu vµo: TÖp v¨n b¶n tiÕng

ViÖt theo ®Þnh d¹ng XML trong kho v¨n b¶n lín

- D÷ liÖu ra: TÖp v¨n b¶n tiÕng ViÖt theo ®Þnh d¹ng XML cã g¾n thÎ ®Õn møc tõ, bæ sung vµo kho v¨n b¶n lín.

- Ng«n ng÷ lËp tr×nh: Java - Cã giao diÖn cho phÐp ng−êi sö

dông x¸c ®Þnh kÕt qu¶ ®óng trong tr−êng hîp cã nhËp nh»ng

- §¸nh gi¸ kÕt qu¶ X©y dùng ch−¬ng tr×nh g¸n nh·n tõ lo¹i tù ®éng cho c¸c ®¬n vÞ tõ vùng trong v¨n b¶n tiÕng ViÖt: - Nghiªn cøu c¸c ph−¬ng ph¸p

g¸n nh·n tõ vùng tù ®éng, lùa chän ph−¬ng ph¸p thÝch hîp cho tiÕng ViÖt

- X©y dùng c¸c bé nh·n tõ vùng m« t¶ tõ lo¹i tiÕng ViÖt víi c¸c ®é mÞn kh¸c nhau

- D÷ liÖu vµo: TÖp v¨n b¶n tiÕng ViÖt theo ®Þnh d¹ng XML, cã g¾n thÎ tíi møc tõ.

- D÷ liÖu ra: TÖp v¨n b¶n tiÕng ViÖt theo ®Þnh d¹ng XML, cã g¾n thÎ tíi møc tõ, mçi thÎ cã bæ sung thuéc tÝnh "tõ lo¹i"

- Ng«n ng÷ lËp tr×nh: Java

- Kho v¨n b¶n lín song ng÷

Ph¸p ViÖt ®· chuÈn ho¸ vµ m· ho¸ theo khu«n d¹ng XML .

- Tõ ®iÓn tõ vùng m· ho¸

theo ®Þnh d¹ng XML - Ch−¬ng tr×nh ph©n t¸ch

c¸c c©u trong v¨n b¶n thµnh c¸c ®¬n vÞ tõ vùng

- C¸c tÖp v¨n b¶n tiÕng ViÖt theo ®Þnh d¹ng XML cã g¾n thÎ ®Õn møc ®¬n vÞ tõ vùng

- Bé nh·n tõ lo¹i tiÕng ViÖt - Ph−¬ng ph¸p g¸n nh·n tù

®éng - Ch−¬ng tr×nh g¸n nh·n tõ

lo¹i tiÕng ViÖt - C¸c tÖp v¨n b¶n tiÕng ViÖt

theo ®Þnh d¹ng XML cã g¾n thÎ tõ vùng víi thuéc tÝnh tõ lo¹i

- 1 b¸o c¸o khoa häc

Page 77: Mạng thần kinh nhân tạo

13

- §¸nh gi¸ kÕt qu¶ ch−¬ng tr×nh trªn c¸c bé nh·n ®· x©y dung

8 M« h×nh vµ hÖ thö nghiÖm tõ ®iÓn ®iÖn tö tiÕng ViÖt - Nghiªn cøu kh¶o s¸t c¸c vÊn ®Ò

cña xö lý ng«n ng÷ tù nhiªn liªn quan viÖc x©y dùng tõ ®iÓn ®iÖn tö.

- Nghiªn cøu kh¶o s¸t c¸c m« h×nh tõ ®iÓn ®iÖn tö öªn thÕ giíi

- Nghiªn cøu ®Æc tr−ng tiÕng ViÖt liªn quan viÖc x©y dùng tõ ®iÓn

- mét tµi liÖu kü thuËt - mét b¸o c¸o héi nghÞ

khoa häc

Page 78: Mạng thần kinh nhân tạo

14

B¶ng 4 Néi dung vµ kÕt qu¶ n¨m 2002

TT C¸c néi dung, c«ng viÖc cô thÓ S¶n phÈm ph¶i ®¹t Ghi chó

Qu¶n lý triÓn khai thùc hiÖn ®Ò tµi - Tæ chøc xemine khoa häc - Tæ chøc nghiÖm thu cÊp c¬ së

c¸c néi dung c«ng viÖc ®· ®¨ng ký n¨m 2002

1

HÖ thèng tæng hîp tiÕng nãi - ®iÖu tiÕng ViÖt:

+ TuyÕn tÝnh theo ph−¬ng ph¸p b×nh ph−¬ng tèi thiÓu. + Phi tuyÕn theo ph−¬ng ph¸p cña Fujisaki.

- §äc c¸c v¨n b¶n viÕt b»ng c¸c m· tiÕng ViÖt kh¸c nhau nh− VNI, Unicode, TCVN-3, VIQR - §äc c¸c khu«n d¹ng phi tõ nh−

biÓu thøc sè, ngµy th¸ng, giê ®iÖn tö, tiÒn ViÖt Nam, c¸c ®¬n vÞ ®o l−êng, c¸c x©u viÕt t¾t th«ng dông.

- Gi¶i ph¸p tÝch hîp giao diÖn nhóng tiÕng nãi cho phÇn mÒm vµ thiÕt bÞ: ®äc v¨n b¶n tõ nhiÒu nguån kh¸c nhau nh− clipboard, tuú chän cña menu, bµn phÝm, tÖp FTP, tÖp HTTP, Microsoft Word, Internet Explorer, email (Outlook Express, Microsoft Outlook)

- Khai th¸c bé font

UNICODE. - Modul qu¶n lý tõ ®iÓn ch÷

viÕt t¾t. - Modul chuÈn ho¸ v¨n b¶n

t¹o ®Çu vµo cho t«ng hîp tiÕng nãi.

- Tæng hîp ®−îc 6 thanh tiÕng ViÖt nhê thuËt to¸n TD-PSOLA.

- ThiÕt kÕ øng dông ®a luång (Multi Thread).

- §ãng gãi phÇn mÒm tæng hîp tiÕng nãi Version 1.0

2

PhÇn mÒm NhËn d¹ng lÖnh - ThiÕt kÕ C¬ së d÷ liÖu tiÕng nãi. - ThiÕt kÕ xö lý tiÕng nãi vµo trong

thêi gian thùc. - T×m hiÓu c¸c m« h×nh nhËn d¹ng

tiÕng nãi c« lËp: + Neural Network. + HMM (Hidden Markov Model) T×m hiÓu c¸c ph−¬ng ph¸p nhËn d¹ng tiÕng nãi víi nhiÔu

- C¬ së d÷ liÖu tiÕng nãi

gåm c¸c ©m: ch÷ sè 0, 1, ..,9, b¶ng ch÷ c¸i a, ¨, ©..

+ Sè l−îng 100 giäng gåm giäng Nam & N÷ trªn c¸c c©p ®é tuæi kh¸c nhau - Modul HuÊn luyÖn mÉu

dùa trªn kü thuËt Neural Network.

- Modul nhËn d¹ng tõ rêi ®éc lËp ng−êi nãi .

§ãng gãi phÇn mÒm ®iÒu khiÓn lÖnh Version 1.0

Page 79: Mạng thần kinh nhân tạo

15

3

Ch−¬ng tr×nh ®äc chÝnh t¶ - Nghiªn cøu m« h×nh Markov Èn,

thiÕt kÕ CodeBook l−¬ng tö ho¸ VQ.

- Khai th¸c sö dông th− viÖn Markov Èn (HTK) cña CSLU

- Nghiªn cøu m« h×nh thanh ®iÖu tiÕng ViÖt trong hai d¹ng:

+ C« lËp. + Liªn kÕt. - T×m hiÓu m« h×nh ng«n ng÷ cña tiÕng ViÖt.

- ThiÕt kÕ d÷ liÖu tiÕng nãi dïng cho hÖ nhËn d¹ng. Modul huÊn luyÖn/nhËn d¹ng theo m« h×nh HMM. Modul lÊy tham sè F0 cña ®−êng thanh ®iÖu. B¸o c¸o vÒ m« h×nh ng«n ng÷ cho tiÕng ViÖt.

4

PhÇn mÒm NhËn d¹ng phiÕu ®iÒu tra - N©ng cao chÊt l−îng ¶nh phiÕu

®iÒu tra - HiÖu chØnh trang v¨n b¶n theo

mÉu (vÒ gãc quay, ®é dÞch lÒ cña trang v¨n b¶n so víi phiÕu mÉu).

- T¸ch c¸c « ch÷ nhËt - T¸ch c¸c « trong b¶ng 1 chiÒu - B−íc ®Çu cµi ®Æt phÇn nhËn d¹ng sè viÕt tay cã h¹n chÕ - Bæ sung cho b¶n thiÕt kÕ ch−¬ng tr×nh nhËn d¹ng MarkRead Beta

Chøc n¨ng xo¸ nhiÔu, t¨ng chÊt l−îng ¶nh Chøc n¨ng hiÖu chØnh gãc vµ lÒ MarkRead phiªn b¶n Beta

5 PhÇn mÒm NhËn d¹ng ch÷ ViÖt in - Thö nghiÖm mét sè thuËt to¸n

ph©n tÝch trag tµi liÖu - Häc thªm c¸c ph«ng ch÷ míi - Thö nghiÖm c¸c thuËt to¸n xö lý

ch÷ t¸ch do qua Photocopy nhiÒu lÇn

- ¸p dông m« h×nh ph©n tÝch c©u trong kÕt qu¶ nhËn d¹ng

- Ch−¬ng tr×nh ph©n tÝch

trang tµi liÖu - CSDL ph«ng ®· update - Ch−¬ng tr×nh xö lý ch÷

t¸ch - Ch−¬ng tr×nh thö nghiÖm

ph©n tÝch c©u ®èi víi kÕt qu¶ nhËn d¹ng.

6 PhÇn mÒm dÞch thuËt ViÖt - Anh X©y dùng hÖ thèng tõ lo¹i tiÕng ViÖt phôc vô DÞch m¸y X©y dùng Bé qui t¾c tõ vùng tiÕng ViÖt. X©y dùng bé qui t¾c tæng hîp tõ vùng tiÕng Anh Ph¸t triÓn c¸c kü thuËt t¨ng tèc ®é ph©n tÝch v¨n ph¹m vµ ng÷ nghÜa. Ph¸t triÓn c¸c gi¶i thuËt ph©n tÝch có

B¸o c¸c Khoa häc D÷ liÖu D÷ liÖu Gi¶i thuËt Gi¶i thuËt

Page 80: Mạng thần kinh nhân tạo

16

ph¸p øng dông v¨n ph¹m phô thuéc ph¹m vi.

7 Dãng hµng c¸c v¨n b¶n song ng÷ Ph¸p-ViÖt Ph©n tÝch có ph¸p tiÕng ViÖt: - Nghiªn cøu m« h×nh v¨n ph¹m

TAG (Tree Adjoining Grammar) - X©y dùng bé v¨n ph¹m theo m«

h×nh TAG cho tiÕng ViÖt - Cµi ®Æt ch−¬ng tr×nh ph©n tÝch

có ph¸p theo m« h×nh TAG cho tiÕng ViÖt:

o D÷ liÖu vµo: TÖp v¨n b¶n tiÕng ViÖt XML cã g¾n thÎ tõ vùng víi thuéc tÝnh tõ lo¹i

o D÷ liÖu ra: TÖp v¨n b¶n tiÕng ViÖt XML cã g¾n thÎ tõ vùng víi thuéc tÝnh tõ lo¹i vµ thÎ chøc n¨ng có ph¸p trong c©y ph©n tÝch có ph¸p thu ®−îc

o Ng«n ng÷ lËp tr×nh: Java - §¸nh gi¸ kÕt qu¶

M« h×nh t−¬ng ®−¬ng dÞch Ph¸p-ViÖt: - ChuÈn bÞ d÷ liÖu: o Sö dông c¸c c«ng cô ®· cã s½n

cho viÖc ph©n tÝch ng÷ ph¸p c¸c tµi liÖu tiÕng Ph¸p, m· ho¸ ®ång bé c¸c v¨n b¶n tiÕng Ph¸p trong kho v¨n b¶n lín c¸c tµi liÖu song ng÷ Ph¸p-ViÖt.

o M· ho¸ c¸c tõ ®iÓn song ng÷ truyÒn thèng Ph¸p-ViÖt, ViÖt-Ph¸p theo ®Þnh d¹ng XML

- Nghiªn cøu c¸c ph−¬ng ph¸p x©y dùng m« h×nh t−¬ng ®−¬ng dÞch

Theo chuÈn m· ho¸ ®· x¸c ®Þnh víi c¸c v¨n b¶n song ng÷ Ph¸p-ViÖt, chuÈn bÞ kho d÷ liÖu song ng÷ Anh-ViÖt.

- Bé v¨n ph¹m tiÕng ViÖt

theo m« h×nh TAG - Ch−¬ng tr×nh ph©n tÝch có

ph¸p tiÕng ViÖt - §¸nh gi¸ m« h×nh TAG

®èi víi tiÕng ViÖt - C¸c tÖp v¨n b¶n tiÕng ViÖt

m· ho¸ theo ®Þnh d¹ng XML víi c¸c th«ng tin vÒ tõ lo¹i vµ chøc n¨ng ng÷ ph¸p

- 1 b¸o c¸o KH - Kho d÷ liÖu song ng÷ víi

c¸c th«ng tin ng«n ng÷ tíi møc tõ ®· ®−îc chuÈn ho¸ c¸ch biÓu diÔn

- Ph−¬ng ph¸p luËn x©y dùng m« h×nh t−¬ng ®−¬ng dÞch

Tµi nguyªn ng«n ng÷ c¸c v¨n b¶n song ng÷ Anh-ViÖt cã kÌm th«ng tin ng«n ng÷ ë møc tõ.

8 M« h×nh vµ hÖ thö nghiÖm tõ ®iÓn ®iÖn tö tiÕng ViÖt - X©y dùng m« h×nh tõ ®iÓn ®iÖn

tö mang ®Æc tÝnh cña c¸c hÖ tõ

- M« h×nh b¸o c¸o d−íi

d¹ng tµi liÖu kü thuËt

Page 81: Mạng thần kinh nhân tạo

17

®iÓn ®iÖn tö hiÖn ®¹i trªn thÕ giíi vµ ®Ëc tr−ng tiÕng ViÖt, ®¶m b¶o tÝnh hiÖn ®¹i vµ gi¸ trÞ sö dông l©u dµi.

- M« h×nh tõ ®iÓn bao gåm c¸c tõ ®iÓn thµnh phÇn x©y dùng theo c¸c nguyªn t¾c (a) ®éc lËp gi÷a th«ng tin cÊu tróc ë c¸c møc h×nh th¸i, có ph¸p víi møc ng÷ nghÜa; (b) th«ng tin h×nh th¸i vµ có ph¸p ®−îc kh¸i qu¸t ®éc lËp víi c¸c quy t¾c ng÷ ph¸p vµ thuËt to¸n, (3) cã quy m« ®ñ lín chøa ®−îc c¸c tõ vùng th«ng th−êng.

- Bµi b¸o khoa häc tham gia héi nghÞ khoa häc quèc tÕ.

Page 82: Mạng thần kinh nhân tạo

18

B¶ng 5

Néi dung vµ kÕt qu¶ n¨m 2003

TT C¸c néi dung, c«ng viÖc cô thÓ S¶n phÈm ph¶i ®¹t Ghi chó

Qu¶n lý triÓn khai thùc hiÖn ®Ò tµi - Tæ chøc nghiÖm thu cÊp c¬ së

c¸c néi dung c«ng viÖc ®· ®¨ng ký n¨m 2003

- Triªn khai øng dông mét sè s¶n phÈm trong thùc tÕ.

- Tæ chøc nghiÖm thu 3 n¨m triÓn khai thùc hiÖn ®Ò tµi

1

HÖ thèng tæng hîp tiÕng nãi - Xö lý v¨n b¶n th«ng minh: ph¸t

hiÖn tù ®éng côm tõ vµ nhãm tõ kho¸ (cã tÇn sè xuÊt hiÖn cao, vÞ trÝ xuÊt hiÖn...)

- Ph¸t hiÖn tù ®éng c¸c côm tõ tiÕng Anh trong v¨n b¶n hçn hîp ViÖt – Anh (khai th¸c c¸c engine tæng hîp tiÕng Anh).

- TÝch hîp trong hÖ thèng th«ng ®iÖp hîp nhÊt (Unified Mesaging System)...

Khai th¸c ®Þnh d¹ng XML dùa trªn c«ng nghÖ cña Microsoft ®Ó x©y dùng c¸c øng dông nhóng tiÕng nãi trªn m«i tr−êng m¹ng Internet.

- Modul nhËn biÕt tù ®éng

tõ tiÕng Anh. - Modul t×m kiÕm c¸c tõ

kho¸ trong v¨n b¶n dùa theo ph−¬ng ph¸p häc víi c¸c tham sè thèng kª.

- Modul tæng hîp tiÕng nãi tÝch hîp vµo hÖ UMS.

- N©ng cao chÊt l−îng ®äc v¨n b¶n ®¹t ®é tr«i tr¶y vµ tÝnh tù nhiªn cao 70%-80%.

- §ãng gãi phÇn mÒm tæng hîp tiÕng nãi Version 2.0

2

PhÇn mÒm NhËn d¹ng lÖnh - T×m hiÓu vÒ cÊu tróc, cµi ®Æt

ch−¬ng tr×nh cña c¸c bé xö lý tiÕng nãi chuyªn dông DSP

- Khai th¸c kü thuËt COM cña Microsoft ®Ó ®iÒu khiÓn Web b»ng tiÕng nãi.

- Cµi ®Æt Modul huÊn luyÖn/ nhËn d¹ng theo m« h×nh HMM.

- Modul thö nghiÖm tÝch

hîp nhËn d¹ng tiÕng nãi trªn nÒn DSP (hä TMS320C5x)

- Modul nhËn d¹ng tõ rêi theo m« h×nh HMM.

- C¶i tiÕn chÊt l−îng nhËn d¹ng tõ rêi cña hÖ thèng ®éc lËp ng−êi nãi lªn h¬n 95%.

- §ãng gãi phÇn mÒm ®iÒu khiÓn lÖnh Version 2.0 víi tÝnh n¨ng duyÖt Web.

3

Ch−¬ng tr×nh ®äc chÝnh t¶ - Nghiªn cøu ph©n lo¹i/nhËn d¹ng

Modul HMM cã thÝch øng víi

Page 83: Mạng thần kinh nhân tạo

19

thanh ®iÖu trong d¹ng c« lËp, liªn kÕt.

- C¶i thiÖn modul huÊn luyÖn/nhËn d¹ng theo m« h×nh HMM.

- Ph−¬ng ph¸p lµm tr¬n c¸c tham sè cña m« h×nh ng«n ng÷.

mÉu huÊn luyÖn míi. Modul lµm tr¬n tham sè, ph©n lo¹i cho m« h×nh ng«n ng÷ tiÕng ViÖt. Modul nhËn d¹ng thanh ®iÖu tiÕng ViÖt. §ãng gãi thö nghiÖm phÇn mÒm ®äc chÝnh t¶.

4

PhÇn mÒm NhËn d¹ng phiÕu ®iÒu tra - ThiÕt kÕ chøc n¨ng nhËn d¹ng

c¸c c©u hái cã nhiÒu ph−¬ng ¸n lùa chän d¹ng: • LIST(chän mét c©u tr¶ lêi), • MULTIPLE(nhiÒu c©u hái

mçi c©u d¹ng LIST ®−îc tr¶ lêi ®éc lËp),

• BOOL(cã/kh«ng), • GRID(ghÐp c¸c tr¶ lêi LIST

thµnh x©u). - N©ng cao chÊt l−îng nhËn d¹ng dÊu - N©ng cao chÊt l−îng nhËn d¹ng sè - NhËn d¹ng ch÷ viÕt tay h¹n chÕ chøa trong c¸c « ch÷ nhËt, b¶ng 1 chiÒu (viÕt gÇn gièng ch÷ in, mçi « mét ch÷). - Hoµn thiÖn b¶n thiÕt kÕ/ kÜ thuËt phÇn mÒm MarkRead - Ch−¬ng tr×nh nhËn d¹ng dÊu vµ ch÷ sè viÕt tay h¹n chÕ

Chøc n¨ng nhËn d¹ng phôc vô cho tr¶ lêi c¸c c©u hái cã nhiÒu c©u tr¶ lêi Chøc n¨ng nhËn d¹ng ch÷ Chøc n¨ng nhËn d¹ng dÊu: 96% NhËn d¹ng ch÷ h¹n chÕ: (trong c¸c mÉu phiÕu ®iÒu tra) ®¹t kho¶ng 70-80%. PhÇn mÒm MarkRead 1.0

5 PhÇn mÒm NhËn d¹ng ch÷ ViÖt in - Thö nghiÖm mét sè thuËt to¸n

ph©n tÝch nhËn d¹ng b¶ng biÓu tù ®éng

- Häc thªm c¸c ph«ng ch÷ míi sau khi thuËt to¸n xö lý ch÷ t¸ch do qua Photocopy nhiÒu lÇn.

- TÝch hîp c¸c modul ch−¬ng tr×nh vµo giao diÖn tæng thÓ

- Nghiªn cøu ph−¬ng ph¸p b¶o vÖ s¶n phÈm

- §ãng gíi vµ th−¬ng m¹i ho¸ s¶n phÈm

- Ch−¬ng tr×nh ph©n tÝch tù

®éng b¶ng biÓu - CSDL ph«ng ®· update - Ch−¬ng tr×nh tÝch hîp - Ch−¬ng tr×nh b¶o vÖ s¶n

phÈm - PhÇn mÒm th−¬ng m¹i ho¸

VnDOCR 3.0

Page 84: Mạng thần kinh nhân tạo

20

6 PhÇn mÒm dÞch thuËt ViÖt - Anh Thu thËp Kho mÉu c©u tiÕng ViÖt. X©y dùng Bé quy t¾c v¨n ph¹m tiÕng ViÖt X©y dùng Module biªn dÞch ViÖt-Anh. X©y dùng Bé quy t¾c ng÷ nghÜa ViÖt-Anh. X©y dùng C¬ së tri thøc DÞch ViÖt-Anh. TÝch hîp c¸c m«dul thµnh phÇn mÒm biªn dÞch v¨n b¶n ViÖt-Anh.

D÷ liÖu; 100.000 c©u D÷ liÖu; trªn 1000 quy t¾c Mo®un ch−¬ng tr×nh D÷ liÖu; trªn 1000 quy t¾c D÷ liÖu, trªn 100.000 môc PhÇn mÒm øng dông

7

Dãng hµng c¸c v¨n b¶n song ng÷ Ph¸p-ViÖt M« h×nh t−¬ng ®−¬ng dÞch Ph¸p-ViÖt (tiÕp): - Cµi ®Æt c¸c m«®un ch−¬ng tr×nh

cho phÐp x©y dùng vµ kiÓm nghiÖm/®¸nh gi¸ m« h×nh dÞch. Ng«n ng÷ lËp tr×nh: Java

- §¸nh gi¸ kÕt qu¶ PhÇn mÒm dãng hµng v¨n b¶n song ng÷ Ph¸p ViÖt: - Nghiªn cøu c¸c ph−¬ng ph¸p

dãng hµng ®a ng÷ ë møc tõ/ng÷ ®o¹n.

- Nghiªn cøu vµ vËn dông ph−¬ng ph¸p thÝch hîp cho cÆp ng«n ng÷ Ph¸p-ViÖt

- X©y dùng ch−¬ng tr×nh dãng hµng:

o D÷ liÖu vµo: c¸c tÖp v¨n b¶n song ng÷ Ph¸p-ViÖt ®· x©y dùng trong kho v¨n b¶n lín

o D÷ liÖu ra: C¸c tÖp ®Þnh d¹ng XML thÓ hiÖn liªn kÕt (link) gi÷a c¸c t−¬ng ®−¬ng dÞch ë møc ®¬n vÞ tõ vùng trong tõng cÆp v¨n b¶n song ng÷

o Ng«n ng÷ lËp tr×nh: Java - §¸nh gi¸ kÕt qu¶

M« h×nh t−¬ng ®−¬ng dÞch Anh-ViÖt: - Dùa trªn ph−¬ng ph¸p luËn thu

®−îc tõ qu¸ tr×nh x©y dùng m« h×nh dÞch Ph¸p-ViÖt, vËn dông thÝch hîp ®Ó x©y dùng m« h×nh

- M« h×nh t−¬ng ®−¬ng

dÞch Ph¸p-ViÖt - Ph−¬ng ph¸p luËn dãng

hµng ®a ng÷ - PhÇn mÒm dãng hµng v¨n

b¶n song ng÷ Ph¸p-ViÖt - 1 bµi b¸o KH - M« h×nh t−¬ng ®−¬ng

dÞch Anh-ViÖt - 1 b¸o c¸o KH - Ph−¬ng ph¸p luËn cho vÊn

®Ò dãng hµng v¨n b¶n song ng÷ Anh -ViÖt vµ Ph¸p – ViÖt

Page 85: Mạng thần kinh nhân tạo

21

t−¬ng ®−¬ng dÞch cho cÆp ng«n ng÷ Anh-ViÖt

- Cµi ®Æt c¸c m«®un ch−¬ng tr×nh t×m kiÕm t−¬ng ®−¬ng dÞch trong c¸c v¨n b¶n song ng÷ Anh-ViÖt

- §¸nh gi¸ kÕt qu¶ Tæng quan, so s¸nh c¸c kÕt qu¶ thu ®−îc trªn c¸c cÆp ng«n ng÷.

8 M« h×nh vµ hÖ thö nghiÖm tõ ®iÓn ®iÖn tö tiÕng ViÖt - C«ng cô ®Ó x©y dùng c¸c tõ ®iÓn

nµy vµ hÖ thö nghiÖm gåm:

(1) M« h×nh tõ ®iÓn tõ: bao gåm tõ ®iÓn tõ vùng th«ng th−êng tiÕng ViÖt, tiÕng Anh vµ c¸c tõ ®iÓn thuËt ng÷ chuyªn ngµnh.

(2) M« h×nh tõ ®iÓn kh¸i niÖm: gåm tõ ®iÓn ph©n lo¹i kh¸i niÖm vµ tõ ®iÓn miªu t¶ kh¸i niÖm

(3) M« h×nh tõ ®iÓn ®ång hiÖn: tõ ®iÓn ®ång hiÖn tiÕng ViÖt vµ tõ ®iÓn ®ång hiÖn tiÕng Anh.

(4) M« h×nh õ ®iÓn song ng÷: ViÖt-Anh vµ Anh-ViÖt.

- Ch−¬ng tr×nh c«ng cô lµm

c¸c tõ ®iÓn kÓ bªn - Tõ ®iÓn kÝch th−íc nhá

nhá minh ho¹ m« h×nh x©y dùng b»ng c¸c ch−¬ng tr×nh c«ng cô.

- Thö nghiÖm nèi víi mét vµi øng dông

- 01 bµi b¸o khoa häc

Page 86: Mạng thần kinh nhân tạo

THUYẾT MINH ĐỀ TÀI NGHIÊN CỨU KHOA HỌC VÀ

PHÁT TRIỂN CÔNG NGHỆ I. Thông tin chung về đề tài 1. Tên đề tài: Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng Việt.

2. Mã số KC01-03

3. Thời gian thực hiện: 3 năm (Từ 2001 đến 12/2003)

4. Cấp quản lý NN X Bộ, CS Tỉnh

5. Kinh phí (cho 3 năm) Tổng số: 5.0 tỷ Trong đó, từ Ngân sách SNKH chưong trình KC 01: 2.0 tỷ

Từ các nguồn SNKH khác: 3.0 tỷ

6. Thuộc Chương trình:

KHOA HỌC VÀ CÔNG NGHỆ TRỌNG ĐIỂM CẤP NHÀ NƯỚC GIAI ĐOẠN 2001-2005:

"NGHIÊN CỨU KHOA HỌC VÀ PHÁT TRIỂN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG", MÃ SỐ: KC.01

7 Chủ nhiệm đề tài

Họ và tên: Bạch Hưng Khang Học hàm/học vị: GS. TSKH. Chức danh khoa học: Nghiên cứu viên cao cấp, Viện trưởng Viện Công nghệ Thông tin Điện thoại: 04-7564 908 (CQ)/ 04- 7534 548 (NR) Fax: 04-7564 217 Mobile: E-mail: [email protected] Địa chỉ cơ quan: Viện Công nghệ Thông tin, Đường Hoàng Quốc Việt, Cầu giấy, Hà nội Địa chỉ nhà riêng: 57, Ngõ 81/24, Phường Nghĩa đô, Cầu Giấy, Hà nội 8 Cơ quan chủ trì đề tài

Page 87: Mạng thần kinh nhân tạo

2

Tên tổ chức KH&CN: Viện Công nghệ Thông tin - Trung tâm Khoa học tự nhiên và Công nghệ Quốc gia

Điện thoại: 04-7564 405, 7564 908 Fax: 04-7564 217 E-mail: [email protected]

Địa chỉ: Viện Công nghệ Thông tin, Đường Hoàng Quốc Việt, Cầu giấy, Hà nội II. Nội dung KH&CN của đề tài 9 Mục tiêu của đề tài

Nhận dạng và xử lý ngôn ngữ nói và viết tiếng Việt là nền tảng thiết yếu của phát triển và ứng dụng công nghệ thông tin ở Việt nam. Giới nghiên cứu và công nghiệp trên thế giới do theo đuổi các nghiên cứu cơ bản và công nghệ này từ hàng chục năm qua, gần đây đã càng thu được nhiều thành tựu quan trọng. Khác với các sản phẩm khác của công nghệ thông tin, sản phẩm về tiếng nói, chữ viết và ngôn ngữ Việt không thể mua được từ nước ngoài, chỉ có thể do người Việt làm ra trên cơ sở tiếp thu được các thành tựu khoa học công nghệ trên thế giới và theo đuổi lâu dài. Những năm qua trong khuôn khổ chương trình trọng điểm nhà nước, một số kết quả nghiên cứu và sản phẩm về nhận dạng và xử lý tiếng Việt⎯tập trung cho nhận dạng chữ Việt in⎯đã thành công và bắt đầu được sử dụng rộng rãi. Đề tài này nhằm theo đuổi những nghiên cứu và phát triển phải thực hiện lâu dài về tiếng Việt trên máy tính với sự triển khai một số phương hướng mới. Mục tiêu của đề tài là nghiên cứu làm chủ các phương pháp, kỹ thuật tiên tiến trong một số lĩnh vực của trí tuệ nhân tạo và lý thuyết nhận dạng trên thế giới để xây dựng các phương pháp hiệu quả cho nhận dạng tiếng nói, chữ viết, và xử lý ngôn ngữ tự nhiên tiếng Việt. Đề tài vừa tiếp tục xây dựng các phương pháp và công cụ cơ bản vừa từng bước tạo ra một số sản phẩm thiết thực nhằm giải quyết một số bài toán cấp bách trong phát triển và ứng dụng công nghệ thông tin ở Việt nam. Ba nội dung chính quan hệ chặt chẽ với nhau được nghiên cứu trong đề tài là:

1. Nhận dạng và tổng hợp tiếng Việt 2. Nhận dạng chữ Việt in và viết tay 3. Xử lý ngôn ngữ tự nhiên tiếng Việt

10 Tình hình nghiên cứu trong và ngoài nước

Tình trạng đề tài Mới Kế tiếp đề tài đã kết thúc giai đoạn trước (Một số nội dung là mới và một số nội dung là bước phát triển của đề tài đã kết thúc giai đoạn trước của

chương trình KC-01, 1996-2000) Tổng quan tình hình nghiên cứu thuộc lĩnh vực của đề tài (thể hiện sự hiểu biết cần thiết của tổ chức, cá nhân đăng ký chủ trì đề tài về lĩnh vực nghiên cứu - nắm được những công trình nghiên cứu đã có liên quan đến đề tài, những kết quả nghiên cứu mới nhất trong lĩnh vực nghiên cứu đề tài, nêu rõ quan điểm của tác giả về tính bức xúc của đề tài,...)

Page 88: Mạng thần kinh nhân tạo

3

Ngoài nước:

Ba lĩnh vực (1) nhận dạng và tổng hợp tiếng nói, (2) nhận dạng chữ, và (3) xử lý ngôn ngữ tự nhiên có liên quan mật thiết với nhau, và là nền tảng cho sự phát triển và ứng dụng công nghệ thông tin của mọi quốc gia.

Nhận dạng tiếng nói nhằm chuyển thông tin từ tiếng nói con người vào máy tính, và tổng hợp tiếng nói nhằm tự động tạo ra tiếng người nói bằng máy tính. Cùng với sự phát triển nhanh chóng của công nghệ thông tin nói chung và mạng Internet nói riêng, nhận dạng và tổng hợp tiếng nói càng ngày càng trở nên là một xu hướng tất yếu cho những máy tính thế kỉ 21. Trong vòng 50 năm qua, rất nhiều thuật toán được đề xuất và triển khai trên các hệ tự động nhận dạng và tổng hợp tiếng nói. Trên thế giới đã có nhiều bộ phần mềm thương mại dành cho tiếng Anh như IBM ViaVoice (http://www-4.ibm.com/software/speech/), Dragon Naturally Speaking, L&H Voice Xpress. Những phần mềm này cung cấp các chức năng chủ yếu như: nhập văn bản vào máy, đọc văn bản thành lời, duyệt Web bằng giọng nói. Gần đây nhất hãng Microsoft đã công bố việc tích hợp VUI (Voice User Interface) thay cho GUI (Graphic User Interface) truyền thống vào phiên bản hệ điều hành Windows thế hệ mới với mật danh Whistler. Kết quả này có ý nghĩa rất lớn trong giao tiếp người-máy: thay vì giao tiếp với máy tính qua những biểu tượng và cửa sổ, các máy tính trong tương lai chỉ giao tiếp với con người bằng những mệnh lệnh đơn giản. Nhận dạng và tổng hợp tiếng nói có vai trò quan trọng đối với việc phát triển các hệ thông tin di động thế hệ thứ 3 (3G), với các tính năng ưu việt tập trung trong chiếc máy điện thoại di động mà một trong các dịch vụ điển hình là hệ thống thông điệp hợp nhất (Unified Messaging System - UMS). Sản phẩm về các bo mạch của Dialogic đã tích hợp các công nghệ tổng hợp và nhận dạng tiếng nói qua điện thoại cho nhiều ngôn ngữ hệ Latinh, xem (www.dialogic.com./solutions/6877web.htm). Ngoài ra, một trong những ứng dụng điển hình và mang tính chất kinh điển từ trước tới nay của nhận dạng tiếng phục vụ cho điều khiển bằng giọng nói và bảo mật, cho tự động hoá văn phòng, những ứng dụng rộng rãi trong viễn thông, bảo tồn văn hoá, hỗ trợ người khuyết tật...

Về lĩnh vực nhận dạng chữ, các phần mềm thương phẩm nhận dạng chữ in cho các ngôn ngữ hệ Latinh và Slavơ đã đạt được chất lượng nhận dạng rất cao, ví dụ như OMNIPAGE 11.0 của Caere (Mỹ), Fine Reader 5.0 của ABBYY (Nga), Yonde OCR của Aisoft vàKanjiScan (Nhật), xem http://www.worldlanguage.com/Languages. Để đạt tới các phiên bản với chất lượng cao như vậy, từ hơn 10 năm nay, các hãng phần mềm này vẫn phải liên tục cho phát triển hoàn thiện các chức năng nhận dạng cũng như tiền và hậu xử lý. Nhưng đối với chữ viết tay trực tuyến hoặc gián tiếp, chất lượng nhận dạng thấp hơn nhiều và các phương pháp hiện nay mới chỉ nhận dạng được chữ viết tay có hạn chế. Vì vậy trên các tạp chí chuyên ngành về nhận dạng, các chủ đề này vẫn còn đang được đề cập đến nhiều với các cách tiếp cận khác nhau, đề cập tới các phương pháp cải tiến để tăng chất lượng nhận dạng, tách và cắt chữ, và kết hợp với ngữ nghĩa của từng ngôn ngữ cụ thể.

Xử lý ngôn ngữ tự nhiên là lĩnh vực nhằm làm cho máy tính có thể hiểu và sử dụng được ngôn ngữ tự nhiên của con người (cả ngôn ngữ nói và ngôn ngữ viết), bao gồm các hệ dịch tự động, tìm kiếm thông tin, tổng hợp văn bản tự động, tính toán ngôn ngữ, v.v.

Dịch văn bản từ một ngôn ngữ qua ngôn ngữ khác bằng máy tính là mơ ước từ buổi đầu của công nghệ thông tin. Với thành tựu nghiên cứu về xử lý ngôn ngữ tự nhiên bắt đầu từ những năm 60, cùng với sự tiến bộ nhanh chóng của kỹ thuật tính toán, việc dịch tự động ngôn ngữ tự nhiên đang được từng bước ứng dụng. Hiện nay trên thế giới đã có nhiều hệ dịch máy thương phẩm với chất lượng chấp nhận được (SYSTRAN, GLOBALINK, STYLUS, IBM, ...). Các cặp ngôn ngữ đã được thực hiện chủ yếu là những ngôn ngữ Âu châu (bao gồm Anh-Pháp, Pháp-

Page 89: Mạng thần kinh nhân tạo

4

Anh, Anh-Đức, Anh-Tây ban nha, Anh-Nga, Anh-Nhật, Nhật-Anh, v.v. và một số sản

phẩm dịch một chiều khác). Các sản phẩm dịch tự động được sử dụng phổ biến từ những phần mềm cho các hệ máy lớn, trạm làm việc và máy tính cá nhân đến những thiết bị dịch tự động chuyên dụng cầm tay. Trên thế giới chưa có thương phẩm nào biên dịch Anh-Việt hay Việt-Anh.

Page 90: Mạng thần kinh nhân tạo

5

Trong nước: Nghiên cứu về nhận dạng và ứng dụng đã được tiến hành ở nước ta từ khá sớm. Công trình đầu tiên của Việt nam đã được đăng trong tạp chí khoa học “Thông báo khoa học” của Viện hàn lâm khoa học Belorus năm 1966 [1]. Các luận án Tiến sĩ, Tiến sĩ Khoa học đầu tiên của Việt nam về vấn đề này đã được hoàn thành tại Liên xô trong những năm 1974, 1979, 1982 [3, 4, 5] và trong nước [6, 7, 8, 9]. Các chương trình trọng điểm quốc gia về tin học, CNTT từ năm 1981 đến nay đều có nội dung nghiên cứu về nhận dạng. Đặc biệt từ năm 1991 đến nay, trong chương trình khoa học và công nghệ KC-01 (giai đoạn 1991-1995, 1996-2000), các vấn đề về Nhận dạng và xử lý thông tin hình ảnh đã được quan tâm và là nội dung nghiên cứu chính của đề tài KC-01-10, KC-01-07. Các đề tài đều được nghiệm thu đánh giá xuất sắc. Tuy nhiên trong giai đoạn này mới chỉ tập trung nỗ lực vào vấn đề nhận dạng chữ (sản phẩm VnDOCR 1.0 và 2.0) và một phần về dịch tự động (sản phẩm EVETRAN 1.0), nhận dạng và tổng hợp tiếng nói mới là những nghiên cứu thử nghiệm. Mặc dù trên thế giới đã có những bước tiến khá dài trong lĩnh vực nhận dạng-tổng hợp tiếng nói, và xử lý ngôn ngữ tự nhiên, ở Việt nam vấn đề này chỉ mới được quan tâm và chưa nhiều người nghiên cứu. Trong khi đó nhu cầu giao tiếp với máy tính bằng tiếng Việt đang ngày càng cấp thiết bởi chúng ta không thể lúc nào cũng sử dụng các phần mềm nhận dạng và tổng hợp tiếng nói với ngôn ngữ là tiếng Anh. Nhận dạng, tổng hợp tiếng nói Việt, nhận dạng chữ viết Việt, máy hiểu ngôn ngữ Việt không chỉ cần những nghiên cứu cơ bản và kỹ thuật chung, mà còn phải dựa trên các đặc trưng ngôn ngữ tiếng Việt. Đã có những bước đi ban đầu của một số cơ sở có tiến hành nghiên cứu về lĩnh vực này: - Phòng Nhận dạng và Công nghệ Tri thức, Viện Công nghệ Thông tin, - Nhóm nghiên cứu của Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên, TP.

Hồ Chí Minh, - Nhóm nghiên cứu của Bộ môn Khoa học Máy tính, Khoa CNTT, ĐHBK Hà Nội, - Công ty CDIT, Tổng Công ty Bưu chính Viễn thông Việt nam, - Bộ Quốc phòng, và còn một số công trình của các cá nhân làm đề tài thạc sĩ và tiến sĩ [10, 11, 13]. Về nhận dạng và tổng hợp tiếng Việt: Trước hết đây là vấn đề khó, đòi hỏi phải có tập trung nghiên cứu trong thời gian dài. Trong thời gian qua, các nghiên cứu còn tản mạn, các kết quả tập trung chủ yếu vào thử nghiệm bước đầu tổng hợp tiếng Việt dựa trên một số kỹ thuật cơ bản, và giải quyết các ứng dụng điều khiển bằng giọng nói với lượng từ vựng nhỏ để có thể triển khai nhanh, để minh họa và thực tế là chưa khai thác đặc điểm riêng của ngữ âm tiếng Việt. Trong đề tài KC-01-10, các nội dung về tổng hợp và nhận dạng tiếng Việt mới được tiến hành nghiên cứu ở hai năm cuối (1999-2000). Vì thế chưa có sản phẩm có khả năng ứng dụng rộng rãi chẳng hạn cho các ứng dụng văn phòng hay các ứng dụng trong viễn thông. Về nhận dạng chữ Việt: Phòng Nhận dạng và Công nghệ tri thức Viện CNTT đã bước đầu thành công trong lĩnh vực nhận dạng chữ Việt in [12], đã và đang phát triển phần mềm Nhận dạng VnDOCR 2.0 hiện đang thương mại hoá rộng rãi trên thị trường (với tổng số hơn 400 đơn vị sử dụng trên cả nước và một số Việt kiều ở nước ngoài, 4000 bộ với chức năng hạn chế kèm theo các máy quét Hewlett Parkard). Cũng như bất kỳ một sản phẩm phần mềm nào, VnDOCR cần được hoàn thiện để giải quyết các yêu cầu cao hơn về chất lượng nhận dạng trên các văn bản đầu vào xấu hơn, các tài liệu cũ, v.v. Ngoài ra, các khoa Công nghệ Thông tin của các trường đại học như Bách khoa Hà nội, Đại học Quốc gia, Đại học KHTN Tp Hồ Chí Minh cho sinh viên làm luận văn cao học hoặc cử nhân về nhận dạng chữ, nhưng đều ở dạng tiếp cận kiến thức, chưa thành dạng thương phẩm. Sản phẩm Image Scan của Công ty CadPro cũng có

Page 91: Mạng thần kinh nhân tạo

6

giới thiệu bước đầu trên thị trường. Ngoài ra vấn đề nhận dạng chữ viết tay tiếng Việt cũng cần được đặt ra để giải quyết cho từng bài toán cụ thể.

Về xử lý ngôn ngữ tự nhiên tiếng Việt: Các nghiên cứu hướng nhiều vào dịch tự động. Sản phẩm phần mềm EVTRAN (Phòng thí nghiệm Công nghệ Phần mềm máy tính, Trung tâm Công nghệ vi điện tử và Tin học) biên dịch tự động Anh Việt đã có mặt trên thị trường và được chấp nhận rộng rãi. Hiện nay đã có phiên bản EVTRAN 2.0 với nhiều tính năng trợ lý ngôn ngữ thuận tiện. Đây cũng là thương phẩm duy nhất về dịch tự động Anh-Việt. EVTRAN đã được phát triển trên mười năm (bắt đầu từ năm 1990). Sản phẩm đã thực sự góp phần hỗ trợ mọi người trong việc đọc hiểu văn bản tiếng Anh và biên dịch sang tiếng Việt. Tuy nhiên chưa có hệ dịch cho chiều ngược lại (Việt- Anh). Cũng như hấu hết các sản phẩm dịch tự động hiện nay trên thế giới, do vấn đề quá khó, EVTRAN còn phải được theo đuổi lâu dài để dần hoàn thiện. Điều đáng chú ý là cần chú trọng hơn đến các nghiên cứu và công cụ cơ sở của xử lý ngôn ngữ tự nhiên tiếng Việt, như từ điển điện tử, phân tích và hiểu tiếng Việt trên máy tính, v.v. để có thể đạt được chất lượng cao hơn cho dịch tự động liên quan tiếng Việt và tiến hành được các ứng khác. Nhận rõ tầm quan trọng của vấn đề nhận dạng tiếng nói, chữ viết, dịch tự động đối với sự phát triển của CNTT ở nước ta, vừa qua Bộ Khoa học Công nghệ và Môi trường đã quyết định xây dựng Phòng Thí nghiệm trọng điểm về Công nghệ mạng và Đa phương tiện và giao cho Viện Công nghệ Thông tin chủ trì. Vấn đề nhận dạng tiếng nói, chữ viết và dịch tự động là ba trong những nội dung nghiên cứu của Phòng Thí nghiệm trọng điểm. Mục tiêu chủ yếu của nhà nước cho Phòng Thí nghiệm trọng điểm là đầu tư kinh phí cho trang thiết bị (không bao gồm kinh phí nghiên cứu) để trang bị một phòng thí nghiệm hiện đại, đáp ứng nội dung nghiên cứu trong đề tài các cấp. Điều đó đảm bảo tính đồng bộ và tránh lãng phí trong đầu tư. � Danh mục các công trình nghiên cứu có liên quan 1 Bach Hung Khang, “Recognition of Crossing Graph”, Insvestia Academia Nauk, Ser Phys.Math. No4, 1966

(in Russian) 2 Bach Hung Khang, “Completeness of the Linear Closure of some classes of Recognition Algorithms”, Doklad

Acad. Nauk USSR, 240, 1978 (in Russian), English Translation in Soviet.Math.Dokl.19, N3, American Math Society.

3 Bach Hung Khang, “The evaluation of precision of classes of Pattern Recognition algorithms”, Luận án tiến sĩ, 1974, Moscow.

4 Bach Hung Khang, “The completeness of the linear and algebraic closures of recognition algorithm”, Luận án tiến sĩ khoa học Toán-Lý, 1979, Moscow.

5 Nguyễn Anh Tuấn, “Nghiên cứu cấu trúc ngôn ngữ có thanh điệu bằng phương pháp phổ và miền thời gian để xây dựng một hệ thống trao đổi người và máy”, Luận án tiến sĩ khoa học kĩ thuật, Viện hàn lâm khoa học Liên Xô, Moscow, 1984.

6 Hoàng Kiếm “Nâng cao hiệu quả của các thuật toán nhận dạng”, Luận án tiến sĩ, Hà nội, 1981. 7 Lương Chi Mai, “Về các đường cong số hoá và ứng dụng trong nhận dạng”, Luận án tiến sĩ, Hà nội, 1991 8 Ngô Quốc Tạo, “Nâng cao hiệu quả của các thuật toán nhận dạng ảnh”, Luận án tiến sĩ, Hà nội, 5/1997. 9 Lê Khánh Hùng, Viện nghiên cứu quang điện tử, Báo cáođề tài: Đề tài nghiên cứu khoa học cấp nhà nước

KHCN-01-07 nhánh: Dịch tự động Anh-Việt, 1997. 10 Nguyễn Thành Phúc, “Một phương pháp nhận dạng lời Việt: áp dụng phương pháp kết hợp mạng Neural với

mô hình Markov ẩn cho các hệ thống nhận dạng lời Việt”, Luận án tiến sỹ kĩ thuật, 2000. 11 Trịnh Anh Tuấn, “Nghiên cứu các đặc trưng để phân tích và tổng hợp tín hiệu âm tần”, Luận án tiến sỹ kĩ

thuật, 2000. 12 Luong Chi Mai, Nguyen Duc Dung, Nguyen Truong Thang, Vu Van Thinh, “On the approach to Vietnamese

Page 92: Mạng thần kinh nhân tạo

7

Optical Character Recognition”, VZFUZZY, 30 September - 2 November, Halong Bay, 1998. 13 Nguyễn Phú Chiến, “Một mô hình từ điển điện tử cho tiếng Việt”, Luận văn tốt nghiệp cao học, 2000. 14 Sebastian , Ute Jekosch, “Auditory assessment of synthesized speech in application scenarior : Two case

studies”, 15 Speech Communication 34(2001) 229-246 16 Climent Nadeu, “Time and frequency filtering of filter-bank energies for robust HMM speech recognition”,

Speech Communication 34(2001) 93-114 17 Kris Demuynck. Jacques Duchateau, “An efficient search space representation for large vocabulary

continuous speech recognition”, Speech Communication 30(2000) 37-53 18 Min-Tau Lin, “An improved approach to robust speech recognition using minimum error classification”,

Speech Communication 30(2000) 27-36 19 Stefan Ortmanns, “The Time-Conditioned approach in Dynamic Programming Search for LVCSR”, IEEE

Transaction on Speech and Audio Processing Vol 8, N6 2000, p.677-687 20 Govindaraju, Shihari, “OCR in a hierachcal feature space”, IEEE Transaction in PAMI, 4, April 2000. 21 Plamodon, “Online and Offline Handwritting Recognition: a comprehensive survey”, IEEE Transaction in

PAMI,1, January 2000. 22 Manning, C.D., Schutze, H., “Foundations of Statistical Natural Language Processing”, The MIT Press,

1999. 23 “EDR Electronic Dictionary Technical Guide”, Japan Electronic Dictionary Research Institute, 1993. 24 Ho, T.B., Nguyen, N.B., “Nonhierarchical Document Clustering by Tolerance Rough Set Model”,

International Journal of Intelligent Systems (to appear 2001). 11 Cách tiếp cận, phương pháp nghiên cứu, kỹ thuật sẽ sử dụng (luận cứ rõ cách tiếp cận -

thiết kế nghiên cứu, phương pháp nghiên cứu, kỹ thuật sẽ sử dụng - so sánh với các phương thức giải quyết tương tự khác, nêu được tính mới, tính độc đáo, tính sáng tạo của đề tài)

Do các vấn đề có liên quan là những vấn đề trên thế giới đang nghiên cứu và phát triển, một số nhóm nghiên cứu trong nước quan tâm, nên công việc đầu tiên cần phải tiến hành là thu thập và hệ thống hoá các tài liệu chuyên môn liên quan quan đến những kết quả gần đây nhất trên các tạp chí chuyên ngành, trên các trang Web thông qua mạng Internet. Các phương pháp và các công cụ Toán học và Tin học được sử dụng:

� Hướng Nhận dạng tiếng nói Sử dựng thành thạo các công cụ Toán học như Đại số tuyến tính (đặc biệt về ma

trận), chuỗi số (đặc biệt về chuỗi Fourier), xác suất (đặc biệt về lí thuyết Bayes). Xử lí tín hiệu và lọc số: các biến đổi Fourier, biến đổi Z, các bộ lọc số, Wavelet, phân

tích LPC. Mô hình Markov ẩn (HMM). Các mô hình mạng nơ ron nhân tạo Ngôn ngữ: các phương pháp phân tích đặc trưng tiếng Việt trên cơ sở ngữ âm và

ngôn ngữ tiếng Việt, đặc biệt về từ vựng học (lexicon) và ngữ pháp (grammar). Sinh học: quá trình tạo và nhận thức tiếng nói của con người (speech production,

speech perception). � Hướng Nhận dạng chữ

Phương pháp tiếp cận thống kê dựa trên không gian dữ liệu phân cấp, mạng Nơ ron nhân tạo mờ để cải thiện chất lượng nhận dạng chữ Việt in.

Phương pháp dùng mạng Nơ ron kết hợp mô hình cấu trúc và mô hình Markov ẩn cho nhận dạng chữ viết tay có hạn chế và chữ viết tay trực tuyến.

Nghiên cứu phương pháp kiểm tra chính tả đa âm tiết để tăng cường chất lượng nhận dạng. Nghiên cứu nay phải gắn liền với các nghiên cứu về ngôn ngữ tiếng Việt.

Page 93: Mạng thần kinh nhân tạo

8

� Hướng Xử lý ngôn ngữ tự nhiên Mô hình từ điển trên sự tích hợp bốn loại từ điển: từ điển từ, từ điển khái niệm, từ điển đồng hiện, từ điển song ngữ.

Dịch tự động: Kế thừa những phương pháp được áp dụng trong phần mềm EVTRAN. Phương pháp dựa trên mô hình biên dịch điều khiển bằng cú pháp (phương pháp phổ

biến cho các hệ dịch hiện có trên thị trường) với một số cải tiến Công nghệ: (1) Mô hình Văn phạm Động. Mô hình này cho phép mô tả được những tình huống ràng buộc ngôn ngữ tinh tế hơn so với việc sử dụng phương tiện Văn phạm Phi ngữ cảnh thuần túy. Để có thể biên dịch Anh-Việt/Việt-Anh với chất lượng chấp nhận được thì không thể chỉ dừng lại ở công cụ Văn phạm Phi ngữ cảnh. (2) Sử dụng cơ chế truyền thuộc tính trong các quy tắc văn phạm để phân tích ngữ nghĩa. Việc sử dụng các thuộc tính như các tham biến của quy tắc văn phạm cho phép truyền thông điệp giữa các bộ phận trên khoảng cách trong các mệnh đề của ngôn ngữ, nhờ đó có thể thể hiện những tình huống đa nghĩa của cấu trúc ngữ pháp. (3) Sử dụng Văn phạm ngữ cảnh không liên tục (Contextual Discontinuous Grammar) do nhà ngôn ngữ học người Pháp Saint Dizier phát triển. Tuy nhiên đây là mô hình ngôn ngữ tổng quát, vì vậy khó có thể cài đặt hữu hiệu. Trong các nghiên cứu trước, đã đưa ra một số khống chế về kiểu dạng quy tắc cho phép giải thuật phân tích với thời gian đa thức. Từ đó có thể áp dụng mô hình này vào việc phân tích văn phạm.

Phân loại văn bản dựa trên mô hình tập thô có dung tha. Phát triển thuật toán phân loại phân hoạch và phân loại phân cấp cho các lớp không rời rạc.

Nghiên cứu khai thác các cơ sở dữ liệu văn bản (text mining) và khai thác thông tin văn bản trên Web (Web mining), tìm kiếm thông tin trên các mạng máy tính (information retrieval), tạo sinh và tóm tắt tự động các văn bản (text generation and summarization). Kỹ thuật sử dụng chính là liên kết dựa từ khoá và phân loại văn bản (keyword-based associaiton and document clustering), kết hợp giữa phân tích văn bản và tìm kiếm thông tin (information retrieval).

Các bước tiến hành sẽ tuân theo quy trình: Nghiên cứu khảo sát, phân tích, thiết kế giải pháp, cài đặt và triển khai ứng dụng thử nghiệm, làm sản phẩm phần mềm. Việc hợp tác với các cá nhân và tập thể nghiên cứu trong và ngoài nước sẽ được đặc biệt quan tâm tận dụng tối đa chất xám và công nghệ mới, nâng cao chất lượng và hiệu quả thực hiện đề tài. 12 Nội dung nghiên cứu (liệt kê và mô tả những nội dung cần nghiên cứu, nêu bật được

những nội dung mới và phù hợp để giải quyết vấn đề đặt ra, kể cả những dự kiến hoạt động phối hợp để chuyển giao kết quả nghiên cứu đến người sử dụng)

Xuất phát từ các mục tiêu cơ bản ở trên, nội dung nghiên cứu của đề tài sẽ được chia thành 3 nội dung chính sau đây: Nội dung 1 (GS TSKH Bạch Hưng Khang chủ trì) Gồm các nội dung nghiên cứu sau :

1.1 Nghiên cứu tiếp cận các kỹ thuật mới của công nghệ tổng hợp và nhận dạng tiếng nói trên thế giới áp dụng trong hoàn cảnh Việt nam và âm thanh tiếng Việt.

1.2 Nghiên cứu các phương pháp xử lý tín hiệu số và tín hiệu tiếng nói, các phương pháp

tìm đặc trưng âm thanh: các phép biến đổi nhanh FFT, Wavelet, biến đổi Z, các bộ lọc số, phân tích LPC, các phương pháp nén & khử nhiễu âm thanh.

Page 94: Mạng thần kinh nhân tạo

9

Tìm hiểu quá trình sinh học trong việc tạo và nhận thức tiếng nói của con người (speech production, speech perception).

1.3 Nghiên cứu các cách tiếp cận Tổng hợp tiếng nói

Nghiên cứu các phương pháp tiếp cận, các kỹ thuật tổng hợp âm thanh tiếng nói và các sản phẩm đã thương mại hoá với chất lượng âm thanh tiếng nói chấp nhận được.

Nghiên cứu, phân tích các đặc trưng ngôn ngữ tiếng Việt phục vụ cho tổng hợp tiếng nói, đặc biệt là các vấn đề liên quan đến thanh điệu và độ dài của các phụ âm đầu và vần.

Lựa chọn phương pháp tổng hợp tiếng Việt thích hợp cho tiếng Việt (phương pháp ghép âm vị được ghi âm sẵn tiếng nói, phương pháp phân tích formants và các thông số khác, không ghi âm tiếng nói).

Thiết kế hệ thống, xây dựng CSDL ngữ âm Thiết kế và xây dựng chương trình tổng hợp tiếng Việt.

1.4 Nghiên cứu các phương pháp nhận dạng tự động từ đơn lẻ tiếng Việt, tiến tới nhận dạng cả câu phụ thuộc người nói. Nghiên cứu, phân tích các đặc trưng ngữ âm, thông số của tiếng Việt, văn phạm

tiếng Việt, phục vụ cho nhận dạng tiếng nói, đặc biệt là các vấn đề liên quan đến thanh điệu và độ dài của các phụ âm đầu và vần.

Nghiên cứu một số khía cạnh của ngôn ngữ tiếng Việt, đặc biệt về từ vựng học (lexicon), ngữ âm và văn phạm tiếng Việt (grammar).

Nghiên cứu các mô hình mạnh nơ ron, căn chỉnh thời gian động trong nhận dạng từ đơn lẻ tiếng Việt.

Nghiên cứu các bộ nối ghép để tách các thông số tiếng nói, các phương pháp cắt chuỗi âm vị thành các từ.

Nghiên cứu để tạo lập CSDL các mẫu câu để tạo tham số huấn luyện cho mô hình 3 mức: âm tiết - âm vị - âm học.

Nghiên cứu mô hình Markov ẩn (HMM), và HMM kết hợp mạng nơ ron trong nhận dạng câu liên tục.

Nghiên cứu các cách tiếp cận nhận dạng tiếng nói trong thời gian thực.

1.5 Tiếp cận các vấn đề thời sự trong tổng hợp và nhận dạng tiếng nói trên thế giới. Tìm kiếm thông tin trong CSDL tiếng nói (Speech Retrieval) Kết hợp thông tin đa phương tiện để huấn luyện giọng nói (qua TV và kết nối) Tiếng nói kết hợp thị giác (Visual Speech). Hiểu tiếng nói kết hợp với xử lý ngôn ngữ tự nhiên

Nội dung 2 (TS Lương Chi Mai chủ trì) NGHIÊN CỨU PHÁT TRIỂN CÁC KỸ THUẬT NHẬN DẠNG CHỮ IN VÀ VIẾT TAY TIẾNG VIỆT Gồm các nội dung nghiên cứu sau :

Page 95: Mạng thần kinh nhân tạo

10

2.1 Phát triển các phương pháp nhận dạng chữ Việt in dựa trên các cách tiếp cận thống kê

trên không gian dữ liệu phân cấp, mạng Nơ-ron nhân tạo mờ để, nhận dạng các văn bản có chất lượng đầu vào hạn chế.

2.2 Nghiên cứu các phương pháp tăng cường chất lượng nhận dạng bằng sử dụng phân tích

ngữ cảnh trực tiếp (context online) trong giai đoạn nhận dạng dựa vào các yếu tố phân tích câu cú pháp, phân tích ngữ nghĩa trong tiếng Việt.

2.3 Nghiên cứu và phát triển phương pháp nhận dạng chữ Việt viết tay có hạn chế, dựa trên

mô hình mạng Nơ-ron kết hợp với mô hình cấu trúc và mô hình Markov ẩn.

2.4 Nghiên cứu, phát triển các kỹ thuật phân tích trang tài liệu, xử lý và nhận dạng bảng biểu, biểu mẫu.

2.5 Nghiên cứu, phát triển các phương pháp xử lý, nhận dạng phiếu điều tra dạng đánh dấu

(mark), tích hợp nhận dạng chữ viết tay có hạn chế phục vụ cho tổng hợp kết thi quả thi trắc nghiệm, các cuộc bỏ phiếu, điều tra.

Nội dung 3 (TS Lê Khánh Hùng chủ trì) NGHIÊN CỨU PHÁT TRIỂN CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ TỰ NHIÊN TIẾNG VIỆT Gồm các nội dung nghiên cứu sau:

3.1 Xây dựng từ điển điện tử tiếng Việt (TSKH Hồ Tú Bảo chủ trì) Nghiên cứu khảo sát các đề án xây dựng từ điển điện tử trên thế giới, đặc biệt là đề

án EDR của Nhật bản thực hiện trong 9 năm bởi Viện Từ điển điện tử. Nghiên cứu đề xuất một mô hình từ điển điện tử thích hợp cho tiếng Việt trên cở sở

phân tích đặc trưng ngôn ngữ tiếng Việt và sử dụng có chọn lọc, cải tiến, đề xuất mới các kỹ thuật của các đề án quốc tế khác.

Xây dựng từ điển điện tử phổ dụng làm cơ sở cho mọi phát triển và ứng dụng xử lý ngôn ngữ tự nhiên, xây dựng trên sự tích hợp bốn loại từ điển: từ điển từ, từ điển khái niệm, từ điển đồng hiện, từ điển song ngữ.

3.2 Dịch tự động (TS Lê Khánh Hùng chủ trì)

Nghiên cứu hệ thống từ loại tiéng Việt, xây dựng bộ qui tắc từ vựng khả dụng về từ loại tiếng Việt.

Nghiên cứu các vấn đề về tổng hợp từ vựng tiếng Anh. Xây dựng bộ qui tắc tổng hợp từ tiếng Anh.

Nghiên cứu về văn phạm tiếng Việt. Xây dựng bộ qui tắc văn phạm tiếng Việt. Phát triển mô hình văn phạm phụ thuộc phạm vi để phân tích tiếng Việt (ngữ vựng,

ngữ pháp, ngữ nghĩa, ngữ dụng). Xây dựng kho mẫu câu tiếng Việt. Xây dựng phần mềm dịch Việt-Anh.

3.3 Nghiên cứu ngôn ngữ tiếng Việt bằng khai thác các kho văn bản lớn (TSKH Hồ Tú

Bảo chủ trì) Xây dựng phương pháp biểu diễn các văn bản bằng mô hình tập thô dung tha. Giải

bài toán phân tích lớp văn bản trong cả hai trường hợp phân hoạch và phân cấp. Nghiên cứu vấn đề tìm kiếm thông tin trên mạng dựa trên tiếng Việt

Page 96: Mạng thần kinh nhân tạo

11

Nghiên cứu đặc trưng ngôn ngữ Việt dựa trên các kho văn bản lớn (corpus) Nghiên cứu xây dựng tài nguyên bao gồm các tài liệu đa ngữ có sẵn (tài liệu dịch

chuẩn bằng tay) đã được “dóng hàng” (aligned multilingue texts) (tức là đã được xác định các tương dịch ở mức độ mịn nhất có thể: ngữ đoạn, từ, ...). Tài nguyên này là nguồn các tham khảo cần thiết cho một hệ thống dịch tự động dựa trên cơ sở các mẫu dịch. Gán nhãn tự động văn bản tiếng Việt (phân tách từ, xây dựng bộ nhãn, gán nhãn

từ). Phân tích cú pháp câu tiếng Việt Dóng hàng văn bản song ngữ Pháp-Việt/Việt-Pháp

Xây dựng mô hình dịch xác suất (Pháp – Việt) dựa trên các tiêu chí về sự tương đương cấu trúc, ngữ nghĩa,... giữa các ngôn ngữ được xét. Mở rộng mô hình đối chiếu tiếng Việt với các ngôn ngữ khác.

13 Hợp tác quốc tế

Tên đối tác Nội dung hợp tác Phòng thí nghiệm Phương pháp luận Sáng tạo tri thức, Viện Khoa học và Công nghệ tiên tiến, Nhật bản.

Đã hợp tác

Trung tâm tính toán, Viện Hàn lâm khoa học Liên xô (cũ)

Gửi cán bộ nghiên cứu làm luận văn thạc sĩ và tiến sĩ về lĩnh vực xử lý ngôn ngữ tự nhiên.

Phòng thí nghiệm quốc gia về Nhận dạng, Viện nghiên cứu Tự động hoá, Viện Hàn lâm khoa học Trung quốc Viện nghiên cứu về tính toán mềm, New State Mexico University.

Hội thảo chuyên môn, gửi cán bộ nghiên cứu trao đổi về các vấn đề hiện tại cả hai bên cùng quan tâm về lĩnh vực tiếng nói và chữ viết.

Trung tâm “Speech at CMU”, Carnegie Melon Univ. USA

Phòng thí nghiệm Automatic Speech Recognition, Univ. ò Illinois Phòng thí nghiệm Speech Processing, UCLA

Đào tạo cán bộ, hợp tác nghiên cứu, tổ chức hộ thảo khoa học về lĩnh vực xử lý tiếng nói

Dự kiến hợp tác

Nhóm Langue et Dialogue, Trung tâm nghiên cứu Tin học và ứng dụng vùng Lorraine (LORIA) Pháp

Gửi cán bộ nghiên cứu trao đổi về các vấn đề hiện tại cả hai bên cùng quan tâm về lĩnh vựcxử lý ngôn ngữ tự

Page 97: Mạng thần kinh nhân tạo

12

Nhóm CLIPS (Communication Langagiốre et Interaction Personne-Systốme), Đại học Bách khoa Grenoble

nhiên.

14 Tiến độ thực hiện

TT Các nội dung, công việc thực hiện chủ yếu

(Các mốc đánh giá chủ yếu)

Sản phẩm phải đạt

Thời gian (BĐ-KT)

Người, cơ quan thực

hiện 1 2 3 4 5

1

Xử lý tín hiệu âm thanh - Ghi, phát tín hiệu âm thanh. - Biến đổi tín hiệu : FFT và

Wavelet và tính toán đặc trưng âm thanh Pitch, đánh dấu đoạn tiếng nói có thanh/vô thanh.

- Hiển thị âm thanh theo 2 dạng cơ bản: Biên độ và Spectrogram.

- Nén tín hiệu âm thanh & khử nhiễu.

- Các module chương trình, phục vụ cho các giai đoạn tiếp theo.

~ 12/ 2001 Ngô Hoàng Huy chủ trì, Viện CNTT

2

Phân tích tín hiệu âm thanh tiếng Việt - Thiết kế mẫu bảng âm vị tổng

hợp của tiếng Việt. - Phân tích thanh điệu tiếng

Việt dạng tĩnh và trong ngữ lưu.

- Xây dựng CSDL câu: văn bản và âm đặc trưng cho tiếng Việt (Tạo lập CSDL các mẫu câu để tạo tham số huấn luyện cho mô hình 3 mức : âm tiết - âm vị - âm học)

- Thiết kế bộ âm vị cho nhận dạng từ với số lượng không hạn chế.

- CSDL ngữ âm cho các môi trường ghi âm văn phòng và điện thoại: từ rời rạc, chữ cái, chữ số.

- Bảng số liệu đặc trưng cho tham số: thanh điệu, trường độ, formant, ...

- Bảng phân tích đặc trưng ngữ điệu tiếng Viêt.

- Bài báo khoa học

2001 - 2003 Vũ Kim Bảng chủ trì, Trung tâm ngữ âm học thực nghiệm

3

Phân tích formant âm tiếng Việt - Nghiên cứu xây dựng các bộ

cấu trúc thực nghiệm của các formant của các âm tiếng Việt

- Chương trình giúp tách chuỗi âm

- Bảng cấu trúc: quan hệ âm - ngữ với các giới hạn: Giới hạn về người phát âm (giọng chuẩn) Giới hạn trong câu đầy đủ Giới hạn trong học

2001 - 2003 Đàm Hiếu Dũng chủ trì, Trung tâm kỹ thuật thông tấn – TTXVN

Page 98: Mạng thần kinh nhân tạo

13

thuật (các âm gốc: nguyên âm, nguyên âm tổng hợp, dấu thanh, bớt phụ âm trước)

- Báo cáo khoa học 4

Tổng hợp tiếng nói tự động - Đọc văn bản tự động (bước đầu) theo phương pháp kết nối âm vị.

- Phần mềm - Bài báo khoa học

2001 - 2003 Ngô Hoàng Huy chủ trì, Viện CNTT

5

Nhận dạng tiếng nói tự động - Nhận dạng từ đơn lẻ tiếng

Việt với số lượng từ vựng cỡ tương đối

- Thư viện HMM liên tục với phép trộn Gauss.

- Mô hình nhận dạng dựa trên đơn vị là các âm vị cho phép nhận dạng tự động với số từ vựng cỡ tương đối.

- Các chương trình thử nghiệm,

- Chương trình nhận dạng từ tiếng Việt đơn lẻ

- Bài báo khoa học

2002 - 2003 Luơng Chi Mai, Ngô Hoàng Huy, chủ trì, Viện CNTT

6

Triển khai thử nghiệm ứng dụng các kết quả nghiên cứu về tổng hợp và nhận dạng tiếng Việt với các dich vụ số qua mạng Internet

- Hệ thống UMS thử ngiệm có tích hợp tiếng Việt

2001 – 2003

Bạch Hưng Khang, Trần Bá Thái (Cty NetNam), Lương Chi Mai chủ trì

7

Triển khai phần mềm nhận dạng tiếng Việt - Chương trình thử nghiệm

nhận dạng tiếng nói cho phát thanh viên, và ứng dụng văn phòng

- Môi trường văn phòng có thể chấp nhận (độ ồn ít).

- Phần mềm - Bài báo khoa học

2003 Bạch Hưng Khang chủ trì, Viện CNTT

8

Phát triển hoàn thiện Phần mềm nhận dạng chữ Việt in

- Phần mềm thương phẩm.

- Bài báo khoa học

2001-2003 Lương Chi Mai chủ trì, Viện CNTT

9

Nhận dạng chữ viết tay tiếng Việt có hạn chế

- Các module chương trình, phần mềm thử nghiệm

- Bài báo khoa học

2001-2003 Ngô Quốc Tạo, Lương Chi Mai, chủ trì, Viện CNTT

10 Xây dựng cơ sở tri thức dịch Việt – Anh 1. Xây dựng kho mẫu câu

- Dữ liệu

2001-2003 2001-2003

Lê Khánh Hùng chủ trì,

Page 99: Mạng thần kinh nhân tạo

14

tiếng Việt. 2. Xây dựng hệ thống từ loại

tiếng Việt, bộ qui tắc từ vựng tiếng Việt

3. Xây dựng bộ qui tắc tổng hợp từ vựng tiếng Anh

4. Xây dựng hệ qui tắc văn phạm tiếng Việt

5. Xây dựng bộ qui tắc dịch Việt – Anh

6. Xây dựng từ điển dịch Việt - Anh

- Dữ liệu - Dữ liệu - Dữ liệu và bài báo

khoa học - Dữ liệu - Dữ liệu

2001-2002 2002-2003 2001-2003 2001-2003 2001-2003

11 Phát triển phần mềm dịch thuật Việt-Anh. 7. Phát triển mô hình Văn

phạm Phụ thuộc Phạm vi để phân tích ngữ nghĩa và ứng dụng vào dịch máy.

8. Phát triển các kỹ thuật tăng tốc độ phân tích văn phạm và ngữ nghĩa.

9. Phát triển các giải thuật phân tích cú pháp ứng dụng văn phạm phụ thuộc phạm vi.

10. Xây dựng Phần mềm tích hợp biên dịch văn bản Việt - Anh.

- Bài báo khoa học - Giải thuật - Bài báo khoa học - Giải thuật - Giải thuật - Phần mềm

2001-2003 2001-2003 2001-2002 2002-2003 2001-2003

Lê Khánh Hùng chủ trì,

12

Mô hình từ điển điện tử tiếng Việt và một từ điển cài đặt thử nghiệm.

- Phần mềm thử nghiệm

- Báo cáo kỹ thuật - Bài báo khoa học

2001 – 2003

Hồ Tú Bảo chủ trì,

13

Mô hình tập thô với dung tha ứng dụng trong tìm kiếm thông tin, biểu diễn và phân tích văn bản

- Phần mềm - Bài báo khoa học

2001 – 2003 Hồ Tú Bảo chủ trì

14 Dóng hàng cho các văn bản đa ngữ

Nguyễn Thị Minh Huyền

- Xác định một cách phân loại từ tiếng Việt cho phép gán nhãn từ loại tự động.

Phương pháp luận, thuật toán Chương trình gán nhãn từ loại tự động

~ 12 / 2001 chủ trì, Khoa Toán – Cơ - Tin học

- Thiết kế được một bộ phân tích cú pháp tiếng Việt

Chương trình phân tích cú pháp

2001 - 5/2002 ĐHKHTN

- Xây dựng được mô hình tương ứng dịch Pháp - Việt

Mô hình dịch 2001 -12/2002

Page 100: Mạng thần kinh nhân tạo

15

- Xây dựng phần mềm dóng hàng văn bản song ngữ Pháp - Việt

Phần mềm 2001 – 3/2003

Page 101: Mạng thần kinh nhân tạo

16

III. Kết quả của đề tài 15 Dạng kết quả dự kiến của đề tài

I II III � Mẫu (model, maket) � Quy trình công nghệ � Sơ đồ � Sản phẩm � Phương pháp � Bảng số liệu � Vật liệu � Tiêu chuẩn � Báo cáo phân tích � Thiết bị, máy móc � Quy phạm � Tài liệu dự báo � Dây chuyền công nghệ � Đề án, qui hoạch triển

khai � Giống cây trồng � Luận chứng kinh tế-kỹ

thuật, nghiên cứu khả thi � Giống gia súc � Chương trình máy tính � Khác (các bài báo, đào tạo

NCS, SV,...)

16 Yêu cầu khoa học đối với sản phẩm tạo ra (dạng kết quả III) TT Tên sản phẩm Yêu cầu khoa học Chú thích 1 2 3 4 1

Hệ thống tổng hợp tiếng nói (từ văn bản chữ in tiếng Việt thành tiếng nói)

- Hệ thống được thiết kế trên nền công nghệ của Microsoft: + Ngôn ngữ lập trình Visual C++ 6.0 (kỹ

thuật COM), chạy trên Windows. + Khai thác thư viện tổng hợp tiếng Anh

SDK (Speech Developer Kit) + Sử dụng định dạng XML

- Chất lượng tiếng nói tổng hợp đạt khoảng 70-80% tiếng nói tự nhiên

- Tổng hợp được 6 thanh tiếng Việt - Đọc các văn bản viết bằng các mã tiếng Việt

khác nhau như VNI, Unicode, TCVN-3, VIQR

- Đọc các khuôn dạng phi từ như biểu thức số, ngày tháng, giờ điện tử, tiền Việt Nam, các đơn vị đo lường, các xâu viết tắt thông dụng.

- Xử lý văn bản thông minh: phát hiện tự động cụm từ và nhóm từ khoá (có tần số xuất hiện cao, vị trí xuất hiện...)

- Phát hiện tự động các cụm từ tiếng Anh trong văn bản hỗn hợp Việt – Anh (khai thác các engine tổng hợp tiếng Anh).

- Giải pháp tích hợp giao diện nhúng tiếng nói cho phần mềm và thiết bị: đọc văn bản từ nhiều nguồn khác nhau như clipboard, tuỳ chọn của menu, bàn phím, tệp FTP, tệp

Page 102: Mạng thần kinh nhân tạo

17

HTTP, Microsoft Word, Internet Explorer, email (Outlook Express, Microsoft Outlook)

- Tích hợp trong hệ thống thông điệp hợp nhất (Unified Mesaging System)...

2

Phần mềm Nhận dạng lệnh ứng dụng trong điều khiển

- Chương trình được thiết kế trên nền công nghệ của Microsoft: + Ngôn ngữ lập trình Visual C++ 6.0 (kỹ

thuật COM), chạy trên Windows. + Khai thác thư viện nhúng tiếng nói SDK

(Speech Developer Kit) - Hệ thống độc lập người nói - Độ chính xác cao, trên 95% - Môi trường văn phòng có độ ồn ít - Số lượng từ vựng nhỏ hơn 100 - Điều khiển bằng lệnh trên trình duyệt của

Microsoft Word, Internet Explorer... - Khai thác các ứng dụng nhúng trên nền các

chip DSP (Digtal Signal Processor).

3

Chương trình thử nghiệm đọc chính tả (speech – to – text ) tiếng Việt

- Chương trình được thiết kế trên nền công nghệ của Microsoft: + Ngôn ngữ lập trình Visual C++ 6.0 , chạy

trên Windows. + Khai thác thư viện nhúng tiếng nói SDK

(Speech Developer Kit) + Khai thác sử dụng thư viện Markov ẩn

(HTK) của CSLU - Hệ thống phụ thuộc người nói - Tốc độ đọc chậm rãi, rõ ràng (giọng phát

thanh viên Hà nội) - Nhận dạng từ với toàn bộ từ điển tiếng Việt

(nhận dạng thanh điệu, các phụ âm đầu và phần vần)

- Xử lý tốc độ, tín hiệu tiếng nói vào trong thời gian thực.

- Môi trường có độ ồn ít (môi trường phòng thí nghiệm, văn phòng).

4

Phần mềm thương phẩm nhận dạng các phiếu điều tra, nhập liệu tự động có tích hợp nhận dạng chữ Việt viết tay, phiên bản beta và 1.0

Chất lượng nhận dạng của phần mềm: - Học chữ mẫu chữ Việt viết tay - Nhận dạng chữ Việt viết tay, chữ số viết tay

có hạn chế (trong các mẫu phiếu điều tra) đạt khoảng 70-80%.

- Hiệu chỉnh kết quả nhận dạng chữ Việt viết tay.

- Nâng cao chất lượng ảnh phiếu điều tra - Hiệu chỉnh trang văn bản theo mẫu (về góc

quay, độ dịch lề của trang văn bản so với phiếu mẫu).

Page 103: Mạng thần kinh nhân tạo

18

- Phát hiện các đối tượng chứa dấu và chữ ở trang mẫu tự động.

- Nhận dạng các dấu trong các ô chứa dấu (trong phiếu cần nhận dạng).

- Nhận dạng các câu hỏi có nhiều phương án lựa chọn dạng LIST(chọn một câu trả lời), MULTIPLE(nhiều câu hỏi mỗi câu dạng LIST được trả lời độc lập), BOOL(có/không), GRID(ghép các trả lời LIST thành xâu).

5

Phần mềm thương phẩm nhận dạng chữ in tiếng Việt phiên bản 3.0

Chất lượng nhận dạng phần mềm:

- Độ chính xác nhận dạng chữ Việt in với các phông chữ hiện có trên các tài liệu, sách báo, văn bản hành chính (đã qua photocopy) hiện nay, đạt 98-99%.

- Chất lượng nhận dạng sau kiểm tra phân tích câu, phân tích ngữ nghĩa đạt trên 99%

- Nhận dạng tự động trang (phân tích trang) tài liệu với các tài liệu có cấu trúc phức tạp đạt độ chính xác trên 90%

- Nhận dạng tự động bảng biểu.

6

Phần mềm dịch thuật Việt-Anh.

- Bộ phân tích cho phép xử lý các tình huống phi ngữ cảnh và phụ thuộc ngữ cảnh (trong phạm vi hạn định – scope dependent)

- Tốc độ biên dịch tự động đạt không dưới 5000 từ / phút (tương đương 10 trang A4).

- Chất lượng dich thuật có thể xem hiểu những văn bản tiếng Việt đúng văn phạm (đối với những người hiểu tiếng Anh và không biết tiếng Việt).

- Hệ văn phạm hình thức tiếng Việt bao gồm các yếu tố chính của luật hành văn tiếngViệt.

- Kho mẫu câu tiếng Việt từ nhiều nguồn khác nhau và bao gồm những đặc trưng chính của các mẫu câu tiếng Việt thông thường.

- Cơ sở tri thức bao gồm: . 5000 qui tắc văn phạm tiếng Việt và dịch Việt – Anh. . 150.000 đơn vị từ vựng Việt – Anh . 300.000 – 1.000.000 mẫu câu tiếng Việt thông dụng.

7

Phần mềm dóng hàng các văn bản song ngữ

Yêu cầu phần mềm: - Dóng hàng có khả năng đạt đến mức từ/ngữ

đoạn trong các văn bản song ngữ Pháp-Việt, nhằm hỗ trợ cho việc dịch tự động cũng như

Page 104: Mạng thần kinh nhân tạo

19

Pháp – Việt dịch tay, và phục vụ cho các nghiên cứu ngôn ngữ về từ vựng, thuật ngữ trong một hay nhiều ngôn ngữ cũng như hỗ trợ cho việc học tiếng.

- Cho một tập văn bản song ngữ đã mã hoá theo định dạng XML (có gắn thẻ đến mức câu), chương trình thực hiện dóng hàng bán tự động (có sự can thiệp của người sử dụng) để tìm các tương đương dịch ở mức từ vựng. Kết quả thu được bổ sung vào cơ sở dữ liệu cũng được mã hoá theo định dạng XML (sử dụng TEI: Text Encoding Initiative). Cơ sở dữ liệu này sẽ có thể được khai thác tuỳ theo mục đích sử dụng.

- Sản phẩm phụ: Các công cụ xử lý tự động văn bản tiếng Việt như phần mềm gán nhãn từ loại tự động (phục vụ cho việc nghiên cứu từ vựng), phần mềm phân tích cú pháp câu tiếng Việt, v.v., một bộ văn phạm sinh tiếng Việt, và các cơ sở dữ liệu từ vựng đơn ngữ hay đa ngữ cùng với các tài nguyên văn bản đa ngữ.

8

Mô hình và hệ thử nghiệm từ điển điện tử tiếng Việt

- Mang đặc tính của các hệ từ điển điện tử hiện đại trên thế giới và đậc trưng tiếng Việt, đảm bảo tính hiện đại và giá trị sử dụng lâu dài.

- Mô hình từ điển bao gồm các từ điển thành phần xây dựng theo các nguyên tắc (a) độc lập giữa thông tin cấu trúc ở các mức hình thái, cú pháp với mức ngữ nghĩa; (b) thông tin hình thái và cú pháp được khái quát độc lập với các quy tắc ngữ pháp và thuật toán, (3) có quy mô đủ lớn chứa được các từ vựng thông thường.

- Các mô hình từ điển, công cụ để xây dựng các từ điển này và hệ thử nghiệm gồm: (1) Mô hình từ điển từ: bao gồm từ điển từ

vựng thông thường tiếng Việt, tiếng Anh và các từ điển thuật ngữ chuyên ngành.

(2) Mô hình từ điển khái niệm: gồm từ điển phân loại khái niệm và từ điển miêu tả khái niệm

(3) Mô hình từ điển đồng hiện: từ điển đồng hiện tiếng Việt và từ điển đồng hiện tiếng Anh.

(4) Mô hình ừ điển song ngữ: Việt-Anh và Anh-Việt.

Page 105: Mạng thần kinh nhân tạo

20

Page 106: Mạng thần kinh nhân tạo

21

17 Yêu cầu kỹ thuật, chỉ tiêu chất lượng đối với sản phẩm tạo ra (dạng kết quả I, II) TT

Tên sản phẩm và chỉ tiêu chất lượng chủ yếu

Đơn vị đo

Mức chất lượng

Dự kiến

Số lượng

sản phẩm

Cần đạt

Mẫu tương tự tạo ra

Trong nước Thế giới 1 2 3 4 5 6 7

18 Phương thức chuyển giao kết quả nghiên cứu

(Nêu tính ổn định của các thông số công nghệ, ghi địa chỉ khách hàng và mô tả cách thức chuyển giao kết quả,...) Với các kết quả về tổng hợp và nhận dạng tiếng Việt - Phối hợp với Công ty NetNam để triển khai thử nghiệm, ứng dụng các kết quả nghiên cứu

về tổng hợp và nhận dạng tiếng Việt với các dịch vụ số hiện tại trên Internet, ví dụ trong hệ thống thông điệp hợp nhất (Unified Messaging System – UMS), các hệ thống thông tin, các hệ thống phát triển có cổng tiếng nói (Voice Portal) như Web có cổng tiếng nói, các điểm thương mại điện tử (e-commerce) có tiếng nói nhằm diễn giải thông tin, nhận dạng câu hỏi của khách hàng, trả lời tự động...

- Phòng Giám định âm thanh bộ Công An, phòng máy tính Viện Vệ sinh dịch tễ, để triển khai ứng dụng phục vụ công tác đIều tra, ứng dụng kết hợp Công nghệ tiếng nói, nhận dạng chữ, thị giác máy cho trình diễn tự động và trợ giúp người khuyết tật trong giao tiếp máy tính.

- Các đơn vị sản xuất, kinh doanh về Tin học - Điện tử - Viễn thông để triển khai các ứng dụng tích hợp máy tính-điện thoại, ứng dụng nhúng kết hợp giữa Công nghệ tiếng nói và xử lý ngôn ngữ tự nhiên cho hai ngôn ngữ Việt - Anh.

- Tự động hóa (khâu trực thu, chuyển đổi âm thanh-văn bản) công tác biên tập tin tham khảo từ các nguồn thông tin của các đài phát thanh bằng tiếng Việt. Đây là một công việc nặng và hiện nay một tiểu ban của TTXVN đang phải thực hiện.

- Trong xu hướng thông tin Đa phương tiện, đối với TTXVN, công nghệ phân tích và tổng hợp hai chiều giữa âm thanh và văn bản giữ vai trò then chốt để phát huy kho dữ liệu điện tử của TTXVN và nâng tính khả thi các đề án về thông tin Đa phương tiện trong 10 năm tới.

- Điều khiển tự động bằng giọng nói, ứng dụng trong các hệ thống điều khiển trong công nghiệp và quốc phòng.

Vói các kết quả về nhận dạng chữ Việt - Tiếp tục triển khai sử dụng phần mềm Nhận dạng chữ Việt in ở qui mô lớn cho toàn bộ các

văn phòng bộ, tỉnh, các cơ quan xuất bản, báo chí, truyền tải thông tin lên mạng... trong cả

Page 107: Mạng thần kinh nhân tạo

22

nước để cải thiện khâu tự động hoá văn phòng. - Hiện nay, vấn đề thi trắc nghiệm trong các kỳ thi tuyển sinh tại các trường đại học, tiến tới

các trường phổ thông đang dần trở nên phổ biến cũng như các cuộc điều tra xã hội học sử dụng kiểu trắc nghiệm ngày càng nhiều. Các phần mềm nhận dạng phiếu điều tra dạng đánh dấu có tích hợp nhận dạng chữ Việt viết tay với các thiết bị máy quét chuyên dụng sẽ làm giảm đáng kể thời gian nhập phiếu, tổng hợp phiếu, đảm bảo và tăng độ chính xác nhập liệu.

Vói các kết quảvề xử lý ngôn ngữ tự nhiên - Phần mềm dịch Việt – Anh có thể triển khai như một thương phẩm hỗ trợ người nước

ngoài xem hiêủ văn bản tiếng Việt cũng như người Việt khi cần dịch sang tiếng Anh. Kết quả nghiên cứu có thể tích hợp với sản phẩm EVTRAN để thành một bộ dịch Anh – Việt, Việt – Anh.

- Văn phạm phụ thuộc phạm vi là công cụ hình thức để biểu đạt ngữ nghĩa hữu dụng và linh hoạt. Mô hình có thể được ứng dụng trong các nghiên cứu về xử lý ngôn ngữ tự nhiên nói chung.

- Phần mềm công cụ để cơ sở sản xuất (trung tâm từ điển, công ty) có thể nạp từ tạo ra từ điển và các từ điển có thể dễ dàng tích hợp vào các ứng liên quan ngôn ngữ tiếng Việt.

19 Các tác động của kết quả nghiên cứu (ngoài tác động đã nêu tại mục 18 trên đây)

� Bồi dưỡng, đào tạo cán bộ KH&CN Trong 5 năm đề tài dự kiến tham gia vào công tác đào tạo chuyên gia có chất lượng cao, các cán bộ chủ chốt của đề tài sẽ tham gia giảng dạy ở các trường đai học và hướng dẫn luận án tốt nghiệp. Con số dự kiến hướng dẫn: 20 cử nhân, kỹ sư

10 cao học 3 tiến sĩ Một số trong những người được đào tạo sẽ ở lại công tác tại Phòng thí nghiệm trọng điểm � Đối với lĩnh vực khoa học có liên quan:

Đề tài sẽ giúp vận dụng được các kỹ thuật Tin học một cách tổng hợp & toàn diện. Ngoài sản phẩm phầm mềm hữư dụng cho các ứng dụng văn phòng, truyền thông, điều khiển với lợi ích kinh tế cao dự án còn giúp chúng ta hình thành các hướng nghiên cứu lý thuyết chuyên sâu trong các ứng dụng của xử lý nhận dạng tiếng nói, chữ viết với xử lý ngôn ngữ tự nhiên. � Đối với kinh tế - xã hội: Xử lý tiếng Việt là nhu cầu không thể thiếu trong ứng dụng CNTT vào thực tế Việt Nam. Với các sản phẩm của đề tài là chương trình tổng hợp và nhận dạng tiếng Việt, chương trình nhận dạng chữ Việt hoạt động tin cậy, các phần mềm dịch tự động, chúng ta có thể áp dụng cho bất kỳ lĩnh vực nào liên quan đến tương tác người-máy, các ứng dụng tự động hoá văn phòng. Việt Nam ngày càng mở rộng Internet và các môi trường tính toán phân tán, vì vậy nhu cầu về những phần mềm mà đề án này phát triển ngày càng cao. Các hệ chương trình sẽ được dùng hữu ích trong những lĩnh vực liên quan đến các hoạt động xã hội có sử dụng máy tính, sử dụng các công nghệ truyền thông, chẳng hạn điều khiển tự động, khai phá dữ liệu, trợ giúp tự động hoá văn phòng, khai thác hiệu quả Internet... Để phát huy thế mạnh và đáp ứng nhu cầu thiết thực của cơ quan chủ trì đề tài là một cơ sở nghiên cứu và triển khai, ngoài mục tiêu ứng dụng

Page 108: Mạng thần kinh nhân tạo

23

như đã nói trên, đề tài đáp ứng kịp thời cho việc nghiên cứu phát triển một hướng công nghệ cao cho Công nghệ Thông tin nói chung và cho Công nghiệp Phần mềm nói riêng của đất nước. IV. Các tổ chức/cá nhân tham gia thực hiện đề tài 20 Hoạt động của các tổ chức phối hợp tham gia thực hiện đề tài (Ghi tất cả các tổ chức

phối hợp thực hiện đề tài và phần nội dung công việc tham gia trong đề tài) TT Tên tổ chức Địa chỉ Hoạt động/đóng góp cho đề tài

1 Trung tâm Ngữ âm học thực nghiệm, Viện Ngôn ngữ học, Trung tâm khoa học xã hội và nhân văn.

22 Lý TháI Tổ Xây dựng CSDL ngữ âm, phân tich các đặc trưng ngôn ngữ, ngữ âm, thanh điệu cho tiếng Việt:

- Phân tích phổ của các âm vị khó. - Nghiên cứu cấu trúc nguyên âm. - Nghiên cứu cấu trúc âm tiếng Việt,

tổng hợp giọng nói. 2 Nhóm nghiên cứu

triển khai của Công ty NetNam

Đường Hoàng Quốc Việt

Tích hợp công nghệ tổng hợp và nhận dạng tiếng Việt với các dịch vụ số của INTERNET thế hệ hai và ứng dụng.

3 Trung tâm kỹ thuật

thông tấn – TTXVN 5 Lý Thường Kiệt Xây dựng công nghệ Coding ngữ nghĩa

của âm thanh 4 Trung tâm Công

nghệ Vi điện tử và Tin học

C6, Thanh Xuân Bắc, Hà nội

Nghiên cứu và phát triển Phần mềm Dịch tự động Việt - Anh.

Xây dựng kho văn bản tiếng Việt 5 Phòng thí nghiệm

Phương pháp luận Sáng tạo tri thức, Viện Khoa học và Công nghệ tiên tiến, Nhật bản.

Tatsunokuchi, Ishikawa, Japan

Từ điển điện tử và khai thác cơ sở dữ liệu văn bản.

6 Khoa Toán-Cơ-Tin học, Đại học

Khoa học tự nhiên Hà nội

340 đường Nguyễn Trãi, Thanh Xuân, Hà nội

Dóng hàng các văn bản đa ngữ song song

Page 109: Mạng thần kinh nhân tạo

24

21 Liên kết với sản xuất và đời sống (Ghi rõ đơn vị sản xuất hoặc những người sử dụng kết quả nghiên cứu tham gia vào quá trình thực hiện và nêu rõ nội dung công việc thực hiện trong đề tài) - Công ty NetNam hợp tác triển khai thử nghiệm, ứng dụng các kết quả nghiên cứu

về tổng hợp và nhận dạng tiếng Việt với các dịch vụ số hiện tại trên Internet, ví dụ trong hệ thống thông điệp hợp nhất, các hệ thống thông tin, các hệ thống phát triển có cổng tiếng nói (Voice Portal) như Web có cổng tiếng nói, các điểm thương mại điện tử (e-comerce) có tiếng nói nhằm diễn giải thông tin, nhận dạng câu hỏi của khách hàng, trả lời tự động...

- Văn phòng Trung ương Đảng, Văn phòng Chính phủ đã, đang và sẽ tiếp tục triển khai có phản hồi về sử dụng các phần mềm nhận dạng chữ, dịch văn bản tự động nhằm nâng cao chất lượng sản phẩm. Trong tương lai, ngoài các ứng dụng nhận dạng chữ, các ứng dụng hận dạng tiếng sẽ được ứng dụng tại các cơ sở này.

- Đối với TTXVN, công nghệ phân tích và tổng hợp hai chiều giữa âm thanh và văn bản giữ vai trò then chốt để phát huy kho dữ liệu điện tử của TTXVN và nâng tính khả thi các đề án về thông tin Đa phương tiện trong 10 năm tới. Trung tâm kỹ thuật thông tấn cũng tham gia trong đề tài nhằm xúc tiến và đẩy nhanh quá trình thực hiện.

- Ứng dụng biên dịch văn bản thuộc lĩnh vực chính trị – xã hội ở Học viện chính trị quốc gia.

22

Đội ngũ cán bộ thực hiện đề tài

(Ghi những người có đóng góp chính thuộc tất cả các tổ chức chủ trì và tham gia đề tài, không quá 10 người)

TT Họ và tên Cơ quan công tác Số tháng làm việc cho đề tài

A Chủ nhiệm đề tài Bạch Hưng Khang

GS, TSKH, NCVCC

Viện Công nghệ Thông tin 7 tháng / năm

B Cán bộ tham gia nghiên cứu

1 Lương Chi Mai TS, NCVC (Phó Chủ nhiệm đề tài)

Viện Công nghệ Thông tin 12 tháng / năm

2 Ngô Quốc Tạo TS, NCVC

Viện Công nghệ Thông tin 12 tháng / năm

3 Lê Khánh Hùng, TS

Phòng phần mềm, Trung tâm Công nghệ Vi điện tử và Tin học

12 tháng / năm

4 Vũ Kim Bảng, TS (Giám đốc Trung tâm)

Trung tâm Ngữ âm học thực nghiệm, Viện ngôn ngữ học

10 tháng / năm

5 Hồ Tú Bảo GS, TSKH

Viện Khoa học Công nghệ tiên tiến Nhật bản

8 tháng / năm

6 Đàm Hiếu Dũng, KS, (Phó GĐ Trung tâm)

Trung tâm kỹ thuật thông tấn – TTXVN 10 tháng / năm

7 Ngô Hoàng Huy KS

Viện Công nghệ Thông tin 12 tháng / năm

Page 110: Mạng thần kinh nhân tạo

25

8 Ngô Thành Trung KS

Viện Công nghệ Thông tin 12 tháng / năm

9 Nguyễn Thị Minh Huyền, Thạc sĩ

Khoa Toán-Cơ-Tin học, Đại học

Khoa học tự nhiên Hà nội

12 tháng / năm

V. Kinh phí thực hiện đề tài và nguồn kinh phí (giải trình chi tiết xin xem phụ lục kèm theo) 23 Kinh phí thực hiện đề tài phân theo các khoản chi (cho toàn bộ 3 năm) TT Nguồn kinh phí Tổng số Trong đó

Thuê khoán chuyên

môn

Nguyên,vật liệu, năng

lượng

Thiết bị, máy móc

Xây dựng, sửa chữa

nhỏ

Chi khác

1 2 3 4 5 6 7 8

Tổng kinh phí

Trong đó:

5.000 1450 97 3078

6.6 368.4

1 Ngân sách SNKH (Chương trình KC01) 2.000 1450 97 78

6.6 368.4

2 Các nguồn vốn khác

- Phòng Thí nghiệm trọng điểm

3.000

0

0 3.000

0

0

..............Hà nội, ngày 01 tháng 10 năm 2001

Thủ trưởng Cơ quan chủ trì đề tài

Chủ nhiệm đề tài (Họ, tên và chữ ký)

Bạch Hưng Khang

Page 111: Mạng thần kinh nhân tạo

26

Page 112: Mạng thần kinh nhân tạo

27

Phụ lục Dự toán kinh phí đề tài (cho 3 năm)

Đơn vị : triệu đồng TT Nội dung các khoản chi Kinh phí

KC01 Phòng thí nghiệm

trọng điểm Tổng số Kinh phí

1. Thuê khoán chuyên môn

1450.0 1450.0

2. Nguyên, vật liệu, năng lượng

97.0 97.0

3. Thiết bị, máy móc chuyên dùng

78.0 3000 3078.0

4. Xây dựng, sửa chữa nhỏ

6.6 6.6

5. Chi khác

368.4 368.4

Tổng cộng 2000 5000

Page 113: Mạng thần kinh nhân tạo

28

Giải trình các khoản chi (Triệu đồng)

Khoản 1. Thuê khoán chuyên môn (1450 triệu đồng) TT Nội dung thuê khoán Kinh phí

KC01 Phòng thí

nghiệm trọng điểm

Tổng kinh phí

1 Tổng hợp và Nhận dạng tiếng nói 615 0 6151.1 Xây dựng CSDL ngữ âm, phân tích đặc trưng âm

tiếng Việt 1. Thiết kế mẫu bảng âm vị tổng hợp của tiếng

Việt. 2. Phân tích thanh điệu tiếng Việt dạng tĩnh và trong

ngữ lưu. 3. Xây dựng CSDL câu: văn bản và âm đặc trưng

cho tiếng Việt (Tạo lập CSDL các mẫu câu để tạo tham số huấn luyện cho mô hình 3 mức : âm tiết - âm vị - âm học)

4. Thiết kế bộ âm vị cho nhận dạng từ với số lượng không hạn chế.

80

+20 ++20

+20

20

80

20 20

20

20

1.2 Hệ thống tổng hợp tiếng nói (từ văn bản chữ in tiếng Việt thành tiếng nói) 1. Thiết kế trên nền công nghệ của Microsoft, ngôn

ngữ lập trình Visual C++ 6.0 trên Windows. 2. Khai thác thư viện tổng hợp tiếng Anh SDK

(Speech Developer Kit) 3. Chương trình tổng hợp được 6 thanh tiếng Việt 4. Modul đọc các văn bản viết bằng các mã tiếng

Việt khác nhau như VNI, Unicode, TCVN-3, VIQR

5. Modul đọc các khuôn dạng phi từ như biểu thức số, ngày tháng, giờ điện tử, tiền Việt Nam, các đơn vị đo lường, các xâu viết tắt thông dụng.

6. Modul xử lý văn bản thông minh: phát hiện tự động cụm từ và nhóm từ khoá

7. Modul phát hiện tự động các cụm từ tiếng Anh trong văn bản hỗn hợp Việt – Anh.

8. Chương trình tích hợp các modul tổng hợp tiếng và phân tích trang văn bản thành modul tổng hợp tiếng nói

9. Chương trình tích hợp giao diện nhúng tiếng nói cho phần mềm và thiết bị.

10. Modul tích hợp trong hệ thống thông điệp hợp nhất (Unified Mesaging System)...

185

15

15

20 +20

+20

+20

+20

+15

+20

+20

185

15

15

20 20

20

20

20

15

20

20

Page 114: Mạng thần kinh nhân tạo

29

1.3 Phần mềm Nhận dạng lệnh ứng dụng trong điều khiển 1. Thiết kế trên nền công nghệ của Microsoft, ngôn

ngữ lập trình Visual C++ 6.0 trên Windows. 2. Khai thác thư viện nhúng tiếng nói SDK 3. Xây dựng thử nghiệm chương trình nhận dạng

lệnh với khoảng số lượng từ 50 4. Xây dựng module nhận dạng lệnh độc lập người

nói 5. Nghiên cứu xây dựng thuật toán nhận dạng lệnh

thời gian thực 6. Kết hợp các module thành hệ thống nhận dạng

lệnh trên mi trường văn phòng có độ ồn ít với số lượng từ vựng nhỏ hơn 100

7. Chương trình điều khiển bằng lệnh trên trình duyệt của Microsoft Word, Internet Explorer...

8. Khai thác các ứng dụng nhúng trên nền các chip DSP (Digtal Signal Processor).

150

+20

+10 20

+20

++20

+20

20

+20

0 150

20

10 20

20

20

20

20

20

Page 115: Mạng thần kinh nhân tạo

30

1.4 Chương trình thử nghiệm đọc chính tả (speech-to-text) 1. Thiết kế trên nền công nghệ của Microsoft, ngôn

ngữ lập trình Visual C++ 6.0 trên Windows. 2. Khai thác thư viện nhúng tiếng nói SDK

(Speech Developer Kit) 3. Xây dựng chương trình HMM liên tục với phép

trộn Gauss. 4. Khai thác sử dụng thư viện Markov ẩn (HTK)

của CSLU 5. Xây dựng module nhận dạng từ với toàn bộ từ

điển tiếng Việt độc lập người nói 6. Xây dựng module nhận dạng từ với toàn bộ từ

điển tiếng Việt với thanh điệu 7. Xây dựng module nhận dạng từ với toàn bộ từ

điển tiếng Việt các phụ âm đầu 8. Xây dựng module nhận dạng từ với toàn bộ từ

điển tiếng Việt phần vần 9. Nghiên cứu để xử lý tốc độ, tín hiệu tiếng nói

vào trong thời gian thực. 10. Tích hợp thành hệ thống phụ thuộc người nói

với tốc độ đọc chậm rãi, rõ ràng (giọng phát thanh viên Hà nội) và nhận dạng từ với toàn bộ từ điển tiếng Việt (nhận dạng thanh điệu, các phụ âm đầu và phần vần)

200

20

+20

+20

+20

20

+20

+20

20

+20

+20

0 200

20

20

20

20

20

20

20

20

20

20

Page 116: Mạng thần kinh nhân tạo

31

2 Nhận dạng chữ Việt in và viết tay 375 0 3752.1 Phần mềm thương phẩm nhận dạng các phiếu điều

tra, nhập liệu tự động có tích hợp nhận dạng chữ Việt viết tay, phiên bản beta và 1.0 5. Chương trình học mẫu chũ Việt viết tay 6. Chương trình học mẫu số viết tay 7. Chương trình nhận dạng chữ Việt viết tay có hạn

chế (trong các mẫu phiếu điều tra) 8. Chương trình nhận dạng chữ số viết tay có hạn

chế (trong các mẫu phiếu điều tra). 9. Chương trình hiệu chỉnh kết quả nhận dạng chữ

Việt viết tay. 10. Tích hợp các chương trình nhận dạng chữ và số

thành 1 module tổng hợp 11. Chương trình nâng cao chất lượng ảnh phiếu điều

tra 12. Chương trình hiệu chỉnh trang văn bản theo mẫu

về góc quay so với phiếu mẫu 13. Chương trình hiệu chỉnh trang văn bản theo mẫu

về độ dịch lề so với phiếu mẫu. 14. Chương trình phát hiện các đối tượng chứa dấu ở

trang mẫu tự động 15. Chương trình phát hiện các đối tượng chứa chữ ở

trang mẫu tự động. 16. Chương trình nhận dạng các dấu trong các ô

chứa dấu (trong phiếu cần nhận dạng). 17. Chương trình nhận dạng các câu hỏi có nhiều

phương án lựa chọn dạng LIST(chọn một câu trả lời),

18. Chương trình nhận dạng các câu hỏi có nhiều phương án lựa chọn dạng MULTIPLE

19. Chương trình nhận dạng các câu hỏi có nhiều phương án lựa chọn dạng BOOL(có/không) và GRID(ghép các trả lời LIST thành xâu).

20. Tích hợp các modul thành hệ thống MarkRead

300

+20 +20 +20

+20

+20

+20

+20

+20

+15

+20

+20

+20

15

+15

+15

+20

300

20 20 20

20

20

20

20

20

15

20

20

20

15

15

15

20

2.2 Nâng cấp phần mềm thương phẩm nhận dạng chữ in tiếng Việt thành phiên bản 3.0 1. Nâng cấp độ chính xác nhận dạng chữ Việt in

với các phông chữ hiện có trên các tài liệu, sách báo, văn bản hành chính (đã qua photocopy) hiện nay.

2. Nâng cấp chất lượng nhận dạng sau kiểm tra phân tích câu, phân tích ngữ nghĩa.

3. Chương trình nhận dạng tự động trang (phân tích trang) tài liệu với các tài liệu có cấu trúc phức tạp.

4. Chương trình nhận dạng tự động bảng biểu.

75 ++20

+20

+15

+20

0 75 20

20

15

20

Page 117: Mạng thần kinh nhân tạo

32

3 Xử lý ngôn ngữ tự nhiên 460 0 460 3.1 Phần mềm dịch tự động Việt – Anh

1. Xây dựng mô hình văn phạm phụ thuộc phạm vi 2. áp dụng mô hình văn phạm phụ thuộc phạm vi

trong phân tích ngữ nghĩa tiếng Việt. 3. áp dụng mô hình văn phạm phụ thuộc phạm vi

trong phân tích ngữ dụng tiếng Việt. 4. Xây dựng cơ sở tri thức dịch Việt – Anh. 5. Xây dựng hệ thống từ loại tiếng Việt 6. Kho mẫu câu tiếng Việt. 7. Bộ qui tắc từ vựng tiếng Việt. 8. Xây dựng bộ qui tắc tổng hợp từ vựng tiếng

Anh 9. Phát triển mô hình Văn phạm Phụ thuộc Phạm

vi để phân tích ngữ nghĩa và ứng dụng vào dịch máy.

10. Phát triển các kỹ thuật tăng tốc độ phân tích văn phạm và ngữ nghĩa.

11. Phát triển các giải thuật phân tích cú pháp ứng dụng văn phạm phụ thuộc phạm vi.

12. Bộ quy tắc văn phạm tiếng Việt 13. module biên dịch Việt-Anh. 14. Bộ quy tắc ngữ nghĩa Việt-Anh. 15. Tích hợp các môdul thành phần mềm biên dịch

văn bản Việt-Anh.

300 20 20

20

20 20 20 20 20 20

20

20

20 20 20 20

300 20 20

20

20 20 20 20 20 20

20

20

20 20 20 20

Page 118: Mạng thần kinh nhân tạo

33

3.2 Phần mềm dóng hàng các văn bản song ngữ Pháp – Việt. 1. Chương trình dóng hàng có khả năng đạt đến

mức từ 2. Chương trình dóng hàng có khả năng đạt đến

mức ngữ đoạn trong các văn bản song ngữ Pháp-Việt,

3. chương trình thực hiện dóng hàng bán tự động (có sự can thiệp của người sử dụng) để tìm các tương đương dịch ở mức từ vựng trên tập văn bản song ngữ đã mã hoá theo định dạng XML (có gắn thẻ đến mức câu).

4. Xây dựng công cụ xử lý tự động văn bản tiếng Việt như chương trình gán nhãn từ loại tự động (phục vụ cho việc nghiên cứu từ vựng),

5. Xây dựng công cụ phân tích cú pháp câu tiếng Việt, v.v.,

85

+20

10

+20

+20

15

0 85

20

10

20

20

15

3.3 Mô hình và hệ thử nghiệm từ điển điện tử tiếng Việt bao gồm: 1. Mô hình từ điển từ vựng thông thường tiếng

Việt, tiếng Anh và các từ điển thuật ngữ chuyên ngành.

2. Mô hình từ điển khái niệm: gồm từ điển phân loại khái niệm và từ điển miêu tả khái niệm

3. Mô hình từ điển đồng hiện: từ điển đồng hiện tiếng Việt và từ điển đồng hiện tiếng Anh.

4. Mô hình từ điển song ngữ: Việt-Anh và Anh-Việt.

75

+0

15

+20

20

0 75

20

15

20

20

Page 119: Mạng thần kinh nhân tạo

34

Khoản 2. Nguyên vật liệu, năng lượng (97 triệu đồng) TT Nội dung Đơn vị

đo Số

lượng Đơn giá Kinh phí

KC01 Phòng thí nghiệm

trọng điểm

Thành tiền

2.1 Nguyên, vật liệu Mực in Lazer, đĩa Hộp 6 1..2 7.0 0 7.0 2.2 Dụng cụ, phụ tùng Linh kiện, phụ tùng

thay thế cho máy tính, mạng, chuột...

8.4 0 8.4

2.3 Năng lượng, nhiên liệu - Than

- Điện

kW/h 40.0 0 40.0

- Xăng, dầu

- Nhiên liệu khác

2.4 Nước

m3 3.6 0 3.6

2.5 Mua sách, tài liệu, số liệu, phần mềm

38.0 0 38.0

Cộng 97.0 0 97.0

Page 120: Mạng thần kinh nhân tạo

35

Khoản 3. Thiết bị, máy móc chuyên dùng (3078 triệu đồng) TT Nội dung Đơn vị

đo Số lượng Đơn giá Kinh phí

KC01 Phòng thí

nghiệm trọng điểm

Thành tiền

3.1 Mua thiết bị công nghệ (dùng kinh phí của Phòng thí nghiệm trọng điểm, danh sách thiết bị đã được phê duyệt)

2.600 2.600

- Máy tính - Các thiết bị ngữ âm

chuyên dụng trong phân tích âm, phân tích phổ

- Các thiết bị nghe, ghi, microphone...

- Hệ thống thiết bị tổng hợp, chip chuyên dụng, adaptor và phần mềm: Phân tích pitch, voicing ...

- Bộ công cụ cho speech telephony application

3.2 Mua Phần mềm, các phàn mềm công cụ (dùng kinh phí của Phòng thí nghiệm trọng điểm)

320 320

3.3 Thuê thiết bị 3.4 Vận chuyển lắp đặt 80 80 3.5 Máy tính cá nhân cho

các nhóm Ngoài phòng thí nghiệm trọng điểm

Chiếc 6 8.0 48 48

3.6 Máy tính xách tay cho toàn bộ đề tài

Chiếc 1 30.0 30 30

Cộng 78 3000 3078

Page 121: Mạng thần kinh nhân tạo

36

Khoản 4. Xây dựng, sửa chữa nhỏ (6,6 triệu đồng) TT Nội dung Kinh phí

KC01 Phòng thí nghiệm trọng

điểm 4.1 Chi phí xây dựng m2 nhà xưởng,

PTN 0

4.2 Chi phí sửa chữa m2 nhà xưởng, PTN

4.0 0

4.3

Chi phí lắp đặt hệ thống điện, hệ thống nước 0

4.4 Chi phí khác 2.6 0 Cộng 6.6 0 Khoản 5. Chi khác (368,4 triệu đồng) TT Nội dung Kinh phí

KC01 Phòng thí nghiệm trọng

điểm

4.1 Xácđịnh tuyển chọn đề tài

- Xây dựng đề cương tổng quát 3.0 0 4.3 Tổng kết nghiệm thu - Nghiệm thu trung gian, đánh giá của chyên

gia và khảo nghiệm kết quả 20.0

- Chi phí nghiệm thu cấp cơ sở 4.0 0 - Chi phí kiểm tra, nghiệm thu chinhthức 5.0 0 0 4.4 Chi khác

- Hội thảo 20.0 0 - Đào tạo cán bộ ngắn hạn

+ Hưóng Nhận dạng tiếng nói: 2 người thực tâp 3 tháng tại Trung quốc (2002 và 2003) + Hướng xử lý ngôn ngữ tự nhiên: 1 người tại Pháp

284.0 0

- ấn loát tài liệu, văn phòng phẩm 5.0 0 - các chi phí khác 5.0 0 4.5 Thù lao chủ nhiệm đề tài 5.4 4.6 Quản lý đề tài, dự án (3 năm)

- Chi phí giao dịch, điện thoại...

17.0 0

Cộng 368.4 0