một số tìm hiểu về nhận dạng thực thể trong văn bản y sinh

20
Một số tìm hiểu về nhận dạng thực thể trong văn bản y sinh Trần Mai Vũ

Upload: nayef

Post on 19-Mar-2016

78 views

Category:

Documents


0 download

DESCRIPTION

Một số tìm hiểu về nhận dạng thực thể trong văn bản y sinh. Trần Mai Vũ. Nội dung. Khái quát bài toán nhận dạng thực thể y sinh Một số phương pháp giải quyết bài toán Định hướng tiếp theo. Công trình liên quan. Thesis - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

Một số tìm hiểu về nhận dạng thực thể trong văn bản y

sinhTrần Mai Vũ

Page 2: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

Nội dung Khái quát bài toán nhận dạng thực thể y sinh Một số phương pháp giải quyết bài toán Định hướng tiếp theo

2

Page 3: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

Công trình liên quan• Thesis

[1] Tuangthong Wattarujeekrit (2005). Exploring Semantic Roles for Named Entity Recognition in The Molecular Biology Domain. Doctoral dissertation, The Graduate University for Advanced Studies

[2] John Philip McCrae (2009). Automatic Extraction of Logically Consistent Ontologies from Text Corpora. Doctoral dissertation, The Graduate University for Advanced Studies (SOKENDAI)

• Publication[3] Collier, N., Nobata, C., and Tsujii, J. "Extracting the Names of Genes and Gene Products with a Hidden Markov

Model", In Proc. International Conference on Computational Linguistics , (COLING'2000), pp. 201-207, Saarbrucken, Germany, August, 2000.

[4] Collier, N. and Takeuchi, K. (2004), "Comparison of character-level and part of speech features for name recognition in bio-medical texts", in vol. 37, no. 6, Journal of Biomedical Informatics, Elsevier, December, pp. 423-435.

[5] Collier, N., Nazarenko, A., Baud, R. and Ruch, P. (2006) “Recent advances in natural language processing for biomedical applications”, International Journal of Medical Informatics, Elsevier, Vol. 75, Issue 6, pp. 413-417.

[6] Doan, S., Kawazoe, A. and Collier, N. (2007), "The role of roles in classifying annotated biomedical texts", Proc. Workshop on Biomedical Natural Language Processing (BioNLP 2007), Prague, Czech Republic, June 29, pp. 17-24.

[7] Kim, J. D. et al. (2004), "Introduction to the Bio-Entity Recognition Task at JNLPBA", in proceedings of the Joint Workshop on Natural Language Processing in Biomedicine and its Applications, 28-29 August, Geneva, Switzerland

• Slide[8] Nigel Collier, Research history and future challenges, 2011[9] Nigel Collier, Web sensing for real time disaster detection and tracking, 2011[10] Nigel Collier, High throughput analysis and alerting of disease outbreaks from the grey literature, 2010

3

Page 4: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

Nhận dạng thực thể (NER) Nhận dạng và phân loại các danh từ riêng

xuất hiện trong văn bản

4

October 14, 2002, 4:00 a.m. PT

For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation.

Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers. Gates himself says Microsoft will gladly disclose its crown jewels--the coveted code behind the Windows operating system--to select customers.

"We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a super-important shift for us in terms of code access.“

Richard Stallman, founder of the Free Software Foundation, countered saying…

Microsoft CorporationCEOBill GatesMicrosoftGatesMicrosoftBill VeghteMicrosoftVPRichard StallmanfounderFree Software Foundation

Page 5: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

Nhận dạng thực thể y sinh Nhận dạng thực thể y sinh:

Các loại thực thể: Tên người, tổ chức,…,DNA, gene, protein, bệnh… Biocaster: 23 loại thực thể JNLPBA 2004: 48 loại thực thể (36 loại sử dụng trong

GENIA) Ứng dụng chính trong các hệ thống trích xuất

thông tin y sinh (Bio-IE)

5

Page 6: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

6

Một số task tại các hội nghị

Page 7: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

Một số hệ thống Bio-IE Highlight system (Thomas et al., 2000)

Dựa trên phương pháp của Hobbs và các cộng sự (1996)

Chưa phân tích mối quan hệ giữa các thực thể GENIES (Friedman et al., 2001)

GeneWay (Rzhetsky et al., 2004) mở rộng từ GENIES

Có phân tích mối quan hệ giữa các thực thể BioCaster (Collier et al., 2006)

Xây dựng ontology về y sinh và dịch bệnh Phân tích các sự kiện liên quan đến dịch bệnh dựa

trên dữ liệu web7

Page 8: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

BioCaster (Collier et al., 2006)

8

Page 9: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

BioCaster (Collier et al., 2006)

9

[10] Nigel Collier, High throughput analysis and alerting of disease outbreaks from the grey literature, 2010

Page 10: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

Nhận dạng thực thể y sinh Thách thức [1]

Thiếu quy ước đặc tên trong sinh học Sự đa dạng trong thuật ngữ:

Dùng từ tiếng Anh: Vd: light, map, complement,…tên gene Sử dụng số: Vd: 9-cis retinoic acid Sử dụng các ký tự và mã: M(2)201

Sự lồng nhau giữa các tên: Vd: “[leukaemic[T [cell line]] Kit225]”

Sự phối hợp: “B and T cells” Sự đồng âm Tính đa nghĩa Nhiều biến thể của một tên:

Vd: “-150 CD28 response element (CD28RE)/AP-1 site” cũng là “-150 CD28RE/AP-1 site”.

10

Page 11: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

Hướng tiếp cận giải quyết bài toán Dựa vào tra từ điển Dựa vào luật

MEDLINE(1998) 94.70% và 98.84% FlyBase(1998) 91.4% và 94.4%

Dựa vào học máy HMM (Collier et al., 2000; Zhang et al., 2004;

Zhao, 2004; Zhou et al, 2004) Cây quyết định (Nobata et al.,1999.) CRF (Settles, 2004) MEMM (Finkel et al.,2004; Lin et al., 2004) SVM (Zhou and Su, 2004; Song et al., 2004)

11

Page 12: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

Các loại đặc trưng

12

S SVM sh Dạng tự sy Nhãn cú phápH HMM gn Chuỗi gene tr LuậtC CRF wv Biến thể của từ ab Viết tắtM MEMM ln Độ dài từ ca Các thực thể

kháclx Từ vựng gz Tra từ điển do Thông tin tài liệuaf Các thông tin liên quan (ngram) po Nhãn từ loại pa Dấu ngoặcor Chính tả np Nhãn cụm danh từ pr Sử dụng các

nhãn đã dữ đoán

Page 13: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

Một số phương pháp giải quyết

13

Page 14: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

Một số phương pháp giải quyết

14

Trong BioCaster [10]: Pha phân tích thực thể:

Huấn luyện 500 tài liệu, kiểm thử chéo 10 fold Xử lý 17361 nhóm từ, 12168 chính xác Độ chính xác 88.7%, F=71.1

Kinh nghiệm: Sử dụng luật để tăng độ chính xác

Page 15: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

Xử lý ngữ nghĩa trong BioCaster

15

Page 16: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

Định hướng tiếp theo Thử nghiệm trên dữ liệu lấy từ BioCaster đối

với một số phương pháp Tìm hiểu các vấn đề liên quan đến đối

sánh(matching) và mở rộng Ontology

16

Page 17: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

Một số tài liệu khác Leaman, R. et al. (2008)  BANNER: An executable survey of

advances in biomedical named entity recognition Settles, B. (2004) Biomedical named entity recognition using

conditional random fields Tanabe, L. et al. (2005) GENETAG: a tagged corpus for

gene/protein named entity recognition Ki-Joong Lee, Young-Sook Hwang, Seonho Kim, Hae-Chang Rim

(2004) Biomedical named entity recognition using two-phase model based on SVMs. Journal of Biomedical Informatics 37 (2004) 436-447

A. Ekbal, S. Saha, U. K. Sikdar, Md. Hasanuzzaman (2010) A Genetic Approach for Biomedical Named Entity Recognition, 22nd International Conference on Tools with Artificial Intelligence

17

Page 18: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

XIN CẢM ƠN

18

Page 19: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

Zhou and Su, 2004 Kết hợp HMM và SVM

HMM:

Dữ liệu thưa P(si|On1) => Sử dụng SVM sigmoid để bổ

sung thêm thông tin SVM: vấn đề chuyển đầu ra dạng xác suất

Nghiên cứu của Platt (1999)

19

Page 20: Một số tìm hiểu về  nhận dạng thực thể trong văn bản y sinh

Các phương pháp khác Song et al., 2004

Kết hợp 2 kết quả dự đoán từ SVM và CRF Finkel et al.,2004

Sử dụng MEMM và lựa chọn các đặc trưng Zhao, 2004

Cải tiến HMM bằng thêm các độ tương đồng giữa các từ

20