1.giỚi thiỆu - web viewquá trình chẩn đoán y tế khác nhau về...

M T C C U CHO CHU N ĐOÁN Y H CỘ Ơ Ấ Ẩ Ọ THÔNG MINH S D NG T P THÔ V I PHÂNỬ Ụ Ậ Ớ

TÍCH KHÁI NI M HÌNH TH CỆ Ứ- A FRAMEWORK FOR INTELLIGENT MEDICAL DIAGNOSIS USING ROUGH SET WITH

FORMALCONCEPT ANALYSIS -B. K. Tripathy1, D. P. Acharjya and V. Cynthya

School of Computing Science and Engineeritng, VIT University, Vellore, India

ABSTRACT

Quá trình chẩn đoán y tế khác nhau về mức độ chúng tôi cố tập trung để xử lý các khía cạnh khác nhau của việc chuẩn đoán như tầm quan trọng tương đối của các triệu chứng, nhiều dạng triệu chứng khác nhau và mối quan hệ của bản thân bệnh lý. Dựa trên lý thuyết quyết định, qua nhiều mô hình toán học như bộ sắc nét, phân bố xác suất, tập mờ, tập mờ intuitionistic đã được phát triển để xử lý với các khía cạnh phức tạp của chẩn đoán. Tuy nhiên, nhiều như vậy mô hình như vậy thất bại khi bao hàm các khía cạnh quan trọng trong các quyết định chuyên gia.Vì vậy, một nỗ lực đã được thực hiện để xử lý mâu thuẫn trong dữ liệu được xem xét bởi Pawlak với sự ra đời của lý thuyết tập thô.Mặc dù thô thiết lập có lợi thế lớn so với các phương pháp khác, nhưng nó tạo ra quá nhiều quy tắc nên rất nhiều khó khăn trong khi đưa ra quyết định. Vì vậy, nó là điều cần thiết để giảm thiểu các quy tắc quyết định.Trong bài báo này, chúng tôi sử dụng hai quá trình: quá trình trước và quá trình sau để khai thác các quy tắc phù hợp và để khám phá mối quan hệ giữa các thuộc tính.Trong quá trình trước, chúng tôi sử dụng lý thuyết tập thô để khai thác các quy tắc phù hợp, trong khi đó trong quá trình sau chúng ta sử dụng phân tích khái niệm hình thức thức từ các quy tắc thích hợp để khám phá kiến thức tốt hơn và các yếu tố quan trọng nhất ảnh hưởng đến việc ra quyết định

1.GI I THI UỚ ỆNgày nay,Internet là ví dụ tốt nhất cho tính toán phân tán trong đó bao gồm việc phân tán dữ liệu địa lý. Do đó, nó là một thách thức cho con người để lấy thông tin từ số lượng lớn các dữ liệu có sẵn về mặt địa lý tại các trung tâm nghiên cứu sức khỏe khác nhau. Do đó, nó là rất khó khăn để trích xuất kiến thức chuyên môn từ các tập dữ liệu y tế toàn cầu. Các vấn đề của kiến thức không hoàn hảo đã được giải quyết trong một thời gian dài bởi các nhà triết học, luận lý, vànhà toán học. Gần đây nó mang lại sự chú ý cho các nhà khoa học máy tính, đặc biệt là trong lĩnh vực khai phá tri thức và trí thông minh nhân tạo.

Có nhiều cách tiếp cận vấn đề để làm thế nào để hiểu và vận dụng kiến thức chưa hoàn hảo. Nguyên tắc nền tảng là crisp set.Tuy nhiên, nó đã được mở rộng theo nhiều hướng như mô hình giả lập của tình huống thực tế có liên quan. Một trong những đầu tiên và thành công nhất là khái niệm về tập mờ bởi LA Zadeh [1] để bắt thông tin . Trên bộ mặt thô của Z. Pawlak [2] là một nỗ lực khác lại những ảnh chụp indeiscernibility giữa các đối tượng mô

hình kiến thức không hoàn hảo [3, 4, 5]. Có nhiều phương pháp tiên tiến khác như tập thô tương tự, tập thôfuzzy, tập thô trên không gian xấp xỉ mờ, thiết lập không gian xấp xỉ gần đúng mờ intuitionistic, tập thô dynamic dựa trên nền tập thô đã được thảo luận bởi các tác giả khác nhau để trích xuất các kiến thức từ số lượng lớn các dữ liệu [6, 7, 8, 9, 10, 11 ].Tập hợp có thể được coi như là một bộ sưu tập lớn của các đối tượng. Mỗi đối tượng có liên quan với một số thông tin với nó.Để tìm ra kiến thức về tập hợp, chúng ta cần trích một số thông tin về các đối tượng này.Chúng ta cần đủ lượng thông tin để xác định các đối tượng đó là không thể trong trường hợp của tất cả các đối tượng.Vì vậy, chúng tôi yêu cầu phân loại các đối tượng vào các lớp học tương tự để mô tả các đối tượng này để trích xuất kiến thức về tập hợp.tập thô là một cách tiếp cận để trích xuất kiến thức và sự liên kết giữa dữ liệu và giá trị của dữ liệu trong những năm gần đây.Tuy nhiên, nó sinh ra ra quá nhiều quy tắc tạo ra rất nhiều khó khăn trong việc quyết định cho con người. Do đó nó là một thách thức cho con người để trích xuất kiến thức chuyên môn.Tuy nhiên, nhiều nhà nghiên cứu đã phân tích dữ liệu y tế bằng cách sử dụng khai thác dữ liệu, tập mờ, và phân tích khái niệm hình thức cho việc tìm kiếm các nguyên tắc quyết định, và dư thừa [12, 13].Trong bài báo này, chúng tôi sử dụng hai quá trình như quá trình trước và quá trình bài để khai thác các quy tắc phù hợp và để khám phá mối quan hệ giữa các thuộc tính. Trong quá trình trước, chúng tôi sử dụng tập thô để khai thác các quy tắc phù hợp, trong khi đó trong quá trình bài chúng ta sử dụng phân tích khái niệm chính thức để khám phá kiến thức tốt hơn và đặc điểm quan trọng nhất ảnh hưởng đến việc ra quyết định. Phần còn lại của bài báo được tổ chức như sau: Phần 2 trình bày các vấn đề cơ bản của lý thuyết tập thô. Phần 3 cung cấp ý tưởng cơ bản của phân tích khái niệm chính thức. Các đề xuất mô hình khai thác thông minh được đưa ra tại mục 4. Trong phần 5, một nghiên cứu thực nghiệm về bệnh tim được trình bày.Điều này tiếp tục tiếp theo là một kết luận trong phần 6.

2. FOUNDATIONS OF ROUGH SET THEORY Sự hội tụ của công nghệ thông tin và truyền thông mang lại một sự thay đổi căn bản trong cách chẩn đoán y tế được thực hiện.Một thực tế đúng đắn là quyền quyết định tại thời điểm thích hợp cung cấp một lợi thế trong chẩn đoán y tế.Tuy nhiên, thách thức thực sự nằm trong chuyển đổi dữ liệu đồ sộ vào kiến thức và sử dụng kiến thức để thực hiện chẩn đoán y tế thích hợp.Mặc dù công nghệ hiện nay giúp trong việc tạo ra cơ sở dữ liệu lớn, nhưng hầu hết các thông tin có thể không liên quan.Vì vậy, giảm thiểu thuộc tính trở thành một khía cạnh quan trọng để xử lý cơ sở dữ liệu đồ sộ như vậy bằng cách loại bỏ các dữ liệu không cần thiết. Lý thuyết tập thô được phát triển bởi Z. Pawlak [14] được sử dụng để xử lý thông tin không chắc chắn và không đầy đủ là một công cụ để các vấn đề đã đề cập ở trên.Tuy nhiên, nó có nhiều ứng dụng trong tất cả các lĩnh vực khoa học và kỹ thuật.

Một trong những sức mạnh của nó là thuộc tính phụ thuộc, tầm quan trọng của chúng trong số các dữ liệu không phù hợp. Đồng thời, nó không cần bất kỳ thông tin sơ bộ hoặc bổ sung về các dữ liệu. Do đó, nó phân loại thông tin không chính xác, không chắc chắn hoặc không đầy đủ thể hiện về mặt dữ liệu

2.1. Rough Sets Trong phần này, chúng ta nhớ lại các định nghĩa cơ bản của lý thuyết tập thô cơ bản được phát triển bởi Z. Pawlak [14]. Cho U là một không rỗng hữu hạn thiết lập được gọi là tập hợp.Giả sử là một mối quan hệ tương đương trên U. Các phân vùng quan hệ tương đương R tập U trong các tập con rời nhau. Các yếu tố của cùng một lớp tương đương được cho là không thể phân biệt. Lớp tương đương gây ra bởi R được gọi là khái niệm cơ bản. Mỗi kết hợp của các khái niệm cơ bản được gọi là một tập xác định được. Tập rỗng được coi là một tập hợp các định nghĩa, do đó tất cả các bộ định nghĩa hình thành một đại số Booleanvà (U,R) được gọi là một không gian

xấp xỉ. đưa ra một tập mục tiêu X, chúng ta có thể mô tả X bằng một cặp xấp xỉ trên và dưới. Chúng tôi kết hợp hai

tập con RX and được gọi là xấp xỉ R-dưới hơn và xấp xỉ R-trên củaX tương ứng và được cho bởi

và

R-giới hạn của X , được đưa bởi .Chúng ta nói X là thô với mối liên hệ tới R khi và chỉ

khi , .X được nói R-xác định khi và chỉ khi hay .Vì vậy một tập là thô với đương lượng tới R nếu và chỉ nếu Nó không phải R-xác định

2.2. Information System Như đã đề cập mục trước .lý thuyết tập thô dựa trên giả định rằng, ngoài lý thuyết crisp set , chúng tôi có một số thông tin bổ sung về các yếu tố của một tập hợp luận. Các yếu tố thể hiện cùng một thông tin không thể nh n rõ âvà hình thành.Một hệ thống thông tin là một bảng cung cấp một cách thuận tiện để mô tả một tập hữu hạn của các đối tượng được gọi là tập hợp bởi một tập hữu hạn các thuộc tính do đó đại diện cho tất cả các thông tin và kiến thức có sẵn.Thuộc tính tập cùng với các đối tượng trong một hệ thống thông tin bao gồm tập của các thuộc tính điều kiện và các thuộc tính quyết định. Vì vậy nó cũng được đặt tên là bảng quyết định [15]. Chúng ta biểu thị hệ thống thông tin sau: ,Cho mỗi là tập giá trị mà thuộc tính a có thể lấy.cũng biểu

diễn .Thêm vào đó,cho mỗi hàm thông tin.Cũng biểu diễn:

.

Hãy xem xét một hệ thống thông tin y tế Table 1 .Mười bệnh nhân ,10 là tập các đối tượng của tập hợp với một tập hợp các thuộc tính ho, nôn mửa, cảm lạnh, chảy máu mũi,nhiệt độ, mê sảng và sốt. thuộc tính

Cơn sốt được coi như là thuộc tính quyết định.Giả định rằng như nôn mửa, ho, cắt đứt lạnh, chảy máu mũi,nhiệt độ, mê sảng và sốt.Cụ thể bệnh nhân p1 được đặc trưng trong bảng bằng cách tập giá trị thuộc tính (ho, luôn luôn), (nôn, hiếm khi), (lạnh cảm, hiếm khi), (mũi chảy máu, không bao giờ), (nhiệt độ, cao), (mê sảng, không bao giờ), và (sốt, có) mà có hình thức thông tin về bệnh nhân.

Để làm cho phân tích của chúng ta đơn giản hơn chúng ta gán giá trị 1, 2, 3, 4, 5, 6 với các giá trị thuộc tính luôn luôn, ít khi, không bao giờ, bình thường, cao, và rất cao.Ngoài ra, chúng ta đã ấn định 1, và 2 cho các giá trị quyết định( có, không )tương ứng.Tuy nhiên, những giá trị này là tùy chọn và không ảnh hưởng đến phân tích. Hệ thống thông tin y tế giảm trừ được trình bày trong Bảng 2.

2.3. Indiscernibility Relation Tập hợp có thể được coi như là một tập hợp lớn của các đối tượng.Mỗi đối tượng có liên qua với một số thông tin (dữ liệu, kiến thức) bên trong nó. Để tìm ra kiến thức về tập hợp, chúng ta cần phải xử lý các giá trị thuộc tính. Vì vậy, chúng tôi yêu cầu số lượng đủ thông tin để xác định, phân loại các đối tượng thành các lớp tương tự và trích xuất các kiến thức về tập hợp. Việc phân loại các đối tượng của tập hợp được thực hiện dựa về tính không rõ ràng mối quan hệ giữa các đối tượng này. Nó chỉ ra rằng các đối tượng của một lớp không thể phân biệt với nhau dựa

trên thiết lập các thuộc tính của các đối tượng [14, 17]. Mối quan hệ không rõ ràng được tạo ra theo cách này là cơ sở toán học của lý thuyết tập thô.Bất kỳ tập hợp của tất cả các đối tượng không thể nh n rỏ được gọi là một khái âniệm sơ cấp, và tạo thành một hạt cơ bản (nguyên tử) kiến thức về tập hợp. Các hội của bộ sơ cấp được gọi là bộ hoặc sắc nét (chính xác) hoặc tập

thô (không chính xác).Xét và .Sau đó chúng ta nói và là không rõ rang bởi tập thuộc

tính P trong A khi và chỉ khi có :

Ví dụ, cho ho thuộc tính, nôn mửa, cảm lạnh, và mê sảng là không rõ rang,Tương tự như vậy, các lớp

học không thể nh n rỏ khác thu được là â .Chung lại mỗi bênh

nhân được so với so với mỗi ô khác để tìm sự không rõ ràng trong giá trị thuộc tính.Từ tập dữ liệu Bảng-1, xem xét các thuộc tính A = {ho, nôn mửa, lạnh cảm, mê sảng}, chúng tôi sẽ có được gia đình của các lớp tương đương của A tức là, các phân vùng được xác định bằng cách thiết lập các thuộc tính A.Ký hiệu : U/A hay I(A).Ta có:

xem xét tập mục tiêu ,bênh nhân p1 và p4 là đối tượng biên,nơi

Hơn nữa ,cân nhắc những thuộc tính chúng ta có thể kết hợp một chỉ số ( ) được gọi là độ

chính xác xấp xỉ cho bất kỳ bộ như sau:

Ví dụ : nơi ; và A = {ho, nôn mửa, lạnh cảm, mê sảng}. Từ hệ thống thông tin được đưa ra trong Bảng 1, rõ ràng là bệnh nhân p1 có sốt,trong khi bệnh nhân p4 không và họ không thể nh n rỏ đối với thuộc tính ho , nôn mửa, cảm lạnh, và mê sảng.Do đó, sốt không có thể được đặc trưng về các âtriệu chứng và cặp giá trị triệu chứng (ho, luôn luôn), (nôn, hiếm khi), (lạnh cảm, hiếm khi), và (mê sảng, không bao giờ).Vì vậy, bệnh nhân p1 và p4 là ranh giới đối tượng biên và không thể được phân loại vào các kiến thức đã có. Mặt khác bệnh nhân p6,p9,p10 hiển thị các triệu chứng một cách chắc chắn là có sốt.Vì vậy, xấp xỉ dưới của X là{p6,p9,p10},xấp xỉ trên là {p1,p4,p6,p9,p10}

2.4. Reduct and Rule Discovery Một trong những khía cạnh quan trọng của lý thuyết tập thô là giảm thiểu thuộc tính và cốt lõi.Trong một hệ thống thông tin, một số thuộc tính có thể là dư thừa và vô dụng.Nếu những thuộc tính dư thừa và vô dụng được loại bỏ mà không ảnh hưởng đến sức mạnh phân loại các thuộc tính, chúng ta có thể gọi chúng những thuộc tính dư thừa

[18]. Khái niệm cốt lõi thường được sử dụng trong tất cả các giảm thiểu [19].Nếu tập các thuộc tính phụ thuộc, bằng cách sử dụng các tính chất phụ thuộc của các thuộc tính, chúng ta quan tâm trong việc tìm kiếm tất cả các tập con nhỏ nhất có thể có các thuộc tính có cùng một số bộ sơ cấp mà không mất sức mạnh phân loại các hệ thống thông tin giảm bớt [20]. Để thể hiện các khái niệm trên một cách rõ ràng hơn, chúng ta cần một số ký hiệu

phụ trợ. Chúng ta nói rằng thuộc tính a là c thể bỏ trong P nếu điều kiện sau đây (4) xẩy ora.nếu không thì là một thứ không thể thiếu trong P.

Tập P là độc lập nếu tất cả các thuộc tính của nó là không thể thiếu.Giảm thiếu (P ') của P là một tập hợp con của các thuộc tính P như vậy mà các lớp tương đương gây ra bởi thuộc tính giảm lập P' là giống như cấu trúc lớp tương đương gây ra bởi tập thuộc tính P( ).Cốt lõi của tập thuộc tính P là tập hợp của tất cả các thuộc tính không thể thiếu của P.Thuộc tính quan trọng kết nối các khái niệm cốt lõi và reducts được định nghĩa trong (5),nơi mà Red (P) là tập hợp các tất cả các Giảm trừ của P

Một hệ thống thông tin được định nghĩa là trong đó U là tập hữu hạn rỗng của các đối tượng là hữu hạn rỗng của tập các thuộc tính, C biểu thị tập hợp các điều kiện

thuộc tính và D biểu thị tập của các thuộc tính quyết định, Theo Pawlak [21], một nguyên tắc quyết định S trong hệ thống thông tin được thể hiện như ,mà và là những điều kiện và quyết định của các quy tắc quyết định S tương ứng.Có ba phép đo cho các quy tắc quyết định. Đầu tiên là tính chính xác của các quy tắc quyết định.Điều thứ hai là sự hỗ trợ của một quy tắc trong khi đo thứ ba là sức mạnh của các quy tắc quyết

định.Sự hỗ trợ của một quy tắc được định nghĩa : trong khi đó độ mạnh của các quy tắc quyết định được xác định như sau :

Điều đó ngụ ý rằng các quy tắc mạnh mẽ hơn bao gồm số lượng nhiều hơn của các đối tượng hỗ trợ và sức mạnh của nó có thể được tính toán bằng cách sử dụng liên quan (6). Nguyên tắc quyết định tương đối cho Bảng 2 được

đưa ra trong Bảng 3,nơi chúng ta dùng cho luật trong lớp quyết định d.

3. FORMAL CONCEPT ANALYSIS AND BACKGROUND Phân tích khái niệm chính thức (FCA) được giới thiệu bởi R. Wille [22] cung cấp các công cụ khái niệm để phân tích dữ liệu, và nó đã được áp dụng cho nhiều lĩnh vực hoàn toàn khác nhau như tâm lý học, xã hội học, nhân chủng học, y học, sinh học, ngôn ngữ học, khoa học máy tính và công nghiệpkỹ thuật.Mục đích chính của phương pháp này là để hình dung dữ liệu trong hình thức của giàn khái niệm và do đó làm cho chúng minh bạch hơn và dễ dàng thảo luận và phê bình hơn.Đồng thời, nó cho phép thu thập kiến thức từ (hoặc) là một chuyên gia bằng cách đặt những câu hỏi rất chính xác, hoặc là phải được xác nhận hay bị bác bỏ bởi một counterexample.

Mục tiêu chính là hỗ trợ người sử dụng trong việc phân tích và hình thành một pham vi quan tâm dựa trên việc toán học hoá của các khái niệm và hệ thống phân cấp khái niệm. Nó kích hoạt tư duy toán học để phân tích dữ liệu khái niệm và chế biến kiến thức dựa trên một sự hiểu biết chính thức của một khái niệm như là một đơn vị của tư duy.Các khái niệm có thể được hiểu một cách triết học như là các đơn vị cơ bản của tư duy được hình thức hóa được hình thành trong quá trình vận động trong môi trường xã hội và văn hóa. Vì vậy, Theo truyền thống triệt học một khái niệm bao gồm các phần mở rộng và gia tăng thêm. Phần mở rộng của khái niệm hình thức được hình thành bởi tất cả các đối tượng mà khái niệm này được áp dụng và tăng thêm bao gồm tất cả các thuộc tính hiện có trong các đối tượng này.Tập các đối tượng, các thuộc tính và các mối quan hệ giữa một đối tượng và một thuộc tính trong một tập dữ liệu hình thành cấu trúc cơ bản khái niệm của FCA được gọi là bối cảnh hình thức.Khái niệm chỉ có thể nằm trên các mối quan hệ với nhiều khái niệm khác, nơi mà mối quan hệ subconcept-superconcept đóng một vai trò quan trọng. Có nghĩa là sự mở rộng của các subconcept bao gồm trong phần mở rộng của superconcept .Điều này tương đương với mối quan hệ tăng thêm của subconcept chứa sự tăng thêm của superconcept [23].

3.1. Formal Context and Formal Concept (Ng c nh hình th c và Khái ni m hình ữ ả ứ ệth c)ứTrong phần này, chúng ta nhớ lại các định nghĩa cơ bản và các các ký hiệu của phân tích khái niệm hình thức được phát triển bởi R. Wille [22].Một ngữ cảnh hình thức thức được định nghĩa là một bộ cấu trúc

bao gồm hai bộ U và A trong khi R là một quan hệ nhị phân giữa U và A. .Các phần tử của U được gọi là các đối tượng và các phần tử của A được gọi là thuộc tính của ngữ cảnh.Khái niệm hình thức về ngữ cảnh hình thức thức (U, A, R) được xác định với sự giúp đỡ của hàm dẫn xuất.Các nhà hàm dẫn xuất được định nghĩa cho

bất kỳ và như sau:

Một khái niệm hình thức của một ngữ cảnh hình thức K=(U,A,R) được định nghĩa như một cặp (X,Y) với ,

và .Thành viên đầu tiên X,của cặp (X,Y) được gọi là extent trong khi Y thành viên thứ hai được gọi là mục đích của khái niệm hình thức..Đối tượng trong X chia sẻ tất cả các thuộc tính Y, và chỉ thuộc tính Y được sở hữu bởi tất cả các đối tượng trong X. Một kết quả căn bản là các khái niệm chính thức của một ngữ cảnh hình thức luôn luôn hình thành cấu trúc toán học của một mạng có liên quan đến mối quan hệ subconcept-superconcept.Do đó, các thiết lập của tất cả các khái niệm chính thức hình thành một mạng hoàn chỉnh được gọi là một mạng khái niệm [22].Mối quan hệ subconcept-superconcept có thể được mô tả tốt nhất bởi một sơ đồ mạng và chúng ta có thể lấy được các khái niệm, tập ngụ ý, và các luật kết hợp dựa trên bảng chéo.Trong sơ đồ đó tên của từng đối tượng được gắn liền với khái niệm đối tượng đại diện và tên của mỗi thuộc tính được gắn liền với khái niệm thuộc tính đại diện của nó.Mối quan hệ subconcept-superconcept là transitive.Nó có nghĩa rằng, một khái niệm là subconcept của bất kỳ khái niệm nào có thể đạt được bằng cách di chuyển lên nó.Bây giờ chúng tôi trình bày bảng chéo của luật quyết định cho 1 lớp quyết định thu được trong Bảng 3 được đưa ra trong Bảng 4, nơi các hàng được biểu diễn như là các đối tượng và các cột được đại diện như là thuộc tính.mối quan hệ giữa họ được đại diện bởi một dấu (x)

Sơ đồ mạng tương ứng được trình bày trong hình 1, nơi các nút đại diện cho các khái niệm hình thức. Đặc biệt,

một khái niệm bao gồm các đối tượng 1 và các thuộc tính ,được biểu diễn như

,Tương tự như vậy, khái niệm khác bao gồm các đối tượng 2 và thuộc tính được biểu diễn như

nó còn được quan sát thấy rằng, đường lên đưa ra khái niệm tổng quát hơn trong khi dòng xuống đưa ra khái niệm cụ thể hơn.Một cặp tập các đối tượng và tập các thuộc tính mà gần với cách này được gọi là một khái niệm hình thức [24].

4. PROPOSED INTELLIGENT MINING MODEL Trong phần này, chúng tôi đưa ra mô hình khai thác thông minh của chúng tôi bao gồm các định nghĩa vấn đề, dữ liệu mục tiêu, dữ liệu tiền xử lý, dữ liệu được xử lý, phân vùng dữ liệu, luật khai phá, và phân tích khái niệm hình thức như thể hiện trong hình 2.

Các bước cơ bản của mô hình bất kỳ trong đó chúng ta xác định đúng vấn đề là định nghĩa vấn đề.Kết hợp kiến thức trước luôn gắn liền với định nghĩa vấn đề tuy nhiên, giá trị tiềm năng hoặc hữu ích của một phần tử dữ liệu riêng lẻ hoặc mô hình của các yếu tố dữ liệu có thể thay đổi nhanh chóng từ riêng lẻ đến riêng lẻ,tổ chức đến tổ chức,hoặc nhiệm vụ tới nhiệm vụ bởi vì sự tiếp nhận lại kiến thức và lý luận có thể bao gồm sự mập mờ và không đầy đủ.Nó là rất khó khăn cho con người tìm thấy thông tin hữu ích ẩn trong các dữ liệu đồ sộ đã tích lũy. Do đó, thách thức quan trọng nhất là để nhận mo hình dữ liệutừ các dữ liệu đồ sộ đã tích lũy. Có nhiều nhu cầu để đối phó với các thông tin không đầy đủ và mơ hồ trong việc phân loại, xây dựng khái niệm, và phân tích dữ liệu.Có nhiều nhu cầu để xử lý với các thông tin không đầy đủ và mơ hồ trong việc phân loại, xây dựng khái niệm, và phân tích dữ liệu.Để kết thúc điều này ở đây, chúng ta sử dụng hai quá trình như quá trình trước và quá trình sau để khai thác các quy tắc phù hợp và để khám phá mối quan hệ giữa các thuộc tính.Trong quá trình trước như trong hình 2, chúng tôi sử dụng lý thuyết tập thô để xử lý dữ liệu, phân loại dữ liệu, sau khi loại bỏ tiếng ồn và thiếu dữ liệu để khai thác luật một cách phù hợp.Trong quá trình trước chúng ta sử dụng phân tích khái niệm hình thức từ các quy tắc phù hợp để khám phá kiến thức tốt hơn cho quá trình ra quyết định.Động cơ đằng sau nghiên cứu này là hai lý thuyết nhằm mục tiêu khác nhau và tổng hợp các kiểu khác nhau của kiến thức.Lý thuyết tập thô được sử dụng để dự đoán trong khi phân tích khái niệm chính thức được sử dụng để mô tả.Vì vậy, sự kết hợp của cả hai với tên miền thông minh dẫn đến kiến thức tốt hơn.

4.1. Pre process Architecture Design Trong phần này, chúng tôi trình bày thiết kế kiến trúc quá trình trước bao gồm các định nghĩa vấn đề, chuẩn bị dữ liệu, phân vùng dữ liệu, luật sinh, domain intelligence và quy tắc xác thực như thể hiện trong hình 3 của chúng tôi.Định nghĩa vấn đề và kết hợp kiến thức trước là các bước cơ bản của mô hình bất kỳ trong đó chúng ta xác định đúng vấn đề.Thứ hai, Cấu trúc phù hợp các mục tiêu tương ứng và các thuộc tính liên quan được thực hiện. Cuối cùng, mục tiêu là tạo ra một tập dữ liệu khai phá dữ liệu sẽ được thực hiện.Trước khi phân tích thêm, một các

công việc làm sạch dữ liệu như kiểm tra nhất quán, loại bỏ tiếng ồn và đầy đủ dữ liệu được thực hiện để đảm bảo rằng các dữ liệu là chính xác nhất có thể.

Bây giờ, chúng ta thảo luận chi tiết các bước tiếp theo của thiết kế kiến trúc tiền quá trình của mô hình đề xuất.

4.1.1. Rule Computation Procedure Bây giờ, chúng tôi đề xuất một thuật toán sản sinh để sản sinh ra tất cả các giảm thiểu có thể bằng cách loại bỏ tất cả các thuộc tính c thể bỏ và lấy được các quy tắc quyết định đề cử từ các tập dữ liệu huấn luyện như sau:o

1. Thiết đặt số đối tượng i=12. Chọn đối tượng I từ tập dữ liệu huấn luyện và tính toán một bộ giảm thiểu cho tất cả các thuộc tính điều

kiện.

3. Thay thế i=i+1. Nếu tất cả các đối tượng đã được chọn, sau đó đi đến bước 4, nếu không quay lại bước 24. Tính toán số lượng các đối tượng hỗ trợ cho mỗi giảm thiểu sau khi kết hợp các giảm thiểu giống hệt nhau5. Sử dụng hệ thống intelligent system, đánh giá các giảm thiểu sinh ra dựa và tính toán số lượng các đối

tượng hỗ trợ .Nếu các luật quyết định đề cử được thỏa mãn, sau đó đi đến bước tiếp theo 6;nếu không khôi phục lại các đối tượng liên quan với các quy tắc không thỏa mãn và quay về bước 2

6. Thu được các quy tắc quyết định từ những giảm thiểu được lựa chọn.7. Chấm dứt quá trình và tiếp tục xác nhận các kết quả đầu ra.

4.1.2 Rule-validation Procedure Để xem xét các đối tượng trong các tập dữ liệu thử nghiệm để đánh giá hiệu lực của các quy tắc xuất phát từ thuật toán soạn luật, chúng tôi áp dụng các bước sau đây trong thủ tục xác nhận luật.

1. So sánh từng quy tắc quyết định thu được từ các thuật toán trên với từng đối tượng mới từ các bộ dữ liệu thử nghiệm. Tính toán số lượng các đối tượng hỗ trợ các luật.

2. Lặp lại bước 1 cho tất cả các nguyên tắc quyết định thu được từ các thuật toán quy tắc sáng tác.3. Tính chính xác của từng quy tắc bằng cách sử dụng các phương trình sau đây (9).

Độ chính xác= Tổng số lượng đối tượnghỗ trợTổng số lượng đốitượng hỗ trợ vàkhông hỗ trợ

4. Nếu chính xác lớn hơn ngưỡng được xác định trước, sau đó đi đến bước 5; nếu không loại bỏ luật5. Quy trình chấm dứt và viết các các luật được xác nhận.

6. AN EMPIRICAL STUDY ON HEART DISEASES Trong nghiên cứu thực nghiệm này, chúng tôi áp dụng lý thuyết tập thô cho kiến thức khai thác trên các tập dữ liệu thu được từ các trung tâm nghiên cứu khác nhau và cuối cùng chúng ta sẽ tìm thấy các yếu tố chính ảnh hưởng đến quyết định sử dụng phân tích khái niệm chính thức. Tuy nhiên, chúng tôi giữ bí mật danh tính do một số lý do chính thức được chỉ định.Trong nghiên cứu này, chúng tôi đã thu thập dữ liệu lịch sử từ các tổ chức nghiên cứu khác nhau về sức khỏe. Trường hợp các bệnh nhân 1487 đã được kiểm tra cho đầy đủ và nhất quán. Để tránh những phức tạp không cần thiết, chúng tôi loại bỏ các mục không liên quan trong tập dữ liệu. Chúng tôi đã xóa 553 bệnh nhân từ tập dữ liệu đó như là họ không có bệnh tim.Thêm vào đó, dữ liệu của 261 bệnh nhân cũng đã được gỡ bỏ từ dataset, bởi vì không ai trong số họ có hỗ trợ đầy đủ.Ngoài ra, dữ liệu của 117 bệnh nhân đã được gỡ bỏ từ dataset, vì thiếu giá trị thuộc tính. Trong tổng số, dữ liệu 931 bệnh nhân đã được gỡ bỏ từ dataset. Ngoài ra, chúng tôi đã thảo luận và tham dự cuộc họp với một số chuyên gia trong lĩnh vực để có được ý tưởng rõ ràng về bệnh tim mạch.Quá trình này đã cho chúng ta một sự hiểu biết của các dữ liệu lịch sử và thuộc tính cần thiết (triệu chứng) kiến thức về bệnh tim.Tuy nhiên, cho đầy đủ của bài báo, chúng tôi nêu ngắn gọn về những triệu chứng.

Các triệu chứng phổ biến nhất của bệnh tim là đau ngực. Nó có 4 loại: tức,đau thắt ngực điển hình, đau thắt ngực không điển hình, đau không đau thắt ngực và không có triệu chứng.Các triệu chứng khác bao gồm huyết áp, cholesterol, đường huyết, điện tâm đồ, nhịp tim tối đa, tập thể dục, kiệt quệ, quét thallium , giới tính và tuổi tác.Điều trị của mỗi bệnh nhân là khác nhau và phụ thuộc vào nhiều yếu tố.Vì vậy, nó là cần thiết để xác định các nguyên tắc quy tắc nhất định và các yếu tố chính để cho một bệnh nhân có thể xác định bệnh ở giai đoạn sớm. Nó cũng có thể giảm bớt gánh nặng tài chính của một bệnh nhân.Ở đây dữ liệu được thu thập chỉ để chẩn đoán bệnh tim và sau đó đề nghị các loại phẫu thuật tim cần thiết. Ngoài ra, chúng tôi phân tích các số liệu lịch sử để cung cấp các yếu tố chính cho từng trường hợpchẩn đoán. Giá trị số và tài liệu dựa trên các triệu chứng khác nhau được thu thập và các thông số này trở thành tập các thuộc tính của chúng tôi. Chúng tôi xem xét quyết định chẩn đoán của bệnh nhân như biến quyết định. Các thuộc tính đóng vai trò quan trọng trong bệnh tim và các ký hiệu được sử dụng trong phân tích của chúng tôi được trình bày trong Bảng 5. Đặc biệt để bắt đầu với quá trình trước, chúng tôi ngẫu nhiên chia 556 bệnh nhân vào trong bộ dữ liệu huấn luyện có chứa 306 bệnh nhân (55%) và các tập dữ liệu thử nghiệm có chứa 250 bệnh nhân (45%).Các thông tin chuẩn hóa được đưa ra trong Bảng 6.Để làm cho phân tích của chúng tôi đơn giản, chúng tôi đã gán một số giá trị cho từng nhóm phân loại và đây là những tùy chọn để phân tích

5.1. Pre process of Empirical Study Trong phần này, chúng tôi thảo luận chi tiết các bước tiếp theo của tiền thiết kế kiến trúc xử lý trước khi quá trình nghiên cứu thực nghiệm đang được xem xét. Dữ liệu huấn luyện của 306 bệnh nhân thu được được tiếp tục phân thành năm lớp quyết định,các lớp quyết định 1, 2, 3, 4, và 5 - thể hiện loại chẩn đoán khác nhau: bệnh tim cao huyết áp, bệnh tim mạch vành, suy tim, bệnh nhân có khả tiềm năng, và bệnh cơ tim tương ứng.Số lượng bệnh nhân dưới mỗi lớp quyết định thu được là 71, 60, 49, 69, và 57. Ở đây, quyết định lớp 1 được chọn là một ví dụ trong phần này.

5.1.1. Rule Generation and Selection Chúng tôi sử dụng các tập dữ liệu huấn luyện tạo để lấy được các giảm thiểu và chọn các quy tắc cuối cùng với sự giúp đỡ của các chuyên gia lãnh vực. Chúng tôi cũng đã loại bỏ những kết quả bất thường.Thêm vào đó, các đối tượng giống hệt nhau trong các tập dữ liệu huấn luyện đã được giảm xuống chỉ có một trường hợp để tránh phân tích không cần thiết.Dựa trên các thuật toán sinh luật, các giảm thiểu đã được xác định và trình bày trong Table7.Chúng tôi đã tạo ra và tóm tắt các quy tắc đề cử dựa trên số lượng hỗ trợ các bệnh nhân và các chuyên gia trong lĩnh vực.Điều này được trình bày trong bảng 8 để xác thực thêm.

5.1.2 The Rule Validation Chúng tôi sử dụng các tập dữ liệu thử nghiệm để kiểm tra tính chính xác của từng quy tắc đề cử được tạo ra, để ước tính giá trị tương ứng.Không giống như tập dữ liệu huấn luyện, các tập dữ liệu thử nghiệm của 250 bệnh nhân được phân thành năm lớp quyết định- lớp quyết định 1, 2, 3, 4, và 5 - thể hiện tỏ loại chẩn đoán khác nhau: bệnh tim cao huyết áp, bệnh tim mạch vành, suy tim, bệnh nhân tiềm năng, và bệnh cơ tim tương ứng để xác nhận hơn nữa.Số lượng bệnh nhân dưới mỗi lớp quyết định thu được là 63, 51, 38, 55, và 43.

Cuối cùng, chúng tôi trình bày những quy tắc đề cử cử viên trong Bảng 9. Tổng số hỗ trợ, không hỗ trợ bệnh nhân và độ chính xác của từng quy tắc đề cử cử viên được đề cập ở cột bên phải của Bảng 9. Ở đây, quyết định loại 1 được lựa chọn như là một ví dụ trong phần này. Từ khi tính chính xác của quy tắc đề cử,4 và 10 là 60% ít hơn so với predefined domain intelligence, hai quy tắc này sẽ bị loại bỏ trong khi xác nhận. Vì vậy, các quy tắc lựa chọn từ quá trình trước 1, 2, 3, 5, 7, 9, 12, 13, 14, 17, 18, là đầu vào cho quá trình sau để xác định các yếu tố chính.Ví dụ, quy tắc 1 có thể được quy định như: NẾU huyết áp là rất cao, điện tâm đồ (ECG) là ST-T bất thường, nhịp tim tối đa (MHR) là bình thường, và giới tính là nam, sau đó chúng ta có thể suy luận rằng bệnh tim là bệnh tim tăng huyết áp. Tương tự như vậy, các quy tắc khác cũng có thể được lấy từ Bảng 9

5.2. Post process of Empirical Study Phân tích khái niệm chính thức có thể làm phân loại dữ liệu. Tuy nhiên, dữ liệu đã được phân loại trong quá trình trước. Mục tiêu của quá trình này là sử dụng phân tích khái niệm chính thức để tổng hợp các quy tắc phù hợp được xác nhận từ quá trình trước và do đó để có được chính các yếu tố ảnh hưởng đến quyết định.Điều này giúp người ra quyết định để xác định loại bệnh và đặc điểm chính của nó ở giai đoạn đầu. Chúng tôi bàn về các kết quả và những thảo luận của lớp quyết định 1- bệnh tim tăng huyết áp trong phần 5.2.1.

Trong phần 5.2.2, chúng tôi thảo luận về các kết quả quyết định lớp 2- bệnh tim vành. Kết quả của quyết định lớp 3- suy tim trong phần 5.2.3. Phần 5.2.4 thảo luận về các kết quả của quyết định lớp 4- bệnh nhân tiềm năng, trong khi các kết quả của 5-bệnh cơ tim được thảo luận trong phần 5.2.5.

5.2.1 Decision Class Hypertensive Heart Disease Bây giờ chúng tôi trình bày bảng ngữ cảnh trong 10 Bảng, chuyển đổi 11 quy tắc của bệnh tim tăng huyết áp đại diện cho các thuộc tính thu được từ quá trình trước.Trong hình 4, chúng tôi trình bày sơ đồ mạng của Bảng ngữ cảnh 10 cho lớp quyết định bệnh tim tăng huyết áp.

Bảng tập tất suy cho lớp quyết định bệnh tim tăng áp được biểu diễn trong Bảng 11.Hơn nữa,chúng tôi tính toán bảng quan hệ tất suy từ tập tất suy Bảng 11 và đưa ra trong Bảng 12, Từ tần suất cao hơn tất suy của Bảng 12,chúng ta có thể tìm thấy các đặc điểm trưởng ảnh hưởng đến quyết định lớp bệnh tim tăng huyết áp,đặc trưng quan trọng nhất của lớp này là old peak-terrible. Đặc điểm quan trọng tiếp theo dẫn đến lớp học này là exercise-false. Tuy nhiên, các đặc điểm khác quan trọng không kém đối với lớp bệnh này là đau ngực không điển hình đau thắt ngực, huyết áp cao, và MHR cao

5.2.2 Decision Class Coronary Heart Disease Số quy tắc được tạo ra bằng cách sử dụng thuật toán sinh luật do lý thuyết tập thô là 19,hơn nữa giảm thiểu tới 15 bằng cách sử dụng chuyên gia trong lãnh vực,Điều này được xác nhận và giảm thiểu hơn nữa tới 13 số luật sử dụng tập dữ liệu kiểm nghiệm.Bây giờ chúng ta công bố bảng ngữ cảnh trong Bảng 13,mà chuyển 13 quy tắc bệnh tim vành đại diện cho các thuộc tính thu được từ quá trình trước.Trong Hình 5, chúng tôi trình bày sơ đồ lưới của Bảng ngữ cảnh 13 cho lớp quyết định bệnh tim mạch vành. Bảng tập tất suy được trình bày trong Bảng 14,trong khi bảng quan hệ tất suy được trình bày trong Bảng 15.

Từ tần suất cao hơn của Bảng tất suy 15, chúng tôi tìm thấy những đặc điểm chính ảnh hưởng đến lớp quyết định bệnh tim mạch vành.Các đặc tính quan trọng nhất của lớp này là thallium-scan hồi phục khiếm khuyết và thể dục sai. Đặc điểm quan trọng tiếp theo dẫn đến lớp học này là huyết áp rất cao. Tuy nhiên, các đặc điểm khác quan trọng không kém đối với lớp học của bệnh này là đau ngực đau thắt ngực không điển hình và thường được tìm thấy trong độ tuổi rất cao.

5.2.3 Decision Class Heart Failure Số lượng các luật được sinh ra sử dụng thuật toán sinh luật là 20 và tối giản xuống 18 bằng cách sử dụng chuyên gia lĩnh vực. Bảng ngữ cảnh được trình bày trong bảng 16, trong khi trong hình 6 chúng tôi trình bày sơ đồ mạng của Bảng ngữ cảnh 16. Bảng tập tất suy cho lớp quyết định bệnh suy tim được công bố trong Bảng 17 trong khi bảng quan hệ tất suy được đưa ra trong Bảng 18.

Từ tần suât cao hơn của Bảng tất suy 18,chúng ta có thể tìm ra đặc tính chính ảnh hưởng tới lớp quyết định suy tim .Các đặc tính quan trọng nhất do suy tim xảy ra là đau ngực không có triệu chứng và old peak-terrible. .Các đặc tính quan trọng khác đều có giá trị như nhau đối với lớp suy tim là đau ngực không đau thắt ngực đau, và thallium scam-fixed defect.

5.2.4 Decision Class Potential Patient Số luật sinh ra sử dụng thuật toán sinh luật cho lý thuyết tập thô là 17 và hơn nữa giảm thiểu tới 11 sử dụng chuyên gia .Điều này tiếp tục được xác thực và giảm xuống 9 số luật sử dụng tập dữ liệu kiểm thử. Bây giờ chúng tôi trình bày bảng ngữ cảnh trong Bảng 19, chuyển đổi 9 quy tắc của bệnh nhân tiềm năng đại diện cho các thuộc tính thu được từ quá trình trước.Trong hình 7, chúng tôi trình bày sơ đồ lưới của Bảng ngữ cảnh 19 cho lớp quyết định bệnh nhân tiềm năng . Bảng tập tất suy được trình bày trong Bảng 20 trong khi bảng quan hệ tất suy được đưa ra trong Bảng 21

Từ tần suất cao hơn của Bảng tất suy 21, Quan sát nhóm tuổi già là bệnh nhân tiềm năng ảnh hưởng đến bệnh tim.Các đặc tính chính ảnh hưởng đến lớp quyết định là huyết áp cao và đặc tính chính tiếp theo là đau ngực đau thắt ngực không điển hình.

5.2.5 Decision Class Cardiomyopathy Số luật sinh ra sử dụng thuật toán sinh luật cho lý thuyết tập thô là 17 và hơn nữa giảm thiểu tới 15 sử dụng chuyên gia .Điều này tiếp tục được xác thực và giảm xuống 14 số luật sử dụng tập dữ liệu kiểm thử. Bây giờ chúng tôi trình bày bảng ngữ cảnh trong Bảng 22, chuyển đổi 14 luật của bệnh bệnh cơ tim đại diện cho các thuộc tính thu được từ quá trình trước.Trong hình 8, chúng tôi trình bày sơ đồ lưới của Bảng ngữ cảnh 22 cho lớp quyết định bệnh cơ tim. Bảng tập tất suy được trình bày trong Bảng 23 trong khi bảng quan hệ tất suy được đưa ra trong Bảng 24

Từ tần suất cao hơn của Bảng tất suy 24, Chúng ta nhận các đặc tính chính của lớp bệnh cơ tim là nhịp tim tối đa cao và nói chung nó ảnh hưởng đến nhóm bệnh nhân nam giới.Đặc điểm quan trọng tiếp theo dẫn đến lớp này là ECG-phì đại.

6. Conclusion Trong nghiên cứu này, các thuật toán sinh luật của lý thuyết tập thô tạo ra 91 quy tắc.Điều này tiếp tục giảm thiểu đến 72 quy tắc đề cử với sự trợ giúp chuyên gia và hơn nữa, giảm thiểu đến 65 luật bởi quá trình xác nhận và giá

trị ngưỡng.Hơn nữa, những luật phù hợp này được thăm dò để xác định các đặc điểm chính ảnh hưởng đến mối quan hệ giữa bệnh tim và các thuộc tính của nó bằng cách sử dụng phân tích khái niệm hình thức. Điều này giúp những người làm quyết định phát hiện dấu hiệu của bệnh tim.

Các đặc điểm chính của bệnh tim tăng huyết áp là old peak (a83), exercise(a71).

Các đặc trưng khác gồm đau ngực (a12),huyết áp(a23),nhịp tim (a63).Đặc trưng chính của bệnh tim mạch vành là thallium scan (a93),exercise(a71);

Các đặc điểm chính của bệnh trụy tim là đau ngực (a14), exercise(a72) và old peak (a83)

Các đặc trưng khác gồm đau ngực (a13) và thallium scan(a92).

Các đặc điểm chính của bệnh nhân có thể dẫn đến bệnh tim là huyết áp(a23) và đau ngực (a12) mà tập trung ở nhóm tuổi già. Cuối cùng đặc trưng chính của bệnh cơ tim là nhịp tim tối đa (a63) và ECG(a53) mà tập chung ở nhóm nam giới.Chúng tôi tin rằng phân tích khái niệm hình thức có thể được sử dụng để tìm ra thong tin xa hơn bất kể các quy tắc dựa trên tính toán mềm.Cũng tin rằng mô hình đã đề xuất là phương pháp hữu ích cho những người làm quyết định

REFERENCES

1.giỚi thiỆu - web viewquá trình chẩn đoán y tế khác nhau về...

Documents