9.books kdd02 mdmkddfull

48
Multimedia data mining A. Mục lục tìm hiểu 1. Multimedia data mining framework for raw video sequences......2 2. An innovative concept for image information mining...........11 3. Multimedia data mining using p-trees.........................17 4. Scale Space Exploration for Mining Image Information Content – Khảo sát quy mô không gian của khai phá nội dung thông tin ảnh.. 20 5. Multimedia Knowledge Integration, Summarization and Evaluation ................................................................ 22 6. Object Boundary Detection for Ontology-based Image Classification.................................................. 23 7. Mammography Classification by an Association Rule-based Classifier...................................................... 24 8. An Application of Data Mining in Detection of Myocardial Ischemia utilizing preand post-Stress Echo Images...............25 9. From data to insight: the community of multimedia agents.....26 10. A content based video description schema and database navigation tool................................................. 27 11. Subjective interpretation of complex data: Requirements for supporting kansei mining process................................28 12. User Concept Pattern Discovery Using Relevance Feedback and Multiple Instance Learning for..................................29 B. Cấu trúc trang trong file PDF 1. Multimedia data mining framework for raw video sequences......7 Khung khám phá dữ liệu đa phương tiện cho chuỗi video thực 2. An innovative concept for image information mining ..........17 Một ý tưởng sáng tạo cho khai phá thông tin hình ảnh 3. Multimedia data mining using p-trees ........................25 Khai phá dữ liệu đa phương tiện sử dụng phương pháp p-trees 4. Scale Space Exploration for Mining Image Information Content 36 5. Multimedia Knowledge Integration, Summarization and Evaluation ................................................................ 45 6. Object Boundary Detection for Ontology-based Image Classification ................................................. 57 7. Mammography Classification by an Association Rule-based Classifier ..................................................... 68 8. An Application of Data Mining in Detection of Myocardial Ischemia utilizing preand post-Stress 1

Upload: can-nguyen

Post on 04-Mar-2015

111 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 9.Books KDD02 MdmkddFull

Multimedia data mining

A. Mục lục tìm hiểu

1. Multimedia data mining framework for raw video sequences.........................................................22. An innovative concept for image information mining...................................................................113. Multimedia data mining using p-trees............................................................................................174. Scale Space Exploration for Mining Image Information Content – Khảo sát quy mô không gian của khai phá nội dung thông tin ảnh...................................................................................................205. Multimedia Knowledge Integration, Summarization and Evaluation............................................226. Object Boundary Detection for Ontology-based Image Classification..........................................237. Mammography Classification by an Association Rule-based Classifier.......................................248. An Application of Data Mining in Detection of Myocardial Ischemia utilizing preand post-Stress Echo Images.......................................................................................................................................259. From data to insight: the community of multimedia agents...........................................................2610. A content based video description schema and database navigation tool....................................2711. Subjective interpretation of complex data: Requirements for supporting kansei mining process............................................................................................................................................................2812. User Concept Pattern Discovery Using Relevance Feedback and Multiple Instance Learning for............................................................................................................................................................29

B. Cấu trúc trang trong file PDF

1. Multimedia data mining framework for raw video sequences.........................................................7Khung khám phá dữ liệu đa phương tiện cho chuỗi video thực

2. An innovative concept for image information mining ..................................................................17Một ý tưởng sáng tạo cho khai phá thông tin hình ảnh

3. Multimedia data mining using p-trees ...........................................................................................25Khai phá dữ liệu đa phương tiện sử dụng phương pháp p-trees

4. Scale Space Exploration for Mining Image Information Content .................................................36

5. Multimedia Knowledge Integration, Summarization and Evaluation ...........................................456. Object Boundary Detection for Ontology-based Image Classification .........................................577. Mammography Classification by an Association Rule-based Classifier .......................................688. An Application of Data Mining in Detection of Myocardial Ischemia utilizing preand post-Stress 9. From data to insight: the community of multimedia agents ..........................................................8210. A content based video description schema and database navigation tool ...................................8911. Subjective interpretation of complex data: Requirements for supporting kansei mining process............................................................................................................................................................9912. User Concept Pattern Discovery Using Relevance Feedback and Multiple Instance Learning for Content-Based Image Retrieval .......................................................................................................106

1

Page 2: 9.Books KDD02 MdmkddFull

1. Multimedia data mining framework for raw video sequences

KEYWORDS: Multimedia Data Mining Khai phá dữ liệu đa phương tiệnVideo Segmentation, Phân đoạn VideoMotion Extraction, Trích chọn hướng chuyển độngVideo Data Clustering Phân cụm dữ liệu Video

Abtract

Trong bài viết này, chúng tôi đề xuất một khung chung cho việc khai phá dữ liệu video thời gian thực áp dụng cho các đoạn video gốc (video giao thông, video giám sát,...). Chúng tôi điều tra xem xét các kỹ thuật đã có áp dụng cho các loại video này như thế nào. Sau đó, chúng tôi giới thiệu các kỹ thuật mới cần thiết để xử lý chúng trong thời gian thực. Bước đầu tiên, khung làm việc của chúng tôi là nhóm các khung hình (frame) đầu vào thành một tập các đơn vị cơ sở thích hợp với cấu trúc của video. Chúng tôi gọi đơn vị này là một phân đoạn (segment). Đây là một trong những nhiệm vụ quan trọng nhất để xây dựng các khối cơ sở dữ liệu video và khai thác dữ liệu video. Bước thứ hai là đặc trưng hóa mỗi phân đoạn để phân cụm (cluster) thành các nhóm tương tự, để khám phá tri thức chưa biết, và phát hiện các mẫu quan tâm. Để làm điều này, chúng tôi trích một số đặc trưng (chuyển động, đối tượng, màu sắc, vv) từ mỗi phân đoạn. Trong khung làm việc của chúng tôi, chúng tôi trực tiếp coi sự chuyển động như là một đặc trưng, và nghiên cứu làm thế nào để tính toán và diễn đạt cho quá trình tiếp theo. Bước thứ ba, phân cụm các phân đoạn thành các nhóm tương tự. Sự phân cụm của chúng tôi sử dụng một cách tiếp cận phân cụm đa cấp để nhóm các phân đoạn sử dụng thể loại và chuyển động. Chúng tôi cho rằng khung làm việc đề xuất của chúng tôi là đầy hứa hẹn.

1. Giới thiệu Khai phá dữ liệu, được định nghĩa như là quá trình trích chọn tri thức chưa biết trước đó và phát hiện các mẫu dữ liệu quan tâm từ một tập dữ liệu lớn đang là một lĩnh vực nghiên cứu phát triển nóng hiện nay. Hiện nay đã có một vài kết quả đã phát triển thành sản phẩm thương mại. Tuy nhiên, hầu hết trong số đó tập trung vào dữ liệu doanh nghiệp như cơ sở dữ liệu alpha-số. Mặc dù vậy mới có số ít các nghiên cứu được thực hiện mang lại kết quả khả quan và thú vị trong lĩnh vực khai phá dữ liệu đa phương tiện.

Khai phá dữ liệu đa phương tiện đã được thực hiện đối với các kiểu dữ liệu đa phương tiện khác nhau như: hình ảnh, âm thanh và video. Một ví dụ tiêu biểu của khai phá dữ liệu đa phương tiện là hệ thống CONQUEST[1] trong đó kết hợp dữ liệu vệ tinh và dữ liệu địa lý để khám phá mẫu thay đổi khí hậu toàn cầu. Hệ thống SKICAT [2] tích hợp các kỹ thuật xử lý ảnh và phân loại dữ liệu để xác định ‘các đối tượng trên bầu trời’ thu nhận được từ tập hình ảnh vệ tinh cực lớn. Dự án MultiMediaMiner [3] đã xây dựng nhiều kỹ thuật hiểu ảnh, đánh chỉ mục và khai phá dữ liệu đa phương tiện.

Một ví dụ về khai phá dữ liệu âm thanh có thể được tìm thấy trong dự án khai phá kiến thức điện ảnh (Mining Cinematic Knowledge) [4], trong đó tạo ra một hệ thống khai phá bộ phim bằng cách kiểm tra sự phù hợp của khái niệm hiện có trong khai phá dữ liệu đa phương tiện, trong đó nội dung ngữ nghĩa là độ nhạy thời gian và được xây dựng bằng việc hợp nhất dữ liệu thu được từ các luồng thành phần. Một dự án [5,6] phân tích các chương trình tin tức phát sóng đã được công bố. Dự án đó phát triển các kỹ thuật và các công cụ để cung cấp các chú thích về video tin tức, lập chỉ mục và tìm kiếm thông tin liên quan đến lĩnh vực của bản tin đã phát trong chương trình. Một khung làm việc khai phá dữ liệu trong tương tác âm thanh-hình ảnh được được trình bày [7] để tìm hiểu các mô hình đồng bộ giữa hai kênh và áp dụng nó để điều khiển âm thanh theo hướng của hệ thống chuyển

2

Page 3: 9.Books KDD02 MdmkddFull

động. Một ví dụ nữa là hệ thống[8] tập trung quản lý dữ liệu video siêu âm tim để khai phá truy vấn ngữ nghĩa thông qua mô hình dữ liệu trạng thái chuyển dịch và lược đồ chỉ mục. Chúng ta có thể tìm thấy một vài khung làm việc khai phá dữ liệu đa phương tiện [9, 10, 11] đối với các hệ thống giám sát giao thông. Các dự án EasyLiving [12, 13] và HAL [14] đang phát triển không gian thông minh có thể theo dõi, dự báo và hỗ trợ các hoạt động của con người bằng việc sử dụng các công cụ phổ biến như là các hoạt động hàng ngày.

Như đã đề cập, có một vài cố gắng khai phá dữ liệu video đối với phim ảnh, video y học và video giao thông. Nhìn chung, có ba loại video đó là video tự dàn dựng, video thực và video y học. Video tự dàn dựng như video phim ảnh, video bản tin, video kịch sân khấu,... Video thực là video giao thông, video giám sát,... Ngoài ra các video âm thanh như siêu âm tim có thể gọi là video y học. Trên thực tế sự phát triển của các hệ thống giám sát phức hợp [15] và các hệ thống giám sát giao thông [10, 11, 16, 17, 18] gần đây đã chiếm được quan tâm của giới nghiên cứu và lĩnh vực công nghiệp thế giới do có sự quan tâm ngày càng tăng của bộ cảm biến và các bộ xử lý giá rẻ và chi phí hợp lý, về tính an toàn tăng lên và vấn đề bảo mật đảm bảo. Như đã đề cập trong tài liệu [9], cách tiếp cận phổ biến trong các công việc này là các đối tượng (người, xe, máy bay,...) được chiết xuất từ các chuỗi video và mô hình hóa bởi các kiến thức đặc tả miền cụ thể, sau đó hành vi của những đối tượng đó được giám sát (theo dõi) để tìm tìm ra tình huống bất bình thường. Những vấn đề còn phát triển trong những nỗ lực này, đầu tiên là làm sao để chỉ mục hóa và phân cụm những dữ liệu video không cấu trúc và to lớn để xử lý trong thời gian thực; thứ hai, làm thế nào để trích chọn tri thức chưa biết trước đó và phát hiện ra những mẫu quan tâm.

Những loại video khác nhau cần phải giải quyết khác nhau để đạt được những phần bị thiếu do đặc tính khác nhau của chúng. Trong bài báo này, chúng tôi đề nghị một khung làm việc chung cho khai phá dữ liệu video áp dụng cho các video thu được từ thời gian thực. Chúng tôi xem xét các kỹ thuật khai phá dữ liệu đa phương tiện hiện có để áp dụng cho loại video này. Sau đó, chúng tôi giới thiệu một kỹ thuật mới cần thiết để xử lý chúng trong thời gian thực. Hình 1 cho thấy khung làm việc đề nghị của chúng tôi có thể tóm tắt như sau:

3

Page 4: 9.Books KDD02 MdmkddFull

Hình 1: Đề xuất khung làm việc cho khai phá dữ liệu Video

* Tầng thứ nhất (Tầng 1 trong hình 1)

Tầng 1 nhóm các khung hình đầu vào một tập các đơn vị cơ sở tương thích với cấu trúc của video. Đây là một trong những nhiệm vụ quan trọng nhất vì nó là bước đầu tiên để xây dựng các khối dữ liệu video, và chuyển đổi các video từ nguyên liệu đầu vào thành dữ liệu ngữ nghĩa thông tin. Nhìn chung, hầu hết đơn vị cơ bản được sử dụng rộng rãi trong sản xuất video (như phim, video tin tức) là một cảnh (shot) xác định như là một tập hợp các khung hình ghi lại từ một thao tác đơn vị của máy ảnh. Các video tự nhiên thường được ghi lại từ một camera đơn cố định duy nhất hoặc nhiều camera di chuyển hạn chế và không on-off camera. Do đó, khái niệm về một cảnh được sử dụng với khái niệm trên. Trong nghiên cứu này, chúng tôi xem xét việc làm thế nào để nhóm các khung hình đầu vào thành nhóm ngữ nghĩa trong xử lý thời gian thực không áp dụng các khái niệm truyền thống của cảnh. Nhóm này được gọi là đoạn (segment) để phân biệt với cảnh quay. Thêm vào đó với sự phân chia tuyến tính này, chúng tôi xây dựng một cấu trúc phân cấp của các đoạn. Do đó, chúng tôi gọi sự phân đoạn của chúng tôi là sự phân đoạn phân cấp và mỗi đoạn được phân loại vào trong một phân loại khác nhau. Một lợi thế khác của phân đoạn phân cấp là nó có thể mang đến cho chúng tôi tổng độ dài khác nhau đối với các video đầu vào tự động. Chi tiết hơn sẽ được bàn luận trong phần tiếp theo.

* Tầng thứ hai (Tầng 2 trong hình 1)

Đặc tính của mỗi đoạn được phân cụm vào các nhóm tương tự đến khám phá tri thức chưa biết và phát hiện các mẫu quan tâm. Chúng tôi cần trích chọn các đặc trưng như hướng chuyển động, các đối tượng, màu sắc,... cho đặc tả của các đoạn này. Đó không chỉ là các đặc trưng quan trọng mà

4

Page 5: 9.Books KDD02 MdmkddFull

còn là cách để diễn đạt chúng điều mà chúng ta cần để so sánh các đoạn phân rã để mô tả chúng như đã đề cập ở trên. Đối với khung làm việc của chúng tôi, chúng tôi xem xét ba đặc trưng (chuyển động, đối tượng, màu sắc) được chiết xuất từ mỗi phân đoạn. Trong số các đặc trưng này, hướng chuyển động được xem xét tại thời điểm này, và các đặc trưng khác sẽ được nghiên cứu trong tương lai gần. Để trích chọn hướng chuyển động, chúng tôi sử dụng một sự tích lũy các sự khác biệt lượng điểm ảnh trong tất các khung hình trong đoạn [19]. Với kết quả là chuyển động tích lũy của phân đoạn được biểu diễn như một ma trận hai chiều. Kỹ thuật để tính toán hướng chuyển động rất hiệu quả bởi vì chi phí tính toán là không đáng kể. Bởi vậy các hướng chuyển động được biễu diễn dưới dạng một ma trận, việc so sánh giữa các phân đoạn với nhau thì rất có hiệu quả và có khả năng mở rộng.

* Tầng thứ ba (Tầng 3 trong hình 1)

Phân cụm các đoạn dựng lại thành các nhóm tương đương. Trong quá trình phân cụm chúng tôi sử dụng cách tiếp cận phân cụm đa cấp để nhóm các đoạn cùng loại tương tự ở cấp trên, và hướng chuyển động tương tự ở cấp dưới. Chúng tôi sử dụng thuật toán K-Mean và phương pháp giá trị cụm [20] do sự đơn giản và hiệu quả của nó. Sự phân cụm này là bước nền tảng cho khám phá tri thức và phát hiện mẫu sau này.

* Tầng thứ tiếp theo (Tầng 4 và 5 trong hình 1)

Ở các tầng tiếp theo (Tầng 4 và 5 trong hình 1) là quá trình khai phá thực sự dãy các dữ liệu tự nhiên đã được xử lý ở ba tầng trên, và dữ liệu video được nén từ những dữ liệu video tự nhiên. Khối dữ liệu Meta và tri thức cơ sở trong hình là một module lưu trữ các kết quả từ mỗi tầng và cung cấp những thông tin cần thiết cho từng tầng trong quá trình xử lý. Chẳng hạn tri thức và mẫu chúng ta có thể khám phá và phát hiện là xác định đối tượng, nhận dạng mẫu các đối tượng chuyển động, qua hệ không gian thời gian của các đối tượng, mô hình hóa và dò tìm các sự kiện thông thường và không thông thường và nhận dạng mẫu các sự kiện. Chúng tôi dự định phát triển các kỹ thuật để thực hiện các nhiệm vụ khai phá trong tương lai gần. Ngoài ra, một sự phù hợp và có sẵn của các kỹ thuật nén video bao hàm chuẩn MPEG sẽ được điều tra để lưu trữ những dữ liệu video này trong các cơ sở dữ liệu vật lý.

Phần còn lại của bài báo được tổ chức như sau: Trong phần 2, chúng tôi mô tả một kỹ thuật để nhóm các khung hình thành các đoạn. Kỹ thuật trích chọn đặc trưng hướng chuyển động được bàn luận ở phần 3. Trong phần 4 chúng tôi đưa ra một cách tiếp cận phân cấp nhiều cấp độ để nhóm các đoạn dựa trên sự phân loại và hướng chuyển động. Các kết quả thử nghiệm được bàn luận ở phần 5. Cuối cùng, chúng tôi rút ra kết luận ở phần 6.

2. Phân đoạn video

Trong phần này, chúng tôi bàn luận chi tiết về kỹ thuật phân nhóm các khung hình đầu vào thành các đoạn ngữ nghĩa thuần nhất. Đầu tiên, chúng tôi nhìn vào các kỹ thuật phân đoạn video hiện có dựa trên nội dung của cảnh để tìm ra những hạn chế và những vấn đề chúng gặp phải khi chúng được áp dụng như là các video tự nhiên với việc định nghĩa “cảnh” mà không áp dụng được. Tiếp theo chúng tôi giới thiệu một kỹ thuật mới để dựng lại video kiểu này.

2.1. Các kỹ thuật hiện có để phân đoạn video

Trong nhiều nghiên cứu, việc xử lý phân đoạn các video được xem như là dò tìm đường bao cảnh (shot boundary detection – SBD) thông thường vì vậy chúng đang được phân chia với cảnh như là một đơn vị phân đoạn. SBD này trở thành một lĩnh vực nghiên cứu nóng. Nhiều kỹ thuật đã được phát triển như tự động xác định chuyển động từ một cảnh sang cảnh khác. Điểm khác biệt chính

5

Page 6: 9.Books KDD02 MdmkddFull

trong các lược đồ này là sự khác nhau trong các khung hình được tính toán. Ý tưởng chính của những kỹ thuật này là nếu như giữa hai khung liên tiếp (hình 2a) rộng hơn một giá trị ngưỡng, thì đường bao của cảnh được xem xét giữa 2 khung hình tương ứng. Sự khác biệt có thể được xác định bằng việc so sánh các điểm ảnh tương ứng của hai ảnh [21]. Màu và lược đồ xám cũng có thể được sử dụng [22]. Ngoài ra, kỹ thuật dựa trên sự thay đổi của biên cũng đã được phát triển [23]. Các lược độ khác sử dụng vùng tri thức [24] như các mô hình ấn định trước cũng đã được điều tra [25,26,27,28,29].

(a) Sự khác biệt giữa 2 khung hình liên tiếp

(b) Sự khác biệt với nền khung hình

Hình 2. Chiến lược so sánh khung hình

Dẫu sao thì các kỹ thuật này làm việc không hiệu quả đối với dữ liệu tự nhiên mà trong nó có sự chuyển động nhỏ của máy ảnh trong hầu hết các dãy khung hình. Các đường cong chấm ở dưới cùng của hình 3 chỉ ra sự khác nhau lược đồ màu giữa 2 khung hình liên tiếp trong dãy video tự nhiên. Chú ý rằng dãy khung hình này được chụp một đám đông ở hành lang một tòa nhà, và được số hóa với 5 khung hình trên một giây. Đường cong cũng chỉ ra có nhiều sự khác nhau giữa 2 khung hình liên tiếp. Trên thực tế, hầu hết chúng nhỏ hơn 10%. Mặt khác, nếu chúng ta sử dụng sự khác nhau giữa các khung hình liên tiếp, hầu hết các khung hình được xem xét tương tự nhau. Do vậy, rất khó để tìm ra các đường bao rõ ràng đối với các đoạn. Để giải quyết hạn chế này, chúng tôi đề xuất một kỹ thuật mới áp dụng cho việc phân đoạn video tự nhiên trong tiểu mục sau.

6

Page 7: 9.Books KDD02 MdmkddFull

Hình 3. Chiến lược so sánh hai khung hình

2.2. Kỹ thuật mới để phân đoạn Video

Ý tưởng của kỹ thuật mới này là rất đơn giản. Thay vì việc so sánh giữa 2 khung hình liên tiếp chúng tôi so sánh mỗi khung hình với khung hình nền như chỉ ra ở hình 2b. Khung hình nền được xác định như là một khung hình chỉ các thành phần không chuyển động. Chúng ta có thể giả thiết rằng máy ảnh ở trạng thái tĩnh trong các ứng dụng của chúng ta, một khung hình nền là một khung hình chứa các thành phần hình ảnh tĩnh. Trong công việc này, việc lựa chọn cảnh quan làm khung hình nền sử dụng tương tự cách tiếp cận được đề cập trong tài liệu [9]. Đường liền nét nằm ở trên của hình 3 chỉ ra sự khác nhau của lược đồ màu với mỗi khung hình trong chuỗi các khung hình. Sự khác nhau. Các sự khác nhau được cắt ra để các đường bao đoạn có thể nhìn thấy rõ ràng hơn. Thuật toán để phân chia một chuỗi video tự nhiên thành các miếng có ý nghĩa (phân đoạn) được tóm tắt như sau: Bước 1 là bước tiền xử lý tĩnh, bước 2 đến bước 6 thực hiện xử lý thời gian thực. Chú ý là thuật toán phân đoạn này theo giải thuật di truyền, so sánh khung hình có thể được thực hiện bằng các kỹ thuật sử dụng lược đồ màu, phù hợp điểm ảnh hoặc tỷ lệ biên thay đổi. Chúng tôi chọn kỹ thuật phù hợp lược đồ màu đơn giản để minh họa cho ý định của chúng tôi.

Bước 1: Khung hình nền được trích chọn từ một dãy như là quá trình tiền xử lý, và lược được mầu được tính toán. Nói cách khác, khung hình này được biểu diễn như là một bin với một số lượng màu sắc nhất định từ bản gốc. Thông thường nếu như giá trị RGB của một điểm ảnh của ảnh gốc là 256 thì kích thước của một bin là 128, 64, hoặc 32. Như vậy một khung hình nền (FB) được biểu diễn là một bin với kích thước n. Chú ý rằng PT là tổng số điểm ảnh trong nền hoặc một khung.

(1)

Bước 2: Với mỗi khung hình (Fk) đến hệ thống thì được biểu diễn giống cách như đã biểu thị với khung hình nền ở bước trước, chúng ta có:

(2)

Bước 3: Tính toán sự phân biệt (Dk) giữa khung hình nền (FB) với mỗi khung hình (Fk) như sau:

7

Page 8: 9.Books KDD02 MdmkddFull

(3)

Chú ý rằng giá trị của Dk luôn luôn nằm trong khoảng [0,1].

Bước 4: Phân chia Dk thành 10 nhóm khác nhau dựa trên giá trị của nó. Định nghĩa một hệ số phân loại ký hiệu là (Ck) ứng với mỗi khung hình thứ k.- Loại 0: Dk < 0.1- Loại 1: 0.1 Dk < 0.2- Loại 2: 0.2 Dk < 0.3- Loại 3: 0.3 Dk < 0.4- Loại 4: 0.4 Dk < 0.5- Loại 5: 0.5 Dk < 0.6- Loại 6: 0.6 Dk < 0.7- Loại 7: 0.7 Dk < 0.8- Loại 8: 0.8 Dk < 0.9- Loại 9: Dk 0.9Bước 5: Với mỗi quá trình xử lý thời gian thực một bảng tạm thời được thành lập và duy trì. Để làm điều này và xây dựng một cấu trúc phân cấp từ dãy như đã đề cập ở phần 1, tiến hành so sánh Ck với Ck-1. Mặt khác, so sánh số loại của khung hình hiện tại với khung hình trước. Chúng tôi xây dựng một cấu trúc phân cấp từ dãy khung hình dựa trên các phân loại này một cách độc lập với nhau. Chúng tôi biểu diễn các loại thấp bao hàm các loại cao như hình vẽ 4.

STT đoạn Số khung hình bắt đầu

Số khung hình kết thúc

Độ dài đoạn Loại (Ck) Tổng số chuyển

động (TM)

Trung bình chuyển động (AM)

...

...

Bảng 1: Bảng phân đoạn

Hình 4: Quan hệ bao nhau của phân loại

Ví dụ, một đoạn A của Cat#1 bắt đầu với khung hình #a và kết thúc với khung hình #b, và một phân đoạn B có Cat#2 bắt đầu với khung hình #c, kết thúc với khung hình #d thì chúng ta có: a<c<d<b. Trong phân đoạn phân cấp, việc tìm đường bao của đoạn trở thành việc tìm đường bao của loại. Chẳng hạn chúng ta bắt đầu tìm từ khung hình bắt đầu là (S i) và khung hình kết thúc là (Ei) với mỗi loại i. Thuật toán dưới đây chỉ ra cách tìm đường bao như thế nào.- Nếu Ck-1 = Ck thì đường biên của đoạn không xuất hiện, tiếp tục với khung hình tiếp theo.- Ngược lại nếu Ck-1 < Ck thì SCk = k, SCk-1 =k,..., SCk-1+1 = k.Các khung bắt đầu của phân loại Ck

đến Ck-1+1 là k.- Ngược lại, với Ck-1 > Ck thì SCk-1 = k-1, SCk-1-1 =k-1,..., SCk+1 = k-1. Các khung hình cuối của phân loại Ck-1 đến Ck+1 là k-1.

8

Page 9: 9.Books KDD02 MdmkddFull

- Nếu như độ dài của đoạn nhỏ hơn giá trị ngưỡng (), chúng ta bỏ qua đoạn này vì nó quá ngắn để có thể thu được ngữ nghĩa nội dung. Nói chung, giá trị là 1 giây. Nói cách khác, chúng ta giả thiết rằng độ dài tối thiểu của một đoạn là 1 giây.

Bước 6: Như đã đề cập ở phần trước, để tính toán mở rộng, chúng ta có thể có vài cấp độ khác để tổng hợp video đầu vào mà chúng có độ dài khác nhau, nói cách khác, các cấp độ khác nhau được được tạo ra. Phương pháp đơn giản để lựa chọn tất cả các khung hình có giá trị phân loại lớn hon hoặc bằng C, với 1 C 9. Như vậy chúng ta có tới 9 giá trị khác nhau để tổng hợp.

3. Trích chọn đặc trưng chuyển động

Trong phần này, chúng tôi mô tả việc rút trích và biểu diễn chuyển động như thế nào từ mỗi đoạn được phân tách từ dãy video tự nhiên như đã bàn luận từ phần trước. Chúng tôi phát triển kỹ thuật để đo tự động tổng thể chuyển động không những chứa trong 2 khung hình liên tiếp mà còn tất cả cảnh thu nhận được từ các khung hình trong công việc trước đó của chúng tôi [30, 19]. Chúng tôi mở rộng kỹ thuật này để trích chọn chuyển động một đoạn, và biểu diễn nó ở dạng có thể so sánh được trong phần này. Chúng tôi dùng một ma trận, gọi là ma trận tổng hợp chuyển động (Total Motion Matrix), ký hiệu là TMM. Ma trận này được xem xét như là tổng hợp chuyển động của một đoạn và được biểu diễn bằng ma trận hai chiều. Để so sánh các đoạn có độ dài khác nhau, chúng tôi cũng dùng một ma trận gọi là ma trận trung bình chuyển động (Average Motion Matrix), ký hiệu là AMM, và các hệ số TM- chuyển động tổng hợp (Total Motion), AM-chuyển động trung bình (Average Motion).

TMM, AMM, TM và AM đối với một đoạn với n khung hình được tính toán bằng việc sử dụng thuật toán dưới đây (bước 1 đến bước 5). Chúng tôi giả thiết rằng kích thước khung hình là cxr điểm ảnh.

- Bước 1: Không gian màu của mỗi khung hình được lượng tử hóa để giảm nhiễu.- Bước 2: Định nghĩa một ma trận TMM(c x r) cho đoạn S. Tất cả các phần tử ban đầu của nó là 0.

(4)

Ma trận AMMS là ma trận chứa các phần tử tính toán trung bình như sau:

(5)

- Bước 3: So sánh tất cả các hệ số các điểm ảnh lượng tử hóa trong cùng vị trí của hai khung hình liên tiếp. Nếu chúng có màu khác nhau, thì tăng giá trị của phần tử t ij của ma trận TMM lên 1 (giá trị này có thể lớn hơn phụ thuộc vào từng điều kiện), còn ngược lại thì giữ nguyên.

9

Page 10: 9.Books KDD02 MdmkddFull

- Bước 4: Lặp lại bước 3 cho đến khi các cặp kế tiếp nhau được so sánh hết.- Bước 5: Sử dụng ma trận TMM và AMM để tính các đặc trưng chuyển động TM và Am như sau:

(6)

Trong công thức này, TM là tổng của tất cả các phần tử trong TMM và chúng ta xem xét điều này như là tổng chuyển động trong đoạn. Nói cách khác, TM có thể chỉ ra một lượng chuyển động của đoạn. Tuy nhiên, TM phụ thuộc không những số lượng các chuyển động mà còn phụ thuộc vào độ dài của đoạn. Một ma trận TM của độ dài đoạn với chuyển động hạn chế có thể tương đương với TM của một đoạn ngắn với nhiều chuyển động. Để phân biệt điều này, đơn giản là chúng ta sử dụng AM với giá trị trung bình TM.

Để hình dung việc tính toán TMM (hoặc AMM), chúng ta có thể chuyển đổi TMM thành ma trận chuyển động tổng của ảnh (TMMI), còn AMM chuyển đổi thành AMMI. Ví dụ chúng tôi chuyển đổi một TMM với giá trị lớn nhất, m thành ảnh kích thước 256 mức xám. Chúng tôi cũng có thể chuyển đổi AMM bằng việc sử dụng cách tương tự. Nếu m lớn hơn 256 thì m và các giá trị khác được giảm xuống về 256, nếu không chúng được mở rộng lên. Các giá trị 0 vẫn còn chưa thay đổi. Một bức ảnh rỗng cùng kích thước của TMM được tạo ra là TMMI, và giá trị hệ số của TMM được xem như là một giá trị của điểm ảnh. Ví dụ, chỉ định điểm trắng của giá trị 0 của ma trận có nghĩa là không chuyển động, và các điểm đen với các giá trị 256 có nghĩa là chuyển động tối đa trong một cảnh nhận được. Mỗi giá trị điểm ảnh của TMMI có thể biểu thị theo công thức dưới sau khi nó được tỷ lệ lên hoặc xuống nếu chúng ta giả thiết rằng TMMI là ảnh có kích thước 256 mức xám.

Mỗi giá trị điểm ảnh = 256 – giá trị hệ số ma trận

4. Phân cụm các đoạn

Trong quá trình phân cụm, chúng tôi sử dụng cách tiếp cận đa phân cấp để nhóm các đoạn trong cùng một thể loại và chuyển động của các đoạn. Thuật toán được cài đặt theo cách thức top-down, với đặc trưng, phân loại được sử dụng ở mức độ cao, một cách khác chúng tôi nhóm các đoạn thành k1 cụm trong các phân loại. Để thuận tiện, chúng tôi gọi đặc trưng này là đặc trưng đỉnh. Mỗi cụm được phân cụm tiếp tục thành k2 nhóm dựa trên chuyển động (AM) trích chọn trong các phần trước, được gọi là đặc trưng đáy.

Với việc phân cụm nhiều cấp độ, chúng tôi sử dụng thuật toán K-mean và phương pháp phân cụm nghiên cứu bởi Ngo [20], trong đó thuật toán thường sử dụng nhất vì tính đơn giản và hiệu quả. Điều đó được sử dụng để phân đoạn cụm ở mỗi cấp độ phân cấp phụ thuộc. Thuật toán K-mean được cài đặt như sau:Bước 1: Các lựa chọn ban đầu được thực hiện như sau:

a) Dùng véc tơ v, kích thước d chứa các đặc trưng, chia kích thước d thành phần. Các

khoản này được lập chỉ mục tương ứng: [1,2,3,..., ], [, +1, +2,..., 2],...,[(k-1) +1, (k-1) +2, (k-1)+3,..., k].

b) Với mỗi khoản con j của [(j-1) +1, ..., j] tổng hợp 1 giá trị đối với mỗi vectơ đặc trưng Fi được tính:

c) Chọn giá trị trọng tâm ban đầu

Bước 2: Phân loại từng tính năng F tới các cụm ps với khoảng cách nhỏ nhất

10

Page 11: 9.Books KDD02 MdmkddFull

D là hàm đo khoảng cách giữa 2 véc tơ đặc trưng và được xác định là:

với

Trong đó k=1 đối với L1 và k=2 với L2. Giá trị L1 và L2 là hai số liệu khoảng cách được sử dụng thường xuyên nhất để so sánh với 2 véc tơ đặc trưng. Trong thực tế, tuy nhiên quy phạm L1 thực hiện tốt hơn quy phạm L2 đã được mô tả trong tài liệu [31]. Hơn nữa, quy phạm L 1 tính toán hiệu quả và mạnh hơn. Chúng tôi sử dụng quy phạm L1 cho các thử nghiệm của chúng tôi.

Bước 3: Dựa trên sự phân loại, cập nhật trọng tâm cụm là:

với vj là số lượng cảnh trong cụm j và Fi(j) là véc tơ đặc trưng thứ i trong cụm j.

Bước 4: Nếu một trọng tâm cụm thay đổi giá trị bởi bước 3, chuyển sang bước 2, ngoài ra thì dừng thuật toán.

Thuật toán K-mean có thể được sử dụng khi mà số lượng các cụm k là xác định rõ ràng. Để tìm số lượng (k) các cụm tối ưu, chúng tôi thực hiện phân tích giá trị cụm [32]. Ý tưởng là tìm các cụm mà khoảng cách giữa các cụm nhỏ nhất trong khi khoảng cách bên trong cụm là lớn nhất. Các biện pháp tách nhóm (k) được xác định:

với , ij là khoảng cách trong cụm của cụm i và j, trong đó j là

khoảng cách ngoại của cụm j. Số tối ưu của cụm k1 được chọn là . Một cách khác, thuật toán K-mean được kiểm tra với k=1,2,...,q và một giá trị thấp nhất của (k) được chọn.

Trong cấu trúc phân cụm nhiều cấp độ của chúng tôi, trọng tâm ở cấp độ đầu diễn đạt phân loại của các đoạn trong một cụm, và trọng tâm ở cấp độ đáy diễn đạt đặc điểm chuyển động chung của cụm con. 5. Kết quả thực nghiệm

Thực nghiệm của chúng tôi trong nghiên cứu này đã được thiết kế trực tiếp thực hiện các công việc sau:- Thuật toán phân đoạn được đề nghị làm việc như thế nào để nhóm các khung hình đầu vào?- TM, AM và thuật toán đề nghị làm việc như thế nào đối với việc phân cụm các đoạn?

Các clip video kiểm tra của chúng tôi đã được số hóa gốc ở định dạng AVI 20 khung hình/giây. Độ phân giải 160x120 pixels. Chúng tôi sử dụng tỷ lệ 5 và 2 khung hình/giây làm tỷ lệ khung hình vào. Tập thử nghiệm của chúng tôi có 111 phút và 51 giây đối với video tự nhiên quay được từ hành lang một tòa nhà có chứa tất cả 17,635 khung hình.

11

Page 12: 9.Books KDD02 MdmkddFull

5.1. Thực hiện phân đoạn video

Một ví dụ phân đoạn video đơn giản có thể quan sát ở hình 5 và bảng 2. Ở cột 4 và cột 5 của bảng chỉ ra độ dài (số các khung hình) của mỗi đoạn và phân loại của nó. Hai cột tiếp theo (Chuyển động tổng hợp và Chuyển động trung bình) sẽ đwọc bàn luận trong phần tiểu mục. Thuật toán phân đoạn đề nghị được bàn luận ở phần 2 đã được áp dụng cho dãy video thử nghiệm của chúng tôi như đã đề cập. Kết quả là bốn đoạn phân cấp khác nhau được đặc tả trong hình 5. Nội dung chung nhất của kiểu video này là các đối tượng (như người, xe cộ,...) đang xuất hiện và ra khỏi với các hướng khác nhau. Ở đoạn thứ #4 (phân loại #2) biểu diễn kiểu này của nôi dung với người đang xuất hiện và ra khỏi trong trường hợp này.

STT đoạn Số khung hình bắt đầu

Số khung hình kết

thúc

Độ dài đoạn Loại (Ck) Tổng số chuyển

động (TM)

Trung bình chuyển

động (AM)1 206 219 14 2 63 4.52 206 214 9 3 28 3.13 206 211 6 4 15 2.54 207 209 3 5 3 1.0

Bảng 2: Kết quả phân đoạn đối với hình 5

Bảng 3 cho biết các kết quả phân đoạn tất cả với tập thử nghiệm của chúng tôi. Cột 2 và cột 3 của bảng biểu diễn số lượng khung hình cho mỗi phân nhóm và số lượng tích lũy các khung hình tới phân nhóm tương ứng. Ví dụ số 3871 ở dòng cat#3 chỉ ra tổng số khung hình từ phân nhóm #9 đến phân nhóm #3. Trong bảng các đoạn phân nhóm cao có thể tổng hợp phân cấp đối với các đoạn phân nhóm thấp.

Phân nhóm Số khung hình Tổng số khung hình tích lũy

Số đoạn Số lượng trung bình khung/đoạn

Cate #0 2877 17635 - -Cate #1 6533 14758 309 47.8Cate #2 4354 8225 216 38.1Cate #3 3580 3871 183 21.2Cate #4 244 291 36 8.1Cate #5 32 47 10 4.7Cate #6 12 15 4 3.8Cate #7 3 3 1 3Cate #8 0 0 0 0Cate #9 0 0 0 0

Bảng 3. Kết quả phân đoạn cho tập kiểm thử

5.2. Thực hiện của TM, AM và phân cụm

Trước khi chúng tôi bàn luận việc thực hiện thuật toán đề nghị cho phân cụm, chúng tôi đưa ra vài ví dụ về TM, và AM trong bảng 2. Hình 7 chỉ ra TMMI và AMMI đối với các đoạn (#1, #2, và #4) trong hình 5. Trong toàn bộ hình, chúng ta có thể thấy rằng TMs và AMs biểu diễn bởi TMMIs và AMMIs có thể đo chính xác số lượng chuyển động trong mỗi đoạn tích lũy.Như đã đề cập ở phần trước, đầu tiên các đoạn được phân cụm bằng việc các phân nhóm được xác định để phân đoạn. Trong cấp độ tiếp theo, mỗi cụm được phân chia thành các cụm con nhỏ hơn bằng việc sử dụng AM. Hình 6 chỉ ra rằng ví dụ rất đơn giản được phân cụm bằng phân nhóm, và

12

Page 13: 9.Books KDD02 MdmkddFull

hơn nữa việc phân chia sử dụng đặc trưng chuyển động, AM. Kích thước khác nhau của các đối tượng được phân biệt bằng phân nhóm, nói cách khác các đoạn trong phân nhóm cao có sự liên quan hơn hoặc nhiều đối tượng hơn. Mặt khác, chuyển động trung bình được biểu diễn bởi AM có thể phân biệt số lượng chuyển động trong các đoạn khác nhau.

6. Nhận xét và Kết luận

Ví dụ về tri thức và mẫu mà chúng ta có thể khám phá và phát hiện từ dãy video tự nhiên là xác định đối tượng, nhận dạng mẫu di chuyển đối tượng, quan hệ không gian – thời gian của các đối tượng, mô hình hóa và dò tìm sự kiện thông thường, sự kiện không bình thường và nhận dạng mẫu sự kiện. Trong bài báo này, chúng tôi đã đưa ra một khung làm việc chung cho việc khai phá dữ liệu video tự nhiên để thực hiện các nhiệm vụ nền tảng đó là phân đoạn thời gian của dãy video, trích chọn đặc trưng và phân cụm các đoạn. Mặc dù tập dữ liệu thực nghiệm của chúng tôi là có giới hạn, các kết quả chỉ ra rằng khung làm việc đề xuất để thực hiện nhiệm vụ cơ bản là hiệu quả. Trong nghiên cứu tương lai, chúng tôi sẽ xem xét các đặc trưng khác (đối tượng, màu) trích chọn từ các đoạn để sắp xếp và lập chỉ mục các cụm. Cũng như vậy sự phù hợp và khả dụng đối với các kỹ thuật nén video đa dạng trong đó có MPEG sẽ được điều tra để lưu trữ dữ liệu video này trong cơ sở dữ liệu vật lý.

Ví dụ phân đoạn

13

Page 14: 9.Books KDD02 MdmkddFull

Fig. 7: (a) and (b) : TMMI and AMMI of Segment #1, (c) and (d) : TMMI and AMMI of Segment #2, (e) and (f) : TMMI and AMMI of Segment #3, and (g) and (h) : TMMI and AMMI of Segment #4

7. Tài liệu tham khảo

[1] P. Stolorz, H. Nakamura, E. Mesrobian, R. Muntz, E. Shek, J. Santos, J Yi, K Ng, S. Chien, C. Mechoso, and J. Farrara. Fast spatio-temporal data mining of large geophysical datasets. In Proc. of Int’l Conf. on KDD, pages 300–305, 1995.

[2] U. Fayyad, S. Djorgovski, and N. Weir. Automating the analysis and cataloging of sky surveys. Advances in Knowledge DIscovery with Data Mining, pages 471–493, 1996.

14

Page 15: 9.Books KDD02 MdmkddFull

[3] Z.-N Li, O.R. Zaiane, and Z. Tauber. Illumination invariance and object model in content-based image and video retrieval. Journal of Visual Communication and Image Representation, 1998.

[4] D. Wijesekera and D. Barbara. Mining cinematic knowledge: Work in progress. In Proc. of International Workshop on Multimedia Data Mining (MDM/KDD’2000), pages 98–103, Boston, MA, August 2000.

[5] K. Shearer, C. Dorai, and S. Venkatesh. Incorporating domain knowledge with video and voice

data analysis in news broadcasts. In Proc. of International Workshop on Multimedia Data Mining

(MDM/KDD’2000), pages 46–53, Boston, MA, August 2000.

[6] V. Kulesh, V. Petrushin, and I. Sethi. The perseus project: Creating personalized multimedia news portal. In Proc. of International Workshop on Multimedia Data Mining MDM/KDD’2001), pages 31–37, San Francisco, CA, August 2001.

[7] Y. Chen, W. Gao, Z. Wang, J. Miao, and D. Jiang. Mining audio/visual database for speech driven face animation. In Proc. of International Conference on Systems, Man and Cybernetics, pages 2638–2643, 2001.

[8] P.K. Singh and A.K. Majumdar. Semantic contentbased retrieval in a cideo database. In Proc. of

International Workshop on Multimedia Data Mining (MDM/KDD’2001), pages 50–57, San Francisco, CA, August 2001.

[9] S. Chen, M. Shyu, C. Zhang, and J. Strickrott. Multimedia data mining for traffic video sequences. In Proc. of InternationalWorkshop on Multimedia Data Mining (MDM/KDD’2001), pages 78–86, San Francisco, CA, August 2001.

[10] R. Cucchiara, M. Piccardi, and P. Mello. Image analysis and rule-based reasoning for a traffic monitoring system. IEEE Transactions on Intelligent Transportation Systems, 1(2):119–130, June 2000.

[11] D. Dailey, F. Cathey, and S. Pumrin. An algorithm to estimate mean traffic speed using uncalibrated cameras. IEEE Transactions on Intelligent Transportation Systems, 1(2):98–107, June 2000.

[12] J. Krumm, S. Harris, B. Meyers, B. Brumitt, M. Hale, and S. Shafer. Multi-camera multi-person tacking for easyliving. In Proc. of 3rd IEEE InternationalWorkshop on Visual Surveillance, pages 3–10, 2000.

[13] S. Shafer, J. Krumm, B. Meyers, B. Brumitt, M. Czerwinski, and D. Robbins. The new easyliving project at microsoft research. In Proc. of DARPA/NIST Workshop on Smart Spaces, pages 127–130, 1998.

[14] M. Coen. The future of human-computer interaction or how i learned to stop worrying and love my intelligent room. IEEE Intelligent Systems, 14(2):8–10, March 1999.

[15] I. Pavlidis, V. Morellas, P. Tsiamyrtzis, and S. Harp. Urban surveillance systems: From the laboratory to the commercial world. Proceedings of The IEEE, 89(10):1478–1497, Oct. 2001.

[16] S. Kamijo, Y. Matsushita, K. Ikeuchi, and M. Sakauchi. Traffic monitoring and accident detection at intersections. In IEEE Intenational Conference on Intelligent Tansportation Systems, pages 703–708, Tokyo, Japan, 1999.

[17] T. Huang, D. Koller, J. Malik, and G. Ogasawara. Automatic symbolic traffic scene analysis using belief networks. In Proc. of AAAI, 12th National Conference on Artificial Intelligence (AAAI’94), pages 966–972, Seattle, WA, 1994.

15

Page 16: 9.Books KDD02 MdmkddFull

[18] D. Koller, J. Weber, and J. Malik. Robust multiple car tracking with occlusion reasoning. In Proc. of European Conference on Computer Vision, pages 189–196, Stockholm, Sweden, 1994.

[19] JungHwan Oh and Praveen Sankuratri. Automatic distinction of camera and objects motions in video sequences. In To appear in Proc. of IEEE International Conference on Multimedia and Expo (ICME 2002), Lausanne, Switzerland, Aug. 2002.

[20] C.W. Ngo, T.C. Pong, and H.J. Zhang. On clustering and retrieval of video shots. In Proc. of ACM Multimedia 2001, pages 51–60, Ottawa, Canada, Oct. 2001.

[21] E. Ardizzone and M. Cascia. Automatic video database indexing and retrieval. Multimedia Tools and Applications, 4:29–56, 1997.

[22] H. Yu andW.Wolf. A visual search system for video and image databases. In Proc. IEEE Int’l Conf. on Multimedia Computing and Systems, pages 517–524, Ottawa, Canada, June 1997.

[23] R. Zabih, J. Miller, and K. Mai. A feature-based algorithm for detecting and classifying scene breaks. In Proc. of ACM Multimedia ’95, pages 189–200, San Francisco, CA, 1995.

[24] R. Lienhart and S. Pfeiffer. Video abstracting. Communications of the ACM, 40(12):55–62, December 1997.

[25] L. Zhao, W. Qi, Y. Wang, S. Yang, and H. Zhang. Video shot grouping using best-first model merging. In Proc. of SPIE conf. on Storage and Retrieval for Media Databases 2001, pages 262–269, San Jose, CA, Jan. 2001.

[26] S. Han and I. Kweon. Shot detection combining bayesian and structural information. In Proc. of SPIE conf. on Storage and Retrieval for Media Databases 2001, pages 509–516, San Jose, CA, Jan. 2001.

[27] JungHwan Oh, Kien A. Hua, and Ning Liang. A content-based scene change detection and classification technique using background tracking. In SPIE Conf. on Multimedia Computing and Networking 2000, pages 254–265, San Jose, CA, Jan. 2000.

[28] JungHwan Oh and Kien A. Hua. An efficient and cost-effective technique for browsing and indexing large video databases. In Proc. of 2000 ACM SIGMOD Intl. Conf. on Management of Data, pages 415–426, Dallas, TX, May 2000.

[29] Kien A. Hua and JungHwan Oh. Detecting video shot boundaries up to 16 times faster. In The 8th ACM International Multimedia Conference (ACM Multimedia 2000), pages 385–387, LA, CA, Oct. 2000.

[30] JungHwan Oh and Tummala Chowdary. An efficient thechnique for measuring of various motions in video sequences. In To appear in Proc. of The 2002 International Conference on Imaging Science, System, and technology (CISST’02), Las Vegas, NV, June 2002.

[31] P.J. Rousseeuw and A. M. Leroy. Robust Regression and Outlier Detection. JohnWiley and Sons, 1987.

[32] A. K. Jain. Algorithm for Clustering Data. Prentice Hall, 1988.

16

Page 17: 9.Books KDD02 MdmkddFull

2. An innovative concept for image information mining

KEYWORDS: Information mining, Khám phá thông tinData mining, Khám phá dữ liệuCBIR Content-Based Image Retrieval Tìm kiếm ảnh dựa trên nội dung.

Abstract

Khai phá thông tin mở ra các triển vọng mới và tiềm năng lớn để khai thác thông tin từ một khối lượng lớn các hình ảnh không đồng nhất và tương quan của thông tin này với các mục tiêu của các ứng dụng. Chúng tôi trình bày một khái niệm mới và hệ thống khai phá thông tin hình ảnh dựa trên việc mô hình hóa sự liên hệ có liên kết các nội dung tín hiệu hình ảnh tới các đối tượng và các cấu trúc hữu ích cho người dùng. Ý tưởng cơ bản là phân chia biểu diễn thông tin thành 4 bước:

1. Trích chọn đặc trưng ảnh sử dụng thư viện các thuật toán để mô tả tín hiệu hoàn chỉnh2. Phân nhóm không giám sát trong số lượng lớn các cụm phù hợp với một tập lớn các công việc3. Giảm dữ liệu bằng việc mô hình hóa tham số các cụm4. Học giám sát ngữ nghĩa của người dùng, bao gồm các chương trình, hệ thống huấn luyện bằng tập hợp ví dụ; các liên kết đến nội dung hình ảnh của người dùng đã được tạo ra.

Bản ghi của khung hình của các liên kết là thủ tục thu nhận tri thức, hệ thống ghi nhớ giả thuyết của người dùng.Bước 4 là đối thoại người máy, sự chuyển đổi thông tin được thực hiện sử dụng các công cụ quan sát chuyên sâu. Hệ thống học được những gì người dùng cần.Hệ thống này hiện nguyên mẫu để đưa vào một thế hệ mới của các hệ thống vệ tinh thông minh, phân khúc mặt bằng, giá trị bổ sung thêm công cụ trong lĩnh vực thông tin địa lý, và nhiều ứng dụng trong y học và sinh trắc học cũng như lĩnh vực quan sát.

17

Page 18: 9.Books KDD02 MdmkddFull

Figure 1.

Top: Visualization of a digital Elevation Model DEM data set of Davos, Switzerland. The information on terrain height is contained in the pixel intensity, the information is quantitative and is not rich in visual meaning.

Bottom: Satellite image (Landsat TM) of the same area. The information is pictorial, aggregation of colors, textures and geometrical objects at different scales makes it possible to understand the scenery of an alpine ski resort.

Ảnh trên: Ảnh số quan sát từ độ cao (DEM) dữ liệu của Davor, Switzerland. Các thông tin về chiều cao địa hình được thể hiện trong cườngd dộ điểm ảnh, thông tin định lượng được thì không trực quan.

Ảnh dưới: Ảnh vệ tinh (Landsat TM) chụp cùng vị trí. Thông tin thể hiện các đường vân ảnh, sự kết hợp của màu sắc, đường vân và các đối tượng hình học ở các quy mô khác nhau làm cho nó có thể hiểu được rõ hơn quang cảnh của một khu nghỉ dưỡng trượt tuyết.

Figure 2. The hierarchical representation of the image information content, and the causalities to correlate the user conjecture to the image content. The key elements are: the quasi-complete image signal description by extraction of the elementary features, the data reduction by clustering, thus inducing also a measure of some similarity over the feature space, the utilization of the cluster models as elements of an abstract vocabulary which in an interactive learning process enables to learn the semantics of the target and the user conjecture.

Hình 2. Biểu diễn phân cấp nội dung thông tin hình ảnh, mối quan hệ tương tác giữa phỏng đoán của người dùng tới nội dung hình ảnh. Các yếu tố chính là: mô tả tín hiệu hình ảnh bán hoàn thành bằng việc trích chọn các đặc trưng cơ bản, giảm dữ liệu phân cụm, vì thế gây cảm

Các đại diện phân cấp nội dung thông tin hình ảnh, và các thương vong tương quan các phỏng đoán người dùng với nội dung hình ảnh. Các yếu tố chính là: các hình ảnh gần như hoàn toàn tín hiệu mô tả bằng cách khai thác các tính năng cơ bản, giảm các dữ liệu theo nhóm, vì thế gây cảm ứng cũng là một biện pháp của một số tương tự trên các không gian chức năng, sử dụng các mô hình cụm như các yếu tố của một từ ngữ trừu tượng mà

18

Page 19: 9.Books KDD02 MdmkddFull

trong một quá trình học tập tương tác cho phép để tìm hiểu ngữ nghĩa của các mục tiêu và phỏng đoán của người dùng.

Figure.3: The system architecture. In yellow the server, violet the client.

19

Page 20: 9.Books KDD02 MdmkddFull

Figure 4. Top: Result of semantic query – discovering settlements. The images have been automatically analyzed at ingestion in the archive, and a catalogue entry was created for all images containing build up areas.

Bottom: Each image has attached the result of the classification, the regions marked in red correspond to villages and cities, thus the result of the query is the list of images, augmented with the expected semantic image content. Synthetic Aperture Radar X-SAR SRL images of Switzerland.

Figure 5. The geographical location of the images obtained as result of a semantic query (Fig. 3).

Figure 6.

20

Page 21: 9.Books KDD02 MdmkddFull

Left: Spectral image content, in red, obtained by the correlation of a specified cluster model with the pixel position in the image. Right: Texture image content obtained in similar manner, however, the textural information characterizes structures, thus the resulting classification has connected areas. The information is indexed enabling to discover all images with similar spectral or textural properties. Landsat TM image of Switzerland.

Figure 7. Left: structures correspond to a fine scale.

Right: In the same image structures corresponding to a rougher scale. The scale of structures in images is a fundamental descriptor, both in relation with the visual interpreting, and objectively in relation with the resolution of the sensor. The parameters of a multiscale random filed are used to automatically detect the relevant scales. The information is indexed enabling to discover all images with structures at similar scales. Aerial photography.

Figure 8. Top: Example of images of low (left) andhigh (right) spectral complexity. Bottom: Example ofimages of low (left) and high (right) structural complexity.

21

Page 22: 9.Books KDD02 MdmkddFull

The complexity of the images was measuredas Kullback-Leiber entropy at the classification andclustering levels in the information hierarchy. The lowcomplexity images are poor in information content,high complexity images show more “activity” thusgiving a better chance to discover “interesting” structures,or objects. The complexity values are indexedenabling to discover all images with similar behavior.

22

Page 23: 9.Books KDD02 MdmkddFull

3. Multimedia data mining using p-trees

KEYWORDS: Spatial - Temporal Data Mining, Khai phá dữ liệu không gian thời gianP-tree Phương pháp P-tree

Abstract

The DataSURG group at NDSU has a long-standing interest in data mining remotely sensed imagery (RSI) for agricultural, forestry and other prediction and analysis applications. A spatial data structure, the Peano count tree, was developed that provided an efficient, lossless, data mining ready representation of the many types of data involved in these applications. This data structure has made possible the mining of multiple very large data sets, including time-sequence of RSI and multimedia land data.

The Peano count tree (P-tree) technology provides an efficient way to store and mine images of any format, together with pertinent land data of still other formats. With the invention of Gene chips and gene expression microarrays (MA data) for use in medicine, plant science and many other application areas, new multimedia data mining challenges appeared. MA data presents a one-time, gene expression level map of thousands of genes subjected to hundreds of conditions. An important multimedia plant science application of the near future is to integrate macroscale analysis of RSI with the micro-scale analysis of MA and to do the latter across multiple organisms. Most of the MA research has been done for a particular organism and the results have been archived as text abstracts (e.g., Medline abstracts). It will therefore be necessary to combine text mining with most multimedia RSI and MA mining. This is truly a multimedia data mining setting. The way text is almost always mined today is to extract pertinent features into tables and to then mine the tables (i.e., extract structured records from the unstructured text first). P-trees are a convenient technology to mine all media involved in this research.

In fact, in almost all multimedia data mining applications, feature extraction converts the pertinent data to relational or tabular form, and then the tuples or rows are data mined. If multi-medias are going to be mined by first converting to a common format or media, a good candidate common data structure for that purpose is the P-tree. The P-tree data structure is designed for just such a data mining setting.

Figure 1: Image data sequenced in the time dimension

23

Page 24: 9.Books KDD02 MdmkddFull

Figure 2 process of video-audio multimedia data mining

Figure 3 BSQ, BIP, BIL and bSQ formats for a two-band 22 image

Figure 4 P-tree for a 88 bSQ file

24

Page 25: 9.Books KDD02 MdmkddFull

Figure 5. PM-tree

Figure 6 P1-tree and P0-tree

Figure 7. P-tree Algebra (Complement, AND, OR)

25

Page 26: 9.Books KDD02 MdmkddFull

4. Scale Space Exploration for Mining Image Information Content – Khảo sát quy mô không gian của khai phá nội dung thông tin ảnh.

Keyword: Melting algorithm, Thuật toán nóng chảyFast cluster estimation Tính toán phân cụm nhanh

Abtract

Ảnh là tín hiệu đa chiều có độ phức tạp cao chứa đựng nội dung thông tin đầy đủ. Do vậy chúng thật khó để phân tích bằng phương pháp tự động. Tuy nhiên, sự biểu diễn phân cấp sẽ giúp chúng ta hiểu nội dung của ảnh nhiều hơn.

In this paper, we describe an application of a scalespace clustering algorithm (melting) for exploration of image information content. Clustering by melting considers the feature space as a thermodynamical ensemble and groups the data by minimizing the free energy, having the temperature as a scale parameter. We develop clustering by melting for multidimensional data, and propose and demonstrate a solution for the initialization of the algorithm.

Bài báo này chúng tôi mô tả một ứng dụng thuật toán phân cụm quy mô không gian (nóng chảy) để khảo sát nội dung thông tin ảnh. Phân cụm bằng nóng chảy (melting) chứa đựng đặc trưng không gian như là nhiệt động học và nhóm các dữ liệu bằng khai phá năng lượng tự do, có được nhiệt độ cũng như đo các tham số quy mô. Chúng tôi phát triển sự phân cụm bằng việc nóng chảy đối với dữ liệu đa kích thước và đề xuất khởi tạo và thể hiện một giải pháp cho việc khởi tạo thuật toán.

Due to computational reasons due to the curse of dimensionality, for initialization of clusters we choose the initial clusters centers with another algorithm, which performs a fast cluster estimation with low computation cost. We further analyze the information extracted by melting and propose an information representation structure that enables exploration of image content. This structure is a tree in the scale space showing how the clusters merge. Vì lý do tính toán và kích thước về chiều, để khởi tạo các cụm chúng tôi chọn các cụm trung tâm với một thuật toán, thực hiện tính toán phân cụm nhanh với chi phí tính toán thấp. Chúng tôi tiếp tục phân tích trích các thông tin bằng việc nóng chảy và giả thuyết một cấu trúc diễn tả thông tin cho phép thăm dò nội dung thông tin hình ảnh. Cấu trúc này là một cây chỉ ra quy mô không gian cho thấy các cụm hợp nhất.

Implementation of the algorithm is through a multitree structure. With this structure, we can explore the image content as an information mining function, we obtain a more compact data structure, we have maximum of information in scale space because we memorize the bifurcation points and the trajectories of the centers points in the scale space. Thực hiện thuật toán thông qua cấu trúc đa cây. Với cấu trúc này chúng tôi có thể khám phá nội dung hình ảnh như là môt chức năng khai phá thông tin, chúng ta thu đwọc cấu trúc dữ liệu nhỏ gọn hơn, chúng ta có lượng thông tin lớn trong không gian quy mô bởi vì chúng ta ghi nhớ đwọc các điểm chia tách và quỹ đạo của các điểm trung tâm trong không gian quy mô.

The information encoded in the tree structure enables the fast reconstruction and exploration of the data cluster structure and the investigation of hierarchical sequences of image classifications.We demonstrated examples using satellite multispectral image (SPOT 4) and Synthetic Aperture Radar – SAR and Digital Elevation Models – DEM derived from SAR interferometry (SRTM).

26

Page 27: 9.Books KDD02 MdmkddFull

Các thông tin được mã hóa trong cấu trúc cây cho phép việc tái thiết nhanh chóng và thăm dò của cấu trúc cụm dữ liệu và điều tra các trình tự theo cấp bậc phân loại hình ảnh.Chúng tôi đã chứng minh các ví dụ bằng cách sử dụng hình ảnh vệ tinh đa quang phổ (SPOT 4) và tổng hợp Aperture Radar - SAR và kỹ thuật số độ cao Mô hình - DEM bắt nguồn từ SAR giao thoa (SRTM).

Thông tin được mã hóa trong cấu trúc cây cho phép việc tái thiết nhanh chóng và thăm dò cấu trúc cụm dữ liệu và điều tra trình tự phân cấp của phân loại ảnh. Chúng tôi đã xây dựng các ví dụ sử dụng hình ảnh vệ tinh đa quang phổ (SPOT 4) và hệ thống Rada SAR (Synthetic Aperture Radar) và các mô hình kỹ thuật điện tử số - DEM kết hợp từ SAR gọi là hệ thống (SRTM).

27

Page 28: 9.Books KDD02 MdmkddFull

5. Multimedia Knowledge Integration, Summarization and Evaluation

Keyword: Multimedia knowledge, Tri thức đa phương tiệnKnowledge integration, Tích hợp tri thứcKnowledge summarization, Tổng hợp tri thứcKnowledge evaluation, Ước lượng tri thứcConcept distance, Khái niệm khoảng cáchConcept clustering, Khái niệm phân cụmBayesian networks Mạng Bayesian

ABSTRACT

Bài báo này giới thiệu các phương pháp mới để tích hợp, tổng hợp và đánh giá tự động tri thức đa phương tiện. Đây là những phương pháp cần thiết cho các ứng dụng đa phương tiện để đối phó có hiệu quả và mạch lạc với những tri thức đa phương tiện ở các cấp độ trừu tượng khác nhau như nhận thức và tri thức ngữ nghĩa (ví dụ phân cụm ảnh và cảm biến từ ngữ, đáp ứng). Các phương pháp đề nghị bao gồm các kỹ thuật tự động để tích hợp ngữ nghĩa trong tri thức đa phương tiện sử dụng việc học xác suất Bayesian (1), để giảm kích thước của tri thức đa phương tiện bằng việc phân cụm ngữ nghĩa thu gọn các quan hệ trong cụm (2), và đánh giá chất lượng tri thức đa phương tiện sử dụng các quan niệm từ thông tin và lý thuyết đồ thị. Thử nghiệm chỉ ra tiềm năng của các kỹ thuật tích hợp tri thức để cải tiến chất lượng tri thức, chỉ ra tầm quan trọng phân biệt các khái niệm tốt của phân cụm và tổng hợp tri thức, thử nghiệm cũng chỉ ra những điểm không tốt của biện pháp tự động để so sánh sự hiệu quả của các kỹ thuật xử lý khác nhau trên tri thức đa phương tiện.

28

Page 29: 9.Books KDD02 MdmkddFull

6. Object Boundary Detection for Ontology-based Image Classification

Tóm tắt

Công nghệ trong lĩnh vực đa phương tiện số tổng hợp từ số lượng lớn các thông tin phi văn bản, âm thanh, video, hình ảnh và cùng với nhiều thông tin văn bản quen thuộc. Khả năng để trao đổi và tìm kiếm thông tin là rộng lớn và khó khăn. Vấn đề chính hiệu quả đạt được và thân thiện với người dùng tìm kiếm trong vùng ảnh là phát triển các cơ chế tìm kiếm để đảm bảo cung cấp các thông tin liên quan tối thiểu (độ chính xác cao) trong khi đảm bảo thông tin liên quan không bị bỏ qua (khả năng thu hồi cao). Giải pháp truyền thống để giải quyết vấn đề tìm kiếm ảnh, người dùng sử dụng các kỹ thuật tìm kiếm nội dung dựa trên màu sắc, lược đồ, mức sọc hoặc đặc điểm hình dáng.

The traditional solution to the problem of image retrieval employs contentbased search techniques based on color, histogram, texture or shape features. The traditional solution works well in performing searches in which the user specifies images containing a sample object, or a sample textural pattern, in which the object or pattern is indexed.

Giải pháp truyền thống làm việc tốt trong thực hiện tìm kiếm với việc người dùng đặc tả các ảnh chứa một mẫu đối tượng, hoặc màu sắc, lược đồ, kẻ sọc hoặc đặc tính hình. Giải pháp truyền thống làm việc hiệu quả trong việc thực hiện tìm kiếm mà người dùng đặc tả hình ảnh chứa mẫu một đối tượng, hoặc mẫu sọc với đối tượng hoặc mẫu được chỉ số hóa.

One can overcome this restriction by indexing images according to meanings rather than objects that appear in images, although this will entail a way of converting objects to meanings. We have solved this problem of creating a meaning based index structure through the design and implementation of a concept-based model using domain dependent ontologies. An ontology is a collection of concepts and their interrelationships which provide an abstract view of an application domain. Người ta có thể khắc phục hạn chế này bằng hình ảnh chỉ mục theo ý nghĩa hơn là các đối tượng xuất hiện trong hình ảnh, mặc dù điều này sẽ đòi hỏi một cách để chuyển đổi các đối tượng đến ý nghĩa. Chúng tôi đã giải quyết được vấn đề của việc tạo ra một cấu trúc dựa trên chỉ số có nghĩa là thông qua việc thiết kế và thực hiện một mô hình dựa trên khái niệm sử dụng bản thể học miền phụ thuộc. Bản thể học An là một tập hợp các khái niệm và mối quan hệ của họ cung cấp một cái nhìn trừu tượng của một miền ứng dụng

With regard to converting objects to meaning the key issue is to identify appropriate concepts that both describe and identify images. For this, first we need to identify all object boundaries accurately that appear in images. We propose an automatic scalable object boundary detection algorithm based on edge detection and region growing techniques. We also propose an efficient merging algorithm to join adjacent regions using an adjacency graph to avoid the over-segmentation of regions. To illustrate the effectiveness of our algorithm in automatic image classification we implement a very basic system aimed at the classification of images in the sports domain. By identifying objects in images, we show that our approach works well when objects in images have less complex organization.

29

Page 30: 9.Books KDD02 MdmkddFull

7. Mammography Classification by an Association Rule-based Classifier

Keyword: Mammography Mining, Khai phá ảnh chụp X-quang vúImage Classification, Phân lớp ảnhDocument Categorization, Phân loại tài liệuAssociation Rules, Luật kết hợpMedical Images Ảnh y học

ABSTRACTThis paper proposes a new classification method based on association rule mining. This association rule-based classifieris experimented on a real dataset; a database of medical images. The system we propose consists of: a preprocessing phase, a phase for mining the resulted transactional database, and a final phase to organize the resulted association rules in a classification model. The experimental results show that the method performs well reaching over 80% in accuracy. Moreover, this paper illustrates, by comparison to other published research, how important the data cleaning phase is in building an accurate data mining architecture for image classification.

Nghiên cứu này đề nghị một phương pháp phân lớp mới dựa trên khai phá luật kết hợp. Phân lớp dựa trên luật kết hợp được thực nghiệm trên một tập dữ liệu thực; một cơ sở dữ liệu ảnh về y học. Hệ thống chúng tôi đề nghị bao gồm: một pha tiền xử lý, một pha khám phá cơ sở dữ liệu kết quả giao dịch và pha cuối cùng là tổ chức các luật kết hợp kết quả trong mô hình phân lớp. Kết quả thí nghiệm chỉ ra rằng phương pháp thực hiện rất tốt với độ chính xác đến 80%. Nghiên cứu cũng chỉ ra rằng, so với các nghiên cứu khác, điều quan trọng là giai đoạn làm sạch dữ liệu cần xây dựng một kiến trúc khai phá dữ liệu chính xác để phân lớp các hình ảnh.

30

Page 31: 9.Books KDD02 MdmkddFull

8. An Application of Data Mining in Detection of Myocardial Ischemia utilizing preand post-Stress Echo Images

Keywords: Echocardiograms, Điện tâm đồImage processing, Xử lý ảnhObject identification, Xác định đối twọngIschemia Thiếu máu cục bộ

Abstract:Automatic identification of endocardial and epicardial boundaries of LV has been a focus of research attention in the development of computational methods and computer support for cardiologists in identifying clinical heart disease and their diagnosis. Among heart imaging techniques, echocardiography offers significant advantages because of its low cost, portability, minimal discomfort, the absence of ionizing radiation, and its possible application for patient monitoring through real time processing. However, images generated from echocardiogram data are of poor quality. This paper presents the initial work in the development of a data mining approach for computer-assisted detection of myocardial ischemia, which includes Left Ventricle (LV) wall boundary identification, segmentation and further comparative analysis of wall segments in pre- and post stress echocardiograms.

Tự động xác định ranh giới trong tim và epicardial của LV đã là một trọng tâm của sự chú ý nghiên cứu trong việc phát triển các phương pháp tính toán và hỗ trợ máy tính cho tim mạch trong việc xác định bệnh tim lâm sàng và chẩn đoán của họ. Trong số các kỹ thuật hình ảnh trái tim, siêu âm tim cung cấp lợi thế đáng kể vì chi phí thấp tính di động, của nó, ít khó chịu, sự vắng mặt của bức xạ ion hóa, và có thể ứng dụng để theo dõi bệnh nhân thông qua chế biến thời gian thực. Tuy nhiên, hình ảnh được tạo ra từ dữ liệu siêu âm tim có chất lượng kém. Bài viết này trình bày các công việc ban đầu trong việc phát triển một phương pháp khai thác dữ liệu để phát hiện máy tính hỗ trợ của thiếu máu cục bộ cơ tim, trong đó bao gồm còn lại tâm thất (LV) xác định ranh giới tường, phân đoạn và phân tích so sánh thêm các đoạn tường ở trước và echocardiograms căng thẳng sau.

31

Page 32: 9.Books KDD02 MdmkddFull

9. From data to insight: the community of multimedia agents

KEYWORDSMultimedia content analysis; Phân tích nội dung đa phương tiệnXML Schema Lược đồ XML

ABSTRACTMultimedia Data Mining requires the ability to automatically analyze and understand the content. The Community of Multimedia Agents project (COMMA) is devoted to creating an open environment for developing, testing, learning and prototyping multimedia content analysis and annotation methods. It serves as a medium for researchers to contribute and share their achievements while protecting their proprietary techniques. Each method is represented as an agent that can communicate with the other agents registered in the environment using templates that are based on the Descriptors and Description Schemes in the emerging MPEG-7 standard. This allows agents developed by different organizations to operate and communicate with each other seamlessly regardless of their programming languages and internal architecture. A Development Environment is provided to facilitate the construction of media analysis methods. The tool contains a Workbench using which the user can integrate the agents to build more sophisticated systems, and a Blackboard Browser that visualizes the processing results. It enables researchers to compare the performance of different agents and combine them to build more powerful and robust system prototypes. The COMMA can also serve as a learning environment for researchers and students to acquire and test cutting edge multimedia analysis algorithms. Thus the efficiency of research in this area can be improved by sharing of media agents.

Khai thác dữ liệu đa phương tiện đòi hỏi khả năng tự động phân tích và hiểu được nội dung. Cộng đồng của dự án Đại lý đa phương tiện (dấu phẩy) được dành cho việc tạo ra một môi trường mở cho phát triển, thử nghiệm, học tập và tạo mẫu phân tích nội dung đa phương tiện và phương pháp chú thích. Nó phục vụ như một phương tiện cho các nhà nghiên cứu để đóng góp và chia sẻ những thành tựu của họ trong khi các kỹ thuật bảo vệ quyền sở hữu của họ. Mỗi phương pháp đều được biểu diễn như một tác nhân có thể giao tiếp với các tác nhân khác đăng ký trong môi trường sử dụng mẫu dựa trên Mô tả và Đề án mô tả trong tiêu chuẩn mới nổi-7 MPEG. Điều này cho phép các đại lý phát triển của các tổ chức khác nhau để hoạt động và giao tiếp với nhau liền mạch không phân biệt ngôn ngữ lập trình và cấu trúc nội bộ. Một môi trường phát triển được cung cấp để tạo thuận lợi cho việc xây dựng các phương pháp phân tích phương tiện truyền thông. Công cụ này có chứa một Workbench bằng cách sử dụng mà người dùng có thể tích hợp các đại lý để xây dựng nhiều hệ thống phức tạp, và một trình duyệt Blackboard mà hình dung kết quả xử lý. Nó cho phép các nhà nghiên cứu để so sánh hiệu suất của các đại lý khác nhau và kết hợp chúng để xây dựng nguyên mẫu hệ thống mạnh mẽ hơn và mạnh mẽ. Các dấu phẩy cũng có thể phục vụ như là một môi trường học tập cho các nhà nghiên cứu và sinh viên tiếp thu và thử nghiệm các thuật toán phân tích đa phương tiện tiên tiến. Như vậy hiệu quả của các nghiên cứu trong lĩnh vực này có thể được cải thiện bằng cách chia sẻ của các đại lý truyền thông.

32

Page 33: 9.Books KDD02 MdmkddFull

10. A content based video description schema and database navigation tool

KEYWORDSVideo description schema, Lược đồ mô tả videovideo database, Dữ liệu Videovideo data mining, Khai phá dữ liệu videointelligent browsing, Trình duyệt thông minhvideo analysis framework. Khung phân tích video

ABSTRACTIn this paper we introduce a unified framework for a comprehensive video description schema and an intuitive browsing and manipulation tool “VideoViews” database navigation tool for video data mining. The description schema and the navigation tool are designed and developed as part of a video analysis and content extraction framework devised under U.S. Government ARDA /VACE project. The proposed description schema is based on the structure and the semantics of the video and incorporates scene, camera, object and behavior information pertaining to a large class of video data. The database navigator, VideoViews is designed to exploit both the hierarchical structure of video data, the clips, shots and objects, as well as the semantic structure, such as scene geometry the object behaviors. VideoViews provides means for intuitive presentation and navigation, interactive manipulation, ability to annotate and correlate the data in the video database. While also supporting conventional database queries this hierarchically and semantically structured browsing tool enables users to freely navigate up and down within the video database to visualize the information and data from a number of perspectives.

Trong bài báo này chúng tôi giới thiệu một khuôn khổ thống nhất cho một lược đồ video mô tả toàn diện và duyệt web một công cụ thao tác trực quan và cơ sở dữ liệu "VideoViews" chuyển hướng công cụ để khai thác dữ liệu video. Các lược đồ mô tả và công cụ điều hướng được thiết kế và phát triển như là một phần của một khung phân tích video và khai thác nội dung đề ra trong dự án Chính phủ Hoa Kỳ Arda VACE /. Các lược đồ mô tả đề xuất là dựa trên cấu trúc và ngữ nghĩa của video và kết hợp cảnh, máy ảnh, đối tượng và hành vi thông tin liên quan đến một lớp học lớn dữ liệu video. Các tiêu cơ sở dữ liệu, VideoViews được thiết kế để khai thác cả hai cấu trúc phân cấp các dữ liệu video, các đoạn phim, ảnh và các đối tượng, cũng như cấu trúc ngữ nghĩa, chẳng hạn như hình học cảnh các hành vi đối tượng. VideoViews cung cấp phương tiện để trình bày trực quan và chuyển hướng, thao tác tương tác, khả năng chú thích và liên hệ các dữ liệu trong cơ sở dữ liệu video. Trong khi cũng hỗ trợ các truy vấn cơ sở dữ liệu thông thường công cụ này xem hệ thống dọc và cấu trúc ngữ nghĩa cho phép người dùng tự do di chuyển lên xuống trong cơ sở dữ liệu video hình ảnh về thông tin và dữ liệu từ một số quan điểm.

33

Page 34: 9.Books KDD02 MdmkddFull

11. Subjective interpretation of complex data: Requirements for supporting kansei mining process

Keywords:kansei user modeling Mô hình người dùng kanseidata warehouse kho dữ liệu

34

Page 35: 9.Books KDD02 MdmkddFull

12. User Concept Pattern Discovery Using Relevance Feedback and Multiple Instance Learning for Content-Based Image Retrieval .................................................................................. Keywords

Image Retrieval, Khôi phục hình ảnhMultiple Instance Learning, Relevance Feedback Thông tin phản hồi liên quan

ABSTRACT

Understanding and learning the subjective aspect of humans in Content-Based Image Retrieval has been an active research field during the past few years. However, how to effectively discover users’ concept patterns when there are multiple visual features existing in the retrieval system still remains a big issue. In this paper, we propose a multimedia data mining framework that incorporates Multiple Instance Learning into the user relevance feedback in a seamless way to discover the concept patterns of users, especially where the user’s most interested region and how to map the local feature vector of that region to the high-level concept pattern of users. This underlying mapping can be progressively discovered through the feedback and learning procedure. The role user plays in the retrieval system is to guide the system mining process to his/her own focus of attention. The retrieval performance is tested under a couple of conditions.

Tìm hiểu và học tập các khía cạnh chủ quan của con người trong Content-Based Image Retrieval đã được một lĩnh vực nghiên cứu hoạt động trong vài năm qua. Tuy nhiên, làm thế nào để hiệu quả phát hiện ra mẫu concept của người dùng khi có nhiều tính năng hình ảnh hiện tại trong hệ thống thu hồi vẫn còn một vấn đề lớn. Trong bài báo này, chúng tôi đề xuất một khuôn khổ đa phương tiện khai thác dữ liệu mà nó kết hợp nhiều thẩm học vào các thông tin phản hồi liên quan sử dụng một cách liền mạch để phát hiện các mô hình khái niệm của người sử dụng, đặc biệt là nơi khu vực quan tâm nhất của người sử dụng và làm thế nào để bản đồ vector tính năng của địa phương đó vùng trong mô hình khái niệm cao cấp của người sử dụng. Điều này lập bản đồ cơ bản có thể được dần dần khám phá ra thông qua thủ tục thông tin phản hồi và học tập. Vai trò người sử dụng đóng trong hệ thống thu hồi là để hướng dẫn quá trình khai thác hệ thống vào / tập trung của riêng mình sự chú ý. Việc thực hiện thu hồi được thử nghiệm theo một vài điều kiện.

35