hƯỚng dẪn viẾt bÀi - tạp chí khoa học & công nghệ

16
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 18, Số 1 (2021) 7 THEO DÕI ĐỐI TƯỢNG TRỰC QUAN TỪ DỮ LIỆU VIDEO SỬ DỤNG HỌC TRỰC TUYẾN Nguyễn Đăng Bình Khoa Công nghệ Thông tin, Trường Đại học Khoa học, Đại học Huế Email: [email protected] Ngày nhận bài: 10/8/2020; ngày hoàn thành phản biện: 17/8/2020; ngày duyệt đăng: 02/6/2021 TÓM TẮT Theo dõi đối tượng trực quan từ dữ liệu video là một vấn đề rất được quan tâm trong lĩnh vực thị giác máy tính. Trong bài báo này có 2 đóng góp chính: (1) Sử dụng thêm một thuật toán học đối tượng trực quan đáng tin cậy cho quá trình theo dõi; (2) Đề xuất một chiến lược hiệu quả cho việc khôi phục các vị trí đối tượng theo dõi bị thất lạc hoặc bị sai vị trí phát hiện trở lại đúng vị trí đối tượng xuất hiện. Ý tưởng của tôi là kết hợp việc ra quyết định của bộ phát hiện được huấn luyện trước một cách chắc chắn với một bộ theo dõi trực tuyến. Điều này cho phép tránh được sự thất lạc và mất dấu vết trong quá trình theo dõi đối tượng. Trong các thực nghiệm dựa trên các bộ dữ liệu chuẩn cho một số ứng dụng cho thấy hiệu năng cao bao gồm độ chính xác cao, tốc độ trực tuyến và tính hữu hiệu của của phương pháp đề xuất. Từ khóa: theo dõi đối tượng trực quan, học máy chủ động, học trực tuyến Boosting. 1. MỞ ĐẦU Theo dõi đối tượng trực quan đã và đang là một chủ đề đang được quan tâm trong lĩnh vực thị giác máy tính. Tiềm năng ứng dụng của theo dõi đối tượng là rất lớn như ứng dụng vào các hệ thống giám sát thông minh dựa trên hệ thống camera ở các thành phố lớn, theo dõi giám sát giao thông, tương tác giữa người và máy. Một đích của theo dõi đối tượng là tạo ra vết chuyển động theo thời gian các vị trí của đối tượng xuất hiện liên tục trong chuỗi hình ảnh của tín hiệu video. Nhiệm vụ phát hiện đối tượng và thiết lập sự tương ứng giữa đối tượng trên các khung hình ảnh liên tục. Những khó khăn trong bài toán phát hiện đối tượng đó là sự gia tăng thay đổi diện mạo xuất hiện, thay đổi môi trường nền ảnh, các đối tượng biến dạng, bị che khuất đối tượng bởi các vật cản, camera theo dõi di chuyển, các đối tượng đột ngột xuất hiện và đột ngột biến mất khỏi hình ảnh. Trong hai cách tiếp cận trong theo dõi đối tượng được biểu diễn dựa trên hình dạng hoặc là mô hình diện mạo. Chẳng hạn, mô hình

Upload: khangminh22

Post on 30-Mar-2023

2 views

Category:

Documents


0 download

TRANSCRIPT

TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 18, Số 1 (2021)

7

THEO DÕI ĐỐI TƯỢNG TRỰC QUAN TỪ DỮ LIỆU VIDEO

SỬ DỤNG HỌC TRỰC TUYẾN

Nguyễn Đăng Bình

Khoa Công nghệ Thông tin, Trường Đại học Khoa học, Đại học Huế

Email: [email protected]

Ngày nhận bài: 10/8/2020; ngày hoàn thành phản biện: 17/8/2020; ngày duyệt đăng: 02/6/2021

TÓM TẮT

Theo dõi đối tượng trực quan từ dữ liệu video là một vấn đề rất được quan tâm

trong lĩnh vực thị giác máy tính. Trong bài báo này có 2 đóng góp chính:

(1) Sử dụng thêm một thuật toán học đối tượng trực quan đáng tin cậy cho quá

trình theo dõi; (2) Đề xuất một chiến lược hiệu quả cho việc khôi phục các vị trí đối

tượng theo dõi bị thất lạc hoặc bị sai vị trí phát hiện trở lại đúng vị trí đối tượng

xuất hiện. Ý tưởng của tôi là kết hợp việc ra quyết định của bộ phát hiện được

huấn luyện trước một cách chắc chắn với một bộ theo dõi trực tuyến. Điều này cho

phép tránh được sự thất lạc và mất dấu vết trong quá trình theo dõi đối tượng.

Trong các thực nghiệm dựa trên các bộ dữ liệu chuẩn cho một số ứng dụng cho

thấy hiệu năng cao bao gồm độ chính xác cao, tốc độ trực tuyến và tính hữu hiệu

của của phương pháp đề xuất.

Từ khóa: theo dõi đối tượng trực quan, học máy chủ động, học trực tuyến

Boosting.

1. MỞ ĐẦU

Theo dõi đối tượng trực quan đã và đang là một chủ đề đang được quan tâm

trong lĩnh vực thị giác máy tính. Tiềm năng ứng dụng của theo dõi đối tượng là rất lớn

như ứng dụng vào các hệ thống giám sát thông minh dựa trên hệ thống camera ở các

thành phố lớn, theo dõi giám sát giao thông, tương tác giữa người và máy. Một đích

của theo dõi đối tượng là tạo ra vết chuyển động theo thời gian các vị trí của đối tượng

xuất hiện liên tục trong chuỗi hình ảnh của tín hiệu video. Nhiệm vụ phát hiện đối

tượng và thiết lập sự tương ứng giữa đối tượng trên các khung hình ảnh liên tục.

Những khó khăn trong bài toán phát hiện đối tượng đó là sự gia tăng thay đổi diện

mạo xuất hiện, thay đổi môi trường nền ảnh, các đối tượng biến dạng, bị che khuất đối

tượng bởi các vật cản, camera theo dõi di chuyển, các đối tượng đột ngột xuất hiện và

đột ngột biến mất khỏi hình ảnh. Trong hai cách tiếp cận trong theo dõi đối tượng

được biểu diễn dựa trên hình dạng hoặc là mô hình diện mạo. Chẳng hạn, mô hình

Theo dõi đối tượng trực quan từ dữ liệu video sử dụng học trực tuyến

8

diện mạo dựa trên quan sát [27], máy véc tơ tựa [11, 30], bộ lọc dựa vào nhân [37, 38],

mô hình hỗn hợp [28], mô hình nền và đối tượng [31], cập nhật mẫu [17] và suy diễn từ

biến đổi [39]. Những thuật toán này được xây dựng và được học từ đối tượng được xác

định theo dõi trong khung hình ảnh đầu tiên và dùng nó để theo dõi mà không có sự

đáp ứng thích nghi với các sự thay đổi của diện mạo đối tượng về cả hình dáng, bề mặt

xuất hiện và thay đổi ảnh sáng xung quanh trong điều kiện giả sử rằng tất cả các ảnh là

được thu nhận từ camera cố định. Đã có nhiều cách tiếp cận giải quyết vấn đề này [27,

33] và thích ứng với khả năng gia tăng việc thay đổi môi trường [15, 16, 17, 22, 2, 25, 34,

35]. Người ta có thể mô tả các phương pháp sử dụng các đặc trưng bất biến chống lại

sự biến đổi bằng các phương pháp thích nghi và các biểu diễn. Một số cách tiếp cận

khác [27, 34, 35] được cải thiện bằng cách cập nhật các không gian con biểu diễn xung

quanh đối tượng nhiều lên [35]. Hầu hết các thuật toán hiện có đều có thể theo dõi đối

tượng. Tuy nhiên, các thuật toán này thường không quan sát được chuyển động của

đối tượng hoặc có sự biến mất rồi xuất hiện lại làm mất dấu đáng kể sau một thời gian

chuyển động. Có những hạn chế trong xử lý trong thay đổi hình dạng của đối tượng,

trong lúc chuyển động nhanh, bị che khuất, hoặc vượt ra khỏi không gian quan sát,

chuyển động của camera và thay đổi ảnh sáng. Gần đây, có một xu hướng sử dụng kỹ

thuật thích nghi và học trực tuyến vào bài toán theo dõi đối tượng và xem bài toán theo

dõi đối tượng như là một bài toán phân lớp giữa đối tượng và nền ảnh với các cảnh

xung quanh [14, 16, 25], kỹ thuật này cho thấy sự hữu hiệu của bộ theo dõi đối tượng.

Các tác giả trong bài báo [14] nhấn mạnh tầm quan trọng của diện mạo của nền ảnh.

Bài báo đã đề xuất một phương pháp lựa chọn một cách thích nghi các đặt trưng màu

sắc giúp phân biệt tốt nhất đối tượng từ nền ảnh hiện tại. Hơn nữa, trong bài báo [2]

theo dõi thích nghi trực tuyến dựa trên bộ phân loại nhị phân lớp được đề xuất. Bộ

phân loại được thiết kế chỉ dùng vào việc phân biệt đối tượng hiện tại và nền ảnh xung

quanh đối tượng. Tuy nhiên chiến lược cập nhật đơn giản có thể đối mặt với việc trôi

hay thất lạc vị trí của đối tượng lúc đó vị trí theo dõi không còn đúng đối tượng nữa

mà nhảy sang các vị trí khác khắp mặt ảnh. Một số nghiên cứu gần đây liên quan đến

theo dõi trực quan đối tượng. Sử dụng mẫu cố định và kỹ thuật xử lý lược đồ quan học

cho việc ước tính chuyển động của đối tượng cần theo dõi [6]. Tăng cường tính hiệu

quả của các bộ theo dõi, Black và các tác giả [27] đề xuất thuật toán sử dụng huấn

luyện các eigen cơ bản dựa trên các biểu diễn quan sát. Một vài công trình công bố tiếp

cận phương pháp dự báo cho phân lớp có giám sát và hồi quy có giám sát, sau đó khai

thác giải quyết bài toán theo dõi đối tượng trực quan như Avian [11] dùng máy véc tơ

hỗ trợ. Công việc của Leptit [12] sử dụng cây ngẫu nhiên xem như bài toán phân lớp và

dùng đặc tính mạnh mẽ của cây ngẫu nhiên như là một phương pháp đối sánh mẫu

mạnh dùng cho phát hiện đối tượng. M. Ozuysal và cộng sự [13] dùng phương pháp

Ferns để phân lớp các mẫu. Hầu hết các phương pháp tiếp cận hiện có, các đối tượng

được theo dõi đều sử dụng bộ huấn luyện ngoại tuyến có trước. Việc theo dõi sẽ thất

bại nếu sự biến đổi diện mạo hay hình dáng của đối tượng không nằm trong tập mẫu

TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 18, Số 1 (2021)

9

học đã huấn luyện trước đó. Để khác phục vẫn đề này, bộ theo dõi cần được thích ứng

với các biến đổi của đối tượng trên thực tế. Lim [15] trình bày một mô hình học trực

tuyến diện mạo của đối tượng mà dựa trên độ xấp xỉ. Các phương pháp theo dõi đối

tượng được đề xuất gần đây theo hướng dựa vào phương pháp học trực tuyến huấn

luyện một bộ phân loại dự báo. Tuy nhiên, hầu hết các cách tiếp cận đều đưa ra một

giả định đó là khởi tạo vị trí ban đầu của đối tượng cần theo dõi; Việc áp dụng bộ phân

loại trực tuyến cho việc phát hiện đối tượng ở khung hình hiện hành dẫn đến việc theo

dõi bị lỗi khi đối tượng biến mất hoặc bị che khuất, lúc này vị trí theo dõi bị sai. Trong

bài báo này, tác giả đề xuất một khung học máy trực tuyến để giải quyết vấn đề thất

lạc và mất dấu vết đối tượng trong quá trình theo dõi chuyển động từ dữ liệu video. Ý

tưởng chính là kết hợp quyết định phát hiện vị trí chính xác đối tượng trên khung hình

hiện tại đang hoạt động bởi một bộ phát hiện mạnh được huấn luyện trước đó bởi tập

mẫu sạch hợp lệ và một cơ chế theo dõi thích ứng trực tuyến. Bộ phân loại mạnh cho

phép xử lý các đối tượng trong môi trường phức tạp. Khung hệ thống cho phép khai

thác tính mạnh mẽ của bộ phân loại mạnh và bộ theo dõi nhằm xử lý tình huống thất

lạc và mất dấu vết đối tượng trong quá trình di chuyển một cách hiệu quả. Bài báo

được tổ chức như sau: sau phần giới thiệu là phần 2 giới thiệu phương pháp học trực

tuyến theo dõi đối tượng. Phần 3 là dành riêng cho các thực nghiệm và lượng hóa kết

quả và cuối cùng là kết luận và hướng phát triển của nghiên cứu.

2. PHƯƠNG PHÁP HỌC TRỰC TUYẾN CHO THEO DÕI ĐỐI TƯỢNG

Bộ phân loại được xem như một công cụ để xác định một vùng ảnh có đối

tượng hay không. Câu trả lời cho câu hỏi đó là: vùng ảnh này có đối tượng hoặc không

có đối tượng và cũng có thể là một giá trị cho biết xác suất hoặc độ tin cậy của quyết

định. Bộ phân loại có thể được xây dựng như sau: Cho trước một tập T gồm m mẫu để

huấn luyện mm xxyxT ,,...,, 11= với Xxi là các mẫu vào và Yyi là các giá trị

kết quả để phân lớp, với 1,1 +−=Y trong trường hợp phân loại nhị phân, cho biết

rằng mẫu đầu vào xi thuộc về lớp A (yi = +1) hay thuộc lớp B (yi = −1) (hoặc trong

trường hợp của bài này là các đặc trưng có thuộc đối tượng hay không). Tìm một ánh

xạ tổng quát YXh →: . Ánh xạ h này có thể được gọi là bộ phân loại. Mỗi phân lớp

mô tả một đặc trưng trong hình ảnh, do các bộ phân lớp phân biệt nên các mô tả đặc

trưng được học phân biệt và cho phép tích hợp thông tin hình nền và vì vậy có thể đơn

giản hóa bài toán theo dõi như vấn đề phân lớp giữa các đặc trưng trong hình ảnh hiện

tại. Trong phần này, tác giả trình bày một phương pháp học chủ động trực tuyến dựa

trên thuật toán học trực tuyến Boosting dùng cho huấn luyện một bộ phát hiện đối

tượng và kết hợp hợp tác với bộ theo dõi trong một khung hệ thống. Ý tưởng là khai

thác sự có sẵn của bộ phân lớp trong quá trình học để gán nhẵn một cách tự động và

gia tăng cải thiện hiệu năng các bộ phát hiện đối tượng. Điều này là một nỗ lực rất lớn

trong việc giảm việc đánh nhãn bằng tay vừa làm mất thời gian vừa làm chậm hệ

Theo dõi đối tượng trực quan từ dữ liệu video sử dụng học trực tuyến

10

thống. Ngoài ra, tác giả sử dụng quy trình xác minh các vùng đối tượng được phát

hiện để gán nhẵn cho chính xác trước khi cập nhật vào hệ thống nhằm cải thiện bộ

phân loại hiện có. Vấn đề này được thực hiện bằng cách cho phép cập nhật lại dữ liệu

được quan sát trong quá trình học để ổn định bộ phát hiện. Trong phần tiếp theo, tác

giả trình bày thuật toán học máy trực tuyến Boosting mà hệ thống dựa vào để xây

dựng hệ thống. Sau đó là chiến lược và quy trình xác minh mẫu học.

2.1. Biểu diễn ảnh và các đặc trưng trong ảnh

Thay vì sử dụng các đặc trưng là các giá trị của các điểm ảnh như là đầu vào

của thuật toán học, sự biến đối bên trong của lớp có thể giảm đi. Mặc khác, các biến đổi

bên ngoài lớp có thể gia tăng. Trong nghiên cứu này, tác giả sử dụng một phương

pháp biểu diễn ảnh tích phân hữu hiệu dùng để biểu diễn và tính toán nhanh các đặc

trưng của đối tượng. Những đặc trưng như Haar Wavelet [3], lượt đồ biến đối đặc

trưng cục bộ [9] và đặc trưng bất biến đối với phép quay [10] được trích chọn và biểu

diễn cho các đối tượng theo dõi. Các đặc trưng này có thể được tính toán nhanh và rất

hiệu quả dựa trên ảnh tích phân là ảnh được biến đổi từ ảnh đầu vào qua phép biến

đối tích phân của ảnh. Điều này giúp cho việc đối sánh mẫu trong quá trình tìm kiếm

tham lam trong toàn ảnh và kết quả trả về là trực tuyến.

Hình 1. Đặc trưng cơ bản Haar-like features từ Viola and Jones[3], lượt đồ hướng chuyển động

và đặc trưng cục bộ bất biến với phép quay từ [9, 10].

2.2. Bộ phát hiện đối tượng dựa vào học trực tuyến Boosting

Về nguyên tắc, bất kỳ kỹ thuật toán học máy trực tuyến nào cũng có thể sử

dụng trong khung hệ thống theo dõi đối tượng của chúng tôi. Trong nghiên cứu này

chúng tôi sử dụng thuật toán học trực tuyến được đề xuất bởi Grabner và Bischof [1].

Các tác giả đã đề xuất được một thuật toán học trực tuyến cho bộ phân lớp có lựa chọn

đặc trưng phù hợp với từng mẫu so với nền ảnh. Học trực tuyến Boosting sử dụng các

bộ chọn và tiến hành học trực tuyến trên các bộ chọn này. Mỗi bộ phân loại yếu tương

ứng với một đặc trưng được trích chọn, thuật toán boosting trực tuyến lựa chọn đặc

trưng dựa vào các bộ chọn (selector) và thực hiện boosting trực tuyến trên các bộ chọn

này mà không trực tiếp thực hiện trên các bộ phân loại yếu. Mỗi bộ chọn )(xhsel nắm

giữ một tập gồm M bộ phân loại yếu }),...,({ 1

weak

M

weak hxh và nó chọn một trong số các bộ

phân loại yếu đó )()( xhxh weak

m

sel = , theo một tiêu chí tối ưu hóa dựa vào ước tính lỗi ie

TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 18, Số 1 (2021)

11

của mỗi bộ phân loại yếu weak

ih sao cho ii em minarg= . Lưu ý rằng, bộ chọn này cũng

có thể được hiểu như một bộ phân loại yếu. Huấn luyện một bộ chọn tức là mỗi bộ

phân loại yếu được cập nhật và một bộ phân loại yếu tốt nhất (tức lỗi ước tính của nó

thấp nhất) sẽ được chọn. Tương tự như trong trường hợp ngoại tuyến, các bộ phân loại

yếu tương ứng với các đặc trưng, chẳng hạn như các giả thuyết được tạo ra từ các bộ

phân loại yếu dựa vào sự đáp ứng của các đặc trưng. Thuật toán huấn luyện trực tuyến

của Boosting sử dụng cho việc lựa chọn đặc trưng được thực hiện như sau: Đầu tiên,

cho một tập cố định gồm N bộ chọn, sel

N

sel hh ,...,1 được khởi tạo ngẫu nhiên bằng các bộ

phân loại yếu, chẳng hạn là các đặc trưng. Khi một mẫu huấn luyện mới (x,y) đến, các

bộ chọn được cập nhật. Việc cập nhật này được thực hiện đối với trọng số quan trọng

của mẫu hiện tại. Bộ phân loại yếu có lỗi ước tính nhỏ nhất sẽ được chọn bằng bộ chọn.

)(minarg ,mnm

em =+ , trong đó corr

mn

wrong

mn

wrong

mn

mne,,

,

,

+= . Trọng số n và trọng số quan trọng

của mẫu được cập nhật và chuyển đến cho bộ chọn tiếp theo sel

nh 1+. Trọng số sẽ tăng

lên nếu mẫu bị phân loại sai bởi bộ chọn hiện tại (tức bộ phân loại đã được chọn) và

giảm xuống nếu ngược lại. Cuối cùng, một bộ phân loại mạnh được xây dựng bằng kết

hợp tuyến tính của N bộ chọn. Ta có

=

=

N

n

sel

nn

strong xhsignxh1

)(.)( . Một bộ phân loại

sẵn dùng tại mọi thời điểm và có thể được đánh giá trực tiếp, nó cung cấp cho người

sử dụng thông tin phản hồi tức thời tại bất kỳ giai đoạn nào của quá trình huấn luyện.

Hình 2. Sơ đồ thuật toán Boosting trực tuyến lựa chọn đặc trưng dùng cho theo dõi đối tượng

trực quan từ dữ liệu Video.

Theo dõi đối tượng trực quan từ dữ liệu video sử dụng học trực tuyến

12

Thuật toán 1 - Boosting trực tuyến cho theo dõi đối tượng

Vào: - Mẫu huấn luyện 1,1,, +−yyx

- Bộ phân loại mạnh strongh (được khởi tạo ngẫu nhiên)

- Các trọng số wrong

mn

corr

mn ,, , (được khởi tạo bằng 1)

- Khởi tạo độ quan trọng của trọng số λ = 1 cho tất cả các bộ chọn

Ra: Bộ phân loại

=

=

N

n

sel

nn

strong xhsignxh1

)(.)(

Phương pháp:

1. for n = 1,2,…,N do //cập nhật bộ chọn sel

nh

2. for m = 1,2,…,M do //cập nhật mỗi bộ phân loại yếu

3. ),,( ,, yxhupdateh sel

mn

sel

mn = ;

4. if yxhweak

mn =)(, then //ước lượng lỗi

5. += corr

mn

corr

mn ,, ;

6. else

7. += wrong

mn

wrong

mn ,, ;

8. end if

9. corr

mn

wrong

mn

wrong

mn

mne,,

,

,

+= ;

10. end for

11. )(minarg ,mnm

em =+ ; //chọn bộ phân loại yếu có lỗi nhỏ nhất

12. weak

mn

sel

nmnn hhee ++ == ,, ; ;

13. if 2

10 = nn eore then exit;

14.

−=

n

n

ne

e1ln.

2

1 ; // tính trọng số

15. if yxhsel

n =)( then

16. )1(2

1.

ne−= ; //cập nhật độ quan trọng của trọng số

17. else )2

1.

ne = ;

18. end for

2.3. Thuật toán học chủ động trực tuyến

Trong thuật toán học máy trực tuyến ở trên, quá trình huấn luyện được thực

hiện bằng cách gắn nhãn các vùng ảnh được xác định trên ảnh khung cảnh đưa vào hệ

thống và cập nhật các tham số cho mô hình huấn luyện. Những mẫu đươc gán nhãn có

TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 18, Số 1 (2021)

13

thể chứa đối tượng cần theo dõi, cũng có thể không phải là đối tượng (vùng ảnh nền).

Điều này dẫn đến sự không chính xác khi đưa mẫu học vào hệ thống một cách tự

động, hệ thống tự học, có thể dẫn đến học sai. Để khắc phục điều này, một chiến lược

học chủ động được áp dụng. Ý tưởng là người giám sát hay hệ thống chỉ gán nhãn

những vùng đối tượng được phát nhưng không chứa đối tượng bên trong khi phân lớp

trên ảnh hiện tại để phát hiện có hay không đối tượng xuất hiện trong ảnh. Bộ phân

loại được lượng hóa và được cập nhật sau mỗi lần chọn vùng đối tượng xem như là

mẫu học được đưa vào tại thời điểm đó. Bằng cách tương tác trực tuyến, người giám

sát có thể dùng trực quan để chọn và gãn nhẵn cho mẫu có nhiều thông tin chứa đối

tượng hay không chứa đối tượng nhất từ các vùng ảnh đã được phát hiện sau khi phân

lớp. Mỗi lần cập nhật các tham số của mô hình học hiện tai được cập nhật theo. Điều

này dẫn đến giảm thiểu lỗi phát hiện đối tượng ở những khung hình ảnh tiếp theo từ

chuỗi dữ liệu video. Cách này cũng giúp tránh gán nhãn những vùng ảnh không liên

quan đến thông tin của đối tượng và giúp giám rất lượng số lượng mẫu học đưa vào

huấn luyện, tiết kiệm được nhiều công sức gán nhãn tạo mẫu dữ liệu học. Quá trình

học nhanh hội tụ và độ chính xác được tăng lên ở những hình ảnh học tiếp theo. Trong

bài báo này, để huấn luyện bộ phát hiện, tác giả đã thực hiện các bước để giảm đáng kể

việc nhãn bằng tay và nổ lực huấn luyện của hệ thống. Khung hệ thống học trực tuyến

được triển khai dựa trên thuật toán ở Phần 2. 2. Quá trình huấn luyện, hệ thống chỉ cần

một số ít mẫu dương, mẫu chứa đối tượng cần theo dõi. Các mẫu âm, mẫu không chứa

đối tượng theo dõi, được sinh ra một cách tự động bằng cách sử dụng kết quả sẵn có từ

việc phân lớp đối tượng theo dõi trên ảnh khung cảnh hiện tại thời điểm đó. Sau một

thời gian ngắn, bộ phân lớp được cải thiện hiệu năng về độ chính xác rõ rệt. Các vùng

ảnh được phát hiện như là đối tượng nhưng không chứa đối tượng, được cập nhật như

là mẫu âm cho bộ phân loại hiện hành. Việc cập nhật này chỉ tập trung vào các mẫu

khó. Chiến lược này làm giảm đáng kể độ phức tạp việc gán nhẵn mẫu dữ liệu và cho

phép huấn luyện nhanh hội tụ hơn.

Thủ tục sinh ra dữ liệu để huấn luyện được thể hiện ở bước 7-8. Tại mỗi cập

nhật Bộ phân loại, Bộ phân loại hiện hành được lượng hóa trên ảnh hiện tại. Kết quả

này là một số đối tượng được phát hiện, bao gồm đối tượng phát hiện đúng là mẫu

dương và đối tượng phát hiện sai và xem các đối tượng phát hiện sai này như là các

mẫu âm. Các mẫu âm này còn gọi là các mẫu khó học. Trong chiến lược học chủ động

được thể hiện ở bước 9-10. Sau một nhấp chuột (trực tuyến) tại mẫu đối tượng cần theo

dõi, bộ phân loại được cải thiện.

Bằng việc đánh giá Bộ phân loại hiện tại trên ảnh, các đối được phát hiện sẽ

được thu nhận. Những phát hiện này, trên dữ liệu huấn luyện, có thể được sử dụng

làm mẫu dương để cập nhật cho Bộ phân loại, mà người giám sát không cần phải chọn

những mẫu đó trực tiếp. Bên cạnh đó người giám sát có thể quyết định xem những

Theo dõi đối tượng trực quan từ dữ liệu video sử dụng học trực tuyến

14

mẫu dương nào được cập nhật hay không. Vẫn đề này không cần thiết trong trường

hợp Bộ phân loại phát hiện tự động tốt.

Thuật toán 2 - Học chủ động dùng cho theo dõi đối tượng trực tuyến

Vào: Chuỗi các khung hình ảnh từ dữ liệu video hay camera

Ra: Bộ phân loại và chuỗi vị trí xuất hiện đối tượng

Phương pháp:

1. Khởi tạo các tham số cho Bộ phân loại;

2. While <không tồn tại một phát hiện đối tượng trên ảnh hiện tại> do

3. Gán nhãn cho vùng ảnh chứa đối tượng xem như mẫu dương;

4. Cập nhật các tham số cho Bộ phân loại; //Sử dụng Thuật toán 1

5. End While

6. While <chưa kết thúc> do

7. Phân lớp đối tượng trên ảnh hiện hành sử dụng Bộ phân loại;

8. Xác định các mẫu âm;

9. Cập nhật các mẫu âm cho Bộ phân loại; //Sử dụng Thuật toán 1

10. Lặp lại bước 2-4 trên ảnh mới cho các đối tượng phát hiện bị bỏ lỡ;

11. Cập nhật lại các mẫu quan sát được cho Bộ phân loại nếu cần thiết;

12. End While

Vì vậy hệ thống chỉ cần tập trung vào những mẫu khó học. Tóm lại Bộ phân

loại trực huấn luyện trực tuyến được sử dụng để tự động sinh ra tập mẫu huấn luyện

mà không cần phải chuẩn bị từ trước và việc cập nhật mẫu được tự động thực hiện mà

không cần có sự can thiệp hay giám sát của con người. Hệ thống hoàn toàn tự động.

3. THỰC NGHIỆM VÀ KẾT QUẢ

Nghiên cứu thực hiện các thực nghiệm dựa trên một số tập dữ liệu chuẩn và dữ

liệu video được ghi lại với nhiều độ phức tạp khác nhau nhằm mục đích đánh giá hiệu

năng của phương pháp về độ chính xác, tốc độ thực hiện và tính hữu hiệu của hệ

thống theo dõi đối tượng trực tuyến trong các ứng dụng khác nhau và các đối tượng

khác nhau trong thực tế hiện nay. Trong các thực nghiệm, bài báo cho thấy hệ thống có

những khả năng sau: Tự động phát hiện chính xác và khởi tạo vị trí của đối tượng theo

dõi. Có thể theo dõi các đối tượng phức tạp khác nhau. Phát hiện và theo dõi đối tượng

khi đối tượng biến mất rồi xuất hiện trở lại và phục hồi quá trình theo dõi đối tượng.

Đầu tiên, bài báo thực hiện một số thực nghiệm trên dữ liệu chuẩn được công khai

TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 18, Số 1 (2021)

15

dùng cho các nghiên cứu rộng rãi và so sánh kết quả với nghiên cứu gần đây cho theo

dõi đối tượng [2, 26]. Tập dữ liệu được chọn từ [26]. Thứ hai là cho thấy tính mạnh của

hệ thống đề xuất trong bài báo với các đối tượng phức tạp khác nhau: đối tượng có thể

biến đổi thay đổi hình dạng, chẳng hạn như bàn tay di chuyển, camera ghi hình trong

khi di chuyển, đối tượng có màu sắc gần tương đồng với nền khung cảnh… Thứ là hệ

thống có thể theo dõi nhiều đôi tượng cùng lúc với nhiều Bộ theo dõi khác nhau. Các

tập dữ liệu khác được ghi lại bởi camera có độ phân giải thấp cũng được đánh giá như

là một thực tế được đánh giá. Hệ thống thự hiện với Bộ phân loại có 50 bộ chọn và 250

bộ phân loại yếu, thực hiện trên máy tính có cấu hình chuẩn tốc độ 2.66Ghz với 2Mbs

RAM. Sau đây, tác giả trình bày đánh giá một thực nghiệm của hệ thống trên các tập

dữ liệu.

3.1 Thực nghiệm 1

Được thực nghiệm trên chuỗi video được cung cấp bởi nghiên cứu cứu của Lim

và Ross [26]. Dữ liệu video ghi lại khung cảnh một người di chuyển từ trong bóng tối

ra dần khu vực có ánh sáng, trong quá trình di chuyển, khuôn mặt được thay đổi về

ánh sáng, góc quay, và nền ảnh thay đổi khác nhau.

Hình 3. Một số hình ảnh minh họa kết quả của thực nghiệm và so sánh kết quả nghiên cứu [26].

Theo dõi đối tượng trực quan từ dữ liệu video sử dụng học trực tuyến

16

3.2 Thực nghiệm 2

Được thực nghiệm trên chuỗi video ghi lại khung cảnh môi trường thực tế trên

đường giao thông từ dữ liệu được cung cấp bởi nghiên cứu [26]. Hệ thống đề xuất theo

dõi ô tô chính xác trong khi kết quả nghiên cứu của nhóm tác giả [2] thì bị thất lạc dấu

vết sau một thời gian ngắn di chuyển (hình chữ nhật màu xanh).

Hình 4. Một số hình ảnh minh họa kết quả của thực nghiệmvà so sánh với nghiên cứu [26].

3.3 Thực nghiệm 3

Thực nghiệm theo dõi trên đối tượng có hình dáng thay đổi khi chuyển động

[24]. Kết quả cho thấy bàn tay là đối tượng được theo dõi di chuyển nhanh dần và thay

đổi hình dáng, camera di chuyển theo, điều kiện ánh sáng cũng thay đổi. Vùng hình

chữ nhật màu vàng là kết quả của hệ thống theo dõi của bài báo và hình viền màu

trắng là kết quả của nhóm nghiên cứu [2].

TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 18, Số 1 (2021)

17

Hình 4. Một số hình ảnh minh họa kết quả của thực nghiệm thực tế và so sánh với kết quả

nghiên cứu [2].

4. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Bài báo đã trình bày một phương pháp theo dõi đối tượng trực tuyến kết hợp

giữa một bộ phát hiện đối tượng mạnh và một Bộ theo dõi thích nghi trực tuyến. Hệ

thống được xây dựng và cài đặt có thể phát triển cho các ứng dụng thực tế với các đối

tượng khác nhau trong các ứng dụng thực tế. Các kết quả thực nghiệm đã cho thấy hệ

thống thu được hiệu năng tốt về các độ chính xác và tốc độ trực tuyến, có thể cài đặt

chạy trên hệ thống máy tính cấu hình thấp đến cấu hình mạnh. Hệ thống tự động phát

hiện tự động đối tượng và khởi tạo quá trình theo dõi một cách tự động và có thể phát

hiện đối tượng biến mất trong quá trình theo dõi, có thể khôi phục tiếp việc theo dõi

khi đối tượng xuất hiện trở lại trong chuỗi dữ liệu video. Các kết quả được thực

nghiệm trong các dữ liệu video môi trường thực với các độ phức tạp khác nhau và cho

thấy có tiềm năng phát triển các ứng dụng thực tế cả trong môi trường trong nhà và

ngoài trời. Trong hướng phát triển, tác giả có kế hoạch mở rộng nghiên cứu này cho hệ

thống giám sát thông minh. Với nhiều loại dữ liệu phức tạp hơn và môi trường phức

tạp trong thực tế.

TÀI LIỆU THAM KHẢO

[1] H. Grabner and H. Bischof. On-line boosting and vision. In Proceedings IEEE Conference

Computer Vision and Pattern Recognition, Vol. 1, pp. 260–267, 2006.

[2] H. Grabner, M. Grabner, H. Bischof. Real-time tracking via on-line boosting. In: Proc.

BMVC. Vol. 1, pp. 47–56, 2006

Theo dõi đối tượng trực quan từ dữ liệu video sử dụng học trực tuyến

18

[3] P. Viola and M. Jones. Rapid object detection using a boosted cascade of simple features. In

Proceedings IEEE Conference Computer Vision and Pattern Recognition, volume I, pp. 511–

518, 2001.

[4] K. Okuma, A. Taleghani, D. Freitas, J. J. Little, and D. G. Lowe. A boosted particle filter:

Multitarget detection and tracking. In ECCV, 2004.

[5] O. Javed, S. Ali, and M. Shah. Online detection and classification of moving objects using

progressively improving detectors. In Proceedings CVPR, pp. 695–700, San Diego, CA,

USA, 2005.

[6] B. Lucas and T. Kanade, An iterative image registration technique with an application to

stereo vision. In Proceedings of International Joint Conference on Artificial Intelligence, pp.

674–679, 1981.

[7] M. Han, A. Sethi, W. Hua, and Y. Gong. A detection based multiple object tracking method.

In ICIP, 2004.

[8] R. Kaucic, A. G. A. Perera, G. Brooksby, J. Kaufhold, and A. Hoogs. A unified framework

for tracking through occlusions and across sensor gaps. In CVPR, 2005.

[9] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In

Proceedings, CVPR, volume 1, pp. 886–893, San Diego, CA, USA, 2005.

[10] T. Ojala, M. Pietikainen, and T. Maenpaa, Multiresolution gray-scale and rotation invariant

texture classification with local binary patterns. Pattern Analysis and Machine Intelligence,

24(7), pp. 971–987, 2002.

[11] S. Avidan, Support vector tracking. IEEE Trans. PAMI 26, pp. 1064–1072, 2004

[12] V. Lepetit, P. Lagger, P. Fua. Randomized trees for real-time keypoint recognition. In: Proc.

CVPR. Volume 2., pp. 775–781, 2005

[13] M. Ozuysal, P. Fua, , V. Lepetit, Fast keypoint recognition in ten lines of code. In: CVPR.

(2007)

[14] R. Collins, Y. Liu, M. Leordeanu, Online selection of discriminative tracking features. IEEE

Trans. PAMI 27, pp. 1631–1643, 2005

[15] B. Han and L. Davis, On-line density-based appearance modeling for object tracking, in

Proc. ICCV, volume 2, pp. 1492–1499, 2005.

[16] S. Avidan. Emsemble tracking. In proc. CVPR, Vol. 2, pp. 494-501, 2005

[17] I. Matthews, T. Ishikawa, S. Baker, The template update problem. IEEE Trans. PAMI 26 , pp.

810 – 815, 2004

[18] M. Grabner, H. Grabner, H. Bischof, Learning features for tracking. In: Proc. CVPR. 2007

[19] F. Tang, S. Brennan, Q. Zhao, H. Tao, Co-tracking using semi-supervised support vector

machines, in Proc. ICCV, pp. 1–8, 2007

[20] T. Woodley, B. Stenger, R. Cipolla, Tracking using online feature selection and a local

generative model. In: Proc. BMVC, 2007

TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 18, Số 1 (2021)

19

[21] Y. Li, H. Ai, T. Yamashita, S. Lao,M. Kawade, Tracking in low frame rate video: A cascade

particle filter with discriminative observers of different lifespans. In: Proc. CVPR., pp. 1–8,

2007

[22] A. D. Jepson, D. J. Fleet, and T.F. El-Maraghi. Robust online appearance models for visual

tracking. In Proc. CVPR, volume 1, pp. 415–422, 2001.

[23] J. Lim, D. Ross, R. Lin and M.Yang, Incremental learning for visual tracking, In Advances in

Neural Information Processing System 17, pp. 793-800, MIT Press, 2005

[24] M.Kolsch and M. Turk, “Fast 2D Hand Tracking with Flocks of Features and Multi-Cue

Intergration, ” IEEE Computer Society Conference on Computer Vision and Pattern

Recognition Workshop, pp. 158-166, 2004.

[25] J.Wang, X. Chen, and W. Gao, Online selecting discriminative tracking features using

particle filter, in Proc. CVPR, volume 2, pp. 1037–1042, 2005.

[26] D. Ross, J. Lim, R. Lin, M.H. Yang, Incremental Learning for Robust Visual Tracking, the

International Journal of Computer Vision, Special Issue: Learning for Vision, 2007.

[27] M. J. Black and A. D. Jepson, Eigentracking: Robust matching and tracking of articulated

objects using view based representation. In B. Buxton and R. Cipolla, editors, Proceedings

of the Fourth European Conference on Computer Vision, LNCS 1064, pp. 329–342. Springer

Verlag, 1996.

[28] M. J. Black, D. J. Fleet, and Y. Yacoob, A framework for modeling appearance change in

image sequence. In Proceedings of IEEE International Conference on Computer Vision, pp.

660–667, 1998.

[29] M. Isard and A. Blake. Contour tracking by stochastic propagation of conditional density. In

B. Buxton and R. Cipolla, editors, Proceedings of the Fourth European Conference on

Computer Vision, LNCS 1064, pp. 343–356. Springer Verlag, 1996.

[30] O. Williams, A. Blake, and R. Cipolla, A sparse probabilistic learning algorithms for real-

time tracking. In Proceedings of IEEE International Conference on Computer Vision,

volume 1, pp. 353–360, 2003.

[31] M. Harville, A framework for high-level feedback to adaptive, per-pixel mixture of

Gaussian background models. In A. Heyden, G. Sparr, M. Nielsen, and P. Johansen, editors,

Proceedings of the Seventh European Conference on Computer Vision, LNCS 2352, pages

531–542. Springer Verlag, 2002.

[32] G. Hager and P. Belhumeur, Real-time tracking of image regions with changes in geometry

and illumination. In Proceedings of IEEE Conference on Computer Vision and Pattern

Recognition, pages 403–410, 1996.

[33] D. Comaniciu, V. Ramesh, and P. Meer, Real-time tracking of non-rigid objects using mean

shift. In Proc. CVPR, volume 2, pp. 142–149, 2000.

[34] J. Ho, K. Lee, M. Yang, and D. Kriegman. Visual tracking using learned linear subspaces. In

Proc. CVPR, volume 1, pp. 782–789, 2004.

[35] D. Ross, J. Lim, and M. Yang. Adaptive proballistic visual tracking with incremental

subspace update. In Proc. ECCV, volume 2, pp. 470–482, 2004.

Theo dõi đối tượng trực quan từ dữ liệu video sử dụng học trực tuyến

20

[36] J. Vermaak, P. Perez, M. Gangnet, and A. Blake. Towards improved observation models for

visual tracking: Selective adaption. In Proc. ECCV, pp. 645–660, 2002.

[37] D. Comaniciu, V. Ramesh, and P. Meer. Kernel-based object tracking. IEEE Transactions on

Pattern Analysis and Machine Intelligence, 25(5), pp. 564–577, 2003.

[38] B. Georgescu, D. Comaniciu, T. X. Han, and X. S. Zhou. Multi-model component-based

tracking using robust information fusion. In 2nd Workshop on Statistical Methods in Video

Processing, May 2004.

[39] J. Vermaak, N. Lawrence, and P. Perez. Variational inference for visual tracking. In

Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, volume 1,

pages 773–780, 2003.

[40] S. Agarwal, A. Awan, and D. Roth. Learning to detect objects in images via a sparse, part-

based representation. Transactions on Pattern Analysis and Machine Intelligence, 26(11),

pages. 1475–1490, 2004.

TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 18, Số 1 (2021)

21

VISUAL OBJECT TRACKING FROM VIDEO DATA USING ONLINE LEARNING

Nguyen Dang Binh

Faculty of Information Technology, University of Sciences, Hue University

Email: [email protected]

ABSTRACT

Visual object tracking is an important problem in computer vision. The main

contributions are: (1) an efficient visual object learning algorithm based on online

boosting, which provides a reliable object detector for the tracking process; (2) a

robust strategy to deal with tracking failures and recovery of such failures. Our

idea is to incorporate decision given by the prior learned strong detector and an

on-line boosting tracker. This completely allows the prevention of the drifting

problem in tracking problem. Experiments based on challenging datasets for a

number of applications show high performance including high accuracy, on-line

speed and the effectiveness of the proposed method.

Keywords: visual object tracking, online learning.

Nguyễn Đăng Bình Sinh ngày 08/11/1974 tại Thừa Thiên Huế. Năm 1996,

ông tốt nghiệp Đại học ngành Toán - Tin tại Trường Đại học Sư phạm, Đại

học Huế. Ông nhận bằng thạc sỹ Công nghệ thông tin tại Trường Đại học

Bách Khoa Hà Nội năm 2022; nhận học vị Tiến sĩ ngành Công nghệ thông

tin tại Viện Công nghệ Kyushu, Nhật Bản, và hoàn thành nghiên cứu Sau

tiến sĩ tại Viện Thị giác và Đồ họa máy tính năm 2008 tại Đại học Công

nghệ Graz, Cộng hòa Áo. Hiện ông công tác tại khoa Công nghệ Thông

tin, Trường Đại học Khoa học, Đại học Huế.

Lĩnh vực nghiên cứu: Học máy, Thị giác máy tính, Nhận dạng và Xử lý ảnh

số.

Theo dõi đối tượng trực quan từ dữ liệu video sử dụng học trực tuyến

22