1-s2.0-s016786551200219x-main (dich)

54
Máy giám sát thông minh đa camera: Một tổng quan Khái niệm trừu tượng Máy giám sát Thông minh nhiều camera là một lĩnh vực đa ngành liên quan đến thị giác máy tính, mẫu nhận dạng, xử lý tín hiệu , thông tin liên lạc , máy tính nhúng và cảm biến hình ảnh . Bài viết này đánh giá sự phát triển gần đây của các công nghệ có liên quan từ quan điểm của thị giác máy tính và nhận dạng mẫu. Các chủ đề gồm hiệu chuẩn nhiều camera, tính toán các sơ đồ liên kết mạng camera, theo vết trên nhiều camera, xác định lại đối tượng, phân tích hoạt động nhiều camera và sự kết hợp máy giám sát video cả với camera hoạt động và tĩnh. Mô tả chi tiết những thách thức mang tính kỹ thuật và so sánh các giải pháp khác nhau được cung cấp. Nó nhấn mạnh kết nối và tích hợp các mô-đun khác nhau trong các môi trường khác nhau và kịch bản ứng dụng . Theo các nghiên cứu gần đây nhất, một số vấn đề có thể được giải quyết cùng nhau để nâng cao hiệu quả và chính xác. Với sự phát triển nhanh chóng của hệ thống giám sát, quy mô và sự phức tạp của các mạng camera đang gia tăng và môi trường giám sát ngày càng trở nên phức tạp và đông đúc hơn . bài viết này thảo luận làm thế nào để đối mặt với những thách thức đang nổi lên . Trích 2012 Elsevier B.V. cung cấp 1. Giới thiệu

Upload: tieu-bao-vi

Post on 21-Dec-2015

217 views

Category:

Documents


1 download

DESCRIPTION

Dịch tài liệu

TRANSCRIPT

Page 1: 1-s2.0-S016786551200219X-main (dich)

Máy giám sát thông minh đa camera: Một tổng quan

Khái niệm trừu tượng

Máy giám sát Thông minh nhiều camera là một lĩnh vực đa ngành liên quan đến thị giác máy tính, mẫu nhận dạng, xử lý tín hiệu , thông tin liên lạc , máy tính nhúng và cảm biến hình ảnh . Bài viết này đánh giá sự phát triển gần đây của các công nghệ có liên quan từ quan điểm của thị giác máy tính và nhận dạng mẫu. Các chủ đề gồm hiệu chuẩn nhiều camera, tính toán các sơ đồ liên kết mạng camera, theo vết trên nhiều camera, xác định lại đối tượng, phân tích hoạt động nhiều camera và sự kết hợp máy giám sát video cả với camera hoạt động và tĩnh. Mô tả chi tiết những thách thức mang tính kỹ thuật và so sánh các giải pháp khác nhau được cung cấp. Nó nhấn mạnh kết nối và tích hợp các mô-đun khác nhau trong các môi trường khác nhau và kịch bản ứng dụng . Theo các nghiên cứu gần đây nhất, một số vấn đề có thể được giải quyết cùng nhau để nâng cao hiệu quả và chính xác. Với sự phát triển nhanh chóng của hệ thống giám sát, quy mô và sự phức tạp của các mạng camera đang gia tăng và môi trường giám sát ngày càng trở nên phức tạp và đông đúc hơn . bài viết này thảo luận làm thế nào để đối mặt với những thách thức đang nổi lên .

 Trích  2012 Elsevier B.V. cung cấp

1. Giới thiệu

Video giám sát thông minh đã là một trong những lĩnh vực nghiên cứu tích cực nhất trong tầm nhìn máy tính . Mục đích là để trích xuất một cách hiệu quả thông tin hữu ích từ một số lượng lớn các video được thu thập bởi camera giám sát bằng cách tự động phát hiện , theo dõi và nhận dạng đối tượng quan tâm , hiểu và phân tích các hoạt động đó. Video giám sát có một loạt các ứng dụng cả trong các môi trường công cộng và tư nhân , chẳng hạn như an ninh của 1 vùng , phòng chống tội phạm , điều khiển giao thông , dự báo phát hiện tai nạn và, và theo dõi bệnh nhân, người già và trẻ em ở nhà . Các ứng dụng này yêu cầu giám sát những cảnh trong nhà và ngoài trời của sân bay, ga xe lửa, đường cao tốc, bãi đỗ xe, cửa hàng , trung tâm mua sắm và văn phòng. Có một sự quan tâm ngày càng tăng trong video giám sát do sự sẵn có ngày càng tăng của cảm biến và bộ xử lý giá rẻ, và cũng là một

Page 2: 1-s2.0-S016786551200219X-main (dich)

nhu cầu ngày càng tăng về an toàn và an ninh của công chúng. Ngày nay có hàng chục ngàn camera trong một thành phố thu thập một lượng lớn dữ liệu trên một cơ sở hàng ngày (a daily basis). Các nhà nghiên cứu được khuyến khích để phát triển hệ thống thông minh để trích xuất một cách hiệu quả thông tin từ các dữ liệu quy mô lớn.

Tầm nhìn của 1 camera là hữu hạn và bị giới hạn bởi các cấu trúc cảnh. Để theo dõi một khu vực rộng lớn, chẳng hạn như theo dõi một chiếc xe đi du lịch thông qua mạng lưới đường bộ của một thành phố hoặc phân tích các hoạt động chung xảy ra ở một nhà ga xe lửa lớn (analyzing the global activities happening in a large train station), luồng dữ liệu video từ nhiều camera phải được sử dụng. Nhiều hệ thống giám sát thông minh đa video camera đã được phát triển ( Collins et al. ,2001; Aghajan và Cavallaro , 2009 ; Valera và Velastin , 2004). Nó là một lĩnh vực đa ngành liên quan đến tầm nhìn máy tính , mô hình nhận dang, xử lý tín hiệu , thông tin liên lạc , máy tính nhúng và cảm biến hình ảnh . Bài viết này đánh giá sự phát triển gần đây của các công nghệ có liên quan từ quan điểm của tầm nhìn máy tính . Một số công nghệ tầm nhìn máy tính quan trọng được sử dụng trong các hệ thống giám sát đa camera được hiển thị trong hình . 1.

1. bản đồ hiệu chuẩn đa camera phân biệt các bức ảnh với một gle hệ thống phối hợp đơn . Trong nhiều hệ thống giám sát , đó là một bước quan trọng trước khi phân tích dựa trên .nhiều camera khác

2 . Các cấu trúc liên kết của một mạng camera xác định xem liệu các bức ảnh chồng chéo hoặc không gian lân cận và mô tả thời gian chuyển tiếp của các đối tượng giữa các bức ảnh .

3 . xác định lại Đối tượng là để phù hợp với 2 vùng hình ảnh được quan sát thấy trong các cảnh camera khác nhau và nhận ra liệu chúng có thuộc về cùng một đối tượng hay không, hoàn toàn dựa vào thông tin xuất hiện trong bo mà không có lý do không-thời gian .

4 . Theo dõi nhiều camera là để theo dõi các đối tượng trên các bức ảnh .

5 . Phân tích hoạt động đa camera tự động nhận ra các hoạt động của các loại khác nhau và phát hiện hoạt động bất thường trong một khu vực rộng lớn bằng cách phân tích thông tin từ các cảnh của đa camera .

Page 3: 1-s2.0-S016786551200219X-main (dich)

Các mô-đun khác nhau hỗ trợ nhau và các mũi tên trong hình . 1 hiển thị các dòng chảy thông tin giữa chúng.

Trong khi một số nhận xét hiện tại Valera và Velastin (2004) và Aghajan và Cavallaro (2009) đã cố gắng để thu thập tất cả các khía cạnh củakiến trúc , công nghệ và các ứng dụng , bài viết này nhấn mạnh đến sự kết nối và tích hợp các công nghệ thị giác máy tính và nhận dạng mẫu quan trọng trong môi trường khác nhau và cảnh ứng dụng và đánh giá sự phát triển gần đây nhất của chúng. Nhiều hệ thống giám sát hiện tại giải quyết những vấn đề này tuần tự theo một đường ống. Tuy nhiên , công trình nghiên cứu gần đây cho thấy một số vấn đề có thể được giải quyết cùng nhau hoặc thậm chí bị bỏ qua để vượt qua những thách thức do kịch bản ứng dụng nhất định. Ví dụ, trong khi nó rất dễ dàng để tính toán các cấu trúc liên kết của một mạng camera sau khi camera được hiệu chỉnh tốt, một số phương pháp được đề xuất để tính toán các cấu trúc liên kết mà không có hiệu chuẩn camera , bởi vì phương pháp hiệu chuẩn hiện có những hạn chế đa dạng và có thể không có hiệu quả hoặc đủ chính xác trong các cảnh. Mặt khác , các thông tin cấu trúc liên kết có thể giúp với hiệu chuẩn. Nếu biết hai điểm camera có sự chồng chéo , các homography giữa chúng có thể được tính một cách tự động . Do đó, hai vấn đề được giải quyết trong cùng một số phương pháp tiếp cận . máy giám sát đa camera đòi hỏi sự giám sát thu được từ các bức ảnh khác nhau theo tương tự về hình ảnh và không gian-thời gian. Phù hợp với sự xuất hiện của các khu vực hình ảnh được nghiên cứu trong đối tượng xác định lại . Lý do không-thời gian yêu cầu hiệu chuẩn camera và kiến thức về cấu trúc liên kết . Một số nghiên cứu cho thấy rằng các quỹ đạo hoàn toàn đi qua điểm camera có thể được sử dụng để hiệu chỉnh camera và tính toán cấu trúc liên kết . Vì vậy, máy theo dõi đa camera có thể cùng giải quyết với hiệu chuẩn camera và suy luận của các cấu trúc liên kết . Theo dõi đa camera thường là một bước trước để phân tích hoạt động nhiều camera , sử dụng các dấu vết hoàn chỉnh của các đối tượng qua mạng camera như các tính năng . Nó cũng có thể hoạt động mô hình trực tiếp trong nhiều ảnh camera mà không cần đối tượng theo dõi qua các bức ảnh . Sau khi mô hình hoạt động được tiếp nhận ,chúng có thể cung cấp thông tin hữu ích để theo dõi nhiều camera , vì nếu hai dấu vết được phân thành các loại tương tự , nó có nhiều khả năng để chúng là cùng một đối tượng . Một sự hiểu biết tốt về các mối quan hệ tàu của các phân

Page 4: 1-s2.0-S016786551200219X-main (dich)

hệ giúp để thiết kế cuộc họp giám sát nhiều camera tối ưu các yêu cầu của các ứng dụng khác nhau.

Máy giám sát Thông minh đa camera phải đối mặt với nhiều thách thức với sự phát triển nhanh chóng của hệ thống mạng camera . Một vài trong số thách thức được đề cập ngắn gọn dưới đây . Thảo luận chi tiết hơn cũng được đề cập trong các phần sau đó.

Một hệ thống giám sát nhiều camera có thể được áp dụng cho nhiều cảnh khác nhau và có cấu hình khác nhau . khi quy mô của hệ thống camera gia tăng , người ta cho rằng các hệ thống giám sát đa camera có thể tự thích nghi với nhiều cảnh quay với sự can thiệp của con người ít hơn . Ví dụ, rất tốn thời gian để tự hiệu chỉnh tất cả các camera trên một mạng lưới rộng lớn và nỗ lực của con người phải được lặp đi lặp lại khi số lượng mạng camera thay đổi. Do đó, hiệu chuẩn tự động được tương thích. tái xác định Đối tượng và phân tích hoạt động đa camera thích cách tiếp cận không có giám sát hơn để tránh tay ghi nhãn mẫu đào tạo mới và thay đổi các bức ảnh .

Các cấu trúc liên kết của một mạng camera lớn có thể là phức tạp và các lĩnh vực điểm của camera được giới hạn bởi các cấu trúc cảnh . Một số cảnh camera là rời rạc và có thể bao gồm nhiều máy bay mặt đất . điều này mang lại những thách thức lớn cho kích cỡ camera , suy luận của cấu trúc liên kết và hệ thống theo dõi đa camera.

Thường có những thay đổi lớn về quan điểm,điều kiện chiếu sáng và cài đặt camera giữa các bức ảnh khác nhau. Rất khó để phù hợp với sự xuất hiện của các đối tượng trên các bức ảnh .

Nhiều cảnh có độ an ninh cao như sân bay , trạm xe lửa, trung tâm mua sắm và các nút giao đường phố thường rất đông đúc. Rất khó để theo dõi các đối tượng trên một khoảng cách dài mà không gặp thất bại vì tình trạng tắc nghẽn thường xuyên giữa các đối tượng trong những cảnh như vậy. Mặc dù một số hệ thống giám sát hiện làm việc rất hiệu quả trong những cảnh có độ thưa thớt , có rất nhiều thách thức chưa được giải quyết trong các ứng dụng với môi trường đông đúc.

Để theo dõi một khu vực rộng lớn với một số lượng nhỏ các camera và để có được hình ảnh độ phân giải cao từ điểm tối ưu, một số hệ thống giám sát sử dụng cả hai camera tĩnh và camera động , các thông số có panning ,

Page 5: 1-s2.0-S016786551200219X-main (dich)

nghiêng và phóng to (PTZ ) sẽ được tự động và tự động điều khiển bởi hệ thống . Hiệu chuẩn, phát hiện chuyển động , theo dõi đối tượng và phân tích hoạt động với camera lai phải đối mặt với nhiều thách thức mới so với chỉ sử dụng camera tĩnh

Bài viết này đánh giá năm các tầm nhìn máy tính chủ chốt và nhận dạng mẫu (tức là , đa camera hiệu chuẩn, tính toán các cấu trúc liên kết của các bức ảnh , theo dõi đa camera , đối tượng tái xác định và phân tích hoạt động đa camera ) từ mục(2-6 . liên kêt Video giám sát cả với camera tĩnh và động được thảo luận trong phần 7 . Mô tả chi tiết những thách thức kỹ thuật và so sánh các giải pháp khác nhau được cung cấp theo từng chủ đề . Cuối cùng một số thách thức chưa được giải quyết và hướng nghiên cứu trong tương lai sẽ được thảo luận tại mục 8 .

2 . camera hiệu chuẩn

Camera hiệu chuẩn là một vấn đề cơ bản trong tầm nhìn máy tính và không thể thiếu trong nhiều ứng dụng giám sát video. Hiện đã có một nền văn học lớn đo đạc các bức ảnh liên quan đến một thế giới 3D phối hợp hệ thống ( Faugeras năm 1993; Triggs năm 1999; Jones và cộng sự năm 2002, ; . Hartley và Zisserman , 2004). Họ ước tính cả các thông số nội tại ( chẳng hạn như độ dài tiêu cự , điểm yếu , hệ số nghiêng và hệ số biến dạng) và các thông số bên ngoài ( chẳng hạn như định hướng vị trí của các trung tâm camera và của camera trên thế giới tọa độ) của camera. Trong video giám sát , nó thường giả định rằng các đối tượng di chuyển trên một máy bay mặt đất thông thường. Những cách tiếp cận yêu cầu ghi nhãn điểm nổi bật trong khung cảnh và ghi lại tọa độ thực sự của chúng trong thế giới 3D. Yêu cầu khảo sát rộng là tốn thời gian, đặc biệt là khi số lượng camera lớn. cũng rất khó khăn để đo điểm 3D mà không đặt trên máy bay mặt đất trong những cảnh giám sát rộng .

Bên cạnh chọn điểm 3D thông thường, có những cách khác tự động hiệu chỉnh camera . Camera có thể được hiệu chỉnh với các đối tượng có hình khối 3D được nhận biết ( Tsai , 1986; Sturm và Maybank năm 1999; Liebowitz và Zisserman năm 1999; Heikkila , 2000; Zhang , 2000; Faugeras và Lương năm 2001; Teramoto và Xu, 2002; Agrawal và Davis , 2003). Zhang (2000 ) đề xuất một cách tiếp cận dễ dàng của một camera đo đạc bằng cách quan sát một mẫu phẳng đã biết với chuyển động không rõ. Cả camera và mẫu phẳng có thể tự do di chuyển. Nó có

Page 6: 1-s2.0-S016786551200219X-main (dich)

một giải pháp đóng mẫu với độ chính xác tốt . Mặc dù phương pháp này đã được sử dụng rộng rãi trong nhiều tình huống áp dụng , các mẫu kiểm định không có sẵn trong cảnh giám sát rộng lĩnh vực vì dự đoán có kích thước rất nhỏ trên mặt phẳng ảnh và cung cấp độ chính xác kém hiệu chuẩn . Một số phương pháp tiếp cận ( Beardsley và Murray , năm 1992; . Cipolla và cộng sự,1999; Liebowitz và cộng sự, 1999; . Caprile và Grimson , 1990 ; . Deutscher và cộng sự, 2002; . Wong và cộng sự, 2003 ; . Colombo và cộng sự, 2005 ; Krahnstoever và Mendonca , 2005) sử dụng điểm biến mất (điểm mà đường song song xuất hiện hội tụ trong một hình ảnh dự quan điểm ) từ cấu trúc cảnh tĩnh , chẳng hạn như các tòa nhà và cột mốc, để phục hồi các thông số nội tại từ một camera đơn và các thông số bên ngoài từ nhiều camera . Họ sử dụng bắt buộc từ mối quan hệ hình học , chẳng hạn như xử lý song song và trực giao , mà thường tồn tại trong công trình kiến trúc . Trong trường hợp không có cấu trúc cảnh vốn có, Lv et al. (2002 , 2006) ước tính điểm biến mất từ chuyển động đối tượng. chúng bao gồm những đoạn đường cần thiết bằng cách theo dõi các đầu và chân vị trí của một người đi bộ. Zhang et al. (2008) giả định chiều cao camera và ước tính ba điểm biến mất tương ứng với ba hướng trực giao trong thế giới 3D hệ thống dựa trên chuyển động và sự xuất hiện của đối tượng chuyển động phối hợp . Nó có thể phục hồi các thông số camera cả bên trong và bên ngoài. Bose và Grimson (2003) theo dõi xe và phát hiện vận tốc không đổi dọc theo đường tuyến tính để nhận ra mặt đất máy bay cải chính thay vì phục hồi các thông số bên trong và bên ngoài của camera. Bóng năng lượng mặt trời của các đối tượng thường được quan sát thấy trong môi trường tự nhiên và họ cũng có thể được sử dụng để ước tính các thông số bên trong và bên ngoài của camera cũng như định hướng của nguồn sáng ( Antone và Bosse , 2004; . Lu và cộng sự, 2005; Cao và Foroosh , 2006; Junejo và Foroosh , 2008). Cao và Foroosh (2006) sử dụng đa cảnh của các đối tượng và bóng tối của chúng cho camera hiệu chuẩn. Junejo và Foroosh (2008) sử dụng các quỹ đạo bóng của hai đối tượng không chuyển động trong quá trình một ngày để xác định vị trí vật lý của camera ( tọa độ GPS ) và ngày thu nhận hình ảnh.

Nếu hai điểm camera có sự chồng chéo đáng kể , một homography giữa chúng có thể được tính với hiệu chuẩn ( Stein và Medi- oni năm 1992; . Thompson và cộng sự, 1993; Cozman và Krotkov năm 1997; Stein , 1999; Lee và cộng sự , 2000 . màu đen và cộng sự, 2002; . Brown và Lowe,2003; Baker và Aloimonos năm 2003; Stauffer và Tiêu, 2003; Lowe,2004; Jannotti và Mao , 2006; Sheikh và

Page 7: 1-s2.0-S016786551200219X-main (dich)

Shah , 2008). Nhiều phương thức tiếp cận thông thường hoặc tự động lựa chọn và phù hợp với các đặc điểm tĩnh từ hình ảnh 2D để tính toán một homography giả định giữa hai điểm camera và hiệu chỉnh nhiều điểm camera với duy nhất máy bay mặt đất toàn cầu ( Brown và Lowe, 2003; Baker và Aloimonos năm 2003; Jannotti và Mao , 2006). Các đặc điểm được lụa chọn thường là điểm góc , chẳng hạn như góc Harris ( Harris và Stephens , 1988) và tính năng Scale - invarian Transform ( SIFT ) các điểm ( Lowe , 2004). Chúng được phù hợp bởi mô tả địa phương đặc trưng cho kết cấu hoặc hình dạng của khu phố của họ để thiết lập thư tín . So sánh các máy dò keypoint khác nhau và mô tả địa phương có thể được tìm thấy trong ( Salti và cộng sự , 2011 ; . Mikolajczyk và Schmid , 2005). Việc phù hơp cần phải mạnh mẽ để sự khác nhau giữa các điểm và ánh sáng giữa 2 bức ảnh camera . sự phản hồi theo từng cặp bao gồm 1 cách tự động hóa thu được giữa các điểm tính năng có thể bao gồm một số lượng đáng kể các cặp sai . RANSAC Lacey et al. , 2000 được sử dụng để tìm homography sẽ đem lại số lượng lớn nhất các điểm tính năng phù hơjp theo cặp. Ngoài ra còn có phương thức tiếp cận tính toán các homography dựa trên việc theo dõi các đối tượng ( Caspi và Irani , 2000; Lee và cộng sự, 2000; . Stauffer và Tiêu,2003; Sheikh và Shah , 2008 ; Pflugfelder và Bischof , 2010 ) . Lee et al. (2000) theo dõi các đối tượng cùng một lúc trong các bức ảnh một phần chồng chéo và sử dụng các trọng tâm đối tượng như điểm tiềm năng để phục hồi các homography giữa hai quan điểm camera với những hạn chế hình học phẳng trên các đối tượng di chuyển . Khi cảnh thưa thớt , số lượng phù hợp có thể là nhỏ theo một hạn chế thời gian mà hai tương thích với trọng tâm hình ảnh theo dõi nên được quan sát trong khoảng thời gian tương tự. Một biến thể RANSAC mạnh mẽ được sử dụng để tìm một tập hợp con của trọng tâm phù hợp nhất với homography . Nó phải đối mặt với vấn đề khi cảnh đông đúc . Nó được giả định rằng tất cả các đối tượng di chuyển trên một máy bay mặt đất duy nhất mà là phù hợp với nhiều điểm camera theo homographies tính toán của nhiều cặp camera . Cấu hình camera 3D và vị trí máy bay mặt đất và định hướng được thu hồi đến một yếu tố quy mô . Các camera không nhất thiết phải tốt đồng bộ và hạn chế hình học có thể sắp xếp các dữ liệu theo dõi theo thời gian. Caspi và các cộng sự . (2006) mở rộng phương pháp của Lee mà không hạn chế đối tượng cho một máy bay mặt đất duy nhất. chúng bắt buộc phải có độ chắc phù hợp tất cả các điểm trọng tâm cùng trình tự theo dõi thay vì chỉ có một vài cặp trọng tâm . Stauffer và Tiểu (2003) cùng nhau giải quyết vấn đề theo dõi đối tượng trên các bức ảnh và tính toán homographies giữa các bức ảnh chồng chéo. Một ví dụ về các bức ảnh

Page 8: 1-s2.0-S016786551200219X-main (dich)

chỉnh từ các đối tượng theo dõi được hiển thị trong hình . 2 . Pflugfelder và Bischof (2010) đề xuất một Cách tiếp cận ước tính đồng thời các bản dịch giữa hai camera đồng bộ nhưng phân chia và theo dõi của một vật chuyển động trong không gian 3D. Nó đòi hỏi sự tương ứng các dấu vết được quan sát thấy trong các bức ảnh khác nhau.

3 . Tính toán các cấu trúc liên kết của các bức ảnh

Cấu trúc liên kết xác định các bức ảnh bị chồng chéo hay đầu lân cận không gian. Kề không gian có nghĩa là không có các khu ảnh khác giữa hai điểm camera và do đó có khả năng có thể tồn tại một con đường liên kết nối kết nối trực tiếp các dấu vết của các đối tượng được quan sát trong hai điểm camera . Khi một đối tượng để lại ảnh, nó có thể xuất hiện trở lại trong một số các bức ảnh liền kề khác với xác suất nhất định. Do những hạn chế của cấu trúc cảnh và các cấu hình của mạng camera, cấu trúc liên kết của các bức ảnh có thể là phức tạp. Các điểm camera có thể được chồng lên nhau hoặc tách rời , liền kề hoặc ở xa nhau. Có '' điểm mù '' giữa hai điểm camera liền kề nhưng tách rời , làm cho theo dõi đa camera khó khăn. Hiện trường của một camera có thể được mô hình hóa với các cấu trúc như vùng nguồn ( nơi các đối tượng nhập các bức ảnh ) , khu vực bồn rửa ( nơi đối tượng để lại dấu vết là các bức ảnh ) , và các đường dẫn kết nối nguồn và bồn rửa . Do đó, cấu trúc liên kết có thể được mô tả một cách chi tiết hơn với một mạng lưới , nơi các nút là nguồn và bồn rửa và cạnh là đường dẫn ( trong vòng hoặc trên các bức ảnh ) kết nối nguồn và bồn rửa . Một ví dụ được hiển thị trong hình . 3 . Các cấu trúc cảnh có thể tự nhập vào hoặc tự động được triết xuất từ số liệu giám sát ( Stauffer , 2003; Makris và cộng sự 2004 , ; . Wang và cộng sự, 2008. ) .

Các kiến thức về cấu trúc liên kết là rất quan trọng để hỗ trợ đối tượng theo dõi qua các bức ảnh ( Kettnaker và Zabih , 1999). Theo thông tin cấu trúc liên kết , theo dõi của một camera có thể '' bàn giao '' theo dõi để theo dõi trong một camera lân cận. Mạng topo có thể được tăng cường bằng cách kết hợp một cạnh với một phân phối thời gian chuyển tiếp giữa một bồn rửa và một nguồn . Các bản phân phối có

Page 9: 1-s2.0-S016786551200219X-main (dich)

thể được trích từ dữ liệu huấn luyện theo những cách giám sát hoặc không có giám sát . Khi một đối tượng biến mất từ một khu vực bồn rửa trong một lần xem camera, chúng ta có thể dự đoán khi nào và nơi mà các đối tượng sẽ xuất hiện trở lại trong một camera sử dụng các cấu trúc liên kết mạng . Lý luận không-thời gian này có thể giải quyết rất nhiều sự không rõ ràng trong quá trình theo dõi nhiều camera.

Nếu camera đã được hiệu chỉnh với một thế giới hệ thống phối kết hợp 3D duy nhất, cấu trúc liên kết có thể được tính một cách đơn giản. Các kề không gian có thể được tìm thấy qua hình học cần phân tích và viewfields của camera. Nếu không, nó phải được suy ra từ dữ liệu huấn luyện . Các phương pháp tiếp cận chia ra hai loại: . correspondence-based ( Kettnaker và Zabih năm 1999; Javed và cộng sự,2003) và correspondence-free ( Ellis et al, 2003 ; . . Makris và cộng sự,2004). Sự kết hợp(tương thích) có nghĩa là kiến thức mà các dấu vết đc quan sát thấy trong các bức ảnh khác nhau thực sự tương ứng với cùng một đối tượng . Nó có thể đc bao gồm 1 cách thông thường hoặc với một số nhận dạng đối tượng công nghệ ( chẳng hạn như một đầu đọc tấm giấy phép hoặc nhận dạng khuôn mặt ) . Nhận dạng tự động đối tượng có thể khó khăn đặc biệt là trong trường xa video giám sát nơi các đối tượng có kích thước nhỏ . đối với loại đầu tiên , Javed et al. (2003) sử dụng cửa sổ Parzen để ước tính phân phối của thời gian chuyển tiếp giữa các camera từ một số dấu vết đào tạo với tương thích đc dán nhãn. Sự phân bố được sử dụng để cải thiện theo dõi nhiều camera.

Đối với phương pháp tiếp cận tương ứng - miễn phí, Ellis et al. (2003), Makris et al. (2004) tìm hiểu quá trình chuyển đổi thời gian giữa nguồn và chìm(sinks) từ tương quan chéo giữa các sự kiện biến mất và các sự kiện xuất hiện . Nguồn và bồn rửa không được liên kết nếu các sự kiện xuất hiện và biến mất là độc lập thống kê. Nó giả định rằng nếu một bồn rửa và một nguồn tiếp giáp , một đôi biến mất và xuất hiện lại các sự kiện quan sát được và do cùng một đối tượng cần phải có một sự khác biệt thời gian ít hơn so với T giây . Nó thu thập tất cả các cặp biến mất và xuất hiện lại các sự kiện đáp ứng hạn chế thời gian này và tính toán phân phối của thời gian chuyển tiếp giữa nguồn và bồn rửa . cũng giả định rằng phân phối này chỉ có một chế độ duy nhất và tìm kiếm sự lan nhiễm cho vị trí của quy mô . và sẽ k hoạt động tốt trong các trường hợp khi cảnh đang bận hoặc các đối tượng trên đi cùng một con đường với tốc độ khác nhau . Cả hai trường hợp dẫn đến phân phối đa phương thức của thời gian chuyển tiếp . Tiểu et al. (2005) suy ra các cấu trúc

Page 10: 1-s2.0-S016786551200219X-main (dich)

liên kết mạng camera không chồng chéo bằng cách đo tĩnh phụ thuộc giữa các quan sát , chẳng hạn như thời gian chuyển tiếp và xuất hiện màu sắc của các đối tượng, trong các bức ảnh khác nhau trong một khuôn khổ lý thuyết thông tin . Nó được giả định rằng điểm camera liền kề có một mức độ lớn của sự phụ thuộc . sự phụ thuộc tĩnh đc đo lường bằng dự toán phi tham số và sự không chắc chắn của tương ứng được tích hợp trong một tính cách Bayesian. Nó có thể được áp dụng cho phân phối quá trình chuyển đổi đa phương thức.

4 . Đối tượng theo dõi qua các bức ảnh

Theo dõi nhiều camera bao gồm hai phần : (1) theo dõi nội bộ camera, tức là đối tượng theo dõi trong 1 ảnh camera , và (2 ) theo dõi liên camera , tức là kết hợp các theo dõi của các đối tượng quan sát thấy trong các bức ảnh khác nhau. Có một nền văn học lớn trong theo dõi nội bộ camera và một cuộc khảo sát toàn diện có thể được tìm thấy trong ( Yilmaz et al. ,2006). Phần này tập trung vào theo dõi liên camera , nó khó khăn hơn bởi vì (1) dự đoán của các thông tin không-thời gian của các đối tượng trên\ điểm camera là ít độ tin cậy hơn trong chế độ xem ảnh giống nhau và (2) sự xuất hiện của các đối tượng có thể trải qua thay đổi mạnh mẽ vì sự khác biệt của nhiều yếu tố này , chẳng hạn như cài đặt camera , quan điểm, điều kiện ánh sáng , trong các bức ảnh khác nhau.

4.1. Theo dõi liên camera dựa trên nhiều camera hiệu chuẩn

Cách điển hình nhất của việc theo dõi nhiều camera là để theo dõi đối tượng trong một hệ thống 3D ( Bà Mia Mikic et al , 1998 phối hợp ; . Dockstader và Tekalp năm 2001; . Li và cộng sự, 2002; Focken và Stiefelhagen , 2002; Mittal và Davis , 2003; Pflugfelder và Bischof , 2007) hoặc trên một máy bay mặt đất toàn cầu đơn lẻ ( Chang và Công năm 2001; . Đen và cộng sự, 2002; Otsuka và Mukawa , 2004; . Hu và cộng sự, 2006; Fleuret et al . 2008 ; Rơm và cộng sự, 2010 ) hoặc dựa trên homography giữa các bức ảnh ( Lee và cộng sự, 2000; . . Caspi và Irani ,

Page 11: 1-s2.0-S016786551200219X-main (dich)

2000; Khan và Shah ,2006; Eshel và Môi-se , 2008) sau khi hiệu chỉnh . Các dấu vết của các đối tượng quan sát được trong các bức ảnh khác nhau được kèm dựa vào khoảng cách không gian của chúng trong hệ thống 3D phối hợp hoặc trên máy bay mặt đất thông thường. thường được giả định rằng cấu trúc liên kết của các bức ảnh và hiệu chỉnh camera đã được giải quyết trước giai đoạn theo dõi ( Cai và Aggarwal , 1996). Tuy nhiên, cũng tồn tại phương pháp tiếp cận mà cùng nhau suy ra các cấu trúc liên kết các điểm camera , camera cali - BRATE , và các đối tượng theo dõi qua các bức ảnh ( Stauffer và Grimson , 2000; Rahimi và cộng sự, 2004. ) . Họ giả định rằng theo dõi liên camera cũng có thể giúp với suy luận của cấu trúc liên kết và camera hiệu chuẩn. Rahimi et al. (2004) phục hồi đồng thời các thông số chuẩn của camera và theo dõi đối tượng trên điểm camera phân chia theo một công thức Bayes . Stauffer và Tieu (2003) cùng nhau suy ra các cấu trúc liên kết của các bức ảnh , ước tính homography giữa các bức ảnh và thiết lập sự phù hợp về dấu vết của đối tượng. Nếu camera là chưa được hiệu chỉnh nhưng có các cảnh bị chồng chéo ( FOV ) , việc tìm kiếm các giới hạn của FOV của mỗi camera dường như là vô hình trong các camera khác có thể giúp với sự giúp đỡ lần ra dấu vết . Khan và Shah (2003) đề xuất một phương pháp để tự động phục hồi dòng FOV, đó là ranh giới của FOV của một camera trong các bức ảnh khác, bằng cách quan sát sự chuyển động của các đối tượng . Nếu các dòng FOV được biết đến , có thể để phân biệt giữa nhiều khả năng tương ứng .

Trong một số cảnh giám sát video, có một nhu cầu để theo dõi một số lượng lớn các đối tượng trong môi trường đông đúc, nơi sự tắc nghẽn xảy ra thường xuyên do sự tương tác giữa các đối tượng . Theo dõi nhiều camera tốt hơn có thể giải quyết những thách thức của tắc nghẽn , bởi vì nó làm ngưng thông tin từ nhiều điểm camera cho những dấu vết không tế nhị . Ví dụ, khi một đối tượng bị ẩn trong một trong các bức ảnh , theo dõi có thể được chuyển sang một cái nhìn tốt hơn mà không bị ẩn bằng cách dự đoán sự tồn tại của sự tắc nghẽn trong quan điểm của camera ( Utsumi và cộng sự, 1998; . Sogo và Ishiguro , 2000; Dockstader và Tekalp năm 2001; Mittal và Davis , 2003). Cai và Aggarwal (1996) đo lường sự tin tương của các dấu vết , chúng thường thấp nếu các đối tượng bị ẩn trong cảnh đông đúc . Khi sự tin tưởng theo dõi là dưới một ngưỡng nhất định, theo dõi được chuyển sang một camera xem tối ưu với sự tự tin cao nhất. Fleuret et al. (2008) dự đoán sự ẩn giấu với một mô hình tạo sinh và một bản đồ chiếm xác suất . Otsuka và Mukawa (2004) ước tính các cấu trúc tắc dựa trên một mô hình rõ ràng của cấu

Page 12: 1-s2.0-S016786551200219X-main (dich)

trúc hình học của quá trình đó tạo ra sự tắc nghẽn(ẩn) giữa các đối tượng . Nó được xây dựng như một vấn đề để quy ước lượng Bayesian và thực hiện bằng cách lọc hạt . Với hiệu chuẩn, các quan sát từ nhiều điểm camera có thể được ánh xạ tới điểm trong một thế giới duy nhất 3D kết hợp hệ thống . Một số quan sát được bỏ qua nếu đối tượng bị ẩn trong một số quan điểm camera . Bộ lọc Kalman ( Bà Mia Mikic và cộng sự, 1998; . . Đen và cộng sự, 2002) , các bộ lọc Kalman mở rộng ( Straw et al , 2010 . ) Và bộ lọc hạt ( Otsuka và Mukawa , 2004; . Perez và cộng sự , 2004; Kim và Davis2006) được sử dụng để theo dõi các đối tượng trong thế giới 3D hệ thống phối hợp với xử lý tắc nghẽn . Nếu tọa độ 3D không có sẵn, các hạn chế homography giữa các bức ảnh cũng có thể được sử dụng để giải quyết việc đó ( Khan và Shah , 2006; Eshel và Môi-se , 2008).

4.2. Liên camera theo dõi với các tín hiệu xuất hiện

Hầu hết các phương pháp tiếp cận thảo luận ở trên cho rằng các bức ảnh liền kề có sự chồng chéo và do đó sự gần gũi không gian của sự theo dõi trong các khu vực chồng lấn có thể được tính . Để theo dõi các đối tượng trên các cảnh camera rời nhau , tín hiệu xuất hiện phải được tích hợp với lý luận không-thời gian ( Alexander và Lucc - hesi , xxxx , Huang và Russell năm 1997; Pasula cộng sự, 1999 ; . . Veenman và cộng sự, 2001; Javed và cộng sự, 2003; . Shafique và Shah , 2003; Morariu và Trại , 2006; . Giang và cộng sự, 2007; Song và Roy - Chowdhury,2008; Hamid và cộng sự , 2010 ; . . Kuo và cộng sự, 2010) . Khuôn khổ khác nhau đã được đề xuất . công thức Bayesian là một cách tự nhiên để tích hợp nhiều loại tính năng. Nó tính toán sau của các đối tượng bằng việc phù hợp các bằng chứng cho thấy ở các cảnh camera khác nhau. Huang và Russell (1997) đề xuất một cách tiếp cận Bayes để tích hợp các màu sắc và kích thước của các đối tượng với vận tốc , thời gian đến và vị trí làn đường để theo dõi xe giữa hai điểm camera . Nó làm mẫu xác suất dự đoán sự xuất hiện hoặc các tính năng không- thời gian của các đối tượng được quan sát trong một cảnh camera với điều kiện những quan sát của cảnh đó trong cảnh camera khác . Pasula et al. (1999) cũ có xu hướng tiếp cận này để theo dõi các đối tượng trên một số lượng lớn các cảnh camera. Thay vì mô hình xác suất có điều kiện của các tính năng giữa hai điểm camera, nó

Page 13: 1-s2.0-S016786551200219X-main (dich)

giới thiệu các biến số ẩn để mô tả các thuộc tính nội tại của sự xuất hiện và các tính năng không-thời gian trong một mạng Bayes . Javed et al. (2003) ước lượng mật độ việc làm hạt nhân để đánh giá khả năng của một đối tượng vào một cái nhìn camera với một thời gian đi lại nhất định được vị trí và vận tốc cho nó khi nó thoát khỏi cảnh của một camera khác . Nó đòi hỏi dữ liệu huấn luyện có độ tương tự được dán nhãn . Việc thay đổi xuất hiện giữa các bức ảnh được tính là khoảng cách giữa các biểu đồ màu . Xác suất khoảng cách màu được mô phỏng như một phân phối Gaussian được học kinh nghiệm cho mỗi cặp các bức ảnh từ dữ liệu huấn luyện . Matei et al. (2011) tích hợp xuất hiện và không gian thời gian khả năng xảy ra trong một khuôn khổ đa giả thuyết. Trong khi đó thay vì áp dụng một cách tiếp cận Bayes , Morariu và Trại (2006) sử dụng nghiên cứu đa dạng để phù hợp với sự xuất hiện của các đối tượng trên các cảnh camera . Hình ảnh kích thước cao được ánh xạ tới đa chiều kích thước thấp được trích từ các trình tự quan sát. Các đa chiều của các bức ảnh khác nhau được liên kết bằng cách bắt các mối tương quan thời gian giữa các chuỗi . Với đa chiều liên kết, nó chiết xuất từ các tọa độ nội tại của các đối tượng quan sát và thiết lập tương tự

Các mối quan hệ không-thời gian và mối quan hệ giữa sự xuất hiện các bức ảnh có thể thay đổi tự động và do đó mô hình của chúng cần phải được cập nhật thích nghi . Ví dụ, các điều kiện ánh sáng thay đổi trong suốt cả ngày . Thời gian đi lại của xe cộ giữa các điểm camera thay đổi với lượng giao thông trên một mạng lưới đường bộ trong giai đoạn khác nhau của một ngày . Thu thập các mẫu đào tạo đáng tin cậy là một thách thức lớn cho các mô hình cập nhật trực tuyến từ tương ứng được dán nhãn bằng tay không có sẵn tại thời gian chạy . Trong ( Huang và Russell , 1997) , các thông số của mô hình xuất hiện được cập nhật trực tuyến dưới sự mong đợi - Tối đa hóa (EM) framework. Javed et al. (2003) cập nhật các mô hình xác suất bằng cách sử dụng dự toán mật độ hạt nhân trực tuyến ( Lambert et al. , 1999). Chen et al. (2008) đề xuất một cách tiếp cận không có giám sát trực tuyến để tìm hiểu cả hai mối quan hệ không-thời gian và sự xuất hiện cho một mạng camera . Nó từng bước tinh lọc các kết quả phân nhóm nguồn và bồn rửa, và học các mô hình xuất hiện bằng cách kết hợp các thông tin không-thời gian và MCMC lấy mẫu. Kuo et al. (2010) sử dụng Multiple Instance Learning (nghiên cứu các trường hợp đa dạng)(MIL ) ( Dietterich et al. ,1997) để tìm hiểu trực tuyến xuất hiện một mô hình phân biệt đối xử . không - thời gian hạn chế của các dấu vết được quan sát trong hai điểm camera có thể cung cấp một số mẫu đào tạo dán nhãn một cách yếu

Page 14: 1-s2.0-S016786551200219X-main (dich)

ớt trong đó bao gồm một số cặp có khả năng liên quan đến các dấu vết và loại trừ các sự hợp tác không thể. Các cặp có khả năng liên quan đến lựa chọn có dương tính giả như tiếng ồn . MIL có thể chứa sự mơ hồ của nhãn hiệu trong quá trình nghiên cứu mô hình .

4.3. Giải quyết các phù hợp trên nhiều điểm camera

Mỗi ảnh camera có thể chụp một bộ nhiều đối tượng trong một thời gian ngắn . Theo dõi đối tượng trên qua đa ảnh camera dẫn đến việc giải quyết sự tương tự (correspondence) của các dấu vết giữa 1 bộ nhiều ứng cử viên. Về sự giống nhau giữa các dấu vết chứa trong các bức ảnh khác nhau như đã nói ở trên , một vấn đề chuyển nhượng nhiều khả năng vẫn còn để được giải quyết dưới sự bắt buộc rằng một dấu vết trong một lần xem camera có thể kết hợp với ít nhất một dấu vết trong một camera . Nếu chỉ có hai điểm camera , vấn đề này có thể được giải quyết bằng các thuật toán Hungary ( Kuhn , 1956) hoặc được xây dựng như một vấn đề song phương phù hợp với đồ thị có trọng số ( Cox và Hingorani , 1994; Alexander và Lucc - hesi , xxxx ; Veenman et al . năm 2001; Javed và cộng sự , 2003). . Các thuật toán Hungary đòi hỏi tính toán ma trận chi phí dựa trên những điểm tương đồng giữa các dấu vết cặp thu được trong hai quan điểm camera khác nhau. Phức tạp là Oðn3 Þ trong đó n là số lượng dấu vết . Nếu nó được xây dựng như một vấn đề song phương phù hợp với đồ thị , mỗi dấu vết được biểu diễn như một đỉnh của đồ thị. Trọng lượng của một cạnh lien kết với hai dấu vết trong các bức ảnh khác nhau là tương tự nhau. biểu đồ song phương phù hợp là tìm M đường phân chia trong đồ thị và mỗi đường biểu thị cho cá dấu vết theo dõi của cùng một đối tượng . Nó có thể được giải quyết với một Oðn2 : 5 Þ phức tạp ( Hopcroft và Karp ,1973). Nếu có nhiều hơn hai quan điểm camera , giải quyết vấn đề này là khó NP . Phương pháp tối ưu hóa khác nhau đã được đề xuất để tìm giải pháp tối ưu . Trong ( Shafique và Shah , 2003; . Hamid và cộng sự, 2010) , các thuật toán đồ thị phù hợp với K- ba bên khác nhau đã được đề xuất để giải quyết vấn đề này. Wu et al. (2009) tính toán những vấn đề của việc tìm kiếm sự tương tự qua nhiều ảnh camera là một vấn đề giao đa chiều và giải quyết nó bằng một thủ tục tìm kiếm thích ứng ngẫu nhiên. Giang et al. (2007) xây dựng nó như là một vấn đề tìm kiếm

Page 15: 1-s2.0-S016786551200219X-main (dich)

nhiều đường và giải quyết nó với đề xuất một chương trình lập trình tuyến tính thư giãn.

5 . xác định lại Đối tượng

Trong một số kịch bản ứng dụng , cấu trúc liên kết của một camera thông tin mạng lưới phân phối và theo dõi không có sẵn, đặc biệt là khi các camera trong khoảng cách xa và các môi trường đông đúc . Ví dụ, chỉ các bức ảnh chụp các đối tượng thay vì các dấu vết chụp bởi camera khác nhau có sẵn . Trong trường hợp này lý luận không-thời gian là không khả thi hoặc chính xác để theo dõi nhiều camera. . Trong những năm gần đây , rất nhiều công trình nghiên cứu ( Nakajima và cộng sự, 2003; Bird và cộng sự năm 2005, ; . Javed và cộng sự năm 2005, ; . . Shan và cộng sự, 2005; Shan và cộng sự năm 2005, ; . . Gheissari và cộng sự, 2006; Hu và cộng sự, 2006; . . Guo et al ,2007 ; Wang và cộng sự, 2007 ; . Prosser et al, 2008 ; . . Guo et al, 2008 ; . Hamdoun et al, 2008 ; Lin và Davis, 2008 ; Gray và Tao , 2008 ; . Shan và cộng sự, 2008 ; Schwartz và Davis , 2009 ; Zheng và cộng sự , 2009 ; . Farenzena et al , 2010 ; . . Prosser và cộng sự, 2010) đã được thực hiện trên các đối tượng phù hợp như xe và người đi bộ quan sát trong các bức ảnh khác nhau chỉ sử dụng thông tin hình ảnh mà không có lý do không-thời gian . Người ta cho rằng các quan sát của một người đi bộ bị bắt trong cùng một ngày và do đó quần áo hoặc hình dạng của mình không thay đổi nhiều . Đối tượng có thể được xuất hiện với một shot duy nhất ( Javed và cộng sự, 2005 ; . . Shan và cộng sự,2005; Wang và cộng sự, 2007; . Lin và Davis , 2008 ; Gray và Tao ,2008; Schwartz và Davis , 2009 ; . Zheng và cộng sự , 2009 ; . Farenzena và cộng sự, 2010) hoặc nhiều bức ảnh ( Nakajima và cộng sự năm 2003, ; . Gheissari et al, 2006 ; . Bird và cộng sự năm 2005, ; . Hamdoun et al . , 2008). Vấn đề này được gọi là xác định lại đối tượng. Nghiên cứu xác định lại đối tượng một cách riêng biệt từ theo dõi đa camera giúp hiểu rõ hơn về khả năng của đối tượng phù hợp sử dụng các tính năng trực quan đơn lẻ. Một khi nó đã được nghiên cứu tốt, nó có thể được tích hợp với không gian và lý luận thời gian ở giai đoạn sau mà còn có thể tỉa ứng viên đặt ra để được xuất hiện. tái xác định Đối tượng là rất khó khăn. Cùng một đối tượng quan sát thấy trong các bức ảnh khác nhau trải qua biến đổi đáng kể các tái xác định, ánh sáng , tư thế và điểm ảnh . Vì các đối tượng bị bắt bởi camera giám sát thường có kích thước nhỏ và rất nhiều chi tiết hình ảnh như các thành phần trên khuôn mặt

Page 16: 1-s2.0-S016786551200219X-main (dich)

không thể phân biệt trong hình ảnh, một số trong số họ trông tương tự xuất hiện . Ví dụ về các quan sát người đi bộ trong các bức ảnh khác nhau được thể hiện trong hình . 4 . Sự nhập nhằng tăng khi số lượng các đối tượng được phân biệt trong nếp gấp . Vì vậy , các tính năng và các số liệu khoảng cách sử dụng hình ảnh để phù hợp với các khu vực cần phải được đánh giá cao phân biệt và mạnh mẽ với những biến thể liên camera.

5.1. Tính năng cho các tái định đối tượng

Sự xuất hiện của các đối tượng thường được đặc trưng trong ba khía cạnh , màu sắc, hình dạng và kết cấu. Họ được xem xét dưới đây . Một loại tính năng này là không đủ mạnh để nắm bắt được tinh tế khác biệt về của tất cả các cặp của các đối tượng . Chúng thường được kết hợp và trọng khác nhau tùy theo năng phân biệt của họ.

5.1.1. màu

Biểu đồ màu sắc của hình ảnh toàn bộ khu vực được sử dụng rộng rãi như các tính năng toàn cầu để phù hợp với đối tượng trên các bức ảnh vì chúng mạnh mẽ để các biến thể của tư thế và quan điểm ( Orwell et al. ,1999; Krumm và cộng sự, 2000; . Mittal và Davis, 2003 ; . park và cộng sự, 2006 ; Cheng và Piccardi , 2006). Tuy nhiên , chúng cũng có những điểm yếu mà chúng rất nhạy cảm với các biến thể của điều kiện ánh sáng và các thiết lập trắc quang của camera và điện phân biệt đối xử của họ là không đủ cao để phân biệt một số lượng lớn của các đối tượng . Không gian màu sắc khác nhau như RGB, Lab, HSV và Log RGB đã được nghiên cứu và so sánh trong ( Wang et al. , 2007). Bằng cách loại bỏ các thành phần nhẹ nhàng trong không gian màu HSV , các biến đổi màu sắc trên các bức ảnh có thể được giảm đáng kể. Không gian màu RGB - Log ít nhạy cảm với biến đổi quang. Nó tính toán các dẫn xuất định hướng đầu tiên của logarit của màu sắc, mà chủ yếu là các tỷ lệ màu sắc lân cận. Màu sắc của một điểm ảnh được hình thành như là sản phẩm của sự chiếu sáng sự cố và suất phản chiếu bề mặt . Từ sáng vẫn không đổi ở các khu vực địa phương , tỷ lệ màu sắc lân cận hiệu quả có thể loại bỏ các thành

Page 17: 1-s2.0-S016786551200219X-main (dich)

phần ánh sáng. Mittal và Davis (2003) áp dụng các mô hình màu Gaussian để giải quyết các sự tương tự của chế độ màu giữa các bức ảnh . Bất biến khác màu ( Cheng và Piccardi , 2006 ; Slater và Healey, 1996; Weijer và Schmid , 2006) cũng đc đề xuất. Để tăng cường sức mạnh phân biệt , hình ảnh 1 vùng của một đối tượng được phân chia thành các khu vực địa phương , biểu đồ màu trong khu vực địa phương được tính và nối như các tính năng cho đối tượng phù hợp (Park et al. , 2006).

5.1.2. hình dạng

Biểu đồ của Oriental Gradients (HOG) ( Dalal và Triggs , 2005; . Wang và cộng sự, 2007; Schwartz và Davis, 2009) đặc trưng địa phương hình dạng bằng cách bắt các cạnh và các cấu trúc gradient. Nó tính toán biểu đồ định hướng dốc trong các tế bào được đặt trên một mạng lưới dày đặc và trải qua trắc quang địa phương bình thường. Nó là mạnh mẽ để dịch nhỏ và quay của các bộ phận đối tượng. Hình con văn bởi Belongie et al. (2002 ) mô tả cả cấu trúc hình dạng toàn cầu và địa phương. Nó được sử dụng để phân vùng cơ thể con người vào cấu tạo cho xác định lại người bằng cách học một điển hình trong ( Wang et al. , 2007). Ngoài ra còn có các mô hình khác ( Agarwal và Triggs ,2006; Carneiro và Lowe , 2006) đề xuất để mô tả cấu hình địa lý số liệu của các bộ phận địa phương khác nhau của các đối tượng .

5.1.3. kết cấu

Nhiều bộ lọc , chẳng hạn như bộ lọc Gabor ( Daugman et al , 1985 . ) Và tuyến tính lọc filter-banks khác ( Winn và cộng sự, 2005; . Varma và Zisserman ,2005; . Leung và Malik , 1999) , và mô tả địa phương , chẳng hạn như SIFT ( Lowe , 2004) , màu sắc Chọn lọc ( Abdel- Hakim và Farag , 2006) , địa phương Patterns Bin -phân (LBP) ( Ojala et al , 2002) , đẩy mạnh tính năng mạnh mẽ ( SURF ) ( Bay et al. , 2006) , ổn định tối đa cực trị khu vực ( MSER ) ( Forssen , 2007) , khu vực hiệp phương sai ( Tuzel et al. , 2006) và quay hình ảnh ( Lazebnik et al. , 2003 ) , đã được đề xuất để đặc tả kết cấu địa phương và chúng có thể được áp dụng cho tái xác định đối tượng, ước hóa ( Hamdoun et al. , 2008). Các bộ lọc hoặc

Page 18: 1-s2.0-S016786551200219X-main (dich)

mô tả có thể được áp dụng cho các điểm tính năng thưa thớt hoặc trên một mạng lưới dày đặc. Phản ứng của chúng thường được lượng tử hóa thành các từ hình ảnh theo một cuốn từ điển hình ảnh trước học . Một tập hợp các bộ lọc dãy tuyến tính bởi Winn và cộng sự đề xuất. được thể hiện trong hình . 4 (c) . Nó kết hợp Gaussian, Laplacian của Gaussian và các dẫn xuất tự đầu tiên của Gaussian trong màu Lab không gian . Nhãn từ trực quan lượng tử với thiết lập này của bộ lọc dãy (banks) được thể hiện trong hình . 4 (d) . Với một mô hình đặc điểm túi (bag of features), biểu đồ của từ hình ảnh của khu vực hình ảnh toàn bộ được sử dụng như tính năng cho phù hợp với đối tượng. Tuy nhiên , tính năng này là không phân biệt đối xử đủ . Ví dụ, nó không thể phân biệt được một người mặc một chiếc áo khoác màu trắng và quần màu xanh với một mặc một chiếc áo khoác màu xanh và quần trắng . Do đó, nhiều tính năng hơn được đề xuất để nắm bắt được phân bố không gian của từ trực quan . Mặt khác , đề xuất cấu trúc phải được bất biến để các biến thể của tư thế và quan điểm khi mã hóa các thông tin không gian . Wang et al. (2007) đề xuất hình và bối cảnh xuất hiện mà tính đồng xảy ra từ hình dạng và từ hình ảnh . Nó phân đoạn đối tượng biến dạng thành các phần L sử dụng bối cảnh hình dạng và một từ điển hình học . Sử dụng một hạt nhân không gian, trong đó phân vùng các miền hình ảnh vào M tiểu vùng , như thể hiện trong hình . 4 (e), nó mô hình phân bố không gian của từ trực quan tương đối với nhau của các bộ phận đối tượng. Khi hạt nhân k gian được đặt trên một phần đối tượng, biểu đồ các từ hình ảnh trong tiểu vùng của hạt nhân không gian được tính toán . Các biểu đồ LM được sử dụng như các tính năng trực quan cho các đối tượng phù hợp . Ngoài ra còn có các tính năng khác như correlograms ( Huang et al. , 1997) và tương quan ( Savarese et al. , 2006) để nắm bắt được xuất hiện đồng thời các từ trực quan hơn hạt nhân không gian.

5.1.4. Tính năng không-thời gian

Gheissari et al. (2006) đề xuất một cách tiếp cận của việc sử dụng tính năng chuyển động địa phương cho xác định lại người. Nó thiết lập sự tương ứng giữa các bộ phận của những người khác nhau thông qua Phân khúc không-thời gian với mô hình phù hợp. Các tính năng cho người tái xác định được chiết xuất bằng cách

Page 19: 1-s2.0-S016786551200219X-main (dich)

kết hợp màu sắc bình thường và biểu đồ edgel nổi bật trong bộ phận cơ thể khác nhau.

5.1.5. Đại diện mẫu mực dựa trên

Thay vì trực tiếp phù hợp với các tính năng trực quan, một số phương pháp tiếp cận (Shan và cộng sự, 2005;.. Guo et al, 2007) đề xuất dựa trên mẫu mực đại để diện vượt qua những biến thể ấn tượng của quan điểm. Một minh họa đồ họa được thể hiện trong hình. 4 (g). Cho hai quan điểm camera a và b; n cặp đại diện fðxa; xb Þ; ...; DXA; xb THG được lựa chọn như ví dụ. xia và xib là những quan sát của cùng một đối tượng bị bắt trong a và b tương ứng. Nếu một mẫu ya được quan sát trong a, nó được đưa vào trong số những những hình mẫu đại diện cũng quan sát thấy trong a, và nó được biểu diễn như là một n chiều vector da =(da1; ...; dan) trong đó dai là khoảng cách giữa ya và xia bằng cách kết hợp các tính năng thị giác .nếu thị giác của chúng là một mẫu yb khác nhau được quan sát thấy trong b, a vector db thu được trong cùng một cách. Nếu sự thay đổi quan điểm lớn, nó là đáng tin cậy hơn so sánh da và db hơn ya và yb. Giả định cơ bản là nếu một đối tượng được tái xác định là tương tự như một trong những ví dụ đối tượng điển hình, quan sát nó trong a và b phải tương tự như xa và xb tương ứng, và do đó cả da và db là nhỏ không quan trọng làm thế nào khác nhau hai quan điểm là gì. Nó có nghĩa là da và db là tương tự nếu ya và yb là những quan sát của cùng một đối tượng. tuy nhiên, nó đòi hỏi một tập hợp các những hình mẫu đại diện cho bất kỳ cặp các bức ảnh và chi phí thủ hơn ghi nhãn nỗ lực.

5.2. nghiên cứu tái xác định đối tượng

Việc chuyển đổi trắc quang giữa hai quan điểm camera có thể được nghiên cứu. Javed et al. (2005), Prosser et al. (2008) tìm hiểu các chức năng chuyển sáng (BTFs) và viết sáng chuyển chức năng hai chiều (CBTF), mà bản đồ màu quan sát thấy trong một camera xem như trong một camera, từ các ví dụ đào tạo được thu thập từ một cặp các bức ảnh và tương tự mà được biết đến. Porikli (2003) và Porikli et al. (2003) đề xuất một chức năng không tham số để mô hình các bức ảnh

Page 20: 1-s2.0-S016786551200219X-main (dich)

biến dạng màu sắc được giữa sử dụng phân tích ma trận tương quan và lập trình năng động. Gilbert và Bowden (2006) từng bước và cùng nhau tìm hiểu các bản đồ màu sắc và quá trình chuyển đổi không-thời gian giữa các bức ảnh được. Nó không yêu cầu dán nhãn bằng tay ví dụ đào tạo với các sự tương tự. Hai loại chuyển biến chức được bổ sung và hỗ trợ lẫn nhau trong quá trình học tập.

Một số phương pháp học các số liệu tương tự / khoảng cách hoặc chọn một tập con tối ưu các tính năng để phù hợp với các khu vực hình ảnh quan sát được trong các bức ảnh khác nhau. Schwartz và Davis (2009) đề xuất một Cách tiếp cận của dự các tính năng cao chiều đến một không gian tiềm ẩn phân biệt thấp chiều kích thước bởi một phần Least squares giảm (Wold, 1985). Có trọng lượng tính năng theo điện phân sự phạm tội của họ để phân biệt tốt nhất các quan sát của một ob-ject với những người khác trong một chương trình chống lại một-tất cả. Lin và Davis (2008) tìm hiểu một sự khác biệt cặp khác nhau ủng hộ ャ〕 e mà tốt nhất phân biệt một đôi người. Người ta cho rằng một tính năng có thể là rất quan trọng để phân biệt hai đối tượng rất giống nhau nhưng không có hiệu quả cho các đối tượng khác. Do đó nó dễ dàng hơn để đào tạo các tính năng đối xử phân biệt-inative trong một chương trình cặp. Tuy nhiên, những hai cách trên yêu cầu tất cả các đối tượng được lại nhận mình ャ 'd có ví dụ trong tập huấn luyện. Nếu một đối

tượng mới là để được tái nhận mình ャ 'd ở giai đoạn thử nghiệm, không gian tiềm ẩn phân biệt hoặc không giống nhau-du khách và phải được đào tạo lại. Zheng et al. (2011) đề xuất một mô hình so sánh cách tương đối Probabilis-tic. Nó công thức hoá đối tượng lại nhận mình ャ ... ation là một vấn đề đào tạo từ xa và tối đa hóa xác suất mà một cặp trận đấu thực sự có một khoảng cách nhỏ hơn so với một cặp kết hợp sai. Các số liệu khoảng cách học có thể chung hoá để đối tượng bên ngoài tập huấn luyện. Trong (Gray và Tao, 2008;. Prosser và cộng sự, 2010) và thúc đẩy RankSVM được sử dụng để chọn một tập hợp tối ưu các tính năng cho phù hợp với đối tượng trên các bức ảnh . Shan et al. ( 2005, 2008 ) đề xuất một cách tiếp cận không có giám sát để tìm hiểu các biện pháp cạnh phân biệt cho chiếc xe phù hợp.

6 . Phân tích hoạt động nhiều camera

Page 21: 1-s2.0-S016786551200219X-main (dich)

Phân tích hoạt động là một nhiệm vụ quan trọng trong video giám sát . Nó phân loại các hoạt động thành các loại khác nhau và phát hiện ra hoạt động tiêu biểu và bất thường. Các phương pháp tiếp cận đề xuất chia thành hai loại Các phương pháp giám sát ( Murata và Properties, 1989; Bobick

và Ivanov năm 1998; Oliver và cộng sự, 2000; . . Smith và cộng sự , 2005) yêu cầu thủ ghi nhãn mẫu đào tạo . Tuy nhiên , kể từ khi observait thường đòi hỏi ghi nhãn lại mẫu đào tạo khi các phương thức tiếp cận được áp dụng cho các bức ảnh khác nhau. Điều này hạn chế khả năng mở rộng và khả năng thích ứng của họ. Mặt khác , nó là rất khó khăn để thực hiện các phương pháp tiếp cận mạnh mẽ để chuyển đổi quan điểm

mà không có quá trình đào tạo lại. Hệ thống giám sát video cần xử lý dòng video thu được từ một số lượng lớn các camera Quy mô của các mạng camera đang nhanh chóng gia tăng hiện nay. Do đó , mọi người thích cách tiếp cận không giám sát ( Nhãn hiệu và Kett - naker năm 2000; Sông et al 2003 , ; . . Wang và cộng sự, 2006, 2009 ) có thể tự động tìm hiểu các mô hình hoạt động mà không ghi nhãn mẫu tàu - ing . Họ có thể dễ dàng thích ứng với những cảnh khác nhau với sự can thiệp của con người ít .

Trong video giám sát trường xa , các đối tượng có kích thước nhỏ và các video đã chụp được có độ phân giải thấp và chất lượng kém. Rất khó để tính toán tính năng phức tạp , chẳng hạn như tư thế , cử chỉ, và sự xuất hiện của các đối tượng . Các hoạt động của các đối tượng chủ yếu phân biệt bởi mô hình chuyển động của họ. Trong nhiều hệ thống giám sát ( Johnson và Hogg , 1995; Stauffer và Grimson , 2000; . Oliver và cộng sự,

2000; . Haritaoglu và cộng sự, 2000; Nhãn hiệu và Kettnaker , 2000; . Medioni và cộng sự, 2001; Honggeng và Nevatia năm 2001; . Hu và cộng sự , 2004; . Wang và cộng sự, 2006; Morris và Trivedi , 2008 ; Wang và cộng sự al. , 2008 , 2011 ) , ob dự án trình lần đầu tiên được phát hiện và theo dõi và hoạt động của một đối tượng sau đó được coi là chuyển động tuần tự dọc theo các bài hát của mình . Thường chỉ vị trí của các đối tượng được ghi lại cùng bài hát , được gọi là cá tra - jectories . Với vị trí và vận tốc như các tính năng , sự chuyển động vỗ đàn chim nhạn của quỹ đạo có thể phân biệt nhiều loại hoạt động khác nhau ở các trường xa . Một số ví dụ

Page 22: 1-s2.0-S016786551200219X-main (dich)

được hiển thị trong hình . 5 . Các hoạt động của các đối tượng được đúng quy tắc bởi các cấu trúc cảnh , chẳng hạn như đường dẫn , nguồn và bồn rửa . Nhiều cách tiếp cận ( Keogh và Pazzani ,

2000; Makris và Ellis , năm 2002; Porikli , 2003; . Junejo et al , 2004; . Fu và cộng sự, 2005; . Zhang và cộng sự, 2006; . Wang và cộng sự, 2011) đã được đề xuất để quỹ đạo nhóm các đối tượng vào khác nhau loại hoạt động mà không cần giám sát. Nếu một quỹ đạo không phù hợp với bất kỳ mô hình hoạt động điển hình, nó được phát hiện như là bất thường .

Một cách tự nhiên của việc phân tích hoạt động trong nhiều quan điểm camera là đối tượng theo dõi đầu tiên trên quan điểm camera và sau đó sử dụng các quỹ đạo hoàn chỉnh của một đối tượng quan sát thấy trong các bức ảnh khác nhau để phân tích hoạt động với phương pháp tiếp cận tương tự được phát triển để phân tích hoạt động trong các bức ảnh duy nhất. Ví dụ, Zelniker et al. (2008) cụm khâu quỹ đạo từ nhiều quan điểm camera và các bất thường được phát hiện. Tuy nhiên , như đã nói , các đối tượng theo dõi qua các bức ảnh đòi hỏi suy luận cấu trúc liên kết của các bức ảnh , đo đạc các bức ảnh , và giải quyết vấn đề tương spondence , được thử thách đặc biệt là khi các cấu trúc cảnh và các cấu hình của mạng camera là khá tùy tiện. Các quan điểm camera có thể có bất kỳ sự kết hợp của lớn , nhỏ, hoặc thậm chí không có sự chồng chéo . Các đối tượng có thể di chuyển trên một hoặc nhiều máy bay mặt đất . Một số phương pháp tiếp cận ( Wang et al, 2008 , 2010 ; . . Loy et al, 2009 ) được đề xuất để phân tích hoạt động trong nhiều quan điểm camera mà không theo dõi các đối tượng trên các bức ảnh . Họ sẽ được thảo luận trong phần 6.1.

Trong gần các lĩnh vực , nhiều tính năng hơn của các đối tượng , chẳng hạn như màu sắc, kết cấu , hình dáng, cử chỉ và chuyển động của các bộ phận cơ thể có thể được quan sát . Vì vậy, các hoạt động có thể được phân tích với nhiều chủng loại, với các tính năng chi tiết hơn. Nó được gọi là hành động công nhận trong bài báo này . Những tính năng này thay đổi đáng kể khi chúng được quan sát thấy trong các bức ảnh khác nhau. Một số ví dụ được hiển thị trong hình . 9 . Nhiều cách tiếp cận (Rao et al , 2002; . . Junejo et al, 2008 , 2011 ; Yil - maz và Shah , 2005; . Syeda - Mahmood và cộng sự, 2001; Parameswaran và Chellappa , 2006; Shen và Foroosh , 2008 ; Ogale et al , 2006; . Li và cộng sự, 2007; . . Weinland et al , 2007; . Yan et al, 2008 ; Farhadi và Tabrizi , 2008 ; . Liu và cộng sự, 2011) được đề xuất

Page 23: 1-s2.0-S016786551200219X-main (dich)

để thực hiện hành động này công nhận - Định nghĩa mạnh mẽ đến thay đổi quan điểm camera . Họ sẽ được thảo luận trong Phần 6.3.

6.1. Phân tích hoạt động nhiều camera thư miễn phí

Wang et al. (2010) đề xuất một cách tiếp cận của cùng mô hình hoạt động trong nhiều quan điểm camera sử dụng một mô hình chủ đề và một mạng lưới cá tra - jectory mà không yêu cầu giải quyết vấn đề tương spondence thách thức. Nó được giả định rằng các camera được đồng bộ hóa nhưng chưa được hiệu chỉnh , và các cấu trúc liên kết của các lĩnh vực của họ về quan điểm là không rõ và tùy ý. Đối tượng được theo dõi trong từng xem cam - kỷ nguyên độc lập , tuy nhiên, không theo dõi liên camera. Mục đích là để tìm hiểu các mô hình của một loại hoạt động với chức phân phối trong tất cả các quan điểm camera và quỹ đạo nhóm trong tất cả các quan điểm camera mà không cần giám sát. Một ví dụ được hiển thị trong hình . 6 .

Như hình . 7 , một mạng lưới được xây dựng bằng cách kết nối quỹ đạo quan sát thấy trong các bức ảnh khác nhau dựa trên thời gian cũ lều của họ. Mỗi nút trên mạng là một quỹ đạo. Nếu hai quỹ đạo được quan sát thấy trong các bức ảnh khác nhau và mức độ thời gian của họ là gần , chúng được kết nối bởi một cạnh . Một cạnh trên mạng In almost all Lĩnh Vực , many features of the greater than the object , Chang timeout such as colors , the Configuration , geometry , Củ Chi and move dynamic of the local Phan co the may be quan sat . Because of váy , the activities that can be parse for more than Chung type , with features chi tiết over . It is calling that action ' cong nhan in token report of this . The following this feature change Đặng ke when they are quan sat found in the Buc images various . Some examples be displayed in screen. 9 . Many ways tiếp có thể (Rao et al , 2002; .. Junejo et al, 2008 , 2011 ; Yil - maz and Shah , 2005; . Syeda - Mahmood and add really năm 2001; Parameswaran and Chellappa , 2006; Shen and Foroosh , 2008 ; Ogale et al, 2006 ; . Li and add really , 2007 ; .. Weinland và cộng sự, 2007 ; . Yan et al, 2008 ; Farhadi and Tabrizi , 2008 ; . Liu and add really , 2011 ) is problem output to execute action of this Công Nhân - Defines powerful tôi up to change quan score camera. They would be editor boolean in Phần 6.3.

Page 24: 1-s2.0-S016786551200219X-main (dich)

6.1. Phân tích active multiple camera the mien phi

Wang et al. (2010) problem Output one way tiếp có thể of the same model activities in many quan score Camera use one model subject and a networks Grid cá tra - jectory which is required to resolve the problem relative spondence Thạch expressions . It is the that the giả Camera be sync ciphertext but not modified , and the geometry the link of the Lĩnh Vực for their quan score as unknown and options y. Object is tracking in each xem cam - Kỷ Nguyên ĐỘC settings , however , no tracking associated camera . Purpose is the to find understand the model of a type work with function distribution in all quan score Camera and mutual Đạo Group in all quan score Camera but no need to Giám ngồi . One for example be displayed in screen. 6 .

Như screen. 7 , one is a network Grid built with the way to connect mutual Đạo quan sat found in the Buc images various based on the time older Leu their . Each of the button above the network is one mutual Đảo. If hai mutual Đạo been quan sat found in the Buc images and various dumpdir the time that their almost , they are connected by a Cảnh . One Cảnh above the network các hoạt động. Các mô hình này trong mỗi lần camera cá nhân có thể được học bằng cách sử dụng mô hình chủ đề theo thông tin theo dõi trong các bức ảnh duy nhất. Tuy nhiên, mục tiêu là để tìm hiểu sự phân bố chung của mỗi mô hình hoạt động trong tất cả các quan điểm camera. Hạn chế êm ái đòi hỏi sự phân bố của a và b trong các hoạt động tương tự để có một cây bút-alty nhỏ hơn. Trong ví dụ này, cả a và b có một phân phối lớn hơn về hoạt động 1, do đó các mô hình hoạt động 1 trong hai quan điểm khác nhau camera có thể được kết hợp.

Nhiều nơi công cộng quan tâm an ninh cao là cực kỳ đông đúc. Rất khó để phát hiện chính xác và theo dõi các đối tượng trong môi trường như vậy . Trong những năm gần đây, nhiều phân tích hoạt động cách tiếp cận ( Wang và cộng sự năm 2007, năm 2009; . . Loy và cộng sự, 2009) đã được đề xuất cho giám sát video trong môi trường đông đúc mà không cần theo dõi đối tượng. Loy et al. (2009) đề xuất một cách tiếp cận phân tích hoạt động với quan điểm camera không chồng chéo và chưa được hiệu chỉnh nhiều trong một cảnh bận rộn mà không cần theo dõi

Page 25: 1-s2.0-S016786551200219X-main (dich)

nội bộ hoặc liên camera. Hoạt động này được biểu diễn như là các tính năng của chuyển động địa phương. Chúng phân hủy mỗi camera

xem vào khu vực ngữ nghĩa theo mô hình tương tự của không-thời gian chuyển động địa phương như hình . 8 (b) . Các mối quan hệ thời gian và quan hệ nhân quả giữa các hoạt động của khu vực ngữ nghĩa bên trong và giữa các bức ảnh được phát hiện và định lượng bằng đường Canonical tương quan phân tích . Phương pháp đề xuất tự động có thể suy ra các cấu trúc liên kết của khu vực ngữ nghĩa cũng như mạng camera ( như hình . 8 (c) và (d) ) , và có thể mod - el các hoạt động toàn cầu qua mạng camera toàn bộ bằng cách liên kết hình ảnh thu thập chứng cứ xem nhiều camera. 6.2. Sử dụng mô hình hoạt động để cải thiện theo dõi và đối tượng tái xác định trên quan điểm camera

Như đã thảo luận ở trên, các mô hình hoạt động trong tất cả các quan điểm camera có thể được học mà không có thư từ giữa các quỹ đạo một cách không có giám sát . Một khi họ được học , họ có thể được sử dụng để giải quyết vấn đề bằng cách cung cấp thông tin thư trước. Nếu hai quỹ đạo thuộc loại hoạt động tương tự , nó có nhiều khả năng để họ có cùng một đối tượng . Một ví dụ được hiển thị

 Vì vậy, các thông tin về loại hoạt động có thể làm giảm đáng kể không gian tìm kiếm khi giải quyết vấn đề tương ứng . Trong ( Wang et al. , 2010 ) , khoảng cách giữa hai quỹ đạo được định nghĩa là sự phân kỳ Jensen -Shannon phân phối của họ trong danh mục hoạt động . Vấn đề thư được giải quyết bằng các thuật toán Hungary ( Kuhn , 1956). Berclaz et al. (2008) tích hợp mô hình hoạt động thành một hệ thống theo dõi nhiều camera để cải thiện hiệu suất theo dõi . Mỗi mô hình hoạt động được đại diện bởi một bản đồ hành vi mã hóa , cho mỗi vị trí máy bay mặt đất , xác suất của một đối tượng di chuyển vào một trong những vị trí liền kề ở khung bên cạnh . Xác suất của một đối tượng chuyển đổi giữa bản đồ hành vi khác nhau (ví dụ như mô hình hoạt động) cũng được mô hình hóa . Các bản đồ hành vi được kết hợp với các thuật toán đa người theo dõi đề xuất ( Fleuret et al. ,

2007) dưới HMM . Đa camera phân tích hoạt động tương quan đề xuất trong ( Loy et al. , 2009) có thể cải thiện đối tượng xác định lại qua các bức ảnh bằng cách cung cấp các thông tin theo ngữ cảnh của các mối quan hệ thời gian và quan hệ

Page 26: 1-s2.0-S016786551200219X-main (dich)

nhân quả giữa các hoạt động trong khu vực. Nó làm giảm hiệu quả không gian tìm kiếm và giải quyết sự mơ hồ giữa các đối tượng với sự xuất hiện tương tự.

6.3. Công nhận hành động của con người trong nhiều quan điểm camera

Phân tích hoạt động nhiều camera trong gần các lĩnh vực phải đối mặt với thách thức lớn là sự thay đổi quan điểm gây ra sự thay đổi lớn cả về ngoại hình và chuyển động của các hành động của con người. Một số ví dụ được hiển thị trong hình . 9 . Hầu hết các nỗ lực nghiên cứu đã được thực hiện theo hai hướng: (1) đề xuất các tính năng mà bất biến để các biến thể của xem điểm , và (2 ) thu hẹp khoảng cách giữa các quan điểm thông qua học tập .

Khác nhau quan điểm tính năng bất biến được đề nghị công nhận hành động của con người. Nhiều người trong số đó là dựa trên quỹ đạo chiết xuất từ cơ thể con người (Rao et al 2002, ; . Parameswaran và Chellappa ,

2006; Shen và Foroosh , 2008 ; Yilmaz và Shah , 2005; . Syeda Mahmood và cộng sự, 2001). Rao et al. (2002) đầu tiên theo dõi các bộ phận cơ thể con người ( chẳng hạn như bàn tay ) và sau đó sử dụng độ cong không-thời gian của 2 - D quỹ đạo như tính năng, mà bắt những thay đổi đáng kể trong tốc độ và hướng của các hành động . Parameswaran và Chellappa (2006) khớp theo dõi cơ thể và tìm thấy một tập hợp các tư thế kinh điển mà ít nhất là năm khớp cơ thể được xấp xỉ xếp trên cùng một mặt bằng . Đối với mỗi tư thế kinh điển, hai xem - bất biến được tính toán . Các lần xuất hiện định kỳ các tư thế kinh điển và các quỹ đạo năng động trong một không gian xem - bất biến được sử dụng như là đại diện cho sự công nhận hành động. Shen và Foroosh (2008) đại diện cho một hành động như một tập hợp các quá trình chuyển đổi tư thế được xác định bởi một tập hợp của ba khớp cơ thể. Mỗi bộ ba tạo thành một máy bay di chuyển quan sát bởi một camera cố định và nó có thể là char đặc trưng bởi một ma trận cơ bản trong khung . Nó cho thấy rằng một số tỷ lệ giữa các yếu tố trong ma trận cơ bản là bất biến để xem điểm và có thể được sử dụng để phù hợp với chuyển động máy bay trên các bức ảnh . Trong ( Yilmaz và Shah , 2005 ; . Syeda - Mahmood và cộng sự, 2001) , quỹ đạo của điểm mốc được chiết xuất . Thông qua máy tính tương ứng của địa danh nổi

Page 27: 1-s2.0-S016786551200219X-main (dich)

tiếng , cơ bản ma trận xây straints được đối với hành động kết hợp trong một camera xem văn phòng phẩm và một camera di chuyển . Tuy nhiên , trong các phương pháp tiếp cận các yêu cầu theo dõi chính xác bộ phận cơ thể , khớp , mốc dưới quan điểm khác nhau là thách thức. Bên cạnh quỹ đạo , đại diện tính năng khác cũng có thể được sử dụng như bóng ( Wein đất et al. , 2007) , và tương tự ( Junejo et al. , 2008 , 2011 ) . Weinland et al. (2007) xây dựng lại hoàn toàn các mô hình 3D của con người ac chức từ bóng nhìn thấy từ nhiều camera sử dụng một HMM exem - plar dựa trên ( Frey et al. , 2000). Ở giai đoạn công nhận, hành động quan sát thấy từ một camera duy nhất có thể có hiệu quả recog - nized không có thông tin của các quan điểm như là một ưu tiên . Các các tham số quan điểm được ước tính là biến tiềm ẩn . Yan et al. (2008) phát triển một mô hình hình hành động 4D, mà là một chuỗi các hình dạng 3D được xây dựng từ nhiều trình tự xem bóng . Tính năng hành động không-thời gian được tính bằng cách phân tích tính chất hình học khác biệt của các hình dạng 4D . Lấy bóng đòi hỏi phân chia lại đất đó là khó khăn trong những cảnh lộn xộn hoặc di chuyển camera . Junejo et al. (2008 , 2011 ) đề xuất một mô tả hành động mà nắm bắt được cấu trúc của tương thời gian và dissimilarities trong một chuỗi video dựa trên quan sát rằng tự tương đồng của các chuỗi hành động theo thời gian cho thấy sự ổn định dưới sự thay đổi quan điểm . Tự tương đồng được tính từ khoảng cách cặp giữa các tính năng hình ảnh trong khung hình khác nhau. Nó không đòi hỏi theo dõi hoặc nền trừ.

Liu et al. (2011) đề xuất một khuôn khổ học tập chuyển giao công nhận hành động hu - người đàn ông trên các bức ảnh . Nhiều cách tiếp cận mô hình một hành động như một túi từ hình ảnh trong mỗi hai quan điểm camera ( Liu et al. , 2009). Một đại diện tính năng như vậy là nhạy cảm để xem thay đổi . Vì vậy, một số tính năng cấp cao hơn có thể được chia sẻ qua các bức ảnh được học thêm trong ( Liu et al. ,

2011). Một đồ thị song phương được xây dựng để mô hình hai từ vựng xem phụ thuộc , và sau đó là hai từ vựng là đồng nhóm thành cụm hình chữ gọi là song ngữ - lời nói, đó là những đại sentations các tính năng cao cấp , thông qua đồ thị phân vùng song phương - ing dựa trên xuất hiện đồng thời các từ hình ảnh trong video đào tạo . Một túi -of- song ngữ - từ được sử dụng để đại diện cho một hành động công nhận. Nó lấp chỗ trống ngữ nghĩa giữa các từ vựng view- tùy theo tính chất , vết lõm . Cũng trong khuôn khổ học tập chuyển giao , Farhadi và Tabrizi (2008) sử dụng tối đa biên Clustering ( Xu et al. , 2004) để tạo ra các tính năng chia nhỏ dựa trên một cái nhìn nguồn, và sau đó là một yếu tố dự báo được đào tạo để dự đoán

Page 28: 1-s2.0-S016786551200219X-main (dich)

tính năng chia nhỏ dựa trên các nhắm mục tiêu xem sử dụng cặp đoạn video hướng dẫn không có nhãn nhưng tạm thời liên kết trong cả hai quan điểm nguồn và điểm đích. Các tính năng chia nhỏ dựa trên có thể chuyển nhượng trên quan điểm theo cách này. Những hạn chế của các phương pháp tiếp cận là cơ quan đại diện tính năng học chỉ áp dụng cho một cặp cố định của các bức ảnh . Khi xem - điểm thay đổi , họ phải được đào tạo lại. Weinland et al. (2010) xử lý những thay đổi quan điểm bằng cách học phân loại các ví dụ đào tạo lấy từ quan điểm khác nhau mà không bị giới hạn trong quan điểm cố định .

7 . Video giám sát hợp tác với các camera tĩnh và hoạt động

Nhiều kỹ thuật thảo luận ở trên được áp dụng cho camera tĩnh. Với một số lượng hạn chế của camera tĩnh để giám sát một khu vực rộng lớn , các đối tượng quan sát thường có kích thước nhỏ và có tồn tại những khoảng trống các bức ảnh được giữa . Bằng cách bao gồm camera tích cực , có panning , nghiêng và phóng to (PTZ ) các thông số sẽ được tự động và tự động điều khiển bởi hệ thống , hiệu suất của video giám sát có thể được cải thiện đáng kể ( Collins et al. , 2001,

2002; Matsuyama và Ukita , 2002; Gonzalez - Galvan và cộng sự năm 2002, ; . Kurihara và cộng sự, 2002; . . Naish và cộng sự, 2003 ; . Bakhtari et al, 2009 ) . Các hệ thống hybrid cả với camera tĩnh và hoạt động có thể ob - phục vụ một khu vực rộng lớn hơn với một số lượng nhỏ hơn của camera bằng cách liên tục thay đổi các lĩnh vực quan điểm của các camera hoạt động theo một kế hoạch quét ( Sakane et al, 1987 ; . Levit et al. năm 1992; Tsot - sos Ye và năm 1999; Matsuyama cộng sự, 1999 ; . Marcenaro và cộng sự năm 2000, ; . . Gonz - alez - Galvan và cộng sự , 2002). Sau khi đối tượng quan tâm an ninh được phát hiện, hình ảnh của họ có thể được chụp với độ phân giải cao hơn bằng cách tự động phóng to của camera hoạt động ( Woo và Cap- con trai , năm 2000; . Izo và cộng sự , 2007). Nó cũng cho phép để trực tuyến lựa chọn quan điểm tối ưu - mal để phát hiện đối tượng, theo dõi và công nhận ( Cowan và Kovesi , 1988 ; . Tarabanis et al , 1990 ; . Kim và cộng sự,

Page 29: 1-s2.0-S016786551200219X-main (dich)

1995; Piexoto và cộng sự, 2000). . Tuy nhiên , sự phức tạp của hệ thống hybrid cũng làm tăng đáng kể . Họ phải đối mặt với một số thách thức mới, một số trong đó được đề cập ngắn gọn dưới đây . Một số chủ đề có liên quan chặt chẽ đến lĩnh vực nghiên cứu của Vision hoạt động ( Bajcsy và nhận thức thụ động , 1985; Aloimonos et al , 1988 ; . Aloimonos năm 1993; Blake và Yuille năm 1993; . Bakhtari et al, 2009 ) và tầm nhìn dựa trên Robot điều khiển ( Agin và cộng sự năm 1979, ; . . Weiss et al ,

1987; Hutchinson và các cộng sự , 1996; . . Chaumette et al, 2006 , 2007).

1. Hiệu chuẩn trực tuyến của camera hoạt động camera tĩnh ( Chen et al. ,

2009). Nó đòi hỏi hiệu quả cao và không có sự can thiệp của con người được phép ở giai đoạn trực tuyến .

2 . Mô hình nền của camera hoạt động ( Kang và cộng sự năm 2003, ; . Azz- ari và cộng sự năm 2005, ; . Bevilacqua và Azzari , 2006, 2007 ; Sankarana - rayanan và Davis , 2008). Trừ nền ( Piccardi ,

2004) được sử dụng rộng rãi để phát hiện đối tượng chuyển động trong video sur- veillance với camera tĩnh. Tuy nhiên , nó càng trở nên thách thức không hề nhỏ cho camera hoạt động có nền liên tục thay đổi do chuyển động camera .

3 . Thiết kế một kế hoạch quét theo đó camera hoạt động điều hướng môi trường cho đến khi đối tượng quan tâm được phát hiện (Davis et al . , 2006).

4 . Phối hợp hoạt động camera và camera tĩnh để cải thiện hiệu suất theo dõi về giảm thiểu chi phí và tối đa imizing tính chính xác ( Matsuyama và Ukita , 2002; Micheloni

et al, 2005 ; . Bakhtari et al , 2007, 2009 ) . . Để theo dõi - ing một đối tượng mà không phá vỡ , một camera cần phải bàn giao các đối tượng camera khác. Để giảm thiểu số lượng dữ liệu được xử lý , một chiến lược cảm biến cần để tự động kích hoạt một tập con tối ưu của camera để đáp ứng với sự chuyển động của các đối tượng để phục vụ cho mục đích theo dõi . Chiến lược cảm biến cũng cần phải được lên kế hoạch điều động các camera vào tư thế tối ưu và giảm sự không chắc chắn

Page 30: 1-s2.0-S016786551200219X-main (dich)

của việc theo dõi . Các phương pháp phối hợp đưa vào tài khoản cả hai đặc điểm chuyển động đối tượng và động cơ camera .

Ngoài ra còn có những vấn đề khác , chẳng hạn như phân tích hoạt động với camera lai ( Singh và Atrey , 2008) và hiển thị các video và kết quả phân tích ( Morison et al. , 2009) để được xem xét. Một số cuộc thảo luận chi tiết được cung cấp trong phần dưới đây.

7.1. Mô hình nền của camera hoạt động

Hầu hết các phương pháp tiếp cận để mô hình hóa nền của camera hoạt động tính toán một khảm của cảnh nền . Một nền khảm là một hình ảnh hợp chất xây dựng thông qua việc sắp xếp một số lượng lớn các khung hình chụp bởi camera hoạt động khi nó là bản lề và tự do xoay quanh trung tâm quang học của nó và chuyển chúng vào một máy bay tham khảo thông thường theo các mô hình hình học của camera hoạt động . Khi một khung mới được chụp trực tuyến, nó là Regis - tered cho nền khảm và vật thể di động được phát hiện bằng cách so sánh sự khác biệt của họ. Chi phí tính toán là một trong những mối quan tâm lớn cho các ứng dụng thời gian thực, nơi mà hình ảnh trực tuyến reg - istration rất tốn thời gian . Một số phương pháp đơn giản hóa địa lý số liệu chuyển đổi mô hình từ projective chuyển đổi để cứng nhắc hoặc affine biến đổi và sử dụng các thông tin pan / tilt / zoom để tăng tốc độ đăng ký ( Winkelman và Patras , 2004; Hayman và EKL - undh , 2003). Phương pháp tiếp cận khác nhau được đề xuất để giảm lỗi Regis tration ( Bhat et al , 2000; . Bartoli và cộng sự năm 2002, ; . Bevilacqua et al, 2005 . ) . Từ khung có thể được chụp trong điều kiện ánh sáng khác nhau , họ cần chuẩn trắc quang khi được com-đặt ra với nhau ( Mann, 1996; . Tsin và cộng sự, 2001; . Capel và cộng sự, 2001).

7.2. Đối tượng theo dõi với camera hoạt động

Page 31: 1-s2.0-S016786551200219X-main (dich)

Theo dõi với một camera hoạt động đối tượng liên quan đến hai bước lặp đi lặp lại : nhận thức và hành động. Bước nhận thức sử dụng các thông số của camera PTZ thu được từ bước hành động để cập nhật mô hình nền và xác định vị trí các đối tượng di chuyển . Các bước hành động sử dụng vị trí đối tượng thu được từ bước nhận thức để điều khiển camera ( Murray và Basu , 1994). Một camera có thể hoạt động liên tục theo dõi một đối tượng trong khi vẫn giữ nó làm trung tâm trong chế độ xem ảnh . Do đó, có một nhu cầu có hiệu quả bản đồ điểm ảnh tọa độ từ theo dõi để định hướng pan-tilt của họ trong từ hệ thống phối hợp để điều chỉnh camera đến vị trí mới tương ứng với các trọng tâm của đối tượng ( San - karanarayanan và Davis, 2008).

Từ nhiều đối tượng di chuyển tự do trong hiện trường, hệ thống giám sát phải thích nghi xác định camera nên theo dõi những đối tượng xem xét các hành vi năng động của các đối tượng và sates hiện tại của camera . Này thời gian thực tài nguyên động allo dục là giải quyết như là một vấn đề tối ưu hóa ( Tarabanis và cộng sự, 1995; . Miura và Ikeuchi , 1998). Tiêu chí tối ưu hóa bao gồm tối đa imizing biện pháp khả năng hiển thị (tức là các đối tượng theo dõi ít oc cluded trong các quan điểm camera ) ( Bakhtari et al, 2006 ; . Mackay và Benhabib , 2008) , tối đa hóa sự khác biệt của sự xuất hiện của các đối tượng từ nền ( Snidaro et al. , 2003) , tầm quan trọng của các đối tượng (ví dụ , các đối tượng quan tâm bảo mật cao hơn có một ưu tiên cao - er để có được những tài nguyên) ( Izo et al. , 2007) , và giảm thiểu những thay đổi của camera ' vị trí từ một thời gian để tiếp theo ( Sa- kane et al. , 1987). Số lượng và loại camera sử dụng

 

cho thu thập dữ liệu và các vị trí tối ưu và định hướng của camera cần phải được quyết định cũng ( Bakhtari et al. , 2009).

8 . Thảo luận và kết luận

Page 32: 1-s2.0-S016786551200219X-main (dich)

Bằng cách sử dụng mạng lưới phân phối camera , hệ thống giám sát video mở rộng đáng kể khả năng của mình và cải thiện mạnh mẽ của chúng thông qua phản ứng tổng hợp dữ liệu và cảm biến hợp tác. Với hệ thống giám sát nhiều camera , hoạt động trong các khu vực rộng được phân tích , tính chính xác và mạnh mẽ theo dõi đối tượng là cải thiện bằng cách nung chảy dữ liệu từ nhiều điểm camera, và một camera handovers đối tượng camera khác để thực hiện theo dõi trên một khoảng cách dài mà không nghỉ ngơi. Như kích thước và sự phức tạp của các mạng camera tăng nhanh , có yêu cầu cao hơn về sự vững mạnh , độ tin cậy , khả năng mở rộng , chuyển nhượng , tự khả năng thích ứng và sự can thiệp của con người ít hơn của hệ thống sur- veillance nhiều camera thông minh . Tầm nhìn máy tính thảo luận và mô hình công nghệ rec - ognition liên quan chặt chẽ với nhau. Trong khi hầu hết các hệ thống giám sát thông thường giả định một hướng dòng chảy thông tin , nghiên cứu gần đây cho thấy các mô-đun khác nhau thực sự có thể hỗ trợ lẫn nhau . Ví dụ , mô hình hoạt động có thể im - chứng minh theo dõi liên camera và theo dõi nhiều camera cung cấp thông tin để hiệu chuẩn camera và suy luận của các cấu trúc liên kết của các bức ảnh . Cùng nhau giải quyết một số vấn đề không chỉ cải thiện con người can thiệp mạnh mẽ và chính xác nhưng cũng làm giảm . Cùng mô hình hóa những vấn đề này ở các cấp bậc khác nhau trong cách nguyên tắc hơn là một vấn đề quan trọng để điều tra thêm . Tiến bộ đáng kể về giám sát vi - deo đa camera thông minh đã đạt được trong những năm gần đây . Trong khi một số vấn đề , chẳng hạn như hiệu chỉnh các bức ảnh với ý nghĩa trên -lap và máy tính cấu trúc liên kết của họ , đã được nghiên cứu , một số cần nhiều nỗ lực nghiên cứu trong tương lai. Nó vẫn đang thách thức quan điểm camera cal - ibrate mà thường tách rời và nơi các đối tượng di chuyển trên nhiều máy bay mặt đất . Đối tượng tái xác định là tương đối mới và hiệu quả của nó vẫn còn là xa thỏa đáng. Tính chính xác của nhà nước-of -the-art là dưới 20% trên Viper bộ dữ liệu (Gray et al. ,

2007). Điều này mang lại những thách thức để theo dõi liên camera khi spa - tio - thời gian lý do là không đáng tin cậy và nó đã hơn dựa vào kết hợp xuất hiện . Giám sát video trong đông đúc kiện môi trường bắt đầu thu hút nhiều sự chú ý trong năm năm qua được- nguyên nhân đó là rất khó khăn và rất có giá trị cho công an. Hầu hết các công trình hiện có về chủ đề này giả định một camera duy nhất. Mặc dù nó cũng được biết rằng hệ thống giám sát nhiều camera có thể giải quyết tốt hơn occlusions và clutters cảnh , không có nhiều công trình nghiên cứu đã được thực hiện trên thiết kế cấu trúc liên kết mạng camera và camera lai hợp tác để tránh

Page 33: 1-s2.0-S016786551200219X-main (dich)

occlusions trong môi trường vô cùng đông đúc. Công bố kết quả nhất trên chuẩn cam thời , suy luận của cấu trúc liên kết , đối tượng tái xác định, theo dõi và phân tích hoạt động dựa trên mạng camera nhỏ . Tuy nhiên , các mạng camera quy mô lớn hơn là cần thiết để tái tìm kiếm trong tương lai. Cả hai bộ dữ liệu chuẩn và đánh giá thử nghiệm toàn diện trên các mạng camera quy mô rất lớn là cần thiết trong nghiên cứu tương lai . Trong kết luận , bài viết này đánh giá một số tầm nhìn và nhận dạng mẫu công nghệ máy điện toán quan trọng sử dụng trong giám sát nhiều camera intel - ligent và nhấn mạnh kết nối và hội nhập của họ. Sự phát triển gần đây nhất của các công nghệ này sẽ được thảo luận và giải pháp khác nhau được com - so . Nó cung cấp mô tả chi tiết của những thách thức lớn đối với mỗi công nghệ chủ chốt . Chúng tôi tin rằng đánh giá này sẽ khuyến khích các công trình nghiên cứu mới trong lĩnh vực phát triển nhanh.

Lời cảm ơn

Công trình này được hỗ trợ bởi Quỹ Nghiên cứu chung được tài trợ bởi Hội đồng tài trợ nghiên cứu của Hồng Kông ( Dự án Nos

CUHK417110 và CUHK417011 ) và Khoa học Tự nhiên Quốc gia

Nền tảng của Trung Quốc (Dự án số 61.005.057 ) .