컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2fast...

22
컴퓨터 비전 응용 G201849026 데이터마이닝 연구실 신승엽

Upload: others

Post on 12-Mar-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

컴퓨터 비전 응용

G201849026데이터마이닝 연구실 신승엽

Page 2: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

목차

1. 객체 위치 검출 및 개체 인식1.1 R-CNN1.2 Fast R-CNN1.3 Faster R-CNN1.4 YOLO1.5 SSD

2. 의미적 영역 분할

3. 딥러닝 응용3.1 영상 주석 달기3.2 예술작품 화풍 그림 생성

Page 3: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

1. 객체 위치 검출 및 개체 인식

v 객체 탐지(Object detection)는 사진처럼 영상 속의 어떤 객체(Label)가어디에(x, y) 어느 크기로(w, h) 존재하는지를 찾는 Task를 말한다

v 기본적인 모델들인 R-CNN, Fast R-CNN, Faster R-CNN, 그리고 SSD에대해 알아본다

Page 4: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

1.1 R-CNN 모델

1. Region proposal을 추출§ Image로부터 Object가 존재할 적절한 위치에 Bounding Box Proposal

(Selective Search 알고리즘 사용)§ 2000개의 Proposal이 생성됨.

2. Feature Extraction§ 네트워크 특성상 고정된 사이즈의 입력만 받을 수 있기 때문에 모든 Proposal을 Crop

후 동일한 크기로 만듬 (224 * 224 * 3)§ CNN을 거쳐 피쳐 추출

3. Classifier§ 추출된 피쳐를 SVM을 사용해서 Classification

한계: 모든 Proposal에 대해 CNN을 거쳐야 하므로 연산량이 많은 단점이 존재

Page 5: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

1.2 Fast R-CNN 모델

v Fast R-CNN은 모든 Proposal이 네트워크를 거쳐야 하는 R-CNN의 병목(bottleneck)구조의 단점을 개선하고자 제안 된 방식

v 각 Proposal들이 CNN을 거치는 것이 아니라 전체 이미지에 대해CNN을 한번 거친 후 출력 된 특징 맵(Feature map)단에서 객체탐지를 수행

Page 6: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

1.2 Fast R-CNN 모델

• R-CNNExtract image regions

1 CNN per region(2000 CNNs)Classify region-based featuresComplexity: ~224 x 224 x 2000

• Fast R-CNN1 CNN on the entire image

Extract features from feature map regionsClassify region-based featuresComplexity: ~600 x 1000 x 1~160x faster than R-CNN

한계: Fast R-CNN에서 Region Proposal을 CNN Network가 아닌Selective search 외부 알고리즘으로 수행하여 병목현상 발생

Page 7: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

1.3 Faster R-CNN 모델

v 문제점 : 기존에 사용되던 Region Proposal 방법인 Selective Search는CPU에서 계산 + CNN 외부에서 진행

=>Region Proposal을 RPN이라는 네트워크를 이용하여 GPU의 이점을 최대한 활용하고 CNN 내부에서 진행

Page 8: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

1.3 Faster R-CNN 모델

v Feature maps위에 sliding window 마다 9개의 anchors: 3개의 서로 다른 종횡비(aspect ratios), 3개의 서로 다른 크기(scales)가 조합

v Classification layer : anchor당 2개의 predictions값을 내놓으며, 객체인지 아니면 객체가 아닌지(그냥 배경인지)에 관한 확률값

v Regression layer : 각 anchor당 델타값들 Δxcenter, Δycenter, Δwidth, Δheight 4개의 값을 통해 최종 proposals을 얻음

Page 9: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

1.3 Faster R-CNN 모델

v Faster R-CNN의 영역 제안 망§ 특징 지도에 대해 여러 크기의 앵커에 대해 객체의 유무 평가

Page 10: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

1.3 Faster R-CNN 모델

~ 50s ~2s ~198ms

Page 11: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

1.4 YOLO 모델

v YOLO 모델§ 실시간으로 객체를 감지하고 인식하는 모델

§ Faster RCNN : 3개의 신경망(CNN – RPN – Classifier)§ YOLO : You Look Only Once 1개의 신경망으로 처리§ R-CNN과 YOLO는 성능과 속도 Trade-off 관계

Page 12: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

1.4 YOLO 모델

v YOLO 모델

§ YOLO 모델의 두가지 출력 7 x 7 그리드 기반1. 경계 박스: 각 그리드 마다 2개의 경계 박스 생성(49X2개), 물체가 있을거라고 확신이 높을 수록 굵은 경계2. 클래스 : 49개의 그리드 각 셀 마다 객체 클래스 분류

§ 2가지 출력을 바탕으로 최종 객체 인식

Page 13: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

1.5 SSD 모델

v SSD 모델§ Faster R-CNN은 여전히 너무 느림§ YOLO 는 빠르긴 했지만 그만큼 성능을 포기함§ SSD는 후보 영역 추출 과정 제거-> 속도§ feature map을 여러 개의 크기로 만들어서, 큰 map에서는 작은 물체의

검출을, 작은 map에서는 큰 물체의 검출 -> 성능

Page 14: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

1.5 SSD 모델

v SSD 모델의 구조

Page 15: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

2. 의미적 영역 분할

v 의미적 영역 분할 (semantic segmentation)§ 사진에 있는 모든 픽셀을 해당하는 (미리 지정된 개수의) class로 분류하

는 것

Page 16: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

2. 의미적 영역 분할

v 의미적 영역 분할 (semantic segmentation)§ 영상을 여러 개의 픽셀 집합으로 나누는 과정§ 영상을 해석하기 쉬운 것으로 단순화하거나 변환§ 영상에서 물체와 경계(선, 곡선)를 찾는데 사용

단순히 사진을 보고 분류하는 것에 그치지 않고 그 장면을 완벽하게 이해해야하는 높은 수준의 문제

Page 17: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

2. 의미적 영역 분할

v FCN(fully convolutional network) 모델§ 의미적 영역 분할을 위한 딥러닝 모델§ 위치 정보가 사라지는 문제를 해결하기 위해 마지막 layer 인 fully

connected layer 을 1x1의 convolution layer 로 바꾼다

Page 18: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

3. 딥러닝 응용

v 영상 주석달기§ 영상이 주어지면 영상의 내용을 묘사하는 문장을 만들어 내는 것§ 입력 영상에 대해 CNN을 적용하여 맥락정보를 추출하고,

이를 초기 정보로 사용하여 LSTM 재귀 신경망이 문장 생성

Page 19: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

3.1 영상 주석달기

v 영상 주석달기

Page 20: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

3.2 예술작품 화풍 그림 생성

Page 21: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

3.2 예술작품 화풍 그림 생성

Style feature : 단일 레이어가 아닌, 여러 레이어의 feature map의 상관관계를 추출Content feature : 깊은 레이어로부터 픽셀 수준의 정보가 사라진 semantic 정보를 추출

Page 22: 컴퓨터비전응용datamining.uos.ac.kr/wp-content/uploads/2019/09/... · 2019-12-19 · 1.2Fast R-CNN 모델 •R-CNNExtractimage regions 1 CNN per region(2000 CNNs) Classify region-based

3.2 예술작품 화풍 그림 생성

v Style Transfer