sns에 노출된 개인정보 위험분석 - nexr.co.krnexr.co.kr/upload/sns.pdf · 페이스북...

20
SNS 노출된 개인정보 위험분석 한국전자통신연구원 최대선

Upload: others

Post on 28-Oct-2019

8 views

Category:

Documents


0 download

TRANSCRIPT

SNS에 노출된

개인정보 위험분석

한국전자통신연구원

최대선

내용

SNS 정보 수집 및 분석

빅데이터 프라이버시 보호

SNS 정보

수집 및 분석

페이스북 정보 수집

Facebook

Crawler

Id Profile, friends

Crawler Crawler Crawler …

MySQL -> Mongo DB

페이스북 개인정보

정규화

정규화

Mongo DB -

Facebook

postgresql

• 서울대, SNU, 서울대학교,

설대, Seoul Univ.

=> 서울대

• 김철수, Cheol-Su Kim,

Cheolsoo Kim, Kim Cheolsoo

=> 김철수

필드화된 정보

분석

페이스북 계정 중 특정 가능한 수

개인정보 조합 유일 값 수 특정 비율

고등학교 36

대학교 0

혈액형 0

이름-고등학교 2,262,410 34.4%

이름-대학교 1,169,170 17.7%

이름-고등학교-대학교 2,975,399 45.2%

고등학교-대학교 109,397 1.6%

고등학교-대학교-혈액형 194,860 2.9%

트위터 스트림 수집

800만명 = stream handler * 1600

1600 thread = 100 thread * 16 process

Xeon 2Ghz (4 core ) * 2 * hyperthreading = 16 core <= 1 machine

1 process / core = 100%

Memory : 14 GB

Bandwidth : 3MBps

Twitter

Stream

Handler

Follow: id1, id2, id3….. Tweet : profile, location, text, img-url

RT/mention relation

텍스트마이닝

Text mining

- 개인정보추출

Lucene - twitter

postgresql

이름, 학교, 직장, 직위, 나이, 전화번호,

이메일

프로파일

전화번호 A B

인식율 51% 48%

정확도 98% 100%

<상용 개인정보 탐지 제품의 성능>

고은별, 정동진 근처 사는 강원대생 이른 82년,

010-$$$$-####

텍스트마이닝 결과

트위터 검색

Id, txt,

datetime

어떤 키워드에 대해 트윗을 많이 한 사람 ?

• 사람 별 취합 ..

• 기간 : 전체, 최근 n 일..

• Lucene (2.x) 의 특성: ..

Id, txt,

datetime

Id, txt,

datetime

Id

txt, datetime

txt. datetime

txt, datetime

Id

txt, time

txt, time

...

Id

txt, time

txt, time

… …

D-1

D-2

계정 연결

페이스북 계정 – 트위터 계정 연결

비교 단서

• 프로파일 정보

• 친구관계

• 위치, 조합

• 문체, 사진, ..

M:N test ? => 후보군 선택!

• Id 같은

• Id 비슷한

• 이름 같은 ..

Twitter 계정 A

{서울고, 제주대, 30대}

Facebook 계정 cskim

{서울고, 제주대} =

후보 찾기

유사한 id 찾기 : string similarity

• Levenshtein distance : 같게 만들기 위해 필요한 동작 수

• 80만 : 277만

• Threshold 별 유사 결과 (1개 당 277만 개중 )

Python

Single

Python

Multithread

(24 core)

Hadoop

24 task

(24 core)

776일 65일 71일

0.5 1064

0.6 116

0.7 4.6

0.8 0.13

0.9 0.05

후보 찾기2

String in string

First 8 char match

First 8 char match tweak : ??

Python

Single

Hadoop

24 task

(24 core)

Number

String in string 7일 15시간 15시간 0.7

First 8 char 6일 21시간 16시간 1.7

빅데이터

프라이버시

공공 데이터 개방

가이드 라인

16

2단계 : 식별요소 제거

개인 식별 요소 제거 방법

17

처리 기법 내용 및 처리 예

가명처리

(pseudonymisation)

개인정보 중 주요 식별요소를 다른 값으로 대체하여 개인식별을 곤란하게 함

(예) 홍길동, 35세, 서울 거주, 한국대 재학→ 임꺽정, 30대 서울 거주, 국제대 재학

총계처리

(Aggregation)

데이터의총합값을보임으로서개별데이터의값을보이지않도록함

(예) 임꺽정180cm, 홍길동170cm, 이콩쥐160cm, 김팥쥐150cm

→ 물리학과 학생 키 합 : 660cm, 평균키 165cm

데이터 값(가치)

삭제

(Data Reduction)

데이터공유․개방목적에따라데이터셋에구성된값중에필요없는값 또는개인식별에중요한값을삭제

(예) 홍길동, 35세, 서울 거주, 한국대 졸업 → 35세, 서울 거주

(예) 주민등록번호 901206-1234567 → 90년대 생, 남자

범주화

(Data Suppression)

데이터의값을범주의값으로변환하여명확한값을감춤

(예) 홍길동, 35세 → 홍씨, 30-40세

데이터 마스킹

(data masking)

공개된 정보 등과 결합하여 개인을 식별하는데 기여할 확률이 높은 주요 개인식별자가 보이지 않도록 처리하여 개인을 식별하지 못하도록 함

(예) 홍길동, 35세, 서울 거주, 한국대 재학 → 홍**, 35세, 서울 거주, **대학 재학)

3단계 : (재)식별 가능성 검토

다른 DB와의 연결을 통한 식별 가능성

• 인터넷에 이미 공개된 다른 정보와의 연결 : 수집 or 구글링

• 우리나라 모든 국민의 이름, 주민번호는 모두 유출

새로 공개되는 다른 정보를 통한 식별 가능성

• 인터넷, 빅데이터 공유

4단계 : 사후 모니터링

신상털기 방지 기술

Identity

서비스A에서추출된개인정보

서비스B에서추출된개인정보

…추론된개인정보

고유식별

실개인매핑

위험도

김철수 A B C .. a b c .. .. 가 나 다 라 O X 5

나영희 나 다 .. 갑 을 병 .. .. A B C D X X 2

식별성평가

위험평가

온라인서비스B

개인정보추출

Id mapping개인정보

소유자 식별

온라인서비스 A

- 인터넷 노출 감시- 웹사이트 위험도 모니터링- 단말 필터링- 개인정보 조회/검색- 배치 필터링

개인정보수집 및추출

개인정보가공

개인정보추론

개인정보위험도분석

추론

개인정보대응/조치

빅데이터

노출 정보 수집 분석

위험도 산정

신규 데이터 공개시 필터링

기 공개 데이터 삭제

노이즈 정보 유포

감사합니다