Ксения Жагорина (СКБ-Контур)

40
Насколько уникально ФИО? Ксения Жагорина СКБ Контур

Upload: ontico

Post on 15-May-2015

1.256 views

Category:

Internet


0 download

TRANSCRIPT

Page 1: Ксения Жагорина (СКБ-Контур)

Насколько уникально ФИО?

Ксения Жагорина СКБ Контур

Page 2: Ксения Жагорина (СКБ-Контур)

Все знают, что ФИО не уникально…

Page 3: Ксения Жагорина (СКБ-Контур)

Все знают, что ФИО не уникально…

Иванов Иван Иванович 1.600 чел.

Предполагаемое число людей с таким ФИО в

России

Page 4: Ксения Жагорина (СКБ-Контур)

Все знают, что ФИО не уникально…

Иванов Иван Иванович 1.600 чел.

Иванов Сергей Владимирович 6.200 чел.

Кузнецов Сергей Александрович 4.600 чел.

Предполагаемое число людей с таким ФИО в

России

Page 5: Ксения Жагорина (СКБ-Контур)

А на самом деле …

Page 6: Ксения Жагорина (СКБ-Контур)

А на самом деле …

0.999 0.96

0.68

0

0,2

0,4

0,6

0,8

1

1 100 10 000 1 000 000

С у

ни

кал

ьны

м Ф

ИО

Количество людей в сообществе

Доля людей с уникальным ФИО

Page 7: Ксения Жагорина (СКБ-Контур)

И какая же польза?

Page 8: Ксения Жагорина (СКБ-Контур)

И какая же польза?

• Поиск «клонов»

Page 9: Ксения Жагорина (СКБ-Контур)

И какая же польза?

• Поиск «клонов»

• Интеграция сервисов

Page 10: Ксения Жагорина (СКБ-Контур)

База данных ЕГРЮЛ

21 М упоминаний c ИНН 13 М человек

Page 11: Ксения Жагорина (СКБ-Контур)

База данных ЕГРЮЛ

11 М упоминаний без ИНН

21 М упоминаний c ИНН 13 М человек

Page 12: Ксения Жагорина (СКБ-Контур)

База данных ЕГРЮЛ 11 М упоминаний

без ИНН 21 М упоминаний c ИНН

13 М человек

Page 13: Ксения Жагорина (СКБ-Контур)

База данных ЕГРЮЛ

11 М упоминаний без ИНН

21 М упоминаний c ИНН 13 М человек

Page 14: Ксения Жагорина (СКБ-Контур)

База данных ЕГРЮЛ

11 М упоминаний без ИНН

21 М упоминаний c ИНН 13 М человек

Семенов С.А. Семенов С.А.

Рогов А.В. Копытов Д.Е. Иванов И.И.

Page 15: Ксения Жагорина (СКБ-Контур)

База данных ЕГРЮЛ

11 М упоминаний без ИНН

21 М упоминаний c ИНН 13 М человек

Семенов С.А. Семенов С.А.

Рогов А.В. Копытов Д.Е. Иванов И.И.

?

Page 16: Ксения Жагорина (СКБ-Контур)

Как ?

Page 17: Ксения Жагорина (СКБ-Контур)
Page 18: Ксения Жагорина (СКБ-Контур)

Постановка задачи

По двум упоминаниям с одинаковым ФИО определить насколько вероятно, что они об одном и том же человеке.

Page 19: Ксения Жагорина (СКБ-Контур)

Методика тестирования Тестирование – на упоминаниях с указанным ИНН Оценка модели – точность и полнота

Точность = |Найденные верные связи|

|Все найденные связи|

Полнота = |Найденные верные связи|

|Все верные связи|

Page 20: Ксения Жагорина (СКБ-Контур)

Модель на основе независимых ФИО.

𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О

Page 21: Ксения Жагорина (СКБ-Контур)

Модель на основе независимых ФИО.

𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О

𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝

Количество людей с данным ФИО

Page 22: Ксения Жагорина (СКБ-Контур)

Модель на основе независимых ФИО.

𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О

𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝

Количество людей с данным ФИО

Вероятность связи

𝑃 = 𝑃 𝑁фио < 1

Page 23: Ксения Жагорина (СКБ-Контур)

Модель на основе независимых ФИО.

0,0

0,2

0,4

0,6

0,8

1,0

0,0 0,2 0,4 0,6 0,8 1,0

по

лн

ота

, то

чно

сть

в %

P(Nфио < 1)

точность

полнота

Page 24: Ксения Жагорина (СКБ-Контур)

База данных ЕГРЮЛ

11 М упоминаний без ИНН

21 М упоминаний c ИНН 13 М человек

Семенов С.А. Семенов С.А.

Рогов А.В. Копытов Д.Е. Иванов И.И.

Page 25: Ксения Жагорина (СКБ-Контур)

База данных ЕГРЮЛ 11 М упоминаний

без ИНН 21 М упоминаний c ИНН

13 М человек

Семенов С.А. Семенов С.А.

Рогов А.В. Копытов Д.Е. Иванов И.И.

Page 26: Ксения Жагорина (СКБ-Контур)

База данных ЕГРЮЛ 11 М упоминаний

без ИНН 21 М упоминаний c ИНН

13 М человек

ООО «Рога и Копыта»

Москва

ЗАО «ЗаМКАД»

Московская обл.

Семенов С.А. Семенов С.А.

Рогов А.В. Копытов Д.Е. Иванов И.И.

Page 27: Ксения Жагорина (СКБ-Контур)

Модель на основе зависимости ФИО и региона.

𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО

𝑃(О 𝑅Ф ≈ 𝑃 О Ф

𝑃(И 𝑅ФО ≈ 𝑃 И О

𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О

Вероятность связи

𝑃 = 𝑃 𝑁𝑅ФИО < 1

Page 28: Ксения Жагорина (СКБ-Контур)

Модель на основе зависимости ФИО и региона.

𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО

𝑃(О 𝑅Ф ≈ 𝑃 О Ф

𝑃(И 𝑅ФО ≈ 𝑃 И О

𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О

Вероятность связи

𝑃 = 𝑃 𝑁𝑅ФИО < 1

Page 29: Ксения Жагорина (СКБ-Контур)

Модель на основе зависимости ФИО и региона.

𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО

𝑃(О 𝑅Ф ≈ 𝑃 О Ф

𝑃(И 𝑅ФО ≈ 𝑃 И О

𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О

Вероятность связи

𝑃 = 𝑃 𝑁𝑅ФИО < 1

Page 30: Ксения Жагорина (СКБ-Контур)

Модель на основе зависимости ФИО и региона.

0,0

0,2

0,4

0,6

0,8

1,0

0,0 0,2 0,4 0,6 0,8 1,0

По

лн

ота

, то

чно

сть

в %

P(NRФИО < 1)

точность

полнота

Page 31: Ксения Жагорина (СКБ-Контур)

Модель на основе независимых ФИО.

0,0

0,2

0,4

0,6

0,8

1,0

0,0 0,2 0,4 0,6 0,8 1,0

по

лн

ота

, то

чно

сть

в %

P(Nфио < 1)

точность

полнота

Page 32: Ксения Жагорина (СКБ-Контур)

Модель на основе зависимости ФИО и региона. Результаты.

Рогов А.В.

Рогов А.В.

?

ООО «Рога и Копыта»

Москва

P = 0.684

ЗАО «ЗаМКАД»

Москва

R = Москва ФИО = Рогов Александр Владимирович P = P(NRФИО<1) = 0.684

Page 33: Ксения Жагорина (СКБ-Контур)

Модель на основе зависимости ФИО и региона. Результаты.

Копытов Д.Е.

Копытов Д.Е.

?

ООО «Рога и Копыта»

Москва

R = Москва ФИО = Копытов Давид Ефремович P = P(NRФИО<1) = 0.986

P = 0.986

ЗАО «ЗаМКАД»

Москва

Page 34: Ксения Жагорина (СКБ-Контур)

Модель на основе зависимости ФИО и региона. Результаты.

Семенов С.А.

Семенов С.А.

?

ООО «Рога и Копыта»

Москва

R = Москва ФИО = Семёнов Сергей Андреевич P = P(NRФИО<1) = 0.396

P = 0.396

ЗАО «ЗаМКАД»

Москва

Page 35: Ксения Жагорина (СКБ-Контур)

Вывод Полнота 80% при точности 95%.

150 млн. новых связей.

Page 36: Ксения Жагорина (СКБ-Контур)
Page 37: Ксения Жагорина (СКБ-Контур)
Page 38: Ксения Жагорина (СКБ-Контур)

Конец

Page 39: Ксения Жагорина (СКБ-Контур)
Page 40: Ксения Жагорина (СКБ-Контур)

99.9

96.2

68.2

74.7

32,1

95,8

80,3

23,8

2,7

0

20

40

60

80

100

1 100 10 000 1 000 000

С у

ни

кал

ьны

м Ф

ИО

%)

Количество людей в сообществе

Доля людей с уникальным ФИО

ФИО

ФИ

Ф