Ксения Жагорина (СКБ-Контур)

Post on 15-May-2015

1.256 Views

Category:

Internet

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Насколько уникально ФИО?

Ксения Жагорина СКБ Контур

Все знают, что ФИО не уникально…

Все знают, что ФИО не уникально…

Иванов Иван Иванович 1.600 чел.

Предполагаемое число людей с таким ФИО в

России

Все знают, что ФИО не уникально…

Иванов Иван Иванович 1.600 чел.

Иванов Сергей Владимирович 6.200 чел.

Кузнецов Сергей Александрович 4.600 чел.

Предполагаемое число людей с таким ФИО в

России

А на самом деле …

А на самом деле …

0.999 0.96

0.68

0

0,2

0,4

0,6

0,8

1

1 100 10 000 1 000 000

С у

ни

кал

ьны

м Ф

ИО

Количество людей в сообществе

Доля людей с уникальным ФИО

И какая же польза?

И какая же польза?

• Поиск «клонов»

И какая же польза?

• Поиск «клонов»

• Интеграция сервисов

База данных ЕГРЮЛ

21 М упоминаний c ИНН 13 М человек

База данных ЕГРЮЛ

11 М упоминаний без ИНН

21 М упоминаний c ИНН 13 М человек

База данных ЕГРЮЛ 11 М упоминаний

без ИНН 21 М упоминаний c ИНН

13 М человек

База данных ЕГРЮЛ

11 М упоминаний без ИНН

21 М упоминаний c ИНН 13 М человек

База данных ЕГРЮЛ

11 М упоминаний без ИНН

21 М упоминаний c ИНН 13 М человек

Семенов С.А. Семенов С.А.

Рогов А.В. Копытов Д.Е. Иванов И.И.

База данных ЕГРЮЛ

11 М упоминаний без ИНН

21 М упоминаний c ИНН 13 М человек

Семенов С.А. Семенов С.А.

Рогов А.В. Копытов Д.Е. Иванов И.И.

?

Как ?

Постановка задачи

По двум упоминаниям с одинаковым ФИО определить насколько вероятно, что они об одном и том же человеке.

Методика тестирования Тестирование – на упоминаниях с указанным ИНН Оценка модели – точность и полнота

Точность = |Найденные верные связи|

|Все найденные связи|

Полнота = |Найденные верные связи|

|Все верные связи|

Модель на основе независимых ФИО.

𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О

Модель на основе независимых ФИО.

𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О

𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝

Количество людей с данным ФИО

Модель на основе независимых ФИО.

𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О

𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝

Количество людей с данным ФИО

Вероятность связи

𝑃 = 𝑃 𝑁фио < 1

Модель на основе независимых ФИО.

0,0

0,2

0,4

0,6

0,8

1,0

0,0 0,2 0,4 0,6 0,8 1,0

по

лн

ота

, то

чно

сть

в %

P(Nфио < 1)

точность

полнота

База данных ЕГРЮЛ

11 М упоминаний без ИНН

21 М упоминаний c ИНН 13 М человек

Семенов С.А. Семенов С.А.

Рогов А.В. Копытов Д.Е. Иванов И.И.

База данных ЕГРЮЛ 11 М упоминаний

без ИНН 21 М упоминаний c ИНН

13 М человек

Семенов С.А. Семенов С.А.

Рогов А.В. Копытов Д.Е. Иванов И.И.

База данных ЕГРЮЛ 11 М упоминаний

без ИНН 21 М упоминаний c ИНН

13 М человек

ООО «Рога и Копыта»

Москва

ЗАО «ЗаМКАД»

Московская обл.

Семенов С.А. Семенов С.А.

Рогов А.В. Копытов Д.Е. Иванов И.И.

Модель на основе зависимости ФИО и региона.

𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО

𝑃(О 𝑅Ф ≈ 𝑃 О Ф

𝑃(И 𝑅ФО ≈ 𝑃 И О

𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О

Вероятность связи

𝑃 = 𝑃 𝑁𝑅ФИО < 1

Модель на основе зависимости ФИО и региона.

𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО

𝑃(О 𝑅Ф ≈ 𝑃 О Ф

𝑃(И 𝑅ФО ≈ 𝑃 И О

𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О

Вероятность связи

𝑃 = 𝑃 𝑁𝑅ФИО < 1

Модель на основе зависимости ФИО и региона.

𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО

𝑃(О 𝑅Ф ≈ 𝑃 О Ф

𝑃(И 𝑅ФО ≈ 𝑃 И О

𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О

Вероятность связи

𝑃 = 𝑃 𝑁𝑅ФИО < 1

Модель на основе зависимости ФИО и региона.

0,0

0,2

0,4

0,6

0,8

1,0

0,0 0,2 0,4 0,6 0,8 1,0

По

лн

ота

, то

чно

сть

в %

P(NRФИО < 1)

точность

полнота

Модель на основе независимых ФИО.

0,0

0,2

0,4

0,6

0,8

1,0

0,0 0,2 0,4 0,6 0,8 1,0

по

лн

ота

, то

чно

сть

в %

P(Nфио < 1)

точность

полнота

Модель на основе зависимости ФИО и региона. Результаты.

Рогов А.В.

Рогов А.В.

?

ООО «Рога и Копыта»

Москва

P = 0.684

ЗАО «ЗаМКАД»

Москва

R = Москва ФИО = Рогов Александр Владимирович P = P(NRФИО<1) = 0.684

Модель на основе зависимости ФИО и региона. Результаты.

Копытов Д.Е.

Копытов Д.Е.

?

ООО «Рога и Копыта»

Москва

R = Москва ФИО = Копытов Давид Ефремович P = P(NRФИО<1) = 0.986

P = 0.986

ЗАО «ЗаМКАД»

Москва

Модель на основе зависимости ФИО и региона. Результаты.

Семенов С.А.

Семенов С.А.

?

ООО «Рога и Копыта»

Москва

R = Москва ФИО = Семёнов Сергей Андреевич P = P(NRФИО<1) = 0.396

P = 0.396

ЗАО «ЗаМКАД»

Москва

Вывод Полнота 80% при точности 95%.

150 млн. новых связей.

Конец

99.9

96.2

68.2

74.7

32,1

95,8

80,3

23,8

2,7

0

20

40

60

80

100

1 100 10 000 1 000 000

С у

ни

кал

ьны

м Ф

ИО

%)

Количество людей в сообществе

Доля людей с уникальным ФИО

ФИО

ФИ

Ф

top related