Ксения Жагорина (СКБ-Контур)
Post on 15-May-2015
1.256 Views
Preview:
TRANSCRIPT
Насколько уникально ФИО?
Ксения Жагорина СКБ Контур
Все знают, что ФИО не уникально…
Все знают, что ФИО не уникально…
Иванов Иван Иванович 1.600 чел.
Предполагаемое число людей с таким ФИО в
России
Все знают, что ФИО не уникально…
Иванов Иван Иванович 1.600 чел.
Иванов Сергей Владимирович 6.200 чел.
Кузнецов Сергей Александрович 4.600 чел.
…
Предполагаемое число людей с таким ФИО в
России
А на самом деле …
А на самом деле …
0.999 0.96
0.68
0
0,2
0,4
0,6
0,8
1
1 100 10 000 1 000 000
С у
ни
кал
ьны
м Ф
ИО
Количество людей в сообществе
Доля людей с уникальным ФИО
И какая же польза?
И какая же польза?
• Поиск «клонов»
И какая же польза?
• Поиск «клонов»
• Интеграция сервисов
База данных ЕГРЮЛ
21 М упоминаний c ИНН 13 М человек
База данных ЕГРЮЛ
11 М упоминаний без ИНН
21 М упоминаний c ИНН 13 М человек
База данных ЕГРЮЛ 11 М упоминаний
без ИНН 21 М упоминаний c ИНН
13 М человек
База данных ЕГРЮЛ
11 М упоминаний без ИНН
21 М упоминаний c ИНН 13 М человек
База данных ЕГРЮЛ
11 М упоминаний без ИНН
21 М упоминаний c ИНН 13 М человек
Семенов С.А. Семенов С.А.
Рогов А.В. Копытов Д.Е. Иванов И.И.
База данных ЕГРЮЛ
11 М упоминаний без ИНН
21 М упоминаний c ИНН 13 М человек
Семенов С.А. Семенов С.А.
Рогов А.В. Копытов Д.Е. Иванов И.И.
?
Как ?
Постановка задачи
По двум упоминаниям с одинаковым ФИО определить насколько вероятно, что они об одном и том же человеке.
Методика тестирования Тестирование – на упоминаниях с указанным ИНН Оценка модели – точность и полнота
Точность = |Найденные верные связи|
|Все найденные связи|
Полнота = |Найденные верные связи|
|Все верные связи|
Модель на основе независимых ФИО.
𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
Модель на основе независимых ФИО.
𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝
Количество людей с данным ФИО
Модель на основе независимых ФИО.
𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝
Количество людей с данным ФИО
Вероятность связи
𝑃 = 𝑃 𝑁фио < 1
Модель на основе независимых ФИО.
0,0
0,2
0,4
0,6
0,8
1,0
0,0 0,2 0,4 0,6 0,8 1,0
по
лн
ота
, то
чно
сть
в %
P(Nфио < 1)
точность
полнота
База данных ЕГРЮЛ
11 М упоминаний без ИНН
21 М упоминаний c ИНН 13 М человек
Семенов С.А. Семенов С.А.
Рогов А.В. Копытов Д.Е. Иванов И.И.
База данных ЕГРЮЛ 11 М упоминаний
без ИНН 21 М упоминаний c ИНН
13 М человек
Семенов С.А. Семенов С.А.
Рогов А.В. Копытов Д.Е. Иванов И.И.
База данных ЕГРЮЛ 11 М упоминаний
без ИНН 21 М упоминаний c ИНН
13 М человек
ООО «Рога и Копыта»
Москва
ЗАО «ЗаМКАД»
Московская обл.
Семенов С.А. Семенов С.А.
Рогов А.В. Копытов Д.Е. Иванов И.И.
Модель на основе зависимости ФИО и региона.
𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО
𝑃(О 𝑅Ф ≈ 𝑃 О Ф
𝑃(И 𝑅ФО ≈ 𝑃 И О
𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О
Вероятность связи
𝑃 = 𝑃 𝑁𝑅ФИО < 1
Модель на основе зависимости ФИО и региона.
𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО
𝑃(О 𝑅Ф ≈ 𝑃 О Ф
𝑃(И 𝑅ФО ≈ 𝑃 И О
𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О
Вероятность связи
𝑃 = 𝑃 𝑁𝑅ФИО < 1
Модель на основе зависимости ФИО и региона.
𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО
𝑃(О 𝑅Ф ≈ 𝑃 О Ф
𝑃(И 𝑅ФО ≈ 𝑃 И О
𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О
Вероятность связи
𝑃 = 𝑃 𝑁𝑅ФИО < 1
Модель на основе зависимости ФИО и региона.
0,0
0,2
0,4
0,6
0,8
1,0
0,0 0,2 0,4 0,6 0,8 1,0
По
лн
ота
, то
чно
сть
в %
P(NRФИО < 1)
точность
полнота
Модель на основе независимых ФИО.
0,0
0,2
0,4
0,6
0,8
1,0
0,0 0,2 0,4 0,6 0,8 1,0
по
лн
ота
, то
чно
сть
в %
P(Nфио < 1)
точность
полнота
Модель на основе зависимости ФИО и региона. Результаты.
Рогов А.В.
Рогов А.В.
?
ООО «Рога и Копыта»
Москва
P = 0.684
ЗАО «ЗаМКАД»
Москва
R = Москва ФИО = Рогов Александр Владимирович P = P(NRФИО<1) = 0.684
Модель на основе зависимости ФИО и региона. Результаты.
Копытов Д.Е.
Копытов Д.Е.
?
ООО «Рога и Копыта»
Москва
R = Москва ФИО = Копытов Давид Ефремович P = P(NRФИО<1) = 0.986
P = 0.986
ЗАО «ЗаМКАД»
Москва
Модель на основе зависимости ФИО и региона. Результаты.
Семенов С.А.
Семенов С.А.
?
ООО «Рога и Копыта»
Москва
R = Москва ФИО = Семёнов Сергей Андреевич P = P(NRФИО<1) = 0.396
P = 0.396
ЗАО «ЗаМКАД»
Москва
Вывод Полнота 80% при точности 95%.
150 млн. новых связей.
Конец
99.9
96.2
68.2
74.7
32,1
95,8
80,3
23,8
2,7
0
20
40
60
80
100
1 100 10 000 1 000 000
С у
ни
кал
ьны
м Ф
ИО
(в
%)
Количество людей в сообществе
Доля людей с уникальным ФИО
ФИО
ФИ
Ф
top related