machine learning a data mobilních operátorů - lukáš drápal (data restart 2015)
TRANSCRIPT
© CGI Group Inc. CONFIDENTIAL
Machine learning a data mobilních operátorů
Lukáš Drápal ([email protected])
Duben 2014
CGI je globální zajišťovatel komplexních IT služeb a
služeb v oblasti obchodních procesů
4,500 klientůz celého světa
68,000 zaměstnanců,
z toho75% akcionářů
Špičkový business a
IT consulting
400 kanceláří,
40 zemíSystémová integrace,
outsourcingIT and obchodních procesů
9/10 Skóre spokojenosti klientů za
posledních 10 let
2
• Spojení CGI a Logica v roce 2013
• 5. Největší nezávislá IT a BPS firma
na světě
Lokální CGI data science tým
• Seniorní konzultanti s více než 10 letou znalostí sektoru
• Noví talenti s vystudovanou datovou vědou
• Produktová nezávislost
• Prohlubování znalostí v mezinárodních soutěžích
• Kaggle.com: Allstate Purchase Prediction Challenge
• Vyhráli jsme mezi více než 1500 týmy z celého světa
• Hlavní oblasti: retail, banking, telco
3
Data mobilních operátorů
4
• Nesou významnou informaci o uživateli SIM karet
• Lidi, se kterými je uživatel v kontaktu
• Kde se pohybuje
• Mohou být využita ke zkvalitnění služeb a získání
konkurenční výhody
Co máme za data?
• CDR data o hovorech a SMS zprávách
• Číslo volaného a příjemce
• Datum a čas
• Typ služby
• Délka
• ID sítě
• Případně: Lokace, Prohlížená webová stránka, Cena
• Další datové zdroje:
• Subscriber data (Active/deactivated, Network Type,
Phone model)
• CRM systémy
Zpracování dat
• Surová CDR data jsou zpracována, aby mohl být využit
machine learningový algoritmus
• Agregace
• Síťová analýza (social network analysis)
6
Využití dat: příklady z projektů
• Síťová analýza (Social network analysis)
• Demografický profiling
7
Síťová analýza (Social network analysis)
• Detekce komunit
• Výpočet různých síťových metrik
• Zjištění vlivných uživatelů
9
Ukázka hodnoty pro středoevropského operátora
• Detekce komunit
• Odhalení vlivných zákazníků
• Vlivní zákazníci se chovají jinak v retenčním procesu
• Výsledek: doporučení jiného retenčního postupu u různých
skupin zákazníků
0
10 1
0010101010101
1001001010010
1 0101011010
010 100 0 0
1
1
1
0
0010010010010
10
0001011110010
001
0
1
0
00101010101
0 001
01010010111
10
1
1
0
0
00 0
1
0
1
0100101010101
01
0101010101010
0
1
1
0111001010
Demografický profiling: výzvy
KREDIT – absence datPAUŠÁL
0
1
1
1 0
1
0
1
• Anonymní uživatelé• Hodně zákaznických dat
Demografické modelování
• Cíl: předpovědět věk a pohlaví zákazníků s kreditem
• Lepší cílení nabídek
Predikce pohlaví pro telekomunikačního
operátora
• Predikce na základě CDR dat
• Data o zákaznících s paušálem (pohlaví známe) i s kreditem
(pohlaví neznáme)
Použité proměnné
• Průměrná doba hovoru
• Počet sms a volání mužům / ženám
• Pohlaví nejčastěji volané osoby
Shrnutí
• CDR data jsou bohatá, potřebují správný preprocessing
• Síťová analýza umožňuje odhalit důležité informace
o zákaznících a vztazích mezi nimi