big data & data mining
DESCRIPTION
Big Data and Data MiningTRANSCRIPT
Big Data & Data Mining Il potere dei dati
Cosa significa Big Data?
Big data è il termine per descrivere una raccolta di dataset così grande e complessa da richiedere strumenti differenti da quelli tradizionali, in tutte le fasi del processo: dall'acquisizione, alla curation, passando per condivisione, analisi e visualizzazione.
(Wikipedia)
...e Data Mining?
Il data mining è l'insieme di tecniche e metodologie che hanno per oggetto l'estrazione di un sapere o di una conoscenza a partire da grandi quantità di dati e l'utilizzo scientifico, industriale o operativo di questo sapere.
(Wikipedia)
Perchè tutto questo interesse ai Data?
Da dove arrivano tutti questi dati?
Basta pensare che ogni 60 secondi su facebook vengono generati 350GB di dati, tra post, mi piace, foto e video, o che in tutto il mondo si caricano circa 72 ore di video su YouTube ogni minuto che passa.
Every Second on the Internet
www.onesecond.designly.com
Non solo Social
➔ Archivi di documenti scannerizzati➔ Documenti elettronici➔ Media (immagini, video, audio, flash, live
stream, ecc…)➔ Web (dati governativi, meteo, censuari,
wikipedia, ecc…)➔ Applicazioni di business (CRM, ERP, portali
intranet, ecc…)➔ Data Storage (SQL, Hadoop, file systems,
ecc…)➔ Log di sistema (da server, dispositivi mobili,
ecc…)➔ Data da Sensori (pubblici e privati)
Non solo Social
Dati o informazioni?
Dato e Informazione non sono sinonimi!
Dati o informazioni?Il dato è un elemento conosciuto, un’informazione grezza o elementare ed è solitamente costituito da simboli che devono essere elaborati.
L’informazione è il risultato derivante dall’interpretazione di un insieme di dati, che è finalizzata all’apportare un incremento delle conoscenze di un soggetto.
..e se i Data sono Big?
Non basta più la ricerca e l’analisi statistica classica ma necessitiamo del data mining.
Che cosa "non è" data mining?● Cercare un numero di telefono nell'elenco;● Fare una ricerca in Internet su "vacanze a Chioggia".
Che cosa "è" data mining?● Scoprire che alcuni cognomi sono molto comuni in certe aree
dell'Italia;● Fare una ricerca nel web su una parola chiave e classificare i
documenti trovati secondo un criterio semantico;● Scoprire le relazioni tra tipi di clienti e certi prodotti o campagne
pubblicitarie.
Chi trova un (Big) Data...
I Big Data sono fondamentale per la creazione di nuovo business, contribuiscono a migliorare efficienza, qualità, prodotti e servizi personalizzati, producendo livelli più elevati di soddisfazione ed esperienza del cliente.
..trova un tesoro!
Le aziende, ma non solo, devonoimparare ad utilizzare pienamente le loro risorse di dati.
L’aumento del volume, velocità e varietà dei dati spesso supera le capacità delle aziende di gestirli ed elaborarli con efficacia nei tempi utili. Una complessità che rende difficile far fronte alle sempre più urgenti e crescenti esigenze del business.
3V + 1
Volume, Velocità e Varietà sono le proprietà dei Big Data.
Alcune organizzazioni utilizzano una quarta V per indicare la Veridicità dei dati, ossia la qualità dei dati intesa come il valore informativo che si riesce ad estrarre.
È utile avere molti dati?
1872 - Il cavallo di Eadweard Muybridge
Petabyte Age
Giugno 2008 - Wired proclama la morte delmetodo scientifico.
● L’ingente quantità di dati prodotta induce ad analizzarli matematicamente prima di contestualizzarli.
● Da ricerca delle cause a ricerca delle connessioni.
● “What can science learn from Google?”
NoSQL e Hadoop
NoSQL e Hadoop
Hadoop è usato anche da: AOL, Ebay, Facebook, IBM, ImageShack, Joost, Linkedin, Spotify, The New York Times e Twitter.
Yahoo! è il più grande contributore a questo progetto, e ne fa fortemente uso.
Chi è interessato dai Big Data?
● AZIENDEDevono estrarre informazioni utili da enormi quantità di dati non strutturati, eterogenei, dinamici (Big Data).
● PRIVATOA noi rimane il dilemma di come bilanciare l’accesso ai servizi con la cessione di informazioni personali.
● PUBBLICOCome collettività dovremmo iniziare a interrogarci su come evitare un uso improprio e discriminatorio delle informazioni che ci riguardano.
Big Data e Imprese
Dei più importanti responsabili marketing del mondo,
80%Non valuta i feedback provenienti dai social media.
63%Non utilizza analisi di marketing per prendere decisioni.
http://goo.gl/JiYBKO
Tweet sulle patatine in California?Walmart ne rifornisce i supermercati
Big Data e Imprese
La Swedish Tax Agency, grazie all’incrocio delle informazioni sui contribuenti, riesce a inviare ai cittadini un modulo delle imposte già compilato. Ai contribuenti spetta così il solo onere di confermare o modificare le informazioni via web o SMS.
Big Data e Pubblico
L’agenzia per il lavoro tedesca, analizzando i dati storici sull’impiego e sugli investimenti effettuati, è riuscita a segmentare la popolazione dei disoccupati per offrire interventi mirati ed efficienti. Questa azione si è tradotta in un risparmio di 10 miliardi di euro all’anno per il pubblico e nella riduzione del tempo impiegato dal cittadino per ottenere un lavoro.
Big Data e Pubblico
Big Data e Pubblico
Il dipartimento di polizia di Los Angeles sta utilizzando PredPol, un sistema che sulla base delle serie storiche dei reati, divide le aree da pattugliare in zone, calcola la distribuzione e la frequenza dei reati, e poi indica quelle da sorvegliare. L’applicazione del modello matematico ha portato a un calo dei reati del 13%.A Santa Cruz lo stesso metodo ha ridotto i furti del 27%.
Big Data e Persone
Se invece fosti interessati a migliorare la vostra forma fisica, Nike+, dal 2006, propone una serie di device, orologi e bracciali intelligenti, per registrare i chilometri percorsi, i battiti cardiaci e le calorie consumate, ed analizzare i dati raccolti sul sito web o sullo smartphone.
Tecnologie fino a qualche anno fa a disposizione dei soli atleti professionisti, rappresentano i primi esempi di wearable computing.
Rischi
Il dato personale è una moneta di scambio che necessita di un controllo vigile, per evitare che aziende senza grossi scrupoli lo utilizzino per inferenze predittive di tipo prettamente commerciale o generalmente poco nobili.
Rischi
Target e la pubblicità mirata
Rischi
Kevin Johnson, insolvente a sua insaputa
Rischi
Il vero problema, quindi, è:
● definire limiti che assicurino il corretto uso delle informazioni
● permettere all’utente di conoscere in base a quali analisi vengano negati dei servizi
● fare trasparenza su quali informazioni siano in mano a ciascuna azienda
Conclusioni
● Il fenomeno dei Big Data, pur rimanendo una novità per molti, presenta potenziali utilizzi in ogni campo;
● La tecnologia si sta evolvendo apposta per facilitare l’analisi e la ricerca sui grandi dati;
● Il cittadino deve valutare i servizi a cui può avere accesso sacrificando parte della privacy;
● Lo stato deve vigilare sugli abusi a cui può condurre la divulgazione di informazioni personali;
● Chi sfrutta i Big Data, ne trae profitto, a tutti i livelli.