big data - università degli studi di milano-bicocca · 2020-01-29 · il lato oscuro dei big data...

Post on 11-Aug-2020

2 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

BigData

•  Data•  Process•  Management

BigDataataGlance”BigData” termusually refers to large amounts ofdifferent types of data producedwith high velocityfromahighnumberofvarioustypesofsources.Making these date useful for stakeholders requiresto turn these data into knowledge, as theknowledge is the end product of a data-drivendiscovery.First,wefocusonthekey“dimensions”thatmake

dealingwithBigDatachallenging

The4V’sBigDatamodel

3

LesfidedeiDaK

•  DataAvailabilityqualeèillivellodidisponibilitàdeidaK?SonodisponibiliatuP?

•  DataQuality–quantosono“buoni”idaK(rilevanKeconsistenK)?Qualeèillivellodicopertura?QuantosonoaggiornaK?

•  Datadiscoveryèunagrandesfida(cometroviamoaltaqualitàdidaKdallavastacollezionedidaKchesitrovanonelweb?)

•  CombiningmulKpledatasets

LesfidedeiDaK•  CompletezzadeiDaA,cisonoareesenzacopertura?Qualeè

l’implicazione?•  IdenAficazionediinformazionipersonali

molteinformazioniriguardanoinformazionipersonali,possiamoestrarresufficienKinformazionipereffeWuareanalisiasupportodellepersone,senzacompromeWerelaprivacy?Inparte,questoèunproblemadelleaziendeedelleisKtuzionipubbliche.

Questorichiedediriconsiderarechecosasignificarealmentela

privacy.

Processchallenges

•  LesfidedelprocessodigesKonedeiBigDataincludono:–  L’acquisizionedeidaK–  L’allineamentodeidaKderivanKdadiversesorgenK(es.quandodueoggePsonoglistessiindifferenKDB)

–  TrasformazionedeidaKinunaformaadaWaall’analisi– DefinizioneesceltadiModellidianalisi–  Capirel’output,condivisioneevisualizzazionedirisultaK

ManagementChallenges

•  DataPrivacy,Security,andGovernance– AssicurarsicheidaKsianousaKcorreWamente(rispeWodegliuKlizziprevisKedellenormaKve)

– GesKonedeltrakingdeidaKuKlizzaK,trasformaKeraccolKecc.

– EgesKonedellorociclodivita

BigDataopportunità,valoreecriKcità

BigDataAnalyKcs

“IntheoldworldofdataanalysisyouknewexactlywhichquesKonsyouwantedtoasked,whichdroveaverypredictablecollecKonandstoragemodel.In the new world of data analysis your quesKonsare going to evolve and change over Kme and assuch you need to be able to collect, store andanalyze data without being constrained byresources”.WernerVogels,CTO,Amazon.com

BigDataL’evoluzionedeidaA

patrimoniostaKcoincuiilloroscopofinisceconlarealizzazionedelloscopopercuisonostaKraccolK(essurveyconanalisicampionaria);

UKlizzodidaKlimitaK

DaKraccolKcon

domandepredefinite

difficoltàdiraccolta,

organizzazione,eanalisi

Organizzazione

dell’informazionealminimoperanalizzarlepiùfacilmente

Difficoltà(>%dierrore)diincludere

soWocategorie

BigDataL’evoluzionedeidaA

•  Inalcunicasinonsipuòfareamenodelcampionamento.•  Inmol'campièperòina0ounprocessoevolu'vo:

DallaraccoltadiALCUNIdaK

All’accumulodelMAGGIORNUMERO

POSSIBILE

SepossibiledituP:N=tu9

GOOGLEFLUTRENDSusamiliardidiqueriesconsentendodiprevedereladiffusionedelvirusdell’influenzaalivellodiPaese,specificostato,ciWà.N=tu8,nonsignificanecessariamenteenormiquan'tàdida'.BigDatapuòessereintesocome“interoset”enon,campionamento.Ciòsignificaesserepiùliberidiesplorareodistudiarepiùapprofonditamentealcuniaspe8.

Sovraccaricodiinformazioni

•  Nel2013laquanKtàdiinformazioniimmagazzinatenelmondoèstatasKmatain1200Exabyte*(menodel2%deiqualiinformanondigitale).(studiodiM.Hilbert-UniversityofsouthernCalifornia)

Cosasignifica?•  Sefosseroracchiusiinlibricartaceicoprirebberol’interasuperficiedegliUSA52volte;

•  SeraccolKinCd-Romemessil’unosull’altroarriverebberoallalunain5pileseparate;

QuesAcambiamenAdisorientanotuF!*Exabyte=unmiliardodigigabyte

SfruWamentodeiBigData

•  Insegnareaduncomputerapensarecomegliesseriumani?No!

•  ApplicazionedellamatemaKcaadenormiquanKtàdidaKperdesumeredelleprobabilità:–  Laprobabilitàcheunaemailsiaspam;–  Chelele@eredigitatetehsianol’inversionedithe;

•  Crearesistemichefunzionanobeneperchéalimenta'daenormiquan'tàdida'sucuibasareleproprieprevisioni;costrui'per:–  Automigliorarsi(Googleèingradodiselezionareilsitopiùper'nente;linkedindiindovinarechiconosciamo)

SfruWamentodeiBigData

Cosìcomeinternethacambiatoradicalmenteilmondoaggiungendolacapacitàdi

comunicazioneaicomputer,iBIGDATAmodificherannoaspePfondamentalidellavitadandoleunadimensionequanKtaKvachenon

hamaiavutoprima(Shonberger–Cukier2012)

Bigdataeanalisidelleinformazioni•  EsaIezza-precisionevsimprecisione-tendenza;causalitàvscorrelazione.–  DastrumenKfondaKsull’esaWezza:misurarenelmodopiùprecisopossibileciòchevogliamoquanKficare(es.motoridiricercafinalizzaKarecuperareconprecisioneirecordcorrispondenKesaWamenteallensquery);

–  AstrumenKfondaKsu“cogliereunatendenza”:rinunciaadunpòdiesaWezza;ciòcheperdiamoalivellomicrolorecuperiamoincomprensionealivellomacro;

–  AbbandonodellatendenzaaricercarelacausalitàperscoprireneidaKcorrelazionicheoffronoindicazionioriginaliepreziose.(nonsempreserveconoscerelacausadiunfenomenosipuòlasciarecheidaKparlinodase).

Processodellinguaggionaturaleetraduzionelinguis'ca–unesempio

•  Anni2000:M.BankoeE.BrilldiMicrososvolevanomigliorareilcorreWoreortografico;– MigliorarealgoritmiesistenK?Trovarenuovetecniche?

•  AlgoritmidiapprendimentoeranofondaKsuraccolteditestoconalmax1milionediparole;

–  Su4algoritmisonostaKinseriKaltridaK:setdi10mildiparole,poidi100mileinfinedi1miliardo;

•  RisultaKsbalordiKvi:•  L’algoritmopeggiorecon½mildiparoleerailmigliorecon1miliardodiparole;

•  Tassodiaccuratezzaèsalitodal75al95%•  Considerazionideiricercatori:riconsiderareilrapportotrainves'renellosviluppodeglialgoritmieinves'renellaraccoltadites'

Processodellinguaggionaturaleetraduzionelinguis'ca–unesempio

•  Pochianni(2006)dopoiricercatoridiGooglehannoportatoavanKlostessoragionamento:–  Invecedi1miliardodiparolenehannouKlizzateuntrilione(10alla18);–  ObiePvoerasviluppareunsistemaperlatraduzioneautomaKca(insegnare

regoleeeccezioni…elevatacomplessità;–  GoogleavevaadisposizioneundatasetmoltovastoecaoKco:larete;(miliardi

dipagineditraduzioni…95miliardidifrasiininglese–anchesedidubbiaqualità)

•  RisultaK:–  TraduzionimiglioririspeWoadaltri(ancheseimperfeWe);–  Ametàdel2012ildatasetcopriva60lingue;–  AcceWainputvocalidaoltre14lingue;

“Modellisemplicichecheimpieganoungrannumerodida'sirivelanopiùu'lirispe0oamodellipiùsofis'ca'cheimpieganomenoda'”(PeterNorvig)

Bigdataeanalisidelleinformazioni

•  PrimadeiBigDataleanalisisilimitavanoatestareunristreWonumerodiipotesidefinitespessoprimadiraccogliereidaK;

•  QuandolasciamoparlareidaKemergonocollegamenKdicuinonavevamomaisospeWatol’esistenza;–  alcunifondispeculaKviconsultanotwiWerperprevedereleperformancedelmercatoazionario;

–  AmazoneNezlixbasanoipropriconsiglidiacquistosuunamiriadediinterazionitragliutenKdeirispePvisiK;

–  TwiWer,LinkedIneFacebookinsiememappanoil“graficosociale”dellerelazionitrautenKpercapirelepreferenze

Bigdataeanalisidelleinformazioni•  GliesseriumanianalizzanodaKdamillenni:

–  IgovernihannodamillennifaWocensimenKperraccoglieregrandiquanKtàdidaKsullapopolazione

•  Nell’eraanalogicaraccogliereeanalizzaredaKeracostosoerichiedevamoltotempo.

•  L’eradelladigitalizzazioneharesopiùefficienteilprocessodiraccolta,diarchiviazioneedanalisi(daanniapochigiornioore–paradigma:datasetconfinalitàspecifichecuisilegaillorovalore);

•  Nell’eradeiBigDataicambiamenKsonocaraWerizzabiliconladaCzzazione;paradigma:prendereinformazionieconver'rleinunastru0urachelequan'fichi.

Bigdataeanalisidelleinformazioni

DaCzzazione•  CercareindicazionichesipossonoestrarredaidaK…illorovaloreintrinseco,nascosto,nonancoraportatoallaluce

L’obiePvodellacompeKzioneinaWoèscoprirloecaWurarloperintero

CausalitàvsCorrelazione

BigDataenaturadelbusiness

Valoredelbusiness•  InfrastruWurefisiche(terreni,fabbricaK);•  ElemenKintangibili(brand,proprietàintelleWuale);

•  EstensionedelladematerializzazionevsiDATI

IDATIcomeassetaziendalediprimariaimportanza…carburantedell’economiadell’informazione

L’effeWodeiBigDatasullaprofessionalità

QualeèilvaloredellacompetenzaspecificainunmondochemeWeinprimopianola

probabilitàelacorrelazione?Glispecialis'nonsparirannomadovrannocompetereconquellochedicel’analisideibigdata;

Implicazionisu:ideedimanagement,sulprocessodecisionale,sullagesKonedellerisorseumane,….

IllatooscurodeiBIGDATA

Abbiamoaccumulatomillennidiesperienzanellostudiodelcomportamentoumano.

Comesifaaregolamentareunalgoritmo?Dallanascitadell’informaKca->azionieregoleperlatuteladellaprivacy;Conibigdataquelleregolesono“sostanzialmente”

inuKli…lepersonecondividonovolenKerileinformazionionline(caraWerisKcacentraledeiservizi,nonunavulnerabilitàdaprevenire);

IllatooscurodeiBIGDATA

Qualepericolocorriamo?•  Dallaprivacyallaprobabilità:– GliAlgoritmiprevederannolaprobabilità:

•  disubireunaWaccodicuore(cicostringerannoapagareunpremioassicuraKvopiùalto);•  Dinonriuscireapagareilmutuodellacasa(indurrannolebancheanegarciilfinanziamento);•  DicommeWereuncrimine(facendocimagariarrestareprevenKvamente)

IllatooscurodeiBIGDATA

•  Qualeèilruolodellalibertà,dellavolontàinrapportoalladiWaturadeidaK?

•  Cheruolorimaneall’intuito,allafede,all’incertezza,all’agireincontraddizioneconil

datoempiricoeall’apprendimentodall’esperienza?

•  Conilpassaggiodallacausalitàallacorrelazione,comepossiamoavanzarepragmaKcamentesenzaintaccarelebasistessedellasocietà,deirapporKumaniedelprogressofondatosullaragione?

top related