jak „big data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

11
Jak „Big Data” rewolucjonizuje naukę oraz wspólpracę centrów badawczych z biznesem? dr Lukasz Bolikowski ICM, Uniwersytet Warszawski Big Data Summit, 26 listopada 2014

Upload: lukasz-bolikowski

Post on 08-Jul-2015

162 views

Category:

Science


0 download

DESCRIPTION

Presentation in Polish at Big Data Summit in Warsaw on 26th November 2014.

TRANSCRIPT

Page 1: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Jak „Big Data” rewolucjonizuje naukęoraz współpracę centrów badawczychz biznesem?

dr Łukasz BolikowskiICM, Uniwersytet Warszawski

Big Data Summit, 26 listopada 2014

Page 2: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Czwarty paradygmat

Cztery paradygmaty w nauce (Jim Gray, 2007):

1 Empiryczny – opis zjawisk naturalnych(ostatnie tysiąclecia)

2 Teoretyczny – budowa modeli i uogólnień(ostatnie stulecia)

3 Obliczeniowy – symulacje złożonych zjawisk(ostatnie dekady)

4 Eksploracja danych – badania „data-intensive”(ostatnie lata)

Page 3: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Duże dane w nauce

Duży rozmiar1000 Genomes Project – 200 TB danych genomicznychNASA Earth Exchange – 20 TB danych o Ziemi

Duże tempo zmianWielki Zderzacz Hadronów (CERN) – 1 PB/s (w szczycie)Sekwenatory DNA – setki GB tygodniowo

Duża różnorodnośćArchiwum prognozy pogody ICM – 1000+ rodzajów pól

Page 4: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Przyczyny zmiany paradygmatu

Przejście od „analogowego” do „cyfrowego”dramatycznie zwiększyło podaż danych:

książki, komunikacja naukowadane medyczne

Pojawiły się technologie generujące duże dane:urządzenia mobilnesieci społecznościowesieci czujników (inteligentne miasta)

Naukowcy uświadomili sobie, że eksploracja dużychzbiorów danych może prowadzić do odkryć:

dane → informacja → wiedza

Page 5: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Skutki zmiany paradygmatu

Potrzebujemy. . .

. . . nowych infrastruktur obliczeniowychduże klastry do badań opartych o danesystemy do publikacji i dzielenia się danymi

. . . nowych metod i algorytmów przetwarzaniaalgorytmy w modelu MapReduceszybkie rozwiązania in-memory

. . . nowych umiejętności i kompetencjiprzetwarzanie dużych danych, programowanieuczenie maszynowe, statystyka, matematykawizualizacja informacji, prezentacja wynikówciekawość, pasja, żyłka eksploratora

Page 6: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

ICM, Uniwersytet WarszawskiPoczątki – trzeci paradygmat

Założone 20 lat temu jako centrum superkomputeroweprowadzące symulacje złożonych zjawisk przy użyciumodeli matematycznych i superkomputerów.Prawdziwie interdyscyplinarny zespół 150+ naukowcówi programistów tworzących rozwiązania w obszarach takróżnych jak:transport lotniczy, bioinformatyka, modelowanie klimatu,medycyna wspomagana komputerowo, kosmologia, bib-lioteki cyfrowe, projektowanie leków, epidemiologia, rol-nictwo, fizyka wysokich energii, uczenie maszynowe,projektowanie materiałów, neurobiologia, analiza siecispołecznych, prognozowanie pogody, . . . i wiele innych.

Page 7: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

ICM, Uniwersytet WarszawskiPrzyszłość – czwarty paradygmat

ICM staje się centrum danych badawczych. W ramach pro-jektu OCEAN o początkowym budżecie 80 mln zł do końca2015 roku powstanie infrastruktura zdolna przetwarzaćdziesiątki PB danych oraz centrum kompetencji skupia-jące doświadczone zespoły „data scientists”.(text mining, analiza sieci społecznych, analiza obrazów, uczenie maszynowe)

Page 8: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Wybrane projekty ICM UW oparte o analizę danych

1 Alzheimer’s Disease Big Data DREAM ChallengeCel: identyfikacja biomarkerów pozwalającychdiagnozować i leczyć chorobę AlzheimeraDane: obrazowe (m.in. MRI mózgu), genetyczne(m.in. SNP), oceny funkcji poznawczych

2 Szacowanie krzywych laktacji i obserwacji odstającychCel: przewidywanie użytkowości mlecznej krówDane: 80M+ rekordów opisujących krowy (np. geny,stado) i historię ich udojów (np. ilość i skład mleka)

3 SciVis Contest 2015Cel: wizualizacja ewolucji wszechświataDane: bilion (1012) obiektów (położenia i prędkości)× 100 klatek (oś czasu) = 3 PB danych(3 PB oznacza 9 m-cy kopiowania po Ethernecie, 1 tonę dysków HDD)

Page 9: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Nauka a biznes

Biznes ma dane i pytania, cierpi na brak data scientists.Nauka ma kompetencje i infrastrukturę, szuka ciekawych wyzwań.Podobne zagadnienia, metody, metodologie:

rozumienie wartości (dużych) danych, potencjału w nich tkwiącegometody statystyczne, uczenie maszynowe, wizualizacja informacjiprzetwarzanie dużych danych przy użyciu Apache Hadoop/Sparkmetodologie prowadzenia projektów data-miningowych, np. CRISP-DM

Wniosek – pasujemy do siebie jak nigdy dotąd! Zapraszam do współpracy.

Page 10: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Dziękuję za uwagę i zapraszam do kontaktu!

linkedin.com/in/bolikowski

twitter.com/bolikowski

[email protected]

+48 22 8749419

Page 11: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Licencja

c© 2014 ICM, Uniwersytet Warszawski. Pewne prawa zastrzeżone. Prezentacja udostępniona na licencji CC BY-ND 3.0 PL. Wykorzystane zostałymateriały graficzne z następujących źródeł:

http://research.microsoft.com/en-us/collaboration/fourthparadigm/ (str. 2, cała książka na CC BY-SA 3.0, tu dozwolony użytek okładki)https://www.flickr.com/photos/petrifiedforestnps/13808113813 (str. 3, CC BY 2.0)https://www.flickr.com/photos/11304375@N07/2046228644 (str. 3, CC BY 2.0)https://www.flickr.com/photos/mollyali/2518828977 (str. 4, CC BY 2.0)https://www.flickr.com/photos/kewl/8475764430 (str. 6, CC BY 2.0)https://www.flickr.com/photos/iwannt/8596885627 (str. 6, CC BY 2.0)https://www.flickr.com/photos/canyonjam/111754387 (str. 8, CC BY 2.0)https://www.flickr.com/photos/usdagov/9042954477 (str. 8, CC BY 2.0)