instytut informatyki - projects topics proposalsanna.lamek/zajecia/niwpd/big...data: the rise of...

59
Big data dr inż. Anna Lamek Katedra Badań Operacyjnych, Finansów i Zastosowań Informatyki

Upload: others

Post on 28-Jun-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Big data

dr inż. Anna Lamek

Katedra Badań Operacyjnych, Finansów i Zastosowań Informatyki

Page 2: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Agenda

• Wprowadzenie

– czym jest Big data?

• 5V

• Wady i zalety

• Istniejące zastosowania

– Wykorzystanie big data w zarządzaniu

2

Page 3: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Czym jest Big data?

• [Gartner 2012] „…to zbiory informacji o dużej objętości,

dużej zmienności lub dużej różnorodności, które

wymagają nowych form przetwarzania w celu

wspomagania podejmowania decyzji, odkrywania

nowych zjawisk oraz optymalizacji procesów

• [Płaszczak 2013] …gdy zbioru nie da się przetwarzać

przy użyciu trywialnych, powszechnie dostępnych metod

• Masowy napływ dużej ilości danych cyfrowych,

pochodzących z różnych źródeł (czujniki, dokumenty,

fora internetowe, etc.)

• Dane niestrukturalne (tekst, pdf, video), semistrukturalne

(pliki XML) czy prawie strukturalne (web clicks)3

Page 4: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Czym jest Big data?

• [Tabakow, Korczak, Franczyk, 2014]:

„…określenie stosowane dla takich

zbiorów danych, które jednocześnie

charakteryzują się dużą objętością,

różnorodnością, strumieniowym napływem

w czasie rzeczywistym, zmiennością,

złożonością […] i wymagają zastosowania

innowacyjnych technologii, narzędzi,

metod informatycznych w celu wydobycia

z nich nowej i użytecznej wiedzy”4

Page 5: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

5źródło: datatechnocrats.com

Page 6: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

6

Page 7: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

7źródło: OECD, IDC Digital Universe research estimates (2014)

Page 8: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Źródła big data

• Dane generowane przez użytkowników portali

internetowych, w tym sieci społecznościowych

• Dane opisujące transakcje dokonywane poprzez Internet

• Dane naukowe (biologiczne, astronomiczne, pomiary

fizyczne itp.)

• Dane generowane przez roboty przeszukujące Internet

(Web mining, Web crawling)

• Dane grafowe obrazujące powiązania pomiędzy

stronami WWW

• Dane pochodzące czujników i urządzeń podłączonych

do Internetu (Internet of Things)

• …. 8

Źródło: prezentacja Krzysztof Goczyła, Politechnika Gdańska, Big data i 5V , nowe wyzwania w świecie danych

Page 9: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Co się dzieje w ciągu 60sek?

9

źródło: https://www.go-globe.com/, sierpień 2017

Page 10: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

10

źródło: Wikibon 2015, Executive Summary: Big Data Vendor Revenue and Market Forecast,

2011-2026 http://wikibon.com/executive-summary-big-data-vendor-revenue-and-market-forecast-

2011-2026/ , dostęp: maj 2016r.

Page 11: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Wzrost zainteresowania big data

11

źródło: opracowanie własne na podstawie Google Trends, listopad 2017

Page 12: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

12Wyszukiwanie: listopad 2017

Potencjał big data - zbieranie informacji, nowej wiedzy, by dostrzec nowe

zależności i wzorce zachowań w społeczeństwie i środowisku

Page 13: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

13

źródło: Tools and Techniques for Analysing Big Data, Michael Ferguson, Intelligent Business Startegies, Munich, 2014

Page 14: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Duże zasoby danych i brak integracji

Integrująca infrastruktura zarządzania

danymi coraz bardziej potrzebna

– wielokrotne kopie danych

– niezintegrowane procesy

– różne interfejsy użytkownika

– mnogość i złożoność platform analitycznych

– duplikacja funkcjonalności

– integracja typu „spaghetti”

– różne „aplikacje” Big Data 14

Page 15: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Dane rozproszone=złożone zarządzanie

15

Where is all the

Customer Data?

Legacy,

packaged apps

Page 16: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

16

Źródło: http://www.intel.pl/content/www/pl/pl/it-managers/big-data-in-polish-companies.html Raport Capgemini “Big & Fast

Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło w nim udział 576

CIO z firm zatrudniających min. 100 pracowników: 175 z Czech, 150 z Węgier, 150 z Polski i 101 ze Słowacji.

Page 17: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

17źródło: opracowanie własne na podstawie

Information Week 2015 Analytics & BI Survey

Page 18: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

18

Page 19: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Bańka filtrująca (ang. filter bubble) – sytuacja powstała w

wyniku działania określonego algorytmu, gdzie osoba

korzystająca z sieci otrzymała informacje

wyselekcjonowane, które dobrane zostały na podstawie

informacji dostępnych na temat użytkownika, np. lokalizacja

lub historia wyszukiwania[1]. Powoduje to, że użytkownik

zamknięty jest w samonapędzającym się cyklu opinii, a

szukający nie zostaje nigdy skierowany na odmienne tematy

lub punkty widzenia[2].

19

[1] Jak jesteśmy profilowani w sieci? | Cyfrowa Wyprawka. cyfrowa-wyprawka.org.

[dostęp 2016-05-02]. [zarchiwizowane z tego adresu (5 marca 2016)].

[2] Yuan Cao Zhang, Diarmuid Ó Séaghdha, Daniele Quercia, Tamas Jambor. Auralist: Introducing Serendipity into Music Recommendation. „ACM WSDM”, luty 2012 (ang.).

Page 20: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

20Źródło: https://www.ted.com/talks/eli_pariser_beware_online_filter_bubbles

Page 21: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Profilowanie użytkowników,

marketing spersonalizowany

• The typical Internet user is served 1,707

banner ads per month. (Comscore)

• 25-34-year olds see 2,094 banner ads per

month. (ComScore)

• „Target case”

21

Page 22: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

22źródło:https://www.brainpickings.org/2011/05/12/the-filter-bubble/

Page 23: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Korelacja zjawisk

• współwystępowanie określonych zjawisk

• 2009 – badanie zbieżności zachorowań na raka z

używaniem telefonów komórkowych

– Dane operatorów + rejestr osób chorujących na raka + rejestr

zawierający dane dot. wykształcenia i dochodów)

• praca nad oprogramowaniem medycznym dla

wcześniaków – IBM + Uniwersytet w Ontario dr Carolin

McGregor

– różne strumienie danych (1260 przesłanych informacji/sekundę,

w wielu szpitalach – ogromne ilości danych)

– wykrywa zmiany na 24 h przed infekcją; niezmieniające się

parametry, idealnie stabilne dziecko>> wskazują na poważną

infekcję

23

Page 24: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

24

r=0,957

źródło: http://tylervigen.com/spurious-correlations

Page 25: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

25źródło: http://tylervigen.com/spurious-correlations

r=0,666

Page 26: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Geolokalizacja

26

Źródło: yanosik.pl,

Google Maps, iMPK

Page 27: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

27źródło: Targeo, Google Maps

Page 28: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Traffic index

28źródło: https://www.tomtom.com/en_gb/trafficindex/

Page 29: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

TI Wrocław

29źródło: https://www.tomtom.com/en_gb/trafficindex/

Page 30: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Google Transparency Report

30źródło: https://transparencyreport.google.com/

Page 31: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Ile osób wie, że tu jesteśmy?

• Oznaczenie lokalizacji, deklaracja udziału

w wydarzeniu

• Poszukiwanie trasy dojazdu, GPS

• Używanie karty

• Tweety, wysyłanie zdjęć

• Komórka (niekoniecznie smartphone)

logująca się do stacji przekaźnikowych w

sieci GSM

31

Page 32: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Analiza predyktywna

32The journey to predict the future: Dr Kira Radinsky at TEDxHiriya

https://www.youtube.com/watch?v=gAifa_CVGCY

Page 33: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Blue Crash

• Powstrzymywanie przestępstw zanim jeszcze zostaną

dokonane

• Specjalnie stworzony algorytm analizuje zapisy z kamer,

dane różnych służb oraz dane historyczne, aby móc

wysłać patrol w dobre miejsce i o dobrej porze.

• Rezultat: od 2006 do 2010 roku zmniejszono w Memphis

przestępstwa z użyciem przemocy o 26%, a liczba

włamań malała pięciokrotnie szybciej niż średnia w kraju.

33

Page 34: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Trendsmap / Hashtagify

• Bardzo mocno związane z aktualnymi

wydarzeniami

• Jedno/wiele źródeł

• Trendy / Rankingi popularności

• Narzędzia do planowania

działań/sterowania?

• How To Find Great Hashtags To Market

Your Business?

34

Page 35: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Współczesne kluczowe narzędzia biznesowe?

35

Page 36: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

36

źródło: Trendsmap, 19.04.2016, godz. 11:24 ;)

Page 37: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

37

źródło: Trendsmap, 19.04.2016, godz. 11:24 ;)

Page 38: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

38

źródło: opracowanie własne na podstawie Google Trends, 19.04.2016

Page 39: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

39

źródło: opracowanie własne na podstawie Google Trends, 19.04.2016

Page 40: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Zastosowanie regresji logistycznej w ocenie

jakości informacji na przykładzie Wikipedii

40

• Ocena zmiennych opisujących jakość artykułów w

Wikipedii w wersji angielskiej

• 5 miejsce w rankingu najczęściej odwiedzanych www*

• Istnieje wiele zmiennych opisujących daną publikację,

oprócz tego w różnych wersjach językowych inne

wyróżnienia publikacji / systemy klasyfikacji (ang – FA,

GA; pol – artykuł na medal)

• Problem automatycznej oceny dużej liczby artykułów

• Cel badań: ocena jakości artykułu (czy jest dobry) przy

dużej liczbie zmiennych niezależnych

*źródło: www.alexa.com/siteinfo/wikipedia.org

Page 41: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

41

Wybór parametrów

opisujących jakość

artykułów Wikipedii w

wersji angielskiej

Wyznaczenie

wskaźnika

wartości

informacyjnej IV

dla każdego

parametru

Interpretacja

otrzymanych

wyników wskaźnika

wartości

informacyjnej IV dla

każdego parametru

Porównanie

wpływu

parametrów

na

kompletność

artykułów

Page 42: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

• Parametry

– referencje – liczba wszystkich referencji, które używane są w treści artykułu;

– odsłony – liczba odsłon danego artykułu za ostatnie 90 dni od momentu

ekstrakcji danych;

– liczba_obserwujących – liczba użytkowników Wikipedii, którzy są bezzwłocznie

informowani o wszelkich zmianach wprowadzonych do danego artykułu;

– obrazki – liczba obrazków, umieszczonych w artykule;

– liczba_edycji – liczba edycji artykułu od momentu powstania;

– pochodną złożoną referencje/liczba_liter – stosunek wszystkich referencji, które

używane są w treści artykułu do zmiennej liczba_liter, a więc liczby znaków,

która jest używana w kodzie źródłowym;

• Zmienna objaśniana binarna:

– 1 – „kompletne” artykuły: klasy FA i GA,

– 0 – „niekompletne” artykuły: wszystkie inne - rozwijające się (które

należy dopracować) oraz nieocenione artykuły.

• Przeanalizowano blisko 20000 artykułów (zbiór uczący

zróżnicowany, testujący zbior blisko 3 razy wiekszy) 42

Zastosowanie regresji logistycznej w ocenie

jakości informacji na przykładzie Wikipedii

Page 43: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

• Źródło danych: Wikipedia posiada serwis API,

który zapewnia wygodny dostęp do danych i

metadanych do artykułów za pomocą protokołu

HTTP, za pośrednictwem adresu URL

• Serwis ten działa dla każdej wersji językowej i

dostępny jest pod adresem określonym wg

szablonu:

https://{język}.wikipedia.org/w/api.php?action={u

stawienia}, gdzie {język} oznacza skrót wersji

językowej, {ustawienia} - ustawienia zapytania

43

Page 44: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

• bi – to liczba artykułów oceniona jako niekompletne (złe) biorąc pod

uwagę konkretną wartość lub przedział wartości zmiennej

objaśniającej Xi w stosunku do łącznej liczby niekompletnych

artykułów w zbiorze całkowitym X (np. ile razy artykuły zawierające

określoną liczbę (lub przedział) obrazków (zmienna obrazki) zostały

ocenione jako niekompletne w stosunku do łącznej liczby

niekompletnych artykułów)

• gi – to liczba artykułów oceniona jako kompletne (dobre) biorąc pod

uwagę konkretną wartość lub przedział wartości zmiennej

objaśniającej Xi w stosunku do łącznej liczby kompletnych

artykułów w zbiorze całkowitym X

44

Page 45: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Z reguły dąży się do tego, by brać pod

uwagę zmienne o wysokim współczynniku

informacyjnym, zaznaczając jednocześnie,

aby ten współczynnik nie był zbyt wysoki, bo

takie zmienne mogą zdominować model, co

wiąże się z ryzykiem osłabienia stabilności

modelu oraz pogorszenia jego precyzji

45

Page 46: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

46

Wartość

Information

Value

Charakter zmiennej niezależnej, moc predykcyjna

< 0.02 Bezużyteczny predyktor

0.02 - 0.1 Słaby predyktor

0.1 - 0.3 Średni predyktor

0.3 - 0.5 Mocny predyktor

>0.5 Czasem traktowany jako nadal mocny predyktor, albo

podejrzany – “zbyt dobry”, aby mógł być wiarygodny,

zmienna o cechach dominujących w modelu

źródło: opracowanie własne na podstawie Finlay (2010), Mays and Lynas (2011),

Siddiqi (2006)

Page 47: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

47

zmienna IV - Wartość informacyjna

obrazki 2,33

referencje 2,95

liczba_edycji 0,68

liczba_obserwujących 0,28

odsłony 0,05

referencje/liczba_liter 1,69

• Okazuje się, że dwie zmienne – referencje oraz obrazki, a także zmienna

złożona (bazująca także na referencjach) są zaskakująco „dobre”, innymi

słowy ich „moc” predykcyjna jest bardzo wysoka – może to budzić

podejrzenia

• Stosunkowo mniejsze „podejrzenia” tej samej natury mogą pojawić się w

stosunku do zmiennej liczba_edycji

• Zmienną liczba_obserwujących możemy zaliczyć do średnich, a odsłony do

słabych predyktorów, jeśli chodzi o wpływ na jakość artykułu w Wikipedii.

Page 48: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

• Wykorzystanie regresji logistycznej w ocenie jakości danych może

mieć szczególne znaczenie w dobie big data, gdzie mamy do

czynienia z wieloma zmiennymi opisującymi dane zjawiska lub

zachowania (wektor zmiennych objaśniających na wejściu), które

mają wpływ na podejmowanie decyzji

• Obliczenie rzeczywistej wartości informacji pozwala na

wyeliminowanie tych zmiennych, które niewiele „wnoszą” do

opisywanego zjawiska. Dzięki temu możliwa jest redukcja szumu

informacyjnego

• Wysoka jakość zmiennych sprzyja także budowaniu modeli

prognostycznych

• Dalsze obliczenia przy użyciu narzędzi IT z uwzględnieniem

wszystkich zmiennych objaśniających

48

Page 49: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Podsumowanie - przewidywania

• Według Gartnera w 2020 r. informacje gromadzone

dzięki analizie danych doprowadzą do przekształcenia,

dalszej digitalizacji lub eliminacji 80% procesów

biznesowych lub produktów

• Rozwój brokeringu danych

• Analiza danych zorientowana na klienta

• IoT największym globalnym rynkiem urządzeń – w

2019 r. warty 1,5 bln USD

• Tworzenie nowych markerów behawioralnych,

podejście proaktywne

• Ewolucja modeli biznesowych i praktyk zarządzania

49

Page 50: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

To, co unikalne…

Rzeczywisty obraz

– nie ma podstawie przypuszczeń/deklaracji/wiedzy

ekspertów,

– nie na podstawie próbki danych,

– nie na podstawie eksperymentu,

– dostęp do danych szczegółowych (real-time data)

– wiemy dla kogo tworzymy produkt/usługę

(personalizacja, dywersyfikacja), szybka identyfikacja

grup zainteresowanych, dla których ważny jest

określony content (rekomendacja)

50

Page 51: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Planowane badania / działania organizacyjne

• Opracowanie modeli biznesowych w oparciu o

dane przetwarzane w czasie rzeczywistym/

Monitorowanie i ewaluacja efektywności

• Koło naukowe/grupa dyskusyjna związane z

przetwarzaniem strumieni danych w

przedsiębiorstwach i podejmowaniem decyzji na

tej podstawie (Współczesna analiza biznesowa -

środowisko akademickie +biznesowe) – wymiana

doświadczeń, tutoriale, dostęp do narzędzi (trial)

51

Page 52: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Rynek pracy

52

źródło: opracowanie własne na podstawie indeed.com

Page 53: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

53

źródło: opracowanie własne na podstawie indeed.com

Page 54: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

• Koncepcja Big Data – definicje i charakterystyka. Model 5V i rozwinięcia.

• Zastosowania Big Data w różnych obszarach życia społecznego – analiza

case study.

• Wprowadzenie do eksploracji danych w Big Data. Wyzwania technologiczne

(algorytmy, metody). Wyzwania analityczne (jakość danych, preprocessing

danych).

• Wprowadzenie do Machine Learning.

• Tekst jako dane. Budowa korpusu. Descriptive Analysis

• Text Mining. Wprowadzenie do Natural Language Processing

• Visual Analysis (Tableau)

• Geospatial Analysis

• Social Media Analysis. Social Network Analysis. Clustering

• Web Analytics.

• Sentiment Analysis. Opinion Mining.

• Big Data needs Thick Data”. Netnography, Ethno-Mining. Profilowanie

• Big data: problemy, wyzwania, konsekwencje.

• Zalety i ograniczenia Big Data. Big Data a ekonomia, socjologia i prawo. 54

Page 55: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

55

Page 56: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

56

Page 57: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

57

Page 58: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Tableau

58

https://www.youtube.com/watch?v=hVimVzgtD6w

Page 59: Instytut Informatyki - Projects topics proposalsanna.lamek/ZAJECIA/NIWPD/Big...Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło

Dziękuję za uwagę

59