digitaaliset aineistot ja menetelmät kulttuuritieteissä
Post on 18-Jul-2015
169 views
Embed Size (px)
TRANSCRIPT
Digitaaliset aineistot ja menetelmt
kulttuuritieteiss
Kulttuuritieteiden aineistot ja menetelmt
It-Suomen yliopisto
9.10.2014
Juhana Venlinen
juhana.venalainen@uef.fi
Luennon sislt
1. Digitaaliset aineistot mit, miksi, miten?
2. Aineistonkeruun tekniikoita
3. Analyysi, arkistointi ja raportointi
4. Eettisi kysymyksi
9.10.2014 Digitaaliset aineistot ja menetelmt / Juhana Venlinen 2
Digitaaliset aineistot mit, miksi, miten?
B
inary
Fil
e. W
ikim
edia
Co
mm
on
s /
en:U
ser:
Pau
lnas
ca (
pd
)
9.10.2014 Digitaaliset aineistot ja menetelmt / Juhana Venlinen 4
V
iscual N
ews 2012 (h
ttp://w
ww
.visu
alnew
s.com
/2012/06/19/ho
w-m
uch
-data-created
-every
-min
ute/?v
iew=
info
grap
hic)
Miksi nettiaineistoja?
Paljon dataa eri aiheista
(Yleens) (melko) helposti saatavilla
Valmiiksi digitaalisia helpompi ksitell
Muodostavat ajalle ominaisen uuden julkisen tilan ja kuvaavat elmnmuotoa (ainakin Z-sukupolven / diginatiivien osalta)
9.10.2014 Digitaaliset aineistot ja menetelmt / Juhana Venlinen 5
Nettipalveluiden kytt Suomessa
16-89-vuotiaista 85 % kytt nettipalveluita (Tilastokeskus 2013)
75-89-vuotiaista 27 %
Suosituimmat verkkopalvelut: Google, FB, YouTube, Iltalehti, Wikipedia, Iltasanomat, Yle (Alexa 2014)
97 % netin kyttjist seuraa verkkolehti (ComScore 2013)
N. 2,5 miljoonaa Facebook-kyttj (Statista/Facebook 2014)
> 240 000 Twitter-kyttj? (SuomiTwitter 2014)
Finnish Twitter Census 2013: 63 000 kyttj
kasvaa, muttei viel(kn) lpimurtoa
9.10.2014 Digitaaliset aineistot ja menetelmt / Juhana Venlinen 6
Facebookin valta-asema
Facebook on suosituin sosiaalinen media lhes kaikkialla maailmassa (ComScore 2011)
Poikkeukset:
Venj: vkontakte (vrt. Facebook)
Kiina: Sina Weibo (vrt. Twitter)
Japani: Twitter (?, tieto 2012)
FB kielletty/sensuroitu: Pohjois-Korea, Iran, Kiina
lyhyit kieltoja: Bangladesh, Egypti, Syyria, Pakistan, Vietnam
Some erottajana ja yhdistjn (digital divide vs. tiedon globalisaatio)
9.10.2014 Digitaaliset aineistot ja menetelmt / Juhana Venlinen 7
Big data
Big data
Aineistot, joiden kerminen on joukkoistettu ja/tai automatisoitu
Vaativat suurta tallennuskapasiteettia
Tyypillist jatkuva kasvu ja rakenteettomuus
Tiedon louhinta (data mining): yleisnimitys menetelmille, joilla analysoidaan suuria aineistoja
Ksittelymenetelmt pit usein rtlid tapauskohtaisesti
Kyttkohteita esimerkiksi:
Tautien levimisen ennustaminen Google-hauista
Meemien leviminen Twitteriss
Sosiaalisten verkostojen rakenne Facebook-kaveruuksien mukaan
9.10.2014 Digitaaliset aineistot ja menetelmt / Juhana Venlinen 8
Avoin data
Esimerkiksi valtion virastojen mutta mys yksityisten yritysten kokoama tai tuottama tieto
Julkaistu digitaalisessa muodossa kaikkien saataville
Jakelumuotona esimerkiksi valmiiksi paketoitu tiedosto (esim. verotiedot) tai ohjelmointirajapinta (API; esim. VR:n junien kulkutiedot)
Viranomaisten osalta avoin tieto on luonteva osa julkisuusperiaatetta: toiminnan on oltava avointa ja ihmisill on oikeus saada siit tietoja
Avoimen tiedon liike (open knowledge movement) pyrkii edistmn julkisen tiedon saatavuutta
Esim. http://tietopyynto.fi
Edellkvijit Suomessa mm. Yle ja HS
9.10.2014 Digitaaliset aineistot ja menetelmt / Juhana Venlinen 9
Digitaalisen tiedon kyttn liittyvi kysymyksi
Mik on tutkimuskysymys?
Millaista (digitaalista) tietoa siihen liittyen on saatavilla?
Mihin tietoa halutaan kytt tutkimuksessa?
Miten sit voi kert?
Miten sit voi analysoida?
Miten se pitisi arkistoida?
Miten tietoon viitataan tutkimustekstiss?
Minklaisia eettisi tai juridisia rajoituksia tiedon kermiseen liittyy?
Onko digitaalinen kulttuurintutkijalle kiinnostavaa?
Big datassa painopiste on sanamukaisesti aineiston mrss ja sit varten kehitetyt analyysimenetelmtkin ovat usein mrllisi
Kulttuurintutkimuksessa perinteisesti kiinnostus ollut laadullisissa menetelmiss, yksityiskohdissa, yksittisiin tapauksiin syvllisesti perehtymisess, hienosyisiss eroissa, konteksteissa, merkityksenannoissa jne.
Nettiaineistot ovat kulttuurintutkimukselle viel paljolti tutkimaton mahdollisuus!
Data yksinn ei ole tietoa tieto on tulkittua dataa
Tulkintaan tarvitaan tutkijan luomia jsennyksi (ksitteit, kategorioita, kuvauksia, tulkintoja)
Tss mieless digitaalinen aineisto on aineistoa siin miss muutkin tekstit ja havaintoaineistot
9.10.2014 Digitaaliset aineistot ja menetelmt / Juhana Venlinen 11
Digitaalisen tiedon kytttapoja kulttuurintutkimuksessa
Primriaineisto
Halutaan tiet, miten ilmi X representoidaan internetiss
Halutaan tiet ilmist X, ja todetaan nettiaineisto parhaaksi tietolhteeksi
Sekundriaineisto
Kytetn ensisijaisena aineistona esim. haastatteluja, mutta taustoitetaan samalla ilmin ymprill olevaa keskustelua nettiaineistojen kautta
Tutkijan esiymmrrykseen liittyv aineisto
Aineisto, jonka kautta tutkija tutustuu tutkimuskohteeseensa, mutta johon ei viitata varsinaisessa tutkimustekstiss
9.10.2014 Digitaaliset aineistot ja menetelmt / Juhana Venlinen 12
Haasteita / ongelmia
Liikaa tietoa
Liian nopeasti muuttuva tutkimuskohde
Puutteelliset tai epyhdenmukaiset arkistointikytnnt
9.10.2014 Digitaaliset aineistot ja menetelmt / Juhana Venlinen 13
Aineistonkeruun tekniikoita
Joel
Mea
do
ws:
M
an
wit
h a
met
al
det
ecto
r (
cc-n
c-sa
)
Menetelmi ja lhteit
Sosiaalisen median keskustelujen seuraaminen
Yksittisten verkkosivujen haku
Ilmin suosion seuraaminen
Verkkohistoria
Sivujen pivittymisen seuraaminen
Tietojen haravoiminen/raapiminen (crawling, scraping)
9.10.2014 Digitaaliset aineistot ja menetelmt / Juhana Venlinen 15
Sosiaalisen median keskustelujen seuraaminen
Mahdollisuudet:
Sosiaalisessa mediassa ihmiset tuottavat valtavia mri tietoja itsestn, toisistaan, sosiaalisista suhteistaan, yhteiskunnallisista nkemyksistn jne.
Tieto on monissa tapauksissa (esim. Twitter) tysin avointa ja helposti saatavilla
Ongelmat:
Miss mrin tieto vastaa tutkimusongelmaan?
Mit tietoa pitisi tai ei pitisi kytt?
Tiedon kerminen: arkisto- ja hakumahdollisuudet ovat usein puutteelliset
9.10.2014 Digitaaliset aineistot ja menetelmt / Juhana Venlinen 16
Somen seurantaa
Tagboard (http://tagboard.com)
Hashtagien seurantapalvelu
Kokoaa sisllt Facebookista, Twitterist, Instagramista, Google+:sta, Vimeosta ym.
Yhden hashtagin seuranta ilmaista
Topsy (http://topsy.com)
Twitter-hakukone
Tydellinen Twitter-arkisto v. 2006 lhtien
Mys tilastoja (twiittimrt / aika)
Facebook-sivujen/-ryhmien arkistointi ongelmana
9.10.2014 Digitaaliset aineistot ja menetelmt / Juhana Venlinen 17
Verkkosivujen haku
Googlen hakuoperaattorit ja hakutykalut
lang:
filetype:
site:
aikarajoitettu haku
Googlen rajoitteet tutkimuksen kannalta
Hakukupla (filter bubble): hakutulokset riippuvat hakijasta
Oikeus tulla unohdetuksi (right to be forgotten): yksityishenkilill on oikeus vaatia itsen koskevia hakutuloksia poistettavaksi
9.10.2014 Digitaaliset aineistot ja menetelmt / Juhana Venlinen 18
Ilmin suosion seuraaminen
Kytttarkoituksia: Halutaan tiet, milloin ilmi on syntynyt, miten sen suosio on kehittynyt ja mitk ovat sen huippu- ja pohjahetket.
Google Trends (http://www.google.com/trends/)
Topsy, SuomiTwitter (www.toninummela.com/suomi-twitter/)
Alexa (http://www.alexa.com): sivustojen kvijmrien seuranta
DuckDuckGo (https://duckduckgo.com): hakukone ilman hakukuplaa
9.10.2014 Digitaaliset aineistot ja menetelmt / Juhana Venlinen 19
Verkkohistoria
Kytttarkoitus: vanhojen digitaalisten aineistojen hankinta
Wayback Machine (http://archive.org/web/): web-sivujen arkisto, useita eri aikojen versioita samoista sivuista
Kansallisarkiston verkkoarkisto: suomalaiset sivusto v. 2006 alkaen; kytettviss kirjaston kulttuurityasemalla
9.10.2014 Digitaaliset aineistot ja menetelmt / Juhana Venlinen 20
Sivujen pivittymisen seuraaminen
Kytttarkoitus:
Sosiaalisen median ulkopuolella olevan yksittisen sivun muutosten seuraaminen
Alkuperisyyden varmistaminen
Kokonaan uusien ainestojen havaitseminen
RSS-feedit (blogien pivitysilmoitukset)
ChangeDetection.com: lhett shkpostilla ilmoituksen, kun sivu muuttuu
Google Alerts: lhett shkpostilla ilmoituksen, kun hakutulokset muuttuvat
9.10.2014 Digitaaliset aineistot ja menetelmt / Juhana Venlinen 21
Web Scraping
Kytttarkoitukset:
Strukturoidun datan kerminen valikoivasti (esim. osoiteluettelossa olevat nimet)
Useilla eri sivuilla olevien tietojen yhdisteleminen
Google Chrome: Scraper-laajennus (http://mnmldave.github.io/scrap