digitaaliset aineistot ja menetelmät kulttuuritieteissä
TRANSCRIPT
Digitaaliset aineistot ja menetelmät
kulttuuritieteissä
Kulttuuritieteiden aineistot ja menetelmät
Itä-Suomen yliopisto
9.10.2014
Juhana Venäläinen
Luennon sisältö
•1. Digitaaliset aineistot – mitä, miksi, miten?
•2. Aineistonkeruun tekniikoita
•3. Analyysi, arkistointi ja raportointi
•4. Eettisiä kysymyksiä
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 2
Digitaaliset aineistot – mitä, miksi, miten?
“Bin
ary
Fil
e”. W
ikim
edia
Co
mm
on
s /
en:U
ser:
Pau
lnas
ca (
pd
)
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 4
© V
iscual N
ews 2012 (h
ttp://w
ww
.visu
alnew
s.com
/2012/06/19/ho
w-m
uch
-data-created
-every
-min
ute/?v
iew=
info
grap
hic)
Miksi nettiaineistoja?
•Paljon dataa eri aiheista
• (Yleensä) (melko) helposti saatavilla
•Valmiiksi digitaalisia helpompi käsitellä
•Muodostavat ajalle ominaisen uuden julkisen tilan ja kuvaavat elämänmuotoa (ainakin Z-sukupolven / diginatiivien osalta)
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 5
Nettipalveluiden käyttö Suomessa
•16-89-vuotiaista 85 % käyttää nettipalveluita (Tilastokeskus 2013)
– 75-89-vuotiaista 27 %
•Suosituimmat verkkopalvelut: Google, FB, YouTube, Iltalehti, Wikipedia, Iltasanomat, Yle (Alexa 2014)
•97 % netin käyttäjistä seuraa verkkolehtiä (ComScore 2013)
•N. 2,5 miljoonaa Facebook-käyttäjää (Statista/Facebook 2014)
•> 240 000 Twitter-käyttäjää? (SuomiTwitter 2014)
Finnish Twitter Census 2013: 63 000 käyttäjää
kasvaa, muttei vielä(kään) läpimurtoa
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 6
Facebookin valta-asema
• Facebook on suosituin sosiaalinen media lähes kaikkialla maailmassa (ComScore 2011)
• Poikkeukset:
– Venäjä: vkontakte (vrt. Facebook)
– Kiina: Sina Weibo (vrt. Twitter)
– Japani: Twitter (?, tieto 2012)
• FB kielletty/sensuroitu: Pohjois-Korea, Iran, Kiina
– lyhyitä kieltoja: Bangladesh, Egypti, Syyria, Pakistan, Vietnam
• Some erottajana ja yhdistäjänä (digital divide vs. tiedon globalisaatio)
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 7
Big data
• Big data
– Aineistot, joiden kerääminen on joukkoistettu ja/tai automatisoitu
– Vaativat suurta tallennuskapasiteettia
– Tyypillistä jatkuva kasvu ja rakenteettomuus
• Tiedon louhinta (data mining): yleisnimitys menetelmille, joilla analysoidaan suuria aineistoja
– Käsittelymenetelmät pitää usein räätälöidä tapauskohtaisesti
• Käyttökohteita esimerkiksi:
– Tautien leviämisen ennustaminen Google-hauista
– Meemien leviäminen Twitterissä
– Sosiaalisten verkostojen rakenne Facebook-kaveruuksien mukaan
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 8
Avoin data
• Esimerkiksi valtion virastojen mutta myös yksityisten yritysten kokoama tai tuottama tieto
• Julkaistu digitaalisessa muodossa kaikkien saataville
• Jakelumuotona esimerkiksi valmiiksi paketoitu tiedosto (esim. verotiedot) tai ohjelmointirajapinta (API; esim. VR:n junien kulkutiedot)
• Viranomaisten osalta avoin tieto on luonteva osa julkisuusperiaatetta: toiminnan on oltava avointa ja ihmisillä on oikeus saada siitä tietoja
• Avoimen tiedon liike (open knowledge movement) pyrkii edistämään julkisen tiedon saatavuutta
– Esim. http://tietopyynto.fi
• Edelläkävijöitä Suomessa mm. Yle ja HS
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 9
Digitaalisen tiedon käyttöön liittyviä kysymyksiä
•Mikä on tutkimuskysymys?
•Millaista (digitaalista) tietoa siihen liittyen on saatavilla?
•Mihin tietoa halutaan käyttää tutkimuksessa?
•Miten sitä voi kerätä?
•Miten sitä voi analysoida?
•Miten se pitäisi arkistoida?
•Miten tietoon viitataan tutkimustekstissä?
•Minkälaisia eettisiä tai juridisia rajoituksia tiedon keräämiseen liittyy?
Onko digitaalinen kulttuurintutkijalle kiinnostavaa?
• Big datassa painopiste on sanamukaisesti aineiston määrässä ja sitä varten kehitetyt analyysimenetelmätkin ovat usein määrällisiä
• Kulttuurintutkimuksessa perinteisesti kiinnostus ollut laadullisissa menetelmissä, yksityiskohdissa, yksittäisiin tapauksiin syvällisesti perehtymisessä, hienosyisissä eroissa, konteksteissa, merkityksenannoissa jne.
• Nettiaineistot ovat kulttuurintutkimukselle vielä paljolti tutkimaton mahdollisuus!
– Data yksinään ei ole tietoa – tieto on tulkittua dataa
– Tulkintaan tarvitaan tutkijan luomia jäsennyksiä (käsitteitä, kategorioita, kuvauksia, tulkintoja)
– Tässä mielessä digitaalinen aineisto on aineistoa siinä missä muutkin tekstit ja havaintoaineistot
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 11
Digitaalisen tiedon käyttötapoja kulttuurintutkimuksessa
• Primääriaineisto
– Halutaan tietää, miten ilmiö X representoidaan internetissä
– Halutaan tietää ilmiöstä X, ja todetaan nettiaineisto parhaaksi tietolähteeksi
• Sekundääriaineisto
– Käytetään ensisijaisena aineistona esim. haastatteluja, mutta taustoitetaan samalla ilmiön ympärillä olevaa keskustelua nettiaineistojen kautta
• Tutkijan esiymmärrykseen liittyvä aineisto
– Aineisto, jonka kautta tutkija tutustuu tutkimuskohteeseensa, mutta johon ei viitata varsinaisessa tutkimustekstissä
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 12
Haasteita / ongelmia
•Liikaa tietoa
•Liian nopeasti muuttuva tutkimuskohde
•Puutteelliset tai epäyhdenmukaiset arkistointikäytännöt
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 13
Aineistonkeruun tekniikoita
Joel
Mea
do
ws:
“M
an w
ith
a m
etal
det
ecto
r” (
cc-n
c-sa
)
Menetelmiä ja lähteitä
•Sosiaalisen median keskustelujen seuraaminen
•Yksittäisten verkkosivujen haku
• Ilmiön suosion seuraaminen
•Verkkohistoria
•Sivujen päivittymisen seuraaminen
•Tietojen haravoiminen/”raapiminen” (crawling, scraping)
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 15
Sosiaalisen median keskustelujen seuraaminen
•Mahdollisuudet:
– Sosiaalisessa mediassa ihmiset tuottavat valtavia määriä tietoja itsestään, toisistaan, sosiaalisista suhteistaan, yhteiskunnallisista näkemyksistään jne.
– Tieto on monissa tapauksissa (esim. Twitter) täysin avointa ja helposti saatavilla
•Ongelmat:
– Missä määrin tieto vastaa tutkimusongelmaan?
– Mitä tietoa pitäisi tai ei pitäisi käyttää?
– Tiedon kerääminen: arkisto- ja hakumahdollisuudet ovat usein puutteelliset
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 16
Somen seurantaa
• Tagboard (http://tagboard.com)
– Hashtagien seurantapalvelu
– Kokoaa sisällöt Facebookista, Twitteristä, Instagramista, Google+:sta, Vimeosta ym.
– Yhden hashtagin seuranta ilmaista
• Topsy (http://topsy.com)
– Twitter-”hakukone”
– Täydellinen Twitter-arkisto v. 2006 lähtien
– Myös tilastoja (twiittimäärät / aika)
• Facebook-sivujen/-ryhmien arkistointi ongelmana
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 17
Verkkosivujen haku
•Googlen hakuoperaattorit ja hakutyökalut
– lang:
– filetype:
– site:
– aikarajoitettu haku
•Googlen rajoitteet tutkimuksen kannalta
– “Hakukupla” (filter bubble): hakutulokset riippuvat hakijasta
– Oikeus tulla unohdetuksi (right to be forgotten): yksityishenkilöillä on oikeus vaatia itseään koskevia hakutuloksia poistettavaksi
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 18
Ilmiön suosion seuraaminen
• Käyttötarkoituksia: Halutaan tietää, milloin ilmiö on syntynyt, miten sen suosio on kehittynyt ja mitkä ovat sen huippu- ja pohjahetket.
• Google Trends (http://www.google.com/trends/)
• Topsy, SuomiTwitter (www.toninummela.com/suomi-twitter/)
• Alexa (http://www.alexa.com): sivustojen kävijämäärien seuranta
• DuckDuckGo (https://duckduckgo.com): hakukone ilman hakukuplaa
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 19
Verkkohistoria
•Käyttötarkoitus: vanhojen digitaalisten aineistojen hankinta
•Wayback Machine (http://archive.org/web/): web-sivujen arkisto, useita eri aikojen versioita samoista sivuista
•Kansallisarkiston verkkoarkisto: suomalaiset sivusto v. 2006 alkaen; käytettävissä kirjaston kulttuurityöasemalla
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 20
Sivujen päivittymisen seuraaminen
•Käyttötarkoitus:
– Sosiaalisen median ulkopuolella olevan yksittäisen sivun muutosten seuraaminen
– Alkuperäisyyden varmistaminen
– Kokonaan uusien ainestojen havaitseminen
•RSS-feedit (blogien päivitysilmoitukset)
•ChangeDetection.com: lähettää sähköpostilla ilmoituksen, kun sivu muuttuu
•Google Alerts: lähettää sähköpostilla ilmoituksen, kun hakutulokset muuttuvat
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 21
Web Scraping
• Käyttötarkoitukset:
– Strukturoidun datan kerääminen valikoivasti (esim. osoiteluettelossa olevat nimet)
– Useilla eri sivuilla olevien tietojen yhdisteleminen
• Google Chrome: Scraper-laajennus (http://mnmldave.github.io/scraper/)
• import.io
• Monia maksullisia palveluita
• Haravoiminen vaatii joskus (muttei aina) ohjelmoinnin perusteiden tuntemista netistä tosin löytyy oppaita. Ks. myös www.datajournalismi.fi.
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 22
Työkalujen arviointia
•Maksullinen / ei?
•Mitä aineistoja sisältyy?
•Mikä aikajänne sisältyy? (nykyhetki / lähihistoria / koko historia)
•Analyysivälineet sisällytetty / ei?
•Tietojen vienti (export) / ei?
•Mihin tarkoitukseen tehty: praktinen (markkinointi) / tutkimuksellinen?
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 23
Analyysi, arkistointi ja raportointi
Ala
stai
r C
reel
man
: “D
row
nin
g i
n F
reed
om
” (c
c-b
y-n
c)
Analyysissa huomioitavaa
• Aineiston konteksti
– Kuinka tärkeä kyseinen aineisto on koko keskustelun kannalta?
– Minkälaisia ihmisiä keskusteluun on valikoitunut?
– Mistä keskustelu on lähtenyt liikkeelle?
– Onko keskustelu anonyymia vai ei? Mitä merkitystä sillä on?
• Aineiston rajaus: kuinka paljon on mahdollista ja tarpeen kerätä ja analysoida?
• Triangulaatio eli verkkoaineiston suhde muuhun kohteesta saatavilla olevaan ja tutkimuksessa käytettävään tietoon
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 25
(Hakala & Vesa 2013)
Arkistointi
• Helpoimmasta kattavimpaan:
– Selaimen kirjanmerkit: helppo mutta puutteellinen!
– Tuloste, pdf-kopio tai kuvankaappaus: arkistokelpoinen “todiste”, ei katoa
– Arkistointiin tarkoitetut selainten lisäosat, esim. ScrapBook: tallentaa myös sivulta lähtevät linkit
– Viitteidenhallintaohjelmat, esim. Zotero: viittaustiedot ja arkistokappale samassa paikassa
• Kuvien ym. osalta pyri tallentamaan myös lisenssi-/käyttöehdot
• Tärkeintä on saada talteen edes jonkinlainen pysyvä kopio (pics or it didn’t happen!)
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 26
Analyysivaihe
•Perinteisiä tekstiaineiston analyysitapoja:
– Erityiset analyysiohjelmat (esim. Atlas.TI)
– Word: analyysikategorioiden ja -muistiinpanojen merkitseminen esimerkiksi kommenttityökalulla tai eri väreillä
– Erillisen analyysitiedoston luominen, johon poimitaan leikkaa-liimaa-tyyppisesti tärkeät sitaatit
– Vanhanaikainen metodi: tulostettu aineisto + merkkauskynät
•Automatisoituja analyysimenetelmiä:
– Frekvenssianalyysit (esim. http://textalyser.net)
– Muut määrälliset analyysit (esim. http://www.ibm.com/manyeyes/)
– Verkostoanalyysi (http://gephi.github.io/)
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 27
Esimerkkejä koneellisista analyyseista
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 28
Textalyser: ampparit.com (27.9.2014)
Sana Kpl Yleisyys Sijoitus
tässä 3 0.5% 1
katso 3 0.5% 1
ole 2 0.4% 2
tottenham 2 0.4% 2
manu 2 0.4% 2
löysi 2 0.4% 2
hallitus 2 0.4% 2
osui 2 0.4% 2
näkökulma 2 0.4% 2
kärppien 2 0.4% 2
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 29
ManyEyes: Suosituimmat sanat komedioiden nimissä (tägipilvi, tietolähteenä IMDB)
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 30
shngl / ManyEyes
Lähdeluettelo ja viitteet
• Pääperiaate sama kuin muissakin viitteissä
– Kerää mahdollisimmat täydelliset tiedot: kirjoittaja, päivämäärä (tai vuosi), julkaisija, URL
– Koska nettisivut voivat muuttua, lisää viitteeseen myös tieto siitä, milloin olet hakenut tiedon! (“Luettu” / “Tarkistettu” / “Noudettu”)
• Esimerkkejä kirjallisuusluetteloista:
– Chandler, Daniel (1995) Technological or Media Determinism. URL
http://www.aber.ac.uk/media/Documents/tecdet/tecdet.html
(tarkastettu: huhtikuu 2005). (Kulttuurintutkimus)
– Saaranen-Kauppinen, Anita & Anna Puusniekka. 2006. KvaliMOTV –
Menetelmäopetuksen tietovaranto. Tampere: Yhteiskuntatieteellinen
tietoarkisto. http://www.fsd.uta.fi/menetelmaopetus/ (Luettu
pp.kk.vvvv.) (Sosiologia)
• “How to cite social media in APA style”: http://blog.apastyle.org/apastyle/2013/10/how-to-cite-social-media-in-apa-style.html
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 31
Keskusteluihin viittaaminen
•Peruslähtökohtana puhujien anonymisointi
– Tarkoituksena tunnistettavuuden välttäminen
– Keskustelupalstojen nimimerkitkin voi olla taråeen anonymisoida – nimimerkki voi olla “oikea verkkohenkilö”
• Jos puhuja on viranhaltija, julkisuuden henkilö tms., oikean nimen käyttö voi olla mahdollista
•Samoin nimen käyttö on tietenkin mahdollista, jos puhuja sen sallii tai sitä vaatii
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 32
Eettisiä kysymyksiä
”Lib
ra t
he
Sca
les”
, teo
kse
sta
Gu
ido
Bo
nat
ti L
iber
Ast
ron
omia
e. W
ikim
edia
Co
mm
on
s (p
d)
Yleistä verkkotutkimuksen etiikasta
• Verkkotutkimuksen etiikka on pitkälti harmaata aluetta (Turtiainen & Östman 2009)
• Tutkimusetiikkaan silti suhtauduttava vakavasti: “nappaa netistä” -metodi ei riitä!
• Peruslähtökohtia:
– Tutkittaville ei saa aiheuttaa haittaa
– Tutkittavilla on pääsääntöisesti oikeus tietää olevansa tutkimuksen kohteina
– Tutkittavien anonymiteetista on huolehdittava etenkin arkaluonteisen tiedon osalta
– Tutkijan toiminnan on oltava avointa eikä se saa perustua huijauksiin (esim. tekaistu verkkoidentiteetti)
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 34
Eettisen punninnan nelikenttä (McKee & Porter 2008/2009)
Ei-arkaluonteinen
Yksityinen Julkinen
Arkaluonteinen
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 35
TUTKITTAVAN SUOSTUMUS
VÄLTTÄMÄTÖN
TUTKITTAVAN SUOSTUMUS
EI VÄLTTÄMÄTÖN
Esimerkkejä
Ei-arkaluonteinen
Yksityinen Julkinen
Arkaluonteinen
• Julkisesta Facebook-ryhmästä luettu tieto julkisuudessa tuntemattoman ihmisen metsästysharrastuksesta?
• Henkilön itse kotisivuillaan julkaisemasta ansioluettelosta otettu tieto suoritetuista tutkinnoista?
• YouTubessa jaettu 1990-luvulla tehty TV-haastattelu, jossa julkisuuden henkilö kertoo nuoruudessaan tekemästä rikoksesta?
• Kaupparekisteristä haettu tieto pienyrityksen (alle 5 hlö) viime vuoden liikevaihdosta?
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 36
Erityisiä ongelmia
•Palveluiden käyttöehdot
– Esim. Twitterin käyttöehdoissa ei puhuta mitään tietojen tutkimuskäytöstä
•“Oikeus tulla unohdetuksi” (right to be forgotten) – pitäisikö tutkijan kunnioittaa sitä?
• Jos aiheella on yhteiskunnallista merkittävyyttä, onko julkisten puheenvuorojen esittäjillä (esim. keskustelufoorumeilla) subjektiivinen oikeus “perääntyä” sanomastaan?
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 37
Juridisia rajoja
• PL 10 §: “Jokaisen yksityiselämä, kunnia ja kotirauha on turvattu. […] Kirjeen, puhelun ja muun luottamuksellisen viestin salaisuus on loukkaamaton.”
• RL 24:8: “Joka oikeudettomasti […] esittää toisen yksityiselämästä tiedon, vihjauksen tai kuvan siten, että teko on omiaan aiheuttamaan vahinkoa tai kärsimystä loukatulle taikka häneen kohdistuvaa halveksuntaa, on tuomittava yksityiselämää loukkaavasta tiedon levittämisestä sakkoon.”
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 38
Henkilötietojen käsittely
• Henkilötietolaki säätää henkilötietojen käsittelyn ehdoista
• Henkilötieto = “luonnollista henkilöä taikka hänen ominaisuuksiaan tai elinolosuhteitaan kuvaavia merkintöjä, jotka voidaan tunnistaa häntä tai hänen perhettään tai hänen kanssaan yhteisessä taloudessa eläviä koskeviksi”
• Henkilötietoja kerättäessä on laadittava rekisteriseloste
• Arkaluonteiset tietot (mm. etninen alkuperä, sairaus, vakaumus, seksuaalinen suuntautuminen) pitää poistaa rekisteristä, kun niitä ei enää tarvita (HenkilötietoL 12 §)
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 39
Lähteitä ja lisälukemistoa
• Hakala, Salli & Vesa, Juho (2013).”Verkkokeskustelut ja sisällön erittely”. Teoksessa Teoksessa Laaksonen, Salla-Maaria ym. (toim.): Otteita verkosta. Verkon ja sosiaalisen median tutkimusmenetelmät. Vastapaino, Tampere.
• Riikka Turtiainen & Sari Östman (2013): “Verkkotutkimuksen eettiset haasteet – Armi ja anoreksia.” Teoksessa .): Otteita verkosta.
• Heidi McKee & James E. Porter (2009): “Playing a Good Game: Ethical Issues in Researching MMOGs and Virtual Worlds.” International Journal of Internet Research Ethics 2:1, 5–37. <http://ijire.net/issue_2.1/mckee.pdf>
• AoIR (Association of Internet Researchers) Ethics Guide: http://ethics.aoir.org
• AoIR:n sähköpostilista Air-L: http://listserv.aoir.org/listinfo.cgi/air-l-aoir.org
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 40
Lähteitä
• 7.10.2014 tarkistettuja nettilähteitä:
– http://en.someco.fi/blog/the-state-of-social-media-in-finland/
– http://www.statista.com/statistics/283662/finland-number-of-facebook-users/
– https://www.comscore.com/Insights/Data-Mine/Finnish-Internet-Users-are-Most-Avid-Consumers-of-Online-News
– https://www.comscore.com/Insights/Market-Rankings/Finland-Top-20-April-2014
– http://www.alexa.com/topsites/countries/FI
– http://www.toninummela.com/suomi-twitter/
– http://someco.fi/blogi/twitter-tulee-oletko-valmis/
– http://www.uta.fi/cmt/tutkimus/comet/julkaisut/twiiteryhmia%CC%88_ja_uutispa%CC%88ivittelya%CC%88_low_2013.pdf
– http://yle.fi/uutiset/suomalainen_twitter_on_pilkottu_palasiksi_-_tarkkoja_lukuja_julki_ensimmaista_kertaa/6501983
9.10.2014 Digitaaliset aineistot ja menetelmät / Juhana Venäläinen 41
Kiitos!
www.uef.fi