nuovi testi - groups.di.unipi.it

26
1 Nuovi Testi Nuovi Testi Wiki e Blog fonti dinamiche di testo Caterina Caterina Lascaro Lascaro Elaborazione del Linguaggio Naturale 2005/2006 2 Nuovi Tipi di Testo Nuovi Tipi di Testo Nuovi sistemi di divulgazione e soglia di pubblicazione drammaticamente bassa bassa hanno dato origine a nuovi testi Dinamici Reattivi Multilingue Con numerosi autori che cooperano o perfino che avversano Con controlli editoriali esigui o nulli 3 I nuovi testi hanno caratteristiche di cui i testi tradizionali difettano. Sono interconnessi in una rete rete, resa esplicita dagli autori e dai lettori in una complessa interazione di riferimenti testuali espliciti. Si collocano in un contesto di altri testi molto più esplicitamente di quanto abbiano fatto precedentemente i testi. 4 Evoluzione del genere nel Web Evoluzione del genere nel Web I generi già esistenti in altre forme di media sono stati convertiti in forma digitale (giornale in notiziario elettronico). Al contrario, sono sorti nuovi generi interamente dipendenti dal medium nuovo. (homepage, search engine, webgame)

Upload: others

Post on 16-Oct-2021

14 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Nuovi Testi - groups.di.unipi.it

1

Nuovi TestiNuovi Testi

Wiki e Blogfonti dinamiche di testo

CaterinaCaterina LascaroLascaroElaborazione del Linguaggio Naturale2005/2006 2

Nuovi Tipi di TestoNuovi Tipi di Testo

� Nuovi sistemi di divulgazione e soglia di pubblicazione drammaticamente bassabassahanno dato origine a nuovi testi�Dinamici�Reattivi�Multilingue�Con numerosi autori che cooperano o perfino

che avversano �Con controlli editoriali esigui o nulli

3

� I nuovi testi hanno caratteristiche di cui i testi tradizionali difettano.

� Sono interconnessi in una reterete, resa esplicita dagli autori e dai lettori in una complessa interazione di riferimenti testuali espliciti.

� Si collocano in un contesto di altri testi molto più esplicitamente di quanto abbiano fatto precedentemente i testi.

4

Evoluzione del genere nel WebEvoluzione del genere nel Web

� I generi già esistenti in altre forme di media sono stati convertiti in forma digitale (giornale in notiziario elettronico).

� Al contrario, sono sorti nuovi generi interamente dipendenti dal medium nuovo. (homepage, search engine, webgame)

Page 2: Nuovi Testi - groups.di.unipi.it

2

5

� Quando un genere tradizionale migraverso il digitale, all'inizio è replicato fedelmente.

� In uno stadio successivo dell'evoluzione, si creano varianti di genere.

� Questo processo è guidato dalle capacitàtecniche dei nuovi media.

6

La Credibilità dei nuovi testi

� Mentre i testi tradizionalitradizionali sono pubblicati in forma cartacea e un numero di interventi successivi coinvolge redattori o editori per assicurare� accuratezza� attinenza� qualità� effetto del testo

� I nuovinuovi testi difettano della garanzia di essere passati per molti occhi dall’autore al lettore

7

BLOGBLOG

� E’ un genere evoluto da: � diari � logbooks / giornali di bordo� telecronaca,� rubriche ed editoriali

� in un misto di testi � dalle molte sfaccettature� con punti di vista e prospettive molto diversi � con applicazioni e ambizioni che variano da parte del

creatore.

8

WIKIWIKI

� è uno spazio di lavoro condiviso da molti partecipanti

� i testi di wiki sono scritti e preparati da team aperti di autori

� Applicazioni:�� WikipediaWikipedia - modellata su un genere di testo classico,

quello dell’enciclopediaenciclopedia� gestione di progetti

� per autori di testo

Page 3: Nuovi Testi - groups.di.unipi.it

3

9

� È stata focalizzata l’attenzione su questo fenomeno in due importanti Workshop:�11th Conference of the

� European Chapter of the Association for Computational Linguistics, Trento, Italy Aprile 2006

�Spring Symposium, of the � American Association for Artificial Intelligence,

Stanford, California Marzo 2006

10

� Interpretare l’evoluzione del genere nel Web�� BLOGBLOG

� Le caratteristiche linguistiche� Imparare a riconoscere i Blog

�� WikiWiki� Descrizione

� Analisi di scrittura digitale di Wikipedia� Errori in Wiki� Trovare frasi simili tra lingue multiple in Wikipedia� Cenni sull’utilizzo di Wiki

� Costruire dizionari per il NER con Wiki

Argomenti della discussioneArgomenti della discussione

11

Interpretare lInterpretare l ’’Evoluzione del Evoluzione del Genere nel WebGenere nel Web� Esplorazione dello stato corrente dell’evoluzione

del genere nel web attraverso la percezione degli utenti web.

� Conferma da parte di questo studio che un numero di generi web attuali, mai visto nel mondo cartaceo, può essere riconosciuto dai soggetti.

� Altri generi non sono emersi del tutto e molti utenti web non conoscono le loro etichette .

� Alcune pagine di testo mostrano un alto livello di ambiguità per cui gli utenti web non convengono sull’assegnamento delle loro etichette.

12

� I generi possono essere visti come “artefattiartefatti”, cioè oggetti culturali creati per soddisfare o semplificare le necessitàcomunicative.

� Questi oggetti culturali rappresentano il ruoloruolo che un certo tipo di documento gioca in un ambiente.

Il Genere nel WebIl Genere nel Web

Page 4: Nuovi Testi - groups.di.unipi.it

4

13

Il Genere nel WebIl Genere nel Web

� Ogni genere mostra delle caratteristichestandard o convenzionali che lo rendono riconoscibile fra gli altri, e questa identitàsolleva specifiche aspettative nei riceventi, malgrado la vaghezza delle etichette dei generi.

� I generi,però, non sono mutuamente esclusivi e generi diversi possono fondersi in un singolo documento, generando forme ibride.

14

Il Genere nel WebIl Genere nel Web

� Da una parte, aspetti standardizzati e ricorrenti inducono ad aspettative prevedibili nei destinatari.

� Dall’altra, la libertà concessa dalla creatività permette ai generi di cambiare, di evolversi, di essere creati per soddisfare nuovi fabbisogni, specialmente sotto l’impulso di un nuovo strumento di comunicazione.

15

Lo studio del WebLo studio del Web

� Uno studio è stato fatto da ricercatori, e basato su partecipanti volontari all’interno di varie università (in Usa, UK, Canada, Europa)

� Il riconoscimento e l’accettazione di un genere è basato su elementi come l’educazione, la cultura, la comunità e la società.

16

Pagine Web e Generi WebPagine Web e Generi Web

� La percezione degli utenti può essere divisa in 3 gruppi. �Generi web facili

�Generi web ambigui�Generi web difficili

� I partecipanti dovevano assegnare a 25 screenshot di pagine web 23 etichette di generi web.

Page 5: Nuovi Testi - groups.di.unipi.it

5

17

Interpretazioni dei Interpretazioni dei datidati : : tre metodi

� Conteggi approssimativi e percentuali � Tre gradi di concordanza identificati:

1. pagine con una concordanza sopra l’80%; (generi web stabili)

2. pagine con una concordanza tra il 79% e il 50% (generi web emergenti)

3. pagine con una concordanza tra il 49% e il 20%.(generi web confusi dagli utenti)

� Test esatto di Fisher � Residui aggiustati

18

Conteggi approssimativi e Conteggi approssimativi e percentualipercentuali

� I partecipanti mostrano la più alta concordanza sui ““generi web faciligeneri web facili”, ad eccezione delle seguentimeno accettate: � front page � net ad� splashscreen

� Il gruppo mediomedio include per la maggior parte i generi web ambigui insieme al ezine, ritenuto difficile da parte dell’autore.

� L’ultimoultimo gruppo contiene il resto dei generi ambigui insieme alle altre pagine web difficili e tre pagine web del primo gruppo.

19

Ezine,

dontknow (x3)Generi Web

Difficili

Blog, clog, searchM,

onlineForm

academic_hpaboutpage, organiz._hp,

howto, tutorial

Email, sitemap, hotlist,

newsletter

Generi Web Ambigui

personal_hp, FAQ, Net adNet ad

SplashscreenSplashscreen, corporate_hp

Eshop, frontpagefrontpage,

Searchpage

Generi Web Facili

GENERI WEB, suddivisi dallGENERI WEB, suddivisi dall ’’autoreautoreTIPOLOGIETIPOLOGIE

20

frontpagefrontpage

net adnet ad

Hotlist,dontknow(x3)newsletter

Email,spalshscreenspalshscreen

sitemap,

Bottom:

Tra 49% e 20%

Clog,howto,tutorial,

About_page,ezine,dontknow, organiz_hp,

Blog,academic_hp,online_form,

Middle:tra 79% e 50%

Corportate_hp,FAQ,

Eshop,personal_hp,search_page,

Top:oltre 80%

GENERI WEBGENERI WEBRANGESRANGES

Page 6: Nuovi Testi - groups.di.unipi.it

6

21

Test esatto di FisherTest esatto di Fisher

� Le percentuali non chiarificano se l’etichette e i tipi di pagina web sono associate nella maniera suggerita.

� Il test esatto di FisherFisher può esserci d’aiuto.

� Il valore ritornato per questo test dalla SPSSè 9898.275, ed è abbastanza grande per rifiutare l’ipotesi che le etichette e le pagine web sono indipendenti

22

Residui aggiustatiResidui aggiustati� Un test statistico non indica quante e quali

celle si allontanano molto da questa ipotesi.

� I residuiresidui, cioè le differenze tra le frequenze delle celle previste e osservate, possono esserci d’aiuto.

� Le analisi dei residui aggiustati sostengono che c’è un’associazione significativa tra le 25 pagine web e le 23 etichette

23

ConclusioniConclusioni

� I tre gruppi di percezione sono venuti fuori chiaramente dalle percentuali, ma la distribuzione di pagine web nei 3 gruppi èleggermente differente da ciò che ci si aspettava.

� La visione generale dei risultati (test di Fisher) rivela che c’è un’associazione significativa tra le 25 pagine web e le 23 etichette.

� Le analisi dei residui aggiustati sostengono questa interpretazione.

24

BLOGBLOG

� I Blog sembranosembrano essere principalmente �personali, spesso scritti da una prospettiva

personale, ed esprimono le opinioni o i sentimenti dell' autore.

�spesso mal editati e messi insieme frettolosamente in un linguaggio che ricorda le brevi note, parole sussurrate o lettere corte, piuttosto che saggi o articoli di giornali.

Page 7: Nuovi Testi - groups.di.unipi.it

7

25

� In realtà i blog possono presentare vari tipi di linguaggio, �da quello più informale, disinvolto e

personalizzato, �a quello forbito e a volte squisitamente

letterario.

� In genere si crede che il primo tipo di linguaggio sia il più utilizzato.

26

Caratteristiche Linguistiche dei Caratteristiche Linguistiche dei Blog Blog –– il linguaggio letterarioil linguaggio letterario

� Molti sondaggi hanno messo in evidenza, invece, che lo standard di questo medium sia molto più alto di quanto si creda, in quanto molti blogs puntano ad avere una dignità letteraria.

� Uno studio ha provato a dimostrare ciò.

27

Analisi preliminare Analisi preliminare -- un campione un campione testualetestuale

� Il campione di riferimento è rappresentato da 10 blogs di Splinder.com nella lista degli “ultimi aggiornati”. La selezione èstata fatta in tempi diversi in uno stesso giorno

28

Analisi di un blog meno formale del Analisi di un blog meno formale del campione:campione:

“di ritorno da…” Il post descrive un viaggio di vacanza in Scozia per la fine dell’anno e sentimenti personali. Il post mostra scelte grafiche non ortodosse:

� mancanza delle maiuscole anche per i nomi propri

� parole con accenti inappropriati

Page 8: Nuovi Testi - groups.di.unipi.it

8

29

� uso frequente ed esagerato dei puntini di sospensione.

� Questa ultima caratteristica è molto frequente nei blogs perché da la sensazione del linguaggio parlato.

30

Analisi di un blog letterario:Analisi di un blog letterario:

“SoleLuna” Una donna ricorda il suo perduto amore.Il linguaggio di questo post ha pretese letterarie, vestendosi di liricità e utilizzando costruzioni retoriche a volte verbose. Presenta, però alcune cadute di tono nelle forme grafiche come i puntini di sospensione, la “d” eufonica e così via.

31

Analisi di un blog con linguaggio Analisi di un blog con linguaggio intermedio:intermedio:

“Incontrista” il testo di questo post parla della differenza fra le splinderine e le meetiche, privilegiando le prime. Il linguaggio è simil giornalistico, con una prosa brillante. Significativamente, non ci sono puntini di sospensione.

32

Nessuno di questi 3 tipi di linguaggio sembra essere il modello principale per scrivere un blog. � Questo è dovuto alla piccola dimensione del campo di ricerca.� Se si aumenta quest’ultimo, è possibile trovare un significativo modello di linguaggio che mediamente costituisca la base per scrivere i blogs.�L’aumento del campo di studio è stato reso possibile parzialmente utilizzando moderni motori di ricerca.

Page 9: Nuovi Testi - groups.di.unipi.it

9

33

Analisi quantitativaAnalisi quantitativa di grandi corpora usando il motore di ricerca

� Facendo una ricerca preliminare, si è visto che da un punto di vista ortografico, i blogs italiani sono corretti qualitativamente almeno come i giornali online. � Anche altri indicatori correlati all’uso di forme italiane “neostandard” nel campo dei pronomi e degli aggettivi dimostrativi suggeriscono una parentela fra blogs e giornali.

34

� Secondo queste ricerche, le differenze principali tra i post dei blogs e gli articoli di giornali non erano collegati all’accuratezzadello scritto o alle scelte morfologichediverse. � Quindi possiamo supporre come ipotesi di lavoro che le differenze principali fra i blogs e i giornali si riferiscono, infatti, al lessicolessico e alla sintassisintassi.

35

� Lo status sintatticosintattico di molti blog èprobabilmente ben rappresentato dai campioni testuali scelti precedentemente (l’uso diffuso di punti di sospensione che sono la caratteristica più cospicua)� Tuttavia un sondaggio preciso di questo livello può essere probabilmente ottenuto solo attraverso la codificacodifica di un largo corpus con etichette sintattiche.

36

Analisi quantitativa di grandi Analisi quantitativa di grandi corpora usando motori di corpora usando motori di ricercaricerca

� Le caratteristiche lessiche dei blogs possono essere studiate attraverso una semplice analisi con il motore di ricerca.

Page 10: Nuovi Testi - groups.di.unipi.it

10

37

� Due corpora web sono stati, quindi, selezionati: � il complesso dei blog indicizzati nella versione

beta del blogsearch.google.comblogsearch.google.com .� il sito web del giornale LaRepubblicaLaRepubblica ,

indicizzato e interrogato attraverso l’interfaccia Google

� I due corpora sembrano avere la stessa grandezza.

38

Dobbiamo fare alcune considerazioni:� Non analizzare forme basse di linguaggio,

perché è chiaro che i giornali raramente le usano, mentre si trovano nell’uso comune dei blogs.

� Non analizzare parole assai comuni come “questo” e “quello”.

39

� L’analisi comparativa si è basata sulla più alta frequenza del linguaggio letterario, che nella tradizione italiana ha un lessico vasto e svariato.

� Abbiamo, quindi focalizzato l’attenzione su gruppi di parole “deboli”.

�Precisamente, ci siamo basati su liste di verbi “letterari” che iniziavano con la b, la e e la v, considerati all’infinito, prelevati dal dizionario DeMauro.

�Non abbiamo considerato quelli che presentavano omografie

40

Alcuni verbi sono stati esclusi, in quanto �non presenti oppure �parimenti bilanciati, o ancora

� risultanti come forme spezzettate di verbi diversi.

Dopo questa selezione, le forme rappresentate nel corpus avveniva come descritte in Tavola 2.

Page 11: Nuovi Testi - groups.di.unipi.it

11

41

TAVOLA 2 aTAVOLA 2 a

46Esondare

924Ergere

10Elicere

01Bugiare

10Bruttare

01Bruire

01Biscazzare

20Biondeggiare

10Biasmare

29Beare

112Bastarsi

01Basire

Num. in La Repubblica

Num. in Blog

FORMA

42

TAVOLATAVOLA 2 b

02Vigoreggiare

10Volversi

02Volvere

01Villaneggiare

02Ventare

617Vaticinare

01Vanire

17Vagolare

04Vacare

02Evoluire

02Estimare

1579Esplicare

2156Esperire

Num. in La Repubblica

Num. in Blog

FORMA

Totale delle occorrenze

Blog: 230

LaRepubblica: 65

43

ConclusioneConclusioneLe analisi preliminari dei blog italiani sembrano confutare la semplice equivalenza “Blog = testo informale ”.

44

� Chiaramente sia mezzi statistici che un software speciale da monitoraggio, sono necessari per dare a questo tipo di ricerca più focus e più profondità.

� Questa ricerca può essere migliorata con�una migliore copertura dei motori di ricerca�altri indicatori di ricerca della qualitindicatori di ricerca della qualitàà

linguistica di un testo.

Page 12: Nuovi Testi - groups.di.unipi.it

12

45

Imparare a riconoscere i BlogsImparare a riconoscere i Blogs

� Esperimenti con l'applicazione del machinelearning su una classificazione binaria dei blog, � cioè determinare se una data pagina web è una

pagina di un blog.

� Qual è la performance degli algoritmi della machine learningmachine learning di base su questo compito?

� Può la performance di questi metodi essere migliorata usando metodi di ricampionamento come BootstrappingBootstrapping e CoCo--TrainingTraining?

46

Applicazione del Applicazione del machine machine learninglearning� Uso di un piccolo dataset annotato

manualmente e di una grande varietà di algoritmi.

� Selezione di una gran quantità di attributi caratterizzanti, tra cui�numero di post� lunghezza media/max/min dei post� i vari host

47

Prima questionePrima questione� È stata istruita una vasta gamma di

learnerslearners ,usando i dati manualmente notati e testati usando 10 volte una convalida incrociata.

� Comparazione dei risultati alla baseline.� Il miglior algoritmo è risultato SMO basato

su un vettore di supporto. ( 94,75% )

48

RicampionamentoRicampionamento

� Il dataset precedente è suddiviso in due dataset

� Dataset di training ( 100 casi )

� Dataset di test ( 101 casi )

� Un nuovo dataset è stato creato con un crawler, filtrato e poi suddiviso in sottoset di 1000 casi, per ogni iterazione.

Page 13: Nuovi Testi - groups.di.unipi.it

13

49

BootstrappingBootstrapping

�� InizializzazioneInizializzazione: con il set di training ( 100 casi annotati manualmente ) predire l’etichette o nomi dei primi subset di 1000 casi non etichettati.

�� IterazioniIterazioni: etichettare i casi non etichettati secondo la previsione dell’algoritmo e aggiungere questi casi al precedente set di training per formare un nuovo set di training. Costruire un nuovo modello basato sul nuovo set di training.

� Ogni iterazione viene testata con il set di test.

50

Risultato del BootstrappingRisultato del Bootstrapping

� Dopo 36 iterazioni, era chiaro che si era giunti al massimo delle prestazioni.

� Nonostante il campione così grande, il bootstrapping non migliora la performance del machine learning, probabilmente a causa degli outliers, mancati a causa della particolarità del blog (MSN Space…).

51

CoCo--TrainingTraining

� L’obiettivo è di prendere le predizioni unanimi dai migliori 3 algoritmi del machinelearning e usarle per fare il Bootstrap del set di training.�SMO con vettori di supporto, �J48 (con albero di decisione e un’implementazione

C4,5)�Jrip (basato sulle regole).

� Poi, verrà testato se offre un miglioramento sull’algoritmo SMO.

52

� Il procedimento ha inizio con il set di training e, con l’aiuto delle predizioni dei 3 algoritmi, si etichettano vari casi, aggiuntipoi al set di training.

� Usando quest’ultimo, vengono etichettati i casi del subset di 1000 casi.

� Ancora una volta quei casi venivano aggiunti al training set e così via per quante più iterazioni possibili.

� Dopo ogni iterazione, viene testato il set con l’algoritmo SMO.

Page 14: Nuovi Testi - groups.di.unipi.it

14

53

Risultato del CoRisultato del Co --TrainingTraining

� Dopo 30 iterazioni, l’esperimento fu terminato, in quanto era finita la memoria.

� Anche se ad ogni iterazione, la percentuale non è sempre migliore di quella del Bootstrapping, questo classificatore è più accurato

54

WIKIWIKI� I Wiki tendono

� ad avere alte ambizioni riguardo la correttezza dei fatti, persistenza, qualità editoriale e affidabilità.

� E dove non riescono gli autori, i vari Wiki sono a cura di altri autori e lettori.

� Wikipedia può essere considerato come esempio dell'evoluzione del genere tradizionalegià esistente, evoluzione preservata nelle forme superficiali degli articoli, ma non nei processi di scrittura e lettura

55

UnUn’’analisianalisi di scrittura digitale di scrittura digitale di Wikipediadi Wikipedia

� L’analisi del contrasto linguistico fra Wikipedia - nuovo tipo di testo - e l’Enciclopedia britannica online.

�� Enciclopedia BritannicaEnciclopedia Britannica – la più grande enciclopedia del mondo di lingua inglese.

� Contiene oltre 120.000 articoli, scritti in maniera accurata e affidabili

56

�� WikipediaWikipedia – uno dei siti più popolari, progettato con lo scopo di creare un’enciclopedia gratuitagratuita, contenente informazioni su tuttitutti gli argomenti, scritti da volontari cooperanticooperanti tra di loro.

� Consiste di 200 edizioni indipendenti di lingue diverse, tra cui quella inglese è la più fornita.

Page 15: Nuovi Testi - groups.di.unipi.it

15

57

Wiki Wiki –– un nuovo genere testualeun nuovo genere testuale

� I wiki sono considerati come nuove peculiaritpeculiaritàà aggiuntive agli attuali strumenti sincroni e asincroni della prima generazione CMC (Computer Mediated Community).

� Contrariamente agli altri siti, Wikipedia invita alla scrittura di articoli, usando i link wiki e creando così una rete di pagine interconnesse.

58

Processo di interlinkProcesso di interlink

� Nel redigere un articolo, l’autore può collegare una o più parole (WikiWord) ad un altro articolo, racchiudendole tra parentesi quadre.

� L’interlink è automatico e semplice. � L’autore crea percorsi differenti per il

lettore, anche se non vi è un ordine predefinito di pagine da seguire.

59

� I testi tradizionalitradizionali creano una nettaseparazione tra lo scrittore e il lettore.

� La tecnologiatecnologia WikiWiki media questo divario, in quanto i due attori hanno ruoli interscambiabili.�Difatti anche il lettore può apportare

modifiche, commenti o creare nuovi articoli

� In questo modo la conoscenza diventa dinamicadinamica e contestualizzatacontestualizzata.

60

Due modi di scritturaDue modi di scritturaModalitModalitàà DocumentoDocumento� I contributori creano i documenti in

collaborazione e possono lasciare aggiunte

� I documenti sono�espositivi, estesi e rifiniti� formali e anonimi�scritti a guisa di monologo e in terza persona

Page 16: Nuovi Testi - groups.di.unipi.it

16

61

Due modi di scritturaDue modi di scrittura

ModalitModalitàà Thread Thread (collaborativo)� I contributori portano avanti discussioni

“postando” messaggi firmati nelle pagine connesse all’articolo principale

� I thread sono�esplorativi, aperti e collettivi�dinamici e informali�scritti a guisa di dialogo e in prima persona.

62

Due tipi di conoscenzeDue tipi di conoscenze

� La Modalità Documento dimostra che�La conoscenza è collettiva�Le idee, nonnon gli scrittori, sono il focus principale

� La Modalità Thread dimostra che�La conoscenza è il risultato della collaborazione

costruttiva, e nonnon una produzione solitariasolitaria.

63

Obiettivi della ricercaObiettivi della ricerca

� Investigare gli articoli di Wikipedia e analizzare il WikiLanguageWikiLanguage

� linguaggio formale, neutro e impersonale usato negli articoli ufficiali enciclopedici

� analizzare il WikiSpeakWikiSpeak, , considerandoWikipedia come CMC � linguaggio parlato-scritto dagli utenti di

Wikipedia nelle loro comunità informali (dietrole quinte)

64

Primo Primo ObiettivoObiettivoWiki vs. Britannica

� Analisi comparativa di un campione di articoli, scelti a caso.

� Il campione include file testo di articoli (di Wiki e della Britannica) su argomenti, presi da 8 categorie di Wikipedia

� cultura, geografia, storia, vita, matematica, scienze, società, tecnologia

Page 17: Nuovi Testi - groups.di.unipi.it

17

65

� Un programma ha analizzato il campione e sono stati utilizzati dei fattorifattori con cui misurare la formalitàdi Wikipedia:

1. Lunghezza dell'articolo (totale delle parole), in quanto la concisione è una caratteristica del discorso formale scritto.

2. Lunghezza media delle parole (in lettere), in quanto le parole corte sono una caratteristica del genere informale.

66

3. Un alto livello di densità lessicale èpeculiare di scritti formali accademici.

4. Numero di elementi lessicali unici.5. Frequenza dei pronomi impersonali e dei

suffissi (come -age, -ment,- ance/ence, -ion), tipici del genere formale .

6. frequenza di abbreviazioni, acronimi, contrazioni e pronomi personali, tipici del genere informale, come faccia-a-faccia e conversazione telefonica

67

I Primi RisultatiI Primi Risultati

� Gli articoli in Britannica sono più corti e presentano una densità lessicalesuperiore

� Nonostante il livello di formalità totale sia superiore in Britannica, la frequenza di parole formali e pronomi impersonali e la lunghezza media delle parole è similare in entrambe.

68

� Di conseguenza, la differenza risiede nella densità lessicale.

� C’è da considerare, però, che il numero di parole medio nelle due enciclopedie ènotevole e che i termini lessicali differenti sembrano avere una maggiore evidenzanei testi più corti.

I I PrimiPrimi RisultatiRisultati

Page 18: Nuovi Testi - groups.di.unipi.it

18

69

� Si può dedurre che grazie al controllo editoriale collettivo, il WikiLanguage mostra uno stile formale e standardizzato simile a quello trovato nella Britannica.

36,650,25,25,3351017285,25,331,444,9WBWBWBWBWB

Formalitàtotale %

Lunghezza media parole

Lunghezza media articoli

Nomi Formali +

P.P.

DensitàLessicale

Media

70

WikiSpeakWikiSpeak

� WikiSpeak è un linguaggio non ufficiale.� La sua peculiarità è l'immediata evidenza

nei WikiLogismi (es. stub, NPV, wikify, backlogs, FAQ, village pump, ecc) , considerati per la propria densità lessicale, una suprema sintesi del WikiSpeak.

71

WikiSpeakWikiSpeak� È stata fatta un’analisi per misurare

l'impatto � del contenuto, � della forma � delle funzionalità sul lettore

� e il WikiSpeak usato nelle discussioni connesse agli articoli.

� Da ciò sono emersi una gran quantità di nuovi termini.

72

� WikiSpeak è ricco di �� acronimiacronimi:

� NPOV - neutral point of view� COTW - collaboration of the week� IFD - image for deletion� WDYS - what did you say?� CIO - check it out (controllalo)

�� abbreviazioni:abbreviazioni:� pls - please� bb ppls - bye bye peoples� b4n - bye for now� cyl - see you later

Page 19: Nuovi Testi - groups.di.unipi.it

19

73

� fusione di termini: � infobox� quickpoll� Namespace

� traslazione di significati:� orphan� mirror� stub

� nuova grafologia:� il lower-case è di default� la capitalizzazione marca il concetto� BiCaps o CamelCase

74

� Plurale inglese: � sostituzione della -s con la -z

� Punteggiatura a volte assente

� Ripetizione di vocali e consonanti, punteggiatura e simboli� Yayyyyyyyy� WHAT???????� # (…) (---) (***)

75

ConclusioniConclusioni� Wikipedia, come una nuova espressione per un

genere enciclopedico, appare simile alle tradizionali enciclopedie grazie alla omogeneitàstilistica, al punto di vista neutrale e allo stile formale.

� La collaborazione degli utenti rispetta le norme stilistiche, l'etica del lavoro sociale condiviso, quindi diversità e controversie sono cancellatecancellate.

� Quindi le voci, anche se individuali, originarie della comunità CMC, sono fuse e omogeneizzate nella neutralità e formalità degli articoli.

76

Errori nei WikiErrori nei Wiki

� affidabilità offerta dai wiki � tecniche dell’elaborazione di un linguaggio

per aiutare a decidere se affidarsi ad un testo particolare.

Page 20: Nuovi Testi - groups.di.unipi.it

20

77

Wikis e il problema della fiduciaWikis e il problema della fiducia

� Un articolo in Wikipedia può essere � ben scritto,

� apparire autorevole,

� il lettore è inclinato a credervi.credervi.

� Il lettore non sa che alcune aggiunte di altri autori sono incorretteincorrette !

� I wikis sono universalmente utilizzati, quindi il potenziale di disinformazione tende a crescere.

78

Esempio: storia di uomini politiciEsempio: storia di uomini politici

� In genere,gli articoli su determinati uomini politici vengono scritti o rivisti da personale appartenente al loro staff.

� Questi articoli tendono a fare apparire il personaggio politico sotto una luce piùfavorevole.

� L’informazione è, evidentemente, manipolata.

79

Le correzioniLe correzioni

� Si possono sempre fare, ma ci sono dei problemi:�È necessario un determinato tempo.

�Gli autori, soprattutto di articoli vecchi, possono non essere interessati.

�Lo staff preposto alla correzione non èsufficientemente numerico.

80

� Questo problema della disinformazione è meno rilevante nei siti web non-wiki, anche se gli argomenti sono trattati da autori sconosciuti, in quanto è il dominiostesso ad offrire la garanzia di affidabilità.

Page 21: Nuovi Testi - groups.di.unipi.it

21

81

� Il problema non consiste nel numero di errori nel wiki, ma come il lettore possa decidere se l’articolo sia affidabile e quindi utilizzarlo come guida.

� C’è bisogno di strumenti automatici per fornire aiuto ai:� lettori, per valutare l’affidabilità�autori e moderatori per analizzare le modifiche�moderatori, inoltre, per identificare vandalismi,

diffamazioni e propaganda

82

Imparare Imparare ll ’’affidabilitaffidabilit àà

� La storia dei cambiamenti su wiki può essere utile a categorizzare gli utenti come affidabiliaffidabili o sconosciutisconosciuti,, purché noi abbiamo a disposizione criteri indipendenti.

� Infatti l’impiego del criterio basato sulle tecniche stilistiche, anche se rilevante, non è attuabile, in quanto dobbiamo categorizzare piccoli frammenti di testo.

83

Una ipotesi di lavoro è dividere il testo in fattoidifattoidi, la cui identificazione è davvero difficile, ma è probabile che gli stessi cambiamenti del testo possano aiutarci in questo senso.

Una ipotesiUna ipotesi

84

Punto della situazione:Punto della situazione:

� possiamo automaticamente classificare i contributori wiki come affidabili o inaffidabili?

� i cambiamenti degli utenti affidabili forniscono buoni dati di preparazione?

� ci sono delle caratteristiche in frammenti di testo che permettono una classificazione di affidabilità?

� quali mezzi possono essere adattati da altre aree dell’elaborazione del linguaggio per affrontare queste problematiche?

Page 22: Nuovi Testi - groups.di.unipi.it

22

85

Una ontologia di errori?Una ontologia di errori?

� Vi porto ad esempio un errore rilevato nel Wikipedia inglese riguardo all’università di Cambridge:�L’ammissione ai colleges di Cambridge di

prima laurea dipendevano, una volta, dalla conoscenza del latino e del greco antico, materie insegnate principalmente nel UK nelle scuole a pagamento, dette “scuole pubbliche”

86

� Questo frammento è chiaramente sbagliato, in quanto è generalmente risaputo che le scuole pubbliche,nel senso stretto della parola, sono nel UK una assai piccola proporzione, rispetto a quelle a pagamento.

� L’equiparazione dei due tipi di scuola è un errore.

87

IpotesiIpotesi

� Ammettiamo che un editor affidabile corregga questo errore.

� Ammettiamo che possiamo analizzare e immagazzinare la correzione automaticamente.

� Di conseguenza sarà possibile controllare e correggere lo stesso errore in altri testi.

88

Frasi simili attraverso linguaggio Frasi simili attraverso linguaggio multiplimultipli� Il corpus Wikipedia è adattabile ad

un’analisi multilingue che tende a generare corpora paralleli?

� Le motivazioni:�corpora allineati alle frasi hanno un ruolo

importante nei metodi d’elaborazione di linguaggi basati su corpus

� forniscono una conoscenza profonda in Wiki come fonte di conoscenza

�Sono un utile tipo di supporto di modifica.

Page 23: Nuovi Testi - groups.di.unipi.it

23

89

Due approcciDue approcci

1. sistema MT per ottenere una traduzione approssimativa di una data pagina dauna lingua in un’altra + sovrapposizione delle parole delle frasi.

2. lessico bilingue che è generato da Wikipedia usando la struttura dei link e i titoli delle pagine collegate.

90

Approccio basato su MTApproccio basato su MT

� Traduciamo la pagina wikipedia olandese in inglese, usando Babelfish di Altavista.

� Colleghiamo ogni brano di testo o frase in inglese ad ogni brano o frase in olandese.

� Calcoliamo un punteggio semplice di sovrapposizione di parole per ciascuna coppia

� Abbiamo usato la misura di similarità di JacardJacard

91

� Supponendo una corrispondenza 1:1, filtriamo la lista generata di brani e di frasi, ordinata in ordine decrescente disimilarità:�Per ogni coppia della lista, si eliminano tutte le

occorrenze di frasi della coppia selezionata, da tutte le altre coppie.

Approccio basato su MTApproccio basato su MT

92

Usare un lessico bilingueUsare un lessico bilingue

� Algoritmo usato:� Generare un lessico bilingue� Dato un argomento, prendere le pagine

corrispondenti dall’inglese e dall’olandese di Wikipedia

� Dividere le pagine in frasi e arricchire gli hyperlinks nella frase o identificare le entità con nome nelle pagine

� Rappresentare le frasi in queste pagine usando illessico bilingue.

� Computare la sovrapposizione dei termini tra le frasi pertanto rappresentate.

Page 24: Nuovi Testi - groups.di.unipi.it

24

93

Un lessico bilingueUn lessico bilingue

� Per ogni pagina di Wikipedia in una lingua, le traduzioni del titolo in altre lingue, per cui ci sono entry separate, sono date come hyperlinks.

� La maggior parte di questi titoli sono frasi che contengono il nome del contenuto e sono molto utili nel computo di similaritàmultilingue.

94

Rappresentazione canonica di Rappresentazione canonica di una fraseuna frase

� Rappresentare le frasi in ambedue le coppie di lingue usando questo lessico.

� Ciascuna frase è rappresentata da un set di hyperlinks che essa contiene. Noi cerchiamo ciascun hyperlink nel lessico bilingue.

95

Arricchire la struttura a linkArricchire la struttura a link

� In Wikipedia non tutte le occorrenze di entità che hanno entry in wikipedia sono in realtà anchor text di un link di ipertesto.

� Per evitare ciò, vengono identificati altri hyperlinks automaticamente, cercando nel lessico gruppi di parole (da 4 fino a 1) contenuti nell’articolo.

96

Identificare frasi similiIdentificare frasi simili

� Il passo finale coinvolge il computo della sovrapposizione dei termini tra le coppie di frasi e il filtraggio della lista risultante.

� I passi rimanenti sono simili a quelli descritti nell’approccio basato sul MT.

Page 25: Nuovi Testi - groups.di.unipi.it

25

97

Conclusione

Conclusione

�L’approccio del lessico bilingue restituisce m

eno coppie incorrette dell’approccio basato su M

T.

�N

oi interpretiamo questo dicendo che il

metodo basato sul lessico bilingue

fornisce una rappresentazione piùaccurata sui contenuti delle frasi in W

ikipedia rispetto all’approccio basato su M

T.

98

0 10 20 30 40 50 60 70 80 90

100

Hersfeld Rotenburg

Manganese nodule

Kettle

Treason

Pierluigi Collina

Province of Ferrara

Classic ism

Tennis

Hyster ia

G eorge F. Kennan

MarcusCorneliusFronto

Delphi

De Beers

Pavel Popovich

Rice pudding

Manta ray

Michelstadt

Tank

Cheyenne(Wyoming)

Goa

Tricolour

Oral cancer

Pallium

Ajanta

Captain Jack (band)

Proboscis Monkey

Patti Smith

FloresIs land,Portugal

Mercury 8

Mutation

MT

Total

MT

Match

Tavola 1 M

TT

avola 1 MT

99

0

10

20

30

40

50

60

70

80

90

10

0

Hersfeld Rotenburg

Manganese nodule

Kettle

Treason

Pierluigi Collina

Province of Ferrara

Classicism

Tennis

Hysteria

George F. Kennan

MarcusCorneliusFronto

Delphi

De Beers

Pavel Popovich

Rice pudding

Manta ray

Michelstadt

Tank

Cheyenne(Wyoming)

Goa

Tricolour

Oral cancer

Pallium

Ajanta

Captain Jack (band)

Proboscis Monkey

Patti Smith

FloresIsland,Portugal

Mercury 8

Mutation

Bilin

gu

al L

exic

on

To

tal

Bilin

gu

al L

exico

n M

atc

h

Tavola 1

Tavola 1 B

ilingualB

ilingualLexiconLexicon

100

0,0

0

2,0

0

4,0

0

6,0

0

8,0

0

10

,00

12

,00

14

,00

16

,00

18

,00

To

tal

Ma

tch

T

ota

l M

atc

h

MT

B

iling

ua

l Le

xic

on

MT

Tota

l M

T M

atc

h

Bilin

gu

al L

exic

on

To

tal

Bilin

gu

al L

exic

on

Ma

tch

Tavola 2 M

edie dei Risultati

Tavola 2 M

edie dei Risultati

Page 26: Nuovi Testi - groups.di.unipi.it

26

101

Dizionari per il NER con WikiDizionari per il NER con Wiki� Wikipedia è stata scelta come risorsa

linguistica per la creazione e la manutenzione automatica di dizionari per il NNamed amed EEntity ntity RRecognition ecognition (NER), perché:�è una grande fonte di informazioni�ha la licenza gratuita�ha dati formali e strutturati�è multilingue�è continuamente aggiornato.

102

BibliografiaBibliografia

� Tutte le informazioni sono reperibili al sito: http://www.sics.se/jussi/newtext/

� Tutti gli studi sono approfonditi e piùparticolareggiati nei file pdf, linkati al sito indicato.

103

ReferencesReferences

� Ann Copestake: Errors in Wiki� Mirko Tavosanis: Linguistic features of Italian Blogs:

literary language� Antonella Elia: An Analysis of Wikipedia digital writing� Erik Elgersma, Maarten de Rijke: Learning to recognize

blogs: a preliminary exploration� Marina Santini: Interpreting genre evolution on the Web� Sisay Fissaha Adafre, Maarten de Rijke: Finding Similar

Sentences across Multiple Languages in Wikipedia