[#wmcl2015] investigando usando wikipedia

31
Investigando usando Wikipedia: desde aplicaciones lúdicas hasta estudios sociolingüísticos Presentado por: Eduardo Graells-Garrido / @carnby Investigador en Telefónica I+D Chile Web Research Group, Universitat Pompeu Fabra Trabajo en conjunto con: Luca Chiarandini (Google) Mounia Lalmas (Yahoo Labs London) Filippo Menczer (Yahoo Labs Sunnyvale) Wikimedia Chile 2015 - 28 de Marzo de 2015 Imagen: Margot de Pablo Picasso, 1901.

Upload: eduardo-graells-garrido

Post on 25-Jul-2015

235 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: [#wmcl2015] Investigando usando Wikipedia

Investigando usando Wikipedia: desde aplicaciones lúdicas hasta estudios sociolingüísticosPresentado por: Eduardo Graells-Garrido / @carnbyInvestigador en Telefónica I+D ChileWeb Research Group, Universitat Pompeu Fabra

Trabajo en conjunto con: Luca Chiarandini (Google) Mounia Lalmas (Yahoo Labs London) Filippo Menczer (Yahoo Labs Sunnyvale)

Wikimedia Chile 2015 - 28 de Marzo de 2015Imagen: Margot de Pablo Picasso, 1901.

Page 2: [#wmcl2015] Investigando usando Wikipedia

Sobre @carnby*

Investigo el comportamiento de las personas en mundos físicos y virtuales (pero ambos reales).

Luego propongo maneras de interactuar con esos mundos que puedan cambiar las vidas de las personas.**

* Soy fan absoluto de los zorzales.

** Aunque sea un poquito y no se den cuenta ;)

Ilustración para mi tesis. Por Paula Pérez / Athziri.

Page 3: [#wmcl2015] Investigando usando Wikipedia

¿Por qué Investigar con Wikipedia?

Imagen: https://xkcd.com/285/

Page 4: [#wmcl2015] Investigando usando Wikipedia

Dinámicas de Generación Colectiva de Contenido:

- ¿Cómo se relaciona la comunidad en Wikipedia?

- ¿Cuál es el impacto en el contenido?

Brecha de Género en Wikipedia:- ¿Cuántas mujeres participan en

Wikipedia? (En inglés: 16%)- ¿Cómo incentivar la participación

diversa?

@WikiResearchhttps://meta.wikimedia.org/wiki/Research:Newsletter

Page 5: [#wmcl2015] Investigando usando Wikipedia

Exploración / Serendipia

http://xkcd.com/214/

Todos los caminos llevan a Filosofía

http://www.xefer.com/2011/05/wikipedia

Page 6: [#wmcl2015] Investigando usando Wikipedia

Esta historia comienza en Barcelona, junto a Luca Chiarandini.

Hack4Europe! Realizado el 2011 en Museu Picasso de Barcelona.

Fotos por Kippelboy y Conxa Rodà.

Page 7: [#wmcl2015] Investigando usando Wikipedia

TimebookA Social Network of Historical Figures

¿Cómo acercar el arte a la gente?

¿Qué pasaría si los medios sociales hubiesen existido siglos atrás?

Page 8: [#wmcl2015] Investigando usando Wikipedia

¿Cómo lograrlo? Wikipedia (DBPedia) + spin-offs de Wikipedia (WikiQuote) + Colecciones Culturales (Europeana)

Page 9: [#wmcl2015] Investigando usando Wikipedia
Page 10: [#wmcl2015] Investigando usando Wikipedia
Page 11: [#wmcl2015] Investigando usando Wikipedia
Page 12: [#wmcl2015] Investigando usando Wikipedia
Page 13: [#wmcl2015] Investigando usando Wikipedia

El 2012 presentamos Timebook en MuseumNext, en el CCCB de Barcelona.

A partir de una pregunta muy simple muchas personas, desde directores/as de museos hasta educadores, vieron potenciales aplicaciones para Timebook. ¡Wikipedia fue fundamental!

Page 14: [#wmcl2015] Investigando usando Wikipedia

InterludioMuseumNext marcó el fin de Timebook.

Luca siguió con su tesis, en la que estudió cómo las personas navegaban las páginas dentro de un sitio web.

Yo comencé a estudiar Twitter y la manera en la que las personas se comunican en la red de micro-blogging.

Sin embargo, la historia continuaría...http://auroratwittera.cl/perfil/BNChile

Page 15: [#wmcl2015] Investigando usando Wikipedia

En este Encuentro, Daniela Alarcón Sánchez (@Dany_Passarinho) presentó el artículo “El Rol de la Mujer en la Historia visto a través de los libros de texto de

Educación Básica de las Escuelas Públicas de Chile”

Page 16: [#wmcl2015] Investigando usando Wikipedia

El Rol de la Mujer en la Historia visto a través de los libros de texto de Educación Básica de las Escuelas Públicas de Chile.Daniela Alarcón Sánchez / @Dany_PassarinhoLibro: Socializar Conocimientos II: Observando a Chile desde la Distancia

Page 17: [#wmcl2015] Investigando usando Wikipedia

¿Podemos replicar ese enfoque cualitativo en Wikipedia?¿Puede una máquina detectar sesgos?

Trabajo junto a Mounia Lalmas y Filippo Menczer.

Page 18: [#wmcl2015] Investigando usando Wikipedia

Wikipedia (en inglés) contiene 1,445,021 biografías, de las cuales 893,380 se pueden caracterizar como hombre o mujer. 15.5% de ellas son de mujeres.

El gráfico muestra la proporción de mujeres a lo largo del tiempo.

Page 19: [#wmcl2015] Investigando usando Wikipedia

Infoboxes

El formato determina la clase de una persona.

Clases más comunes:

Atleta 268,632 bios, 8.9% mujeres

Artista 93,840 bios, 25.1% mujeres

OfficeHolder 47,534 bios, 13% mujeres

Político/a 40,209 bios, 8.8% mujeres

Militar 25,607 bios, 1.7% mujeres

1.56% de hombres incluye atributo “spouse”6.86% de mujeres incluye “spouse”.

Page 20: [#wmcl2015] Investigando usando Wikipedia

¿Cómo analizar el lenguaje?

- Pointwise Mutual Information de n-gramas y género para todo n-grama encontrado (“La Serena” es un 2-grama, “Viña del Mar” es un 3-grama) en los abstracts de cada biografía.

- PMI entrega una medida de asociatividad entre los n-gramas (w) y cada género (c).

- Frecuencia de palabras categorizadas semánticamente en los abstracts.

- Los abstracts son, posiblemente, las partes más leídas de una biografía.

- Burstiness (ráfagas) de palabras categorizadas semánticamente en el texto completo de cada biografía.

- Palabras que se repiten varias veces (aparecen en ráfagas) en una misma biografía deben ser importantes.

Page 21: [#wmcl2015] Investigando usando Wikipedia

N-gramas asociados a hombres. Mayor oscuridad => mayor frecuencia. Mayor tamaño => mayor PMI.

Page 22: [#wmcl2015] Investigando usando Wikipedia

N-gramas asociados a mujeres. Mayor oscuridad => mayor frecuencia. Mayor tamaño => mayor PMI.

Page 23: [#wmcl2015] Investigando usando Wikipedia

Frecuencia y Burstiness

Categorías semánticas (diccionario LIWC, tienen subcategorías):

- procesos sociales, mecanismos cognitivos, mecanismos biológicos, trabajo, logros.

Frecuencia

- palabras de categoría mecanismos cognitivos tienen tendencia a ser más frecuentes en hombres.

- palabras de categoría sexual (sub. de mecanismos biológicos) tienen tendencia a ser más frecuentes en mujeres.

Burstiness

- palabras de categorías mecanismos cognitivos y trabajo tienen tendencia a aparecer en ráfagas en hombres.

Page 24: [#wmcl2015] Investigando usando Wikipedia

Enlaces y Ranking

Calculamos PageRank sobre la red de enlaces entre biografías, y ordenamos las biografías de acuerdo al ranking.

Repetimos el proceso para diferentes redes artificiales construidas a partir de la red original, para comparar posibles sesgos.

Page 25: [#wmcl2015] Investigando usando Wikipedia

¿Qué significa todo esto?

Sesgos en Meta-datos: infra-representación en cantidad y tiempo.

- Mujeres pre-1900 casi no tienen presencia en Wikipedia. - Para las mujeres es más importante agregar el atributo de pareja que para los

hombres.

Sesgos en Lenguaje

- Para las mujeres, el sexo parece ser más importante que sus propios logros (first woman, women’s, woman, etc). Además, son cosificadas (cat. sexual) y caracterizadas en base a filiaciones (her husband).

- Los hombres son destacados por lo que han hecho (cat. trabajo), concretamente, por cómo lo han hecho (cat. mecanismos cognitivos).

Sesgos en la Red de Enlaces

- Las mujeres son más difíciles de encontrar, sea siguiendo links, o porque en el ranking aparecen en posiciones mucho más bajas que hombres de lo esperado dado el contexto.

Para mayor discusión y detalles vean el paper: http://arxiv.org/abs/1502.02341

Page 26: [#wmcl2015] Investigando usando Wikipedia

¿Terminó la historia? - Aplicaciones Lúdicas

Timebook, a partir de una idea simple, inspiró a personas de todo el mundo...

... y ellos/ellas a nosotros.

No habría sido posible sin Wikipedia, ni Barcelona, ni Picasso (y el Museu).

Lo aprendido: una aplicación (o pregunta) debe ser:

- Interesante: que las personas sepan que aprenderán algo nuevo (sea útil o no).

- Estimulante: que despierte la curiosidad (¿cómo será el perfil de mi artista favorito/a?).

- Cercana: que presente familiaridad con el concepto (Picasso tiene un perfil como el mío).

Page 27: [#wmcl2015] Investigando usando Wikipedia

¿Terminó la historia? - Estudios Sociolingüísticos

Una máquina puede analizar sesgos de manera cualitativa (y cuantitativa): utilizamos técnicas de lingüística computacional y de análisis de redes. (pero necesita ayuda cualitativa - en este caso, LIWC)

El contenido de Wikipedia está sesgado, a pesar de las políticas de neutralidad.

Aunque editores trabajan con fuentes secundarias, utilizan sus propias palabras. El sesgo es compartido.

=> Hay que replantear políticas de notabilidad, neutralidad, y lenguaje.

=> Hay que mejorar la conectividad de las mujeres caracterizadas.

=> Creemos que una mayor presencia de mujeres editoras en Wikipedia NO resolverá el problema si es que no se consideran los dos puntos anteriores.

Page 28: [#wmcl2015] Investigando usando Wikipedia

¡Gracias!

Esta historia aún no termina. ¿Nos ayudan a seguir escribiéndola?

Pueden encontrarnos en:

Luca Chiarandini / http://grupoweb.upf.edu/~luca.chiarandini/

Eduardo Graells-Garrido / @carnby

Mounia Lalmas / @mounialalmas

Filippo Menczer / http://cnets.indiana.edu/people/filippo-menczer/

Page 29: [#wmcl2015] Investigando usando Wikipedia

Extras

Page 30: [#wmcl2015] Investigando usando Wikipedia

¡Casi todo esto ya está en Timebook! :) Falta full biography y gender.

Abstract

Infobox

Meta-data

Full Biography

Page 31: [#wmcl2015] Investigando usando Wikipedia

Impacto

Wikipedia Gender Gap Task Force

https://en.wikipedia.org/wiki/User:GGTF/Writing_about_women