Archive for mayo, 2010

Compartiendo la herramienta tweets_info.py

2 Comments »

Tenía pendiente hacer pública la herramienta que utilicé  en el experimento del hashtag #manifiesto y en el resumen visual de la conferencia WWW2010. Me lo ha recordado @paco229 en este tweet:

Francisco Georgepaco229 en su momento @congosto dijo que iba a publicar los scripts que usó para hacerlo #inp
via TweetChat

Le he sacado un poco de brillo al script y lo he documentado para que lo pueda usar quién esté interesado en sacar información de Twitter.

El script asume que el formato de entrada es el modo texto de la  herramienta tweetbackup. Está escrito en python y permite extraer la siguiente información de un conjunto de tweets:

  • los autores y cuantos tweets han escrito
  • las palabras y el número de veces que se han utilizado (es posible filtrar las palabras irrelevantes)
  • los hastagh y el número de repeticiones
  • el número de tweets por cada día
  • el número de tweets por hora
  • las urls y el número de repeticiones, el ranking de los sitios web mencionados y de los servicios acortadores de urls.

Descargar tweets_info.py

He aprovechado para cambiar el diseño de barriblog-wiki para publicar tambien allí las herramientas que vaya realizando. Espero que sean de utilidad


Resumen visual de la Conferencia WWW2010

2 Comments »

Del 26 al 30 de abril se celebró la conferencia WWW2010. No pude asistir pero recogí los tweets marcados con el hashtag #www2010 desde el 31 de marzo hasta el 3 de mayo y como una imagen vale más que mil palabras he realizado un resumen visual de la Conferencia.

(Al pulsar en la imagen se mostrará en su tamaño real)

Quienes fueron los twitteros más activos


Qué palabras se escribieron más


Cuales fueron los sitios más populares


Qué acortadores de urls se utilizaron


Cuales fueron las Urls más Retransmitidas

Twitter Papers at the WWW 2010 Conference
(22)

WWW2010 Twitter Roomstreams (19)

RTP Meetup (15)

Futureweb (schedule) (13)

What is Twitter, a social network or a news media? (12)

Elon University/Pew Intenet Project (Futureweb) (11)

Durham, a Tobacco Town, Turns to Local Food (10)

Fresh Direction: A Farm-to-Table Restaurant (10)

Can the Jewish Deli Be Reformed?(10)

Open Government and the World Wide Web (10)

Cuales fueron las Urls con más clicks

xkcd (2.870)

Facebook’s Eroding Privacy Policy: A Timeline (1696)

Truly W3C Community building at WWW2010 (Part 1) (1577)

Web 2.0 Suicide machine (1248)

Tim Berners-Lee on the next Web (1085)

Privacy and Publicity in the Context of Big Data (1011)

Why Twitter Is the Future of News (996)

What is Twitter, a Social Network or a News Media? (739)

Open Graph protocol (359)

WWW2010 Twitter Roomstreams(310)

Cual fue la frecuencia de twiteo


Cuales fueron los horarios de twitteo


Datos de interés

  • Urls: se han encontrado  1.112 urls, de las cuales 549 eran distintas, con un índice de repetición de 2,03. Se han detectado 845 urls acortadas, lo que supone un 76%. El servicio cortador más extendido es bit.ly con un 65,9%.
  • Tendencias: Se detecta un interés creciente en Twitter. En la conferencia WWW2009 se utilizó  como herramienta de comunicación y ahora se estudia como fenómeno emergente. Se encuentra presente en el top ten de las urls con más RTs y clicks.
  • RT vs. Clicks: No se ha encontrado una correlación entre el número de retransmisiones de los tweets y el numero de clicks alcanzados, como se puede ver en la siguiente figura:


Metodología

  • Se han utilizado herramientas propia para extraer la información (programadas en Python)
  • Se ha utilizado el API de bit.ly con la librería Python-bitly de  yoav.aviram para obtener los clicks y las urls reales y el número de clicks
  • Las visualizaciones se han realizado con many eyes

DataSet:

Post relacionados:


  • RSS feed
  • Twitter
  • Linked In
  • Facebook
  • YouTube