De aquella protesta queda el estudio que realicé del hashtag #manifiesto que publiqué en marzo de 2010, que tuvo incluso su repercusión en prensa en 20 minutos y en ABC. Retomé la monitorización de la protesta justo el día que dimitió Alex de la Iglesia y ayer que la ley pasó a mejor vida he querido hacer balance.
Nota: quiero advertir que estos datos son “de mínimos” ya que lo que he monitorizado es “Ley Sinde” y #leysinde por lo que puede haber tweets con otros hashtags que no se hayan recogido. No obstante, he pensado que sería interesante ver como ha evolucionado este tema en Twitter aunque los datos no sean totalmente completos.
En la siguiente gráfica muestra se encuentra el resumen de estos 10 últimos meses, y pulsando en ella se puede acceder a la imagen interactiva.
A continuación se encuentra un resumen de los mensajes más difundidos el día 2-12-2011
(para ver el contenido completo en html, pulsar en la imagen)
Correlación entre el nº de clicks y los RTs entre los tweets que se han retransmitido cinco o más veces.
Para acceder a la visualización interactiva, pulsar en la imagen
Una de las preguntas que me hacía en el análisis del hashtag #manifiesto era si existía alguna correlación entre la retransmisión de una url y el número de clicks que recibía. He podido comprobarlo analizando los clicks de la urls acordadas por el servicio bit.ly usando el API de bit.ly
En los datos recogidos hay valores muy extremos, siendo 0,007 el índice de correlación lineal de la muestra total. Aparecen urls con miles de clicks que no se han retransmitido, mientras que otras muy retransmitidas no han llegado a cien clicks. Sin embargo, si se calcula la correlación segregando la muestra en función del número de RTs el índice aumenta hasta el 0,41 para las urls que han tenido 5 o más RTs (caso que ilustra la cabecera del post). La siguiente imagen muestra el índice de correlación entre los clicks y los RTs en función de la muestra segregada por nº de RTs.
No se puede concluir nada concreto de estos datos y es preciso medir otros valores como el número de seguidores para intentar aproximarse a una medida de la influencia del emisor del tweet. Para calcularla aún debo esperar un poco.
Antecedentes
Cuando analicé lasurls del los tweets del hashtag #manifiesto, descubrí que las urls acortadas son una barrera para estudiar los enlaces que aparecen en los tweets. De una muestra de 20.236 tweets que contenían links, el 82% estaban acortados. El coste en tiempo que supone expandir la url y la tasa de error dificultan obtener el enlace real. Para alargar una url se precisa un acceso http por lo que se dispara el tiempo de tratamiento, pasando a hablar de unidades de segundopor enlace.
Comentando con mi grupo de investigación esta limitación estuvimos buscando alternativas para solventar el problema, como paralelizar los accesos http o intentar interactuar con los servicios acortadores. Siendo bit.ly con un 55,76%. el servicio más extendido parecía el candidato ideal para estudiar qué posibilidades ofrecía. @nordez, rápidamente vio el API de bit.ly y me pasó el enlace.
Aunque mi intención era intentar mejorar el tiempo de expansión de los enlaces utilizando el API por su posibilidad de enviar peticiones de un grupo de urls, me llamó la atención una opción que permite obtener el número de clicks de un link dado y me distrajo del objetivo. La información que proporciona el API de los clicks está muy simplificada, tan solo se obtienen los clicks por usuario y los globales, mucho menos de los que suministra la interfaz web cuando a la url corta de bit.ly se le añade un + al final, pero supongo que se estarán reservando para opciones premium.
Metodología
He probado el API de bit.ly con la librería Python-bitly de yoav.aviram para analizar los clicks de las urls acortadas con bit.ly. Procesar 4.331 urls ha llevado 78m 50.546s. aproximadamente 1,09 segundos por url y se han producido 37 errores (0,85%). De los datos obtenidos se han eliminado las urls que se han comprimido anónimamente porque no aparece su número de clicks, quedando en 3.636 urls. Todos lo datos obtenidos están disponibles en este dataset.
Nunca se sabe la dificultad que entraña hacer algo hasta que no se pone una a ello. Pensé que sería trivial extraer las urls de los tweets del hashtag#manifiesto y me equivoqué de lado a lado. La mayor barrera han sido las urls acortadas que es necesario expandirlas para poder analizarlas. Este pequeño detalle implica acceder a la web (consumo masivo de tiempo) y bregar con los errores de las urls (los errores humanos y de red). El script para extraer esta información ha tardado en ejecutarse más de 12 horas y debido a los errores he tenido que lanzarlo cuatro veces. Pero la paciente labor del investigador siempre tiene su recompensa y a continuación presento el análisis de las 20.236 urls que he obtenido.
Mapa de sitios más referenciados en los tweets
(Para acceder a la visualización interactiva pulsar en la imagen)
La imagen anterior ilustra el reparto de menciones a sitios web estructurados por blogs, prensa, redes sociales, TV, video, Organizaciones,wikis, etc.. Se ha utilizado una visualización treemap que ilustra muy bien la parcelación de los sitios webs al ser el tamaño de las “parcelas“ directamente proporcional al número de referencias. Como se puede observar, hay dos grandes “fincas”: las de los blogs y la de la prensa, el resto de medios se aglutina en una tercer territorio misceláneo. El terreno de los blogs es ligeramente más extenso y está bastante uniformemente distribuido, destacando Mangas Verdes, eDans y Alt140. En el territorio de la prensa dominan cuatro latifundios El Pais, Público, ABC, 20 Minutos y El Mundo. Cabe destacar que ha circulado más información textualque multimedia.
La siguiente imagen muestra el topten de sitios mencionados En él se encuentran presentes la prensa, las redes sociales y los blogs.
(Para acceder a la visualización interactiva pulsar en la imagen)
Topten de tweets mencionados
Analizando el detalle de las 6.199 urls diferentes encontradas se observa que los mensajes que más se han difundido han sido los de los blogs, dos grupos de facebook, un vídeo de youtube, un wiki de una organización y un post de una cadena de televisión. Las noticias de los grandes medios de prensa se han difundido menos.
Como curiosidad la url más mencionada http://es.twirus.com/ con 321 menciones es un servicio que twitea los hashtags más calientes y por tanto se ha excluido del ranking.
Acortadores de urls
Una característica de los tweets es el uso de acortadores de urls para optimizar el espacio de los tweets. El 82% de las urls estaban acortadas. Me he sorprendido al identificar 103 acortadores diferentes. Se observa que además de los servicios web, algunos blogs utilizan su propio sistema de reducción del tamaño de sus urls.
bit.ly destaca sobre todos los sistemas de acortar url con un 55.76% seguido de tinyurl.com con una cuota del 16.17%
(Para acceder a la visualización interactiva pulsar en la imagen. )
Conclusiones
Los usuarios de twtiter consumen más información de los blogsque de la prensa
La información de la prensa está más centralizada por lo que sus sitios son los más referenciados
Se propaga mejor la información cuyo origen es un blog, youtube o facebook
Las urls acortadas son absoluta mayoría creando una dependencia a estos sistemas para acceder a la información y dificultando los mecanismos automáticos de extracción de datos.
Metodología usada
Se ha utilizado el lenguaje python para extraer la información
Se extrajeron 21.905 urls con una tasa de fallo por error de acceso al descomprimir las urls acortadas del 7,6%. El proceso de extracción duró más de 12 horas
Se procesaron automáticamente20.236 urls para obtener los sitios más mencionados, las urls más referenciadas y los distintos acortadores de url. Se ha realizado una revisión manual de las urls acortadas porque dieron algunos falsos positivos
El data set
Los datos obtenidos y procesados se encuentran en esta hoja de cálculo
El 2 de diciembre de 2009 pude observar en twitter el revuelo suscitado por la Ley de Economía Sostenible que contenía un caramelo envenenado para la cultura libre. Los tweets se fueron agrupando en torno al hashtag #manifiesto y en ese momento pensé en monitorizar esta información para analizarlo pasado unos meses. No me engañó la intuición.
El pasado 1 de abril, aprovechando las vacaciones y que tenía que practicar Python me puse a extraer alguna información relevante de los 37.131 tweets que tenía en ese momento. A falta de de tener a punto la herramienta que está haciendo un alumno en su PFC, usé el servicio tweet backup. No fue posible exportar los datos en formato rss debido a un error del servicio, posiblemente por el tamaño del fichero y lo descargué en formato html.
Me quedaba bastante trabajo por hacer pero fui sacando algunas píldoras de información por Twitter y contactando con los más destacados twitadores del hashtag #manifiesto: @edyvidal, @paco229 y @casteleiro.Tengo que agradecerles sus ideas y su ayuda a la difusión de los tweets.
Se extrajeron las palabras de los tweets eliminando las que eran irrelevantes como artículos y preposiciones. Se obtuvieron dos versiones que se visualizaron con Wordle
Versión con RT: no se filtró el RT para que se pudiera observar la proporción entre la retransmisión de mensajes y mensajes originales. Como se puede apreciar la propagación ha sido muy intensa.
Pulsar en la imagen para verla en su tamaño real
Versión sin RT: filtrando los RT para que se pudiera ver la proporción de las palabras de la conversación más usadas.
La frecuencia de tweets ha ido variando y se ha incrementado en en momentos claves como: 8-1-2010primera reunión de Red Sostenible y 19-3-2010se aprueba llevar la Ley al congreso sin cambios
Este es su timeline
Respecto a las horas de publicación, la hora punta de es las 12:00 a.m.