Posts Tagged ‘#manifiesto’

† R.I.P. la ₤€¥ $IND€

1 Comment »

(Diseño del título copiado de los tweets de @mtascon)

El 2 de diciembre de 2009 nació el Manifiesto «En defensa de los derechos fundamentales en Internet» y por primera vez vi en Twitter como se organizaban los usuarios para protestar contra la Ley de la Economía Sostenible que bajo ese nombre incluía lo que luego se llamó la Ley Sinde.

De aquella protesta queda el estudio que realicé del hashtag #manifiesto que publiqué en marzo de 2010, que tuvo incluso su repercusión en prensa en 20 minutos y en ABC.  Retomé la monitorización de la protesta justo el día que dimitió Alex de la Iglesia y ayer que la ley pasó a mejor vida he querido hacer balance.

Nota: quiero advertir que estos datos son “de mínimos” ya que lo que he monitorizado es “Ley Sinde” y #leysinde por lo que puede haber tweets con otros hashtags que no se hayan recogido. No obstante, he pensado que sería interesante ver como ha evolucionado este tema en Twitter aunque los datos no sean totalmente completos.

En la siguiente gráfica muestra se encuentra el resumen de estos 10 últimos meses, y pulsando en ella se puede acceder a la imagen interactiva.

A continuación se encuentra un resumen de los mensajes más difundidos el día 2-12-2011

(para ver el contenido completo en html, pulsar en la imagen)


Agudeza visual: encuentra las diferencias

1 Comment »

Busca las diferencias en estos treemaps, ha transcurrido entre ellos UN AÑO de la era Twitter.

Mención de enlaces en la campaña #manifiesto

Mención de enlaces en el 15-M


RTs vs. clicks

1 Comment »

Correlación entre el nº de clicks y los RTs entre los tweets que se han retransmitido cinco o más veces.

Para acceder a la visualización interactiva, pulsar en la imagen

Una de las preguntas que me hacía en el análisis del hashtag #manifiesto era si existía alguna correlación entre la retransmisión de una url y el número de clicks que recibía. He podido comprobarlo analizando los clicks de la urls acordadas por el servicio bit.ly usando el API de bit.ly

En los datos recogidos hay valores muy extremos, siendo 0,007 el índice de correlación lineal de la muestra total. Aparecen urls con miles de clicks que no se han retransmitido, mientras que otras muy retransmitidas no han llegado a cien clicks. Sin embargo, si se calcula la  correlación segregando la muestra en función del número de RTs el índice aumenta hasta el 0,41 para las urls que han tenido 5 o más RTs (caso que ilustra la cabecera del post). La siguiente imagen muestra el índice de correlación entre los clicks y los RTs en función de la muestra segregada por nº de RTs.

No se puede concluir  nada concreto de estos datos y es preciso medir otros valores como el número de seguidores para intentar aproximarse  a una medida de la influencia del emisor del tweet. Para calcularla aún debo esperar un poco.

Antecedentes

Cuando analicé las urls del los tweets del hashtag #manifiesto, descubrí  que las urls acortadas son una barrera para estudiar los enlaces que aparecen en los tweets. De una muestra de 20.236 tweets que contenían links,  el 82% estaban acortados. El coste en tiempo que supone expandir la url y la tasa de error dificultan obtener el enlace real. Para alargar una url se precisa un acceso http por lo que se dispara el tiempo de tratamiento, pasando a hablar de unidades de segundo por enlace.

Comentando con mi grupo de investigación esta limitación estuvimos buscando alternativas para solventar el problema, como paralelizar los accesos http o intentar interactuar con los servicios acortadores. Siendo bit.ly con un 55,76%. el servicio más extendido parecía el candidato ideal para estudiar qué posibilidades ofrecía. @nordez, rápidamente vio el API de bit.ly y me pasó el enlace.

Aunque mi intención era intentar mejorar el tiempo de expansión de los enlaces utilizando el API por su posibilidad de enviar peticiones de un grupo de urls, me llamó la atención una opción que permite obtener el número de clicks de un link dado y me distrajo del objetivo. La información que proporciona el API de los clicks está muy simplificada, tan solo se obtienen los clicks por usuario y los globales, mucho menos de los que suministra la interfaz web cuando a la url corta de bit.ly se le añade un + al final, pero supongo que se estarán reservando para opciones premium.

Metodología

He probado el API de bit.ly con la librería Python-bitly de  yoav.aviram para analizar los clicks de las urls acortadas con bit.ly. Procesar 4.331 urls ha llevado 78m 50.546s. aproximadamente 1,09 segundos por url y se han producido 37 errores (0,85%).  De los datos obtenidos se han eliminado las urls que se han comprimido anónimamente porque no aparece su número de clicks, quedando en 3.636 urls. Todos lo datos obtenidos están disponibles en este dataset.

Enlaces relacionados:


Blogs vs. Prensa en el hashtag #manifiesto

4 Comments »

Nunca se sabe la dificultad que entraña hacer algo hasta que no se pone una a ello. Pensé que sería trivial extraer las urls de los tweets del hashtag #manifiesto y me equivoqué de lado a lado. La mayor barrera han sido las urls acortadas que es necesario expandirlas para poder analizarlas. Este pequeño detalle implica acceder a la web (consumo masivo de tiempo) y bregar con los errores de las urls (los errores humanos y de red). El script para extraer esta información ha tardado en ejecutarse más de 12 horas y debido a los errores he tenido que lanzarlo cuatro veces. Pero la paciente labor del investigador siempre tiene su recompensa y a continuación presento el análisis de las 20.236 urls que he obtenido.

Mapa de sitios más referenciados en los tweets

(Para acceder a  la visualización interactiva pulsar en la imagen)

La imagen anterior ilustra el reparto de menciones a sitios web estructurados por blogs, prensa, redes sociales, TV, video, Organizaciones,wikis, etc..  Se ha utilizado una visualización treemap que ilustra muy bien la parcelación de los sitios webs al ser el tamaño de las “parcelas“  directamente proporcional al número de referencias. Como se puede observar, hay dos grandes “fincas”: las de los blogs y la de la prensa, el resto de medios se aglutina en una tercer territorio misceláneo. El terreno de los blogs es ligeramente más extenso y está bastante uniformemente distribuido, destacando Mangas Verdes, eDans y Alt140. En el territorio de la prensa dominan cuatro latifundios El Pais, PúblicoABC, 20 Minutos y El Mundo. Cabe destacar que ha circulado más información textual que multimedia.

La siguiente imagen muestra el  topten de sitios mencionados En él se encuentran presentes la prensa, las redes sociales y los  blogs.

(Para acceder a  la visualización interactiva pulsar en la imagen)

Topten de tweets mencionados

Analizando el detalle de las 6.199 urls diferentes encontradas se observa que los mensajes que más se han difundido han sido los de los blogs, dos grupos de facebook, un vídeo de youtube, un wiki de una organización y un post de una cadena de televisión. Las noticias de los grandes medios de prensa se han difundido menos.

Sitio Post N. Menciones
Merodeando No cuela 106
Facebook Grupo de alicante 100
eDans La política del maquillaje
91
Facebook Exigimos conocer el Acuerdo Comercial Anti-Falsificación #ACTA 88
Linotipo El #manifiesto y la ética hácker 88
Escolar Manifiesto: en defensa de los derechos fundamentales en Internet 87
Youtube Sinde, pirate ya. La lección de Punset 85
Gallir Tienen razónl a sgae, la coalicion y el ministerio de cultura 81
Wiki Manifiestointernet.org 75
Cuatro Los internautas y la oposición rechazan el modelo para el cierre de ‘webs 73

Como curiosidad la url más mencionada http://es.twirus.com/ con 321 menciones es un servicio que twitea los hashtags más calientes y por tanto se ha excluido del ranking.

Acortadores de urls

Una característica de los tweets es el uso de acortadores de urls para optimizar el espacio de los tweets. El 82% de las urls estaban acortadas. Me he sorprendido al identificar 103 acortadores diferentes. Se observa que además de los servicios web, algunos blogs utilizan su propio sistema de reducción del tamaño de sus urls.

bit.ly destaca sobre todos los sistemas de acortar url con un 55.76% seguido de tinyurl.com con una cuota del 16.17%

(Para acceder a  la visualización interactiva pulsar en la imagen. )

Conclusiones

  • Los usuarios de twtiter consumen más información de los blogs que de la prensa
  • La información de la prensa está más centralizada por lo que sus sitios son los más referenciados
  • Se propaga mejor la información cuyo origen es un blog, youtube o facebook
  • Las urls acortadas son absoluta mayoría creando una dependencia a estos sistemas para acceder a la información y dificultando los mecanismos automáticos de extracción de datos.

Metodología usada

  • Se ha utilizado el lenguaje python para extraer la información
  • Se extrajeron 21.905 urls con una tasa de fallo por error de acceso al descomprimir las urls acortadas del 7,6%. El proceso de extracción duró más de 12 horas
  • Se procesaron automáticamente 20.236 urls para obtener los sitios más mencionados, las urls más referenciadas y los  distintos acortadores de url.  Se ha realizado una revisión manual de las urls acortadas porque dieron algunos falsos positivos

El data set

Enlaces relacionados:


Analizando el hashtag #manifiesto

5 Comments »

El 2 de diciembre de 2009 pude observar en twitter el revuelo suscitado por la Ley de Economía Sostenible que contenía un caramelo envenenado para la cultura libre. Los tweets se fueron agrupando en torno al hashtag #manifiesto y en ese momento pensé en monitorizar esta información para analizarlo pasado unos meses. No me engañó la intuición.

El pasado 1 de abril, aprovechando las vacaciones y que tenía que practicar Python me puse a extraer alguna información relevante de los 37.131 tweets que tenía en ese momento. A falta de de tener a punto la herramienta que está haciendo un alumno en su PFC, usé el servicio tweet backup. No fue posible exportar los datos en formato rss debido a un error del servicio, posiblemente por el tamaño del fichero y lo descargué en formato html.

Me quedaba bastante trabajo por hacer pero fui sacando algunas píldoras de información por Twitter y contactando con los más destacados twitadores del hashtag #manifiesto: @edyvidal, @paco229 y @casteleiro. Tengo que agradecerles sus ideas y su ayuda a la difusión de los tweets.

Hoy, la Asociación de Internautas, el Portal TIC, el ABC y 20 minutos se han hecho eco de una de las visualizaciones que publique en Many Eyes y divulgué vía twitter. Como ha quedado la información un poco dispersa la voy a ir agrupándola en el blog como paso previo a la publicación en wiki de los experimentos

Autores

Se han detectado 6.449 autores diferentes, que siguen la ley de Pareto: el 20% de los autores han escrito el 78,35% de los tweets.

Gracias a la idea que me dio @paco229 visualicé en Many Eyes la cantidad de tweets publicados por los usuarios. El data set no es completo porque los 6.449 eran muchos para visualizar y solo subí a 298 autores que habían publicado más de 20 twets. El data set completo se puede obtener aquí.

Conversación:

Se extrajeron las palabras de los tweets eliminando las que eran irrelevantes como artículos y preposiciones.  Se obtuvieron dos versiones que se visualizaron con Wordle

Wordle: El RT en los tweets del hashtag #manifiesto del 2-12-2009 al 1-4-2010 Versión con RT: no se filtró el RT para que se pudiera observar la proporción entre la retransmisión de mensajes y mensajes originales. Como se puede apreciar la propagación ha sido muy intensa.

Pulsar en la imagen para verla en su tamaño real

Wordle: Palabaras de los tweets del hashtag #manifiesto del 2-12-2009 al 1-4-2010 Versión sin RT: filtrando los RT para que se pudiera ver la proporción de las palabras de la conversación más usadas.

Pulsar en la imagen para verla en su tamaño real.

datset hashtag

El tiempo

La frecuencia de tweets ha ido variando y se ha incrementado en en momentos claves como: 8-1-2010 primera reunión de Red Sostenible y 19-3-2010 se aprueba llevar la Ley al congreso sin cambios

Este es su timeline

Respecto a las horas de publicación, la hora punta de es las 12:00 a.m.

dataset de los datos de tiempo



Aún me queda por analizar:
  • Las url más mencionadas
  • Las cademas de RT
  • El grafo social de los autores de los tweets

Enlaces relacionados:

Related Posts Plugin for WordPress, Blogger...