Archive for the ‘Experimentos’ Category

No por mucho tuitear amanece más temprano

7 Comments »

Actualizado 10-09-2011:


Perdonar la confusión que puedo generar pero lamentablemente cometí un error en el ajuste de la hora GMT a la hora de España. En vez de sumar 2 en las regiones de la Península y Baleares y 1 en Las Islas  Canarias, lo resté, de forma que los datos están adelantados 4 horas. Además, por un fallo del algoritmo los datos correspondían a la última semana de julio y no a la media de los datos del mes .

Esto cambia mucho el análisis,  encontrarán tachado en este post lo que no es cierto y pueden acceder  aquí a la versión revisada.

Cada vez más Twitter forma parte de la rutina de las personas, desde el ordenador, la tableta o el smartphone los usuarios siguen su TL y publican sus tweets. Gracias a la movilidad el lugar no es un handicap, tan solo el descanso o las tareas prioritarias son un freno para su uso. Por este motivo, analizando la actividad de sus usuarios se pueden deducir sus costumbres, permitiendo responder a preguntas como estas:

  • ¿Qué patrón de publicación siguen las distintas regiones de España?
  • ¿Se publica más por la mañana o por la tarde?
  • ¿Qué regiones madrugan o trasnochan más?
  • ¿Hay diferencia entre el Norte y el Sur o entre la Península y las Islas?
  • ¿Cuál es el perfil de las regiones con grandes ciudades?

Todas estas preguntas tienen su respuesta en la siguiente gráfica que muestra el porcentaje de tweets publicados en cada hora durante el mes de julio en distintas regiones de España. En esta imagen estática aparece destacado Madrid pero pulsando en ella se puede acceder a la gráfica interactiva y seleccionar otras regiones o una combinación de ellas. En la gráfica aparecen de forma diferenciada los patrones de publicación de la semana laboral y del fin de semana

Esta imagen esta adenlantada 4 horas

Conclusiones:

  • En los dominios de Twitter nunca se pone el sol. Siempre hay usuarios tuiteando a todas horas, no existe la noche para twitter.
  • El mismo patrón de tráfico que el del Teléfono. Al ver la curva de tráfico de los tweets me vinieron a la memoria los tiempos en que trabajaba en conmuntación de circuitos porque se parece mucho al tráfico de llamadas telefónicas. Twitter no es más que otro canal para comunicarnos con los demás. Aunque tanto en la semana laboral como en el fin de semana los picos de publicación son a las 9:00 y a las 19:00, las curvas son algo diferentes. Durante la semana laboral toma forma de camello con dos jorobas pero en el fin de semana aparece una tercera joroba a las 11:00. Esta protuberancia puede deberse a los dormilones que se incorporan al TL y si esta hipótesis fuera cierta, los madrileños son a los que se le pegan más las sábanas.
  • Mañanas vs. Tardes: Madrid marca una diferencia en la semana laboral porque tuitea más por las mañanas que por las tardes, pero en fin de semana sigue el mismo patrón que el resto de regiones. ¿será que en los días laborables de 18:00 a 20:00 están todos los madrileños en el atasco de tráfico? En la hora de la comida el País Vasco y el Noroeste son los que tienen más baja la frecuencia de publicación, cosa totalmente lógica dado que la tarea de comer no es nada trivial en el norte y requiere de toda su concentración. Por las tardes el Noroeste y Canarias son los que tienen una mayor actividad tuitera.
  • Madrugadores vs. Trasnochadores la más madrugadora es Cataluña pero le siguen de cerca Madrid, País Vasco y Canarias. Los más trasnochadores son Aragón y Baleares.
  • Norte vs. Sur: En cultura digital está todo por escribir. Se parece más el patrón de publicación del País Vasco al del Sur que al resto de las regiones del Norte.
  • Islas vs. Península: las islas no pueden ser más diferentes, Canarias es madrugadora y Mallorca es trasnochadora. Canarias se parece al Sur y Mallorca no tiene parecido con ninguna otra región.
  • Grandes ciudades: El volumen de tweets generado desde las grandes ciudades hace que las regiones a las que pertenecen queden condicionadas al patrón de las grandes urbes. Tanto Madrid como Cataluña muestran unos perfiles similares de publicación, ambas son madrugadoras y tienen menos actividad por la tarde que el resto de regiones..

Metodología:

  • Datos recogidos de Twitter del 1 al 31 de Julio de 2011, 32.878.321 tweets de 1.660.275 usuarios únicos, con la siguiente distribución por regiones:
    • Aragón: 1.003.958 tweets de 46.219 usuarios únicos
    • Cataluña: 5.497.516 tweets de 284.585 usuarios únicos
    • Canarias: 871.765 tweets de 37.105 usuarios únicos
    • Levante: 3.016.412 tweets de 139.134 usuarios únicos
    • Madrid: 9.045.342 tweets de 586.313 usuarios únicos
    • Mallorca: 678.043 tweets de 41.318 usuarios únicos
    • Noroeste: 5.137.426 tweets de 234.447 usuarios únicos
    • País Vasco: 1.138.830 tweets de 59.578 usuarios únicos
    • Sur: 6.489.029 tweets de 231.576 usuarios únicos
  • Herramientas:
    • herramienta de minería de datos propia
    • Visualización con Tableau Public

Agudeza visual: encuentra las diferencias

1 Comment »

Busca las diferencias en estos treemaps, ha transcurrido entre ellos UN AÑO de la era Twitter.

Mención de enlaces en la campaña #manifiesto

Mención de enlaces en el 15-M


Documentos 15-M

3 Comments »

La semana pasada asistí en el MediaLab–Prado a una reunión del centro de documentación 15-M. Esta iniciativa ha nacido en la acampada de la Puerta del Sol y tiene por objetivo preservar la información generada durante el movimiento 15-M, tanto el archivo físico como el digital. En la reunión se aportaron ideas para definir los procedimientos para la recogida, almacenaje y catalogación de la información. El objetivo final es crear un archivo de acceso libre a todos los ciudadanos para un uso sin restricciones.

La colección de tweets del 15-M que estoy recogiendo desde el 13 de Mayo no se puede compartir por los términos de uso del API de Tweet, Sin embargo, estos tweets contienen un gran porcentaje de enlaces que pueden ser extraídos y compartidos. Además, es posible realizar su catalogación en función del tipo de Website al que pertenecen y valorar su relevancia por el número menciones en el conjunto de tweets. Una vez realizada la clasificación de los enlaces para el archivo digital del centro de documentación 15-M, he pensado que sería una buena idea representarlos en la siguiente visualización interactiva con un layout de treemap.

El primer nivel del la visualización contiene una división por categorías en el que el tamaño es proporcional al número de menciones recibidas. Cada una de estas divisiones está subdividida en casillas que se corresponden con sitios Web y cuyo tamaño también es proporcional al número de citas.
La interactividad se puede realizar bien pasando el ratón por una casilla y se obtendrá el nombre del Website o realizando una búsqueda en la entrada de datos situada en parte inferior de la visualización, en cuyo caso se iluminaran los datos seleccionados y en la parte superior derecha aparecerá el número de Websites y de menciones de la información seleccionada.

Metodología:

  1. 1.500.000 de tweets recogidos desde el 13 de mayo al 6 de junio de 2011 con el Streaming API de Twitter
  2. Clasificación manual en categorías de los Websites más relevantes que corresponden al 80% de los enlaces. La clasificación se realiza por el dominio principal de la url por lo que si algún medio ha subido fotografías o vídeos a servidores que no son de su dominio no se catalogan como medio
  3. Generación de los datos para visualizar agregando los enlaces por Websites catalogados
  4. Utilización de la librería protovis y un diseño realizado por Ana Belén García Parra para el curso de visualización de Camon

El código fuente disponible aquí


Evolución de la propagación del 15M en la plaza de Twitter

7 Comments »

Actualizado 22-05-2011 a las 23:59:59 GMT

Examinando con más detalle cómo los usuarios se van incorporando o permaneciendo en la plaza de Twitter se puede ir viendo la tendencia de crecimiento del movimiento.

En la siguiente imagen se puede observar la evolución de los usuarios únicos de cada día desglosados en usuarios nuevos y consolidados.

Ver Imagen interactiva en Tableau Public

Como se puede apreciar hay un punto de inflexión el día 19 de mayo en el que cambia la tendencia creciente de usuarios nuevos a decreciente, a partir del día 20 de mayo los usuarios consolidados decrecen ligeramente y el número de tweets baja considerablemente.


Elecciones a Rector de la uc3m vistas desde Twitter

4 Comments »

Actualizado a 14-3-2011 por una sugerencia de marcegs de incluir como menciones las abreviaturas de los candidatos (DP, LP, PM).

Hoy han sido las votaciones para la Primera vuelta de las Elecciones a Rector en la Universidad Carlos III. Llevo recogiendo los datos en Twitter desde el 26 de enero y no he querido desvelar ningún dato hasta que se cerraran las urnas. En este momento en que ha finalizado la jornada electoral publico los resultados de menciones.

En este conjunto de gráficas interactivas, realizadas con Tableau Public, cada una de las pestañas de la gráfica contiene la evolución de una entidad medida: Palabras clave como nombre del usuario Twitter de cada candidato o hashtags destacados (keywords), hashtags más frecuentes (hashtags), Palabras más frecuentes (words) y urls más mencionadas (urls).

Como se puede ver en las imágenes, la evolución de la campaña ha discurrido con un ritmo constante sin muchos altibajos hasta que en la recta final, con el debate de los candidatos a Rector, se ha producido un notable incremento en la frecuencia de publicación de tweets.

En esta campaña los tres candidatos tenían cuenta en Twitter por lo que se puede medir tanto las menciones como usuario como las menciones por su apellido[1].

Candidato Menciones (%)
% Como usuario % Por apellido
Daniel Peña 18,57% 51,40%
Paco Marcellán 41,61% 20,30%
Luciano Parejo 39,82% 28,30%

No se sabe a priori cuál de las dos menciones será la más significativa, habrá que esperar a los resultados para saberlo.

Actualización del 14-3-2011 por una sugerencia de marcegs de incluir como menciones las abreviaturas de los candidatos (DP, LP, PM).

Considero que las menciones por apellidos son similares a las de las abreviaturas por ser mención de nombre “analógico”, por eso las incluyo en el mismo grupo. El resultado no varía significativamente los porcentajes.

Candidato Menciones (%)
% Como usuario % Por apellido/Abreviatura
Daniel Peña 18,57% 50,77% ( -0,63% )
Paco Marcellán 41,61% 20,38% ( +0,08% )
Luciano Parejo 39,82% 28,85% ( +0,55% )

He aprovechado para cambiar la gráfica de palabras clave para poner solo las menciones a los candidatos.


[1] Se ha elegido el apellido de los tres candidatos porque no todas las menciones se han realizado con nombre y apellido y el apellido aparecía más veces que el nombre.

Related Posts Plugin for WordPress, Blogger...