Tanto los que estén interesados en la visualización de datos como los que sientan curiosidad por ella, ya pueden ir reservando en su agenda los días 13,14, 20, 21, 26, 27 y 29 de octubre porque CAMON Madrid organiza unos talleres de entrada libre sobre visualización de datos.
El espacio de CAMON Madrid, situado en Plaza de Moncloa, 1, (acceso por calle Princesa) es un espacio tecnológico de interacción y creación que inicia su actividad en Madrid siguiendo los pasos que su hermano mayor de Alicante.
La visualización de datos es una materia que no tiene un encuadre concreto en los espacios académicos. Tal vez por su diversidad y por su naturaleza transversal. Se ha desarrollado desde distintos frentes como ayuda al análisis de redes y sistemas complejos, como herramienta de comunicación avanzada o como expresión artística. Se ha divulgado generalmente por Internet y cada vez hay más herramientas de visualización y plataformas para desarrollar visualizaciones ad hoc.
El objetivo del taller es reunir la información sobre Visualización dispersa por Internet y poder evaluar y comparar los recursos existentes.
El taller lo impartiré junto a Ana Belén García Parra, Juan José Martín Rodríguez y Miguel Ángel Cañas Vaz y se ha estructurado en cuatro módulos:
Estado del arte y visualización básica: taller compuesto de teoría y una práctica con la herramienta Many Eyes. Orientado a un público general interesado en conocer lo que es la visualización. No requiere ningún conocimiento técnico previo.
Visualización de redes: taller eminentemente práctico sobre como realizar visualización de redes utilizando cuatro herramientas diferentes. Se explicarán los distintos formatos que utilizan las herramientas y cómo generarlos. Orientado a personas interesadas en análisis de redes. No requiere requiere conocimientos de programación.
Visualización en entornos Javascript/java: Taller práctico de uso de los APIs o las librerías de visualización. Orientado a desarrolladores en entornos javascript/java con conocimientos de programación en estos entornos.
Visualización en entornos flash: Taller práctico de uso de la librerías de visualización en estos entornos. Orientado a desarrolladores en entornos flash con conocimientos de actionscript.
Se van a utilizar los datos de Twitter del pasado mundial de baloncesto y se realizan distintos tipos de visualizaciones para comparar el grado de funcionalidad e interactividad de las distintas herramientas.
En la web de CAMON encontrarás toda la información sobre los módulos del taller de visualización. El acceso es libre y sólo tenéis que apuntaros aquí.
Correlación entre el nº de clicks y los RTs entre los tweets que se han retransmitido cinco o más veces.
Para acceder a la visualización interactiva, pulsar en la imagen
Una de las preguntas que me hacía en el análisis del hashtag #manifiesto era si existía alguna correlación entre la retransmisión de una url y el número de clicks que recibía. He podido comprobarlo analizando los clicks de la urls acordadas por el servicio bit.ly usando el API de bit.ly
En los datos recogidos hay valores muy extremos, siendo 0,007 el índice de correlación lineal de la muestra total. Aparecen urls con miles de clicks que no se han retransmitido, mientras que otras muy retransmitidas no han llegado a cien clicks. Sin embargo, si se calcula la correlación segregando la muestra en función del número de RTs el índice aumenta hasta el 0,41 para las urls que han tenido 5 o más RTs (caso que ilustra la cabecera del post). La siguiente imagen muestra el índice de correlación entre los clicks y los RTs en función de la muestra segregada por nº de RTs.
No se puede concluir nada concreto de estos datos y es preciso medir otros valores como el número de seguidores para intentar aproximarse a una medida de la influencia del emisor del tweet. Para calcularla aún debo esperar un poco.
Antecedentes
Cuando analicé lasurls del los tweets del hashtag #manifiesto, descubrí que las urls acortadas son una barrera para estudiar los enlaces que aparecen en los tweets. De una muestra de 20.236 tweets que contenían links, el 82% estaban acortados. El coste en tiempo que supone expandir la url y la tasa de error dificultan obtener el enlace real. Para alargar una url se precisa un acceso http por lo que se dispara el tiempo de tratamiento, pasando a hablar de unidades de segundopor enlace.
Comentando con mi grupo de investigación esta limitación estuvimos buscando alternativas para solventar el problema, como paralelizar los accesos http o intentar interactuar con los servicios acortadores. Siendo bit.ly con un 55,76%. el servicio más extendido parecía el candidato ideal para estudiar qué posibilidades ofrecía. @nordez, rápidamente vio el API de bit.ly y me pasó el enlace.
Aunque mi intención era intentar mejorar el tiempo de expansión de los enlaces utilizando el API por su posibilidad de enviar peticiones de un grupo de urls, me llamó la atención una opción que permite obtener el número de clicks de un link dado y me distrajo del objetivo. La información que proporciona el API de los clicks está muy simplificada, tan solo se obtienen los clicks por usuario y los globales, mucho menos de los que suministra la interfaz web cuando a la url corta de bit.ly se le añade un + al final, pero supongo que se estarán reservando para opciones premium.
Metodología
He probado el API de bit.ly con la librería Python-bitly de yoav.aviram para analizar los clicks de las urls acortadas con bit.ly. Procesar 4.331 urls ha llevado 78m 50.546s. aproximadamente 1,09 segundos por url y se han producido 37 errores (0,85%). De los datos obtenidos se han eliminado las urls que se han comprimido anónimamente porque no aparece su número de clicks, quedando en 3.636 urls. Todos lo datos obtenidos están disponibles en este dataset.
Inmersos en la economía de la atención, la visualización es un recurso muy poderoso para comunicar en un solo flash toda una vida profesional. En lo tiempos que corren es imprescindible tener actualizado el C.V. y que su mensaje cale rápida y eficazmente en los destinatarios.
Hace un par de meses encontré un interesante post titulado Building a Visual Resume y me pareció tan buena idea que lo “tuiteé“. A @cristaljar también le pareció útil y nos intercambiamos algunos tweets.
Entre otras cosas @cristaljar me comentó su dudas de poder hacer un C.V. visual bueno. Esto me dio que pensar y busqué la manera de poder generar este tipo de CV mediante una herramienta que si bien su resultado no sería tan brillante como los que mostraba el post, tendría la eficacia visual buscada.
Este es el resultado de mi C.V. con dos vistas:
Enfatizando las instituciones en las que he trabajado
Resaltando mi carrera profesional
Como lo he hecho
Preparar datos de origen: Tabla con las siguientes columnas: Empresa, Evento-Fin, Evento_ini, Puesto, Proyectos, Color. El formato es texto separado por tabulaciones. Estos son los ficheros para la vista de empresa y para la vista de carrera.
Transformar datos a formato dot: Se aplica un filtro awk al fichero detexto separado por tabulaciones y se genera un fichero en formato dot invocando a los scripts awk para la vista de empresa o para la vista de carrera de esta manera.
La campaña de “Tijeras No” fue una reacción contra los recortes de I+D en la que afloraron el barrio de blogs vinculados a la Ciencia. La movilización a favor de la Ciencia y la rápida propagación de la campaña despertó mi curiosidad asaltándome una serie de preguntas que han sido la motivación que me ha llevado a recoger los datos de los participantes en la campaña para analizarlos.
Con este experimento se intentará responder a las preguntas:
¿Qué relación existe entre los blogs que han participado en la campaña de la campaña?
¿Cómo fue la propagación?
¿Influyó Twitter en la propagación?
¿Qué relación existe entre los blogs que han participado en la campaña de la campaña?
En el siguiente vídeo contiene una animación de la red que forman los blogs que no amaban los recortes en la ciencia. El código de color es:
Verde los adheridos antes del día D (7 de octubre)
Rojo los adheridos el día D,
Azul los adheridos después del día D
El tamaño de los nodos es directamente proporcional al número de enlaces entrantes, por tanto los de mayor tamaño son los hubs.
La red tiene 1012 nodos y un núcleo pequeño bienconectado (36%) y una extensa periferia sin conectar (64%). El número de enlaces entrantes de cada blog desde los blogs que participaron en la campaña sigue, una power law, como se puede ver en esta visualización que se ha generado en manyeyes. El 20% de los blogs tiene más del 80% de los enlaces.
En el grafo destacan como hubs los siguientes blogs:
Data set: se obtuvo de los comentarios del post de la convocatoria de La aldea irreductible. Consta de 1012 urls de los blogs adheridos a la campaña con su timestamp.
Estos datos se han transformado con la herramienta lestat para calcular los enlaces entre los blogs. Este es el dataset en formato textual separado por tabulaciones.
Recursos gráficos: se usa la visualización de un grafo en el que los nodos son los blogs y sus enlaces los arcos. Se realizarán distintos layauts según la necesidad de análisis y se establece una simbología basada en:
El color: se utiliza el color para clasificar los distintos nodos. Por ejemplo se aplica el color para distinguir con que celeridad se han apuntado los blogs a la campaña o qué blogs tienen usuario Twitter y cuales no.
Tamaño: se aplican distintos tamaños a los nodos según su importancia dentro del grafo. Uno de los criterios de importancia es el número de enlaces entrantes que tiene cada blog, lo que permite identificar visualmente cuales son los hubs de esta red.
En este caso se ha usado la herramienta java Gephi, que es muy adecuada por sus features para visualizar redes de cierto tamaño. El formato de entrada a la herramienta es gexf que incluye el tiempo como atributo para poder realizar visualizaciones dinámicas, aunque aún no han liberado esa funcionalidad. ¡¡¡¡Estoy expectante de que lo hagan!!!!
Para los más curiosos dejo los datos de entrada para Gephi para que puedan ver con sus propios ojos cómo funciona la herramienta:
Se han generado dos visualizaciones
Genérico: con sólo los nombres de los hubs para facilitar una visualización en pequeño tamaño. Fichero con los datos gexf y proyecto para cargar en gephi
Detallado: con los nombres de todos los blogs para poder navegar el grafo haciendo zoom y viendo todos los detalles de los nodos. Fichero con los datos gexf y proyecto para cargar en gephi
El zoom en Gephi se controla con la rueda del ratón.
Tíscar habló de su tesis sobre “Construcción de identidad profesional a través el blog personal de periodistas”, las dificultades de manejar los datos y de nuestra colaboración que se inicio en el Medialab Prado. Enseñamos nuestra primera maqueta de Barriblog de la que nos llevamos un feedback de Jose Luis Molina, que espero poder implementar.
Aproveché la ocasión para hablar de las experiencias en visualización con las que he experimentado este ultimo año y que se pueden ver a continuación
Allí me reencontré con Edgar Gómez recién llegado de México y dispuesto a escribir su tesis y con Enric Senabre del equipo de OCS que conocí en el Madialab Prado. Pudimos interactuar con los asistentes antes y después del seminario en torno a unos refrescos. Qué menos que socializar en un seminario sobre redes sociales :-) y quedar enlazados por Twitter o Facebook.
Fue muy agradable conocer a Jose Luis Molina que presentó sus trabajos de antropología basados en los estudios de las migraciones. Se apoya en la visualización para crear modelos visuales de representación de relaciones sociales que le permiten comparar comportamientos sociales. Además de un trabajo de investigación muy interesante tiene una aplicación práctica a la mejora social.