Posts Tagged ‘blogs’

El EBE10 visto desde twitter

No Comments »

El EBE es uno de mis eventos favoritos. Es el lugar donde han tenido lugar más desvirtualizaciones y en el que los organizadores, José Luis Antúnez (@jlantunez), Benito Castro (@benitocastro) y Luis Rull (@luisrull) crean una atmósfera tal, que uno piensa que todo el mundo es bloguero. Estuve allí en el 2007 y no he repetido por falta de tiempo, no por falta ganas y espero asistir el año que viene.

No hay evento mejor para averiguar quién pulula por el centro de la blogosfera de España. Para ello se ha realizado un grafo de las menciones en Twitter entre los asistentes presenciales y presuntúales (término creado por Fernando Sáez Vacas). La siguiente imagen muestra el zoom del grafo que desvela los blogueros más centrales.


El tamaño de los nodos depende del número de menciones obtenidas y realizadas (Degree)

Código de colores:

  • Rojo= Usuarios que pertenecen al grupo de los 50 más mencionados y los 50 más activos twiteando,
  • Verde= Usuarios que están entre los 50 más mencionados,
  • Azul oscuro= Los 50 usuarios que más han twiteado.
  • Azul twitter= Resto de los usuarios.

El grafo general del EBE desvela que hay más conversación en la periferia que en el grafo de FICOD

También se puede apreciar cómo cambia la tonalidad del grafo si se representa el color en función del número de followers

Código de color según número de seguidores:

  • Gris claro=entre 0 y 9 .
  • Amarillo= entre 10 y 99.
  • Verde= entre 100 y 999.
  • Azul= entre 1000 y 9.999.
  • Morado= entre 10.000 y 99.999.
  • Rojo= entre 100.000 y 1.000.000.

Y como no, ¿cuál es el color predominante de los nodos más centrales según el número de seguidores?


Finalmente, ¿quién no siente curiosidad por saber cómo son las relaciones entre los blogueros más populares y los mas participativos?

El código de color utilizado es:

  • Rojo= entre los más mencionados y los más activos,
  • Verde= Entre los más mencionados,
  • Azul oscuro= Los más activos twiteando

El tamaño de los grafos difiere según la medida de la relevancia

Destacando la participación en el EBE:


ebe_top_out_degree (pdf)

Acentuando la influencia en el EBE

ebe_top_in_degree(pdf)

Juntando influencia y participación

ebe_top_degree (pdf)

Datos de interés

  • Se recogieron 43.854 tweets de 7.370 usuarios distintos que dieron lugar a 30.905 menciones a 7.896 usuarios.
  • Los tweets fueron recogidos con una aplicación propia usando el Streaming API de Twitter desde 12 de noviembre de 2010 a las 19:40:57  hasta el 21 de noviembre  a las 23:15:31
    monitorizando los hashtags #EBE, #EBE10, #EBE2010
  • El grafo se ha generado con una herramienta propia
  • Las visualizaciones se han realizado con la aplicación Gephi

Blogs vs. Prensa en el hashtag #manifiesto

4 Comments »

Nunca se sabe la dificultad que entraña hacer algo hasta que no se pone una a ello. Pensé que sería trivial extraer las urls de los tweets del hashtag #manifiesto y me equivoqué de lado a lado. La mayor barrera han sido las urls acortadas que es necesario expandirlas para poder analizarlas. Este pequeño detalle implica acceder a la web (consumo masivo de tiempo) y bregar con los errores de las urls (los errores humanos y de red). El script para extraer esta información ha tardado en ejecutarse más de 12 horas y debido a los errores he tenido que lanzarlo cuatro veces. Pero la paciente labor del investigador siempre tiene su recompensa y a continuación presento el análisis de las 20.236 urls que he obtenido.

Mapa de sitios más referenciados en los tweets

(Para acceder a  la visualización interactiva pulsar en la imagen)

La imagen anterior ilustra el reparto de menciones a sitios web estructurados por blogs, prensa, redes sociales, TV, video, Organizaciones,wikis, etc..  Se ha utilizado una visualización treemap que ilustra muy bien la parcelación de los sitios webs al ser el tamaño de las “parcelas“  directamente proporcional al número de referencias. Como se puede observar, hay dos grandes “fincas”: las de los blogs y la de la prensa, el resto de medios se aglutina en una tercer territorio misceláneo. El terreno de los blogs es ligeramente más extenso y está bastante uniformemente distribuido, destacando Mangas Verdes, eDans y Alt140. En el territorio de la prensa dominan cuatro latifundios El Pais, PúblicoABC, 20 Minutos y El Mundo. Cabe destacar que ha circulado más información textual que multimedia.

La siguiente imagen muestra el  topten de sitios mencionados En él se encuentran presentes la prensa, las redes sociales y los  blogs.

(Para acceder a  la visualización interactiva pulsar en la imagen)

Topten de tweets mencionados

Analizando el detalle de las 6.199 urls diferentes encontradas se observa que los mensajes que más se han difundido han sido los de los blogs, dos grupos de facebook, un vídeo de youtube, un wiki de una organización y un post de una cadena de televisión. Las noticias de los grandes medios de prensa se han difundido menos.

Sitio Post N. Menciones
Merodeando No cuela 106
Facebook Grupo de alicante 100
eDans La política del maquillaje
91
Facebook Exigimos conocer el Acuerdo Comercial Anti-Falsificación #ACTA 88
Linotipo El #manifiesto y la ética hácker 88
Escolar Manifiesto: en defensa de los derechos fundamentales en Internet 87
Youtube Sinde, pirate ya. La lección de Punset 85
Gallir Tienen razónl a sgae, la coalicion y el ministerio de cultura 81
Wiki Manifiestointernet.org 75
Cuatro Los internautas y la oposición rechazan el modelo para el cierre de ‘webs 73

Como curiosidad la url más mencionada http://es.twirus.com/ con 321 menciones es un servicio que twitea los hashtags más calientes y por tanto se ha excluido del ranking.

Acortadores de urls

Una característica de los tweets es el uso de acortadores de urls para optimizar el espacio de los tweets. El 82% de las urls estaban acortadas. Me he sorprendido al identificar 103 acortadores diferentes. Se observa que además de los servicios web, algunos blogs utilizan su propio sistema de reducción del tamaño de sus urls.

bit.ly destaca sobre todos los sistemas de acortar url con un 55.76% seguido de tinyurl.com con una cuota del 16.17%

(Para acceder a  la visualización interactiva pulsar en la imagen. )

Conclusiones

  • Los usuarios de twtiter consumen más información de los blogs que de la prensa
  • La información de la prensa está más centralizada por lo que sus sitios son los más referenciados
  • Se propaga mejor la información cuyo origen es un blog, youtube o facebook
  • Las urls acortadas son absoluta mayoría creando una dependencia a estos sistemas para acceder a la información y dificultando los mecanismos automáticos de extracción de datos.

Metodología usada

  • Se ha utilizado el lenguaje python para extraer la información
  • Se extrajeron 21.905 urls con una tasa de fallo por error de acceso al descomprimir las urls acortadas del 7,6%. El proceso de extracción duró más de 12 horas
  • Se procesaron automáticamente 20.236 urls para obtener los sitios más mencionados, las urls más referenciadas y los  distintos acortadores de url.  Se ha realizado una revisión manual de las urls acortadas porque dieron algunos falsos positivos

El data set

Enlaces relacionados:


Twitter es el detonador, los blogs son la mecha

2 Comments »

Propagación de tijerasNO, Parte III.  Experimento completo en BarriBlog Wiki

Con este post se finaliza el estudio de propagación de la campaña de TijerasNo. En este caso se visualiza la tercera cuestión del experimento: ¿Influyó Twitter en la propagación?

.

Propagación de la campaña TijerasNO en Twitter y blogs from M. Luz Congosto on Vimeo.

Se ha escogido una visualización con un layout circular realizada con la herramienta SoNIA. El código de color es:

  • Azul twitter: para los bloggers que SI tienen usuario en Twitter
  • Negro: para los que NO tienen usuario Twitter

El tamaño de los nodos es directamente proporcional al número de enlaces entrantes al blog, por tanto los de mayor tamaño son los hubs.

Como se observa en la visualización en las primeras horas del inicio de la campaña hay un conjunto de blogs que tiene dos características: son hubs y tienen usuario Twitter. El resto de la campaña se propagó por blogs que en su mayoría no tienen usuario Twitter.

Llama la atención el escaso número de bloggers partidarios de la ciencia que están en el twitterverse, lo que induce a pensar que  twitter no está tan extendido como parece entre los bloggers.

Conclusión

Twitter influyó al propagar la campaña  rápidamente a entre blogs que tienen  bastante influencia y que  actuaron de detonante para extender  la campaña en la blogoesfera que se comportó como una lenta mecha que dio lugar a la publicación de más de mil posts el día 7 de octubre y cuya repercusión saltó a otros medios de comunicación.

Twitter y los blogs son dos medios diferentes que se complementan y se necesitan para la propagación de campañas.

Datos de entrada a la herramienta:


Propagación de tijerasNO, Parte II

No Comments »

Continuación del post Propagación de tijerasNO, parte I

Experimento completo en BarriBlog Wiki

En este post visualiza la segunda cuestión del experimento: ¿Cómo fue la propagación? Para ello he tenido que recurrir a herramientas que permitan cierta interactividad y no he encontrado ninguna que me haya convencido al 100%, por lo que muestro dos visualizaciones en distintas herramientas. Se han utilizado SoNIA y Pajek, ambas permiten visualizaciones teniendo en cuenta la evolución en el tiempo.

Visualización con SoNIA

Layout circular con los enlaces invisibles para resaltar los nombres de los Hubs

.

Propagación de la campaña TijerasNO en los blogs. Layout circular from M. Luz Congosto on Vimeo.

.

Visualización con Pajek

Layout Fruchterman-Reingold ajustado manualmente.

.
.

Propagación blogs de TijerasNO. Layout Fruchterman-Reingold from M. Luz Congosto on Vimeo.

.

El código de color es el mismo que se utilizó en la visualización del post anterior:
• Verde los adheridos antes del día D (7 de octubre)
• Rojo los adheridos el día D,
• Azul los adheridos después del día D

El tamaño de los nodos es directamente proporcional al número de enlaces entrantes, por tanto los de mayor tamaño son los hubs.

Como se observa en ambas visualizaciones, en la propagación de los tres primeros días, del 2 al 5 de octubre, participan la mayoría de los Hubs, durante los dos días siguientes ningún Hub se hace eco. El día D, el 7 de octubre, un Hub y bastante blogs poco conectados se apuntan a la campaña, posiblemente debido a la repercusión del evento en medios externos a la blogosfera. Después de la campaña la propagación se apaga lentamente aunque el día  9 de octubre aparece un Hub tardío.

Datos de entrada a las herramientas:


Buscando los blogs que no amaban los recortes en la Ciencia

9 Comments »

Conocí la iniciativa La ciencia en España no necesita tijeras y al seguir su evolución el día 7 de octubre  pude ver  el fuerte respaldo que alcanzó. Enseguida se me pasó por la cabeza averiguar cuál sería el barrio de blogs que no amaban los recortes en la ciencia y me puse manos a la obra.

La siguiente imagen es el tag cloud de los títulos de los 794 795 posts que se escribieron para la campaña en la que participaron 898 899 blogs, entre ellos el mío.

la-ciencia-no-necesita-tijeras

Para buscar este barrio de blogs tuve que realizar algunas tareas automáticas y otras manuales. Siempre luchado contra el paso del tiempo que entierra los post en el subsuelo de las homepages y complica la búsqueda. Estos son las pasos que seguí para descubrir los blogs.

1. Fuentes  existentes de la información

  1. Comentarios del post de la convocatoria: La forma de apuntarse a la iniciativa era dejar un comentario en el post de la convocatoria indicando el blog que se adhería.
  2. Lista de los primeros 650 blogs:  El blog que lanzó la campaña confeccionó la primera lista con 650 Blogs.
  3. Web Cienciastijeras:  Después de esta primera recopilación se siguieron apuntando más blogs y se pidieron colaboradores para seguir anotándolos, esta web recogió todos los blogs que apoyaban la campaña.

2. Fuentes usadas

  • Para la lista de los posts publicados

  • Lista de los primeros 650 blogs: se obtuvieron fácilmente las urls de esta lista.
  • Comentarios del post de la convocatoria: se extrajeron las urls de los blogs que no estaban en la lista anterior
  • Fuentes usadas para las visualizaciones

  • Comentarios del post de la convocatoria: se extrajeron las 1012 urls de los blogs que dejaron su comentario junto con su fecha y hora para poder realizar timelines. En las visualizaciones están excluidos los blogs que no dejaron comentario en el post de la convocatoria aunque estuvieran en la lista de La Aldea Irreductible por no tener certeza de su timestamp.

3. Verificación de la información y filtrado de errores

  • Corrección de errores de sintaxis de las urls
  • Conversión de urls cortas a su nombre real.
  • Normalización de la url de la página principal.
  • Eliminación de urls repetidas
  • Descarte de  las urls que no eran blogs: fickr, youtube, linkedin,etc..

4. Herramientas de obtención del Barrios de blogs

  • Lestat: Se utilizó una versión reducida para analizar solo la página principal obteniendo de cada blog:
  • Lista de los enlaces internos y externos clasificados según el contexto del blog: Cabecera, lateral, post, pié de post, archivo de históricos y pie de blog.e
  • Lista de las  urls de los feeds
  • Lista de las urls que podrían pertenecer al blogroll
  • Lista de las urls de usuarios twitter
  • Posproceso de la información generada por lestat
  • Obtención de los enlaces salientes pertenecientes al conjunto de blogs estudiado
  • Obtención del post escrito para la campaña.  Al no estar familiarizada con una herramienta de parseo de feeds, por razones de tiempo los post se obtuvieron analizando las urls del código html. Para los siguientes experimentos se considera imprescindible poder analizar feeds.

5. Revisión de los resultados y corrección manual de los errores

  • Resolver problemas con los caracteres de más de 7 bits ( acentos, ñ, etc..)
  • Completar las urls de los posts que no habían sido encontradas por:
  • No estar ya en la página principal
  • No haberse publicado. Algunos blogs pusieron el logo de la campaña pero no escribieron el post
  • No contener en la url el título del post. Los blogs de Blogia y algunos WordPress codifican el enlace de las entradas con un código numérico.
  • No estar accesibles por: ser privados, tener control de acceso para adultos o  estar temporalmente fuera de servicio.

Resultados de esta primera fase:

  • Lista de blogs con el enlace al post publicado para la campaña, accesible en esta página.
  • Data set obtenido en formato xls.

Siguientes pasos a seguir:

  • Visualizar las relaciones de los blogs que han participado en la campaña, a ser posible de forma dinámica para ver como se ha propagado la iniciativa.
  • Obtención de la correspondencia blog-twitter para visualizar las relaciones de estos blogs en twitter
  • Obtención de conclusiones sobre la propagación de la campaña.
Related Posts Plugin for WordPress, Blogger...