Entorno de desarrollo
Lo que siempre quiso saber del API de Twitter y nunca se atrevió a preguntar
6 jul
Actualmente Twitter es una de las mayores fuentes de información en tiempo real de Internet alimentada por millones de usuarios. Durante el último mes he intentado buscar respuestas estas preguntas:
- ¿Cuál es la cantidad de tweets?
- ¿Qué se puede obtener con los APIs de Twitter?
- ¿Cuáles son las limitaciones del API de Twitter?
- ¿Qué persistencia tienen los tweets?
Compartiendo la herramienta tweets_info.py
25 may
Tenía pendiente hacer pública la herramienta que utilicé en el experimento del hashtag #manifiesto y en el resumen visual de la conferencia WWW2010. Me lo ha recordado @paco229 en este tweet:
paco229 en su momento @congosto dijo que iba a publicar los scripts que usó para hacerlo #inp
8:01 AM May 19th via TweetChat
Le he sacado un poco de brillo al script y lo he documentado para que lo pueda usar quién esté interesado en sacar información de Twitter.
El script asume que el formato de entrada es el modo texto de la herramienta tweetbackup. Está escrito en python y permite extraer la siguiente información de un conjunto de tweets:
- los autores y cuantos tweets han escrito
- las palabras y el número de veces que se han utilizado (es posible filtrar las palabras irrelevantes)
- los hastagh y el número de repeticiones
- el número de tweets por cada día
- el número de tweets por hora
- las urls y el número de repeticiones, el ranking de los sitios web mencionados y de los servicios acortadores de urls.
RTs vs. clicks
26 abr
Correlación entre el nº de clicks y los RTs entre los tweets que se han retransmitido cinco o más veces.
Para acceder a la visualización interactiva, pulsar en la imagen
Una de las preguntas que me hacía en el análisis del hashtag #manifiesto era si existía alguna correlación entre la retransmisión de una url y el número de clicks que recibía. He podido comprobarlo analizando los clicks de la urls acordadas por el servicio bit.ly usando el API de bit.ly En los datos recogidos hay valores muy extremos, siendo 0,007 el índice de correlación lineal de la muestra total. Aparecen urls con miles de clicks que no se han retransmitido, mientras que otras muy retransmitidas no han llegado a cien clicks. Sin embargo, si se calcula la correlación segregando la muestra en función del número de RTs el índice aumenta hasta el 0,41 para las urls que han tenido 5 o más RTs (caso que ilustra la cabecera del post). La siguiente imagen muestra el índice de correlación entre los clicks y los RTs en función de la muestra segregada por nº de RTs. No se puede concluir nada concreto de estos datos y es preciso medir otros valores como el número de seguidores para intentar aproximarse a una medida de la influencia del emisor del tweet. Más >
Explorando el camino del XHTML
17 jul
Los errores sintácticos han sido uno de los problemas que me he encontrado al analizar el código HTML de los blogs con el programa Lestat, como ya escribí hace tiempo en el post titulado El diablo cojuelo. Hace unas semanas Norberto Fernández, profesor de mi Departamento me sugirió que convirtiese el HTML de los blogs a XHTML y me indicó dos herramientas para hacerlo: tidy y html2xhtml.
Estas herramientas son capaces de convertir HTML en XHTML, ordenando, limpiando y corrigiendo los errores de markup. Las ventajas de trabajar con XHTML son múltiples: es un lenguaje de marcas bien estructurado, permite de recorrer el documento con XPATH o con XSLT.
La herramienta tidy, disponible en lenguaje c y java, fue desarrollada por Dave Raggett y como dice su autor:
Is an open source utility for tidying up HTML. Tidy is composed from an HTML parser and an HTML pretty printer. The parser goes to considerable lengths to correct common markup errors. It also provides advice on how to make your pages more accessible to people with disabilities, and can be used to convert HTML content into XML as XHTML. Tidy is W3C open source and available free. It has been successfully compiled on a large number of platforms, Más >
Despertando a Lestat
27 may
He despertado a Lestat para ampliar y mejorar sus funciones. Es una dura tarea retomar un programa que se ha dejado reposar demasiado tiempo. Con paciencia y perseverancia estoy intentando volver a entenderlo como el día que lo dejé aunque esto tiene su precio.
Una de las facturas que me ha pasado Lestat por este abandono ha sido un bug que me ha costado un poco encontrarlo. Estoy falta de reflejos pero en mi favor tengo que decir que el bug tenía un sentido del humor muy sutil. Aquí lo cuento para que juzgue el lector:
Una de las funciones que le he añadido a Lestat es un fichero de configuración para darle más flexibilidad en la ejecución. Para ello he definido una gramática que permita describir la configuración y la he analizado con lex/bison. Además de la definición del léxico de la gramática puse una expresión regular para descartar caracteres en blanco, tabulaciones y saltos de línea de esta manera
[\ \t\n]* y un default para gestionar errores léxicos que ejecutaba lo siguiente:
fprintf(stderr, "Error lexico en linea %d. Mira a ver si \'%s\' es el culpable.\n", yylineno, yytext);
fprintf(stderr,"Lestat le desea mejor suerte la proxima vez \n");
Al ejecutar el analizador del fichero de Más > 
Esta es la bitácora de M. Luz Congosto que he creado para recoger los avatares de esa aventura que se llama Doctorado. Soy una tesista en la Universidad Carlos III, descubriendo barrios de blogs






