(Español) Como hacer minería de datos de Twitter y no morir en el intento

 

 

You may also like...

14 Responses

  1. Hoa Faustino:

    Encantada de conocer a otro minero de Twitter. Yo estoy usando python. Ya tenemos el DM para comunicarnos dudas o problemas.

  2. Hola
    He llegado aquí por casualidad, cortesía de #acampadasol. Me resulta muy interesante los distintos problemas que planteas. Los técnicos los resolví en su momento, salvando las distancias: para un producto de información bursatil uso el streaming con un número escogido de cuentas a las que seguir, pero el flujo es constante y, de momento y tocando todo el amazonas, sólo he tenido dos paradas del daemon en seis semanas.

    Uso PHP como lenguaje y MySQL como motor de datos, con la previsión de reprogramar el daemon en C++ cuando pase de un cierto límite de users a seguir. Y, si lo requiere, pasar el motor de datos a MongoDB. Almacenas los twits directamente en JSON, tal como llegan de twitter.

    En fín, si quieres que compartamos notas, o quieres que te comente más de mi sistema o ver el código, aquí estoy.

    un saludo.

  3. Hola Juanma,

    El número de tweets dependerá de la query que hagas.

    – Si la query tiene menos de 1500 tweets te dará los de la última semana
    – En los demás casos te dará los 1500, pero es conveniente que guardes el último tweet que te ha dado para que la proxima query se lo pases como parémtro (since=id_ultim_tweet) para no tener tweets repetidos. Esta vez te dará los que tenga. Si te da 1500 posiblemente no estás consultando con la frecuencia adecuada y estés perdiendo tweets
    Otra cosa es la paginación. Le puedes decir que te de lo tweets de 100 en 100 (rpp=100) para economizar querys (por defecto te los da de 15 en 15)
    En el API lo explica muy bien: http://apiwiki.twitter.com/w/page/22554756/Twitter-Search-API-Method:-search

  4. Juanma says:

    Hola Mari Luz, tengo una duda, cuando quieres traerte el mayor número de tweets con la search api (1500) sabes qué opción hay que utilizar?

  5. Hola juanma:

    No sabes lo que me alegra que os intereséis en la investigación sobre twitter, estoy un poco sola en estos temas y cuantos más seamos, más avanzaremos.

    Seguimos en contacto, ya te sigo tambien en twitter.

  6. Juanma says:

    Buenas Mari Luz!! me parece este post muy muy interesante, por lo siguiente:

    Soy alumno de Grado en Ingenieria Informatica de la UCLM y a dia de hoy me encuentro haciendo mi trabajo fin de grado, la tematica de este es el tratamiento de datos en Twitter y estaba muy confundido en como poder hacer esto. Ahora voy viendo un poco de luz en ello, espero que cambiemos opiniones al respecto. Por cierto te sigo ahora en Twitter! Algun consejo sobre esto? Gracias!! ;)

  7. Marcos: No hay de qué. Siempre he compartido mi conocimiento y siempre he encontrado gente dispuesta a ayudarme.
    Si duda, colaborar es siempre mucho más productivo ( y agradable) que competir.

  8. Marcos says:

    Muchas gracias por compartir tanto conocimiento.
    ;)

  9. Foskyto: Los 700 TPS no te los da twitter ni pidiendoselos de rodillas, pero los 50 TPS lo he recogido en un servidor de gama alta aunque no los trato en tiempo real (por ahora) sino que los almaceno en disco y los posproceso.
    Creo que la clave es saber filtrar la basurilla en tiempo real (eso da para un paper) y tratar solo lo relevante.
    Nunca viene mal haber trabajado en sistemas en tiempo real y alta disponibilidad para aplicarlo a otros campos, porque al final son siempre los mismos problemas los que hay que resolver.

  10. Foskyto says:

    El GE…R trata 300 alarmas por segundo y para ello hace falta un maquinón de 32 CPUs y creo que 48 gigas de RAM. Capturar 700 tweets por segundo por Internet y con un PC es imposible, incluso filtrando y dejándolo en 50 TPS es heroico. Deberías buscar alguna aproximación estadística y paralelizar con varios equipos a la escucha.

  11. Julen: Puesta a complicarme la vida, me he buscado algo que me entretenga de por vida. La verdad es que da un poco de miedo ese alubión de datos, Twitter es la mayor fuente pública de información en tiempo real, lo difícil es llevarte en el cántaro lo que realmente buscas y ahí estoy yo para averiguarlo.
    .

  12. Anonadado me dejas en tu descomunal intento por hacer algo con esas toneladas de información. Sólo queda dar ánimo. He hecho cuentas y salen 60 millones de actualizaciones al día.
    Relájate ;-)
    Besos.

  1. October 4, 2010

    Como hacer minería de datos de Twitter y no morir en el intento…

    Llevo unos meses sin actualizar el blog debido a mi dedicación con pico y pala a la extracción y análisis de datos en Twitter, labor nada trivial ni exenta de riesgos como se podrá constatar tras leer los…

  2. October 4, 2010

    […] Como hacer minería de datos de Twitter y no morir en el intento – Llevo unos meses sin actualizar el blog debido a mi dedicación con pico y pala a la extracción y análisis de datos en Twitter, labor nada trivial ni exenta de riesgos como se podrá constatar tras leer los obstáculos más importantes que me he encontrado en el ejercicio del data mining […]

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.