Archive for julio, 2010

Thinking Party

5 Comments »

Hoy se ha celebrado la primera Thinking Party que ha organizado Fundación Telefónica como jornada de clausura del Ciclo: Diez conceptos que están cambiando el futuro” Esta ha sido la agenda del día.

Las ponencias han sido muy interesantes y amenas, @sandopen ha sido un magnifico anfitrión, he tenido la oportunidad de conocer en persona a @yoriento,  de compartir la jornada con mis ex-colegas de Telefónica, de charlar con los amigos de la red y con bastantes ponentes. Hemos pasado un poco de calor pero los abanicos de movistar nos han ayudado a aliviarlo.

He recogido los datos de Twitter de la jornada (me faltan las dos primeras horas) con este dataset he realizado la siguiente  infografía.


Lo que siempre quiso saber del API de Twitter y nunca se atrevió a preguntar

9 Comments »

Actualmente Twitter es una de las mayores fuentes de información en tiempo real de Internet alimentada por millones de usuarios. Durante el último mes he intentado buscar respuestas estas preguntas:

  • ¿Cuál es la cantidad de tweets?
  • ¿Qué se puede obtener con los APIs de Twitter?
  • ¿Cuáles son las limitaciones del API de Twitter?
  • ¿Qué persistencia tienen los tweets?

Lo que he averiguado lo he  representarlo en una infografía para los muy ocupados y en modo textual para los que su curiosidad sea aún mayor.

¿Cuál es la cantidad de tweets?

El número de usuarios de Twitter  y por tanto el de tweets generados tiene un crecimiento espectacular.  El despegue comenzó en el 2009 y en un año se ha multiplicado por 25.  Con este tráfico de entrada cualquier evento global es una prueba de fuego para Twitter, como ha sido el caso de la Wold Cup que nos ha traído de nuevo a la ballena azul.

Durante la segunda semana de la World Cup se ha alcanzado el record de  3.283 TPS (Tweets Per Second) y la media actual es de 750 TPS.  Esto hace casi inalcanzable obtener tal cantidad  de información (y almacenarla) por lo que habrá que pensar en  soluciones creativas para poder obtener los datos que se deseen.

¿Qué se puede obtener con los APIs de Twitter?

Twitter ofrece tres APIs:   Streaming API REST APISearch API aplicables a necesidades diferentes.

El Streaming API proporciona un subset de tweets en casi tiempo real. Se establece una conexión permanente por usuario con los servidores de Twitter y mediante una petición http  se recibe un flujo continúo de tweets en formato json.  Se puede obtener una muestra aleatoria (statuses/sample), un filtrado (statuses/filter) por palabras claves o por usuarios. Sin embargo, los métodos más interesantes cómo obtener todo el caudal de tweets (statuses/firehose) o sólo los tweets que tienen enlaces (statuses/links) o los tweets con retweets (statuses/retweet) “Is not a generally available resource” :-(

El Search API suministra los tweets con una profundidad en el tiempo de 7 días que se ajustan a la query solicitada. Es posible filtrar por, cliente utilizado, lenguaje y localización. No requiere autenticación y los tweets se obtienen en formato jsonatom.

El REST API ofrece a los desarrolladores el acceso al core de los datos de Twitter. Todas las operaciones que se pueden hacer vía web son posibles realizarlas desde el API.  Dependiendo de la operación requiere o no autenticación, con el mismo criterio que en el acceso web. Sopota los formatos: xml, json, rss, atom.

El Search API ofrece una información más limitada del tweet,  en concreto sobre los datos del autor en el que solo indica el Id,  el screen_name y la url de su avatar. Los otros dos APIs si ofrecen el perfil completo del autor en el momento de la escritura del tweet.

¿Cuáles son las limitaciones de  los APIs de Twitter?

En el Streaming API el flujo es continuo y la velocidad de recepción de tweets tendrá fluctuaciones que dependerán del ancho de banda de los dos extremos de la conexión y la sobrecarga de los servidores de Twitter. Actualmente estoy haciendo medidas en dos servidores y publicaré los resultados tan pronto como estén disponibles.

En el Search API y en el REST API existe una limitación de 150 peticiones a la hora por usuario o por IP si la llamada no está autenticada.
Es importante saber cómo realizar la  paginación de las  peticiones de una manera óptima para sacarle el  máximo partido.

API Petición Max. Tamaño Pagina Max. Total
Search search 200 tweets 1500 tweets-
REST statuses 200 tweets 3200 tweets
REST friends/ids 5.000 id users Los que haya (*)
REST followers/ids 5.000 id users Los que haya (*)

(*) hemos obtenido los seguidores de Barack Obama que sobrepasa los 4,5 millones de followers

¿Qué persistencia tienen los tweets?

Aunque todos los tweets residan en las BB.DD. de Twitter hay una limitación temporal para obtenerlos.

API Limitación temporal Limitación tamaño
Streaming Solo tiempo real -
Search -7 días 1500 últimos tweets
REST NO 3200 últimos tweets

-



Related Posts Plugin for WordPress, Blogger...