Explorando el camino del XHTML

Publicado por M.Luz Congosto el 17-Julio-2009 

xhtml_logo_medium

Los errores sintácticos han sido uno de los problemas que me he encontrado al analizar el código HTML de los blogs con el programa  Lestat, como ya  escribí  hace tiempo en el post titulado  El diablo cojuelo.  Hace unas semanas  Norberto Fernández,  profesor de mi Departamento  me sugirió  que convirtiese el HTML de los blogs a XHTML y me indicó dos herramientas para hacerlo: tidy y html2xhtml.

Estas herramientas son capaces de convertir HTML en XHTML, ordenando, limpiando y corrigiendo los errores de markup.  Las ventajas de trabajar con XHTML son múltiples:  es un lenguaje de marcas bien estructurado, permite de recorrer el documento  con XPATH o con XSLT.

La herramienta tidy, disponible en lenguaje c y java, fue desarrollada por Dave Raggett y como dice su autor:

Is an open source utility for tidying up HTML. Tidy is composed from an HTML parser and an HTML pretty printer. The parser goes to considerable lengths to correct common markup errors. It also provides advice on how to make your pages more accessible to people with disabilities, and can be used to convert HTML content into XML as XHTML. Tidy is W3C open source and available free. It has been successfully compiled on a large number of platforms, and is being integrated into many HTML authoring tools. Recently the maintenance of Tidy has been taken over by a group of dedicated volunteers on SourceForge

La herramienta   html2xhtml se ofrece como servicio web y su código fuente está  disponible en lenguaje c que funciona tanto en plataformas GNU/Linux como Windows, aunque en su versión compilada sólo se ofrece para Windows, siendo necesario en otras plataformas compilarlo a partir de su código fuente.  Ha sido desarrollada por Jesús Arias Fisteus, profesor de la Universidad Carlos III y como dice su autor:

Is an open-source converter from HTML to XHTML. it converts HTML files into XHTML. It can fix many common errors in HTML files (e.g. missing end tags, elements with incorrect content model, non-standard elements or attributes, etc.) The output document type can be selected among several XHTML DTDs (1.0, 1.1, Basic, etc.).

He realizado una prueba  de estas dos herramientas sobre 100 blogs de la tesis de Tíscar Lara

Escenario de la prueba:

  • Entorno de ejecución cygwin bajo Windows
  • Versión de tidy 25 de marzo de 2009
  • Invocación tidy -asxhtml -numeric < origen.html > destino.xhtml
  • versión de html2xhtml 7 de julio de 2009
  • Invocación html2xhtml origen.html -o destino.xhtml
  • Los tiempos de ejecución están medidos realizando la conversión desde fichero.

Estos han sido los resultados:

La herramienta tidy ha podido convertir 88 de los 100 blogs analizados(1) mientras que la herramienta html2xhtml ha conseguido convertir 99 sobre 100 blogs.  Las herramientas muestran un buen comportamiento, sobre todo html2xhtml, dado que  los errores de sintaxis del código HTML de los blogs son muy frecuentes.  Esto abre la posibilidad de poder analizar el contenido de los blogs por otros medios a demás de los clásicos parsers. Respecto al tiempo de ejecución la herramienta html2xhtml ha utilizado 0 min  48 seg(2) mientras que tidy ha tardado 3 min 6.629 seg(3).

Después de esta prueba  se me abren nuevos caminos para continuar el desarrollo de lestat. Pero como decía Scarlett O’Hara, “eso lo pensaré mañana”.

——–

(1) Utilizando algunas opciones en tidy es posible mejorar este porcentaje, pero para realizar la comparación de herramientas se ha invocado el comando de la manera más elemental
(1)  html2xhtml real 0 min  48 seg, user, 0 min 16 seg, sys 0 min 10,685 seg
(2) tidy real 3 min 6,629 seg, user 0 min 36,049 seg,  sys 0 min 59,186 seg

Archivado en Entorno de desarrollo, arquitectura | dejar un comentario

Acuerdo en la UPM

Publicado por M.Luz Congosto el 9-Julio-2007 

organizecartoon.jpg

El jueves 26 de junio me reuní en la UPM con un profesor y dos alumnos que están realizando proyectos fin de carrera sobre la blogosfera. Después de una hora de divagaciones de repente nos entro la sensatez, empezamos a hablar de cosas concretas y comenzamos a atar cabos. Fruto de esta repentina iluminación fue el compromiso de colaborar entre todos para que nuestros trabajos se comunicaran e ir construyendo una plataforma de herramientas de supervisión de los blogs.
Barriblog tiene por objetivo el descubrimiento de blogs, su caracterización , el análisis de las relaciones de vecindad y su representación gráfica. Todo el trabajo de extraer información en crudo de las páginas HTML (nada trivial), el descubrimiento y caracterización de blogs serviría para alimentar a un explorador de los feed de post y comentarios que va a realizar otro alumno. Por otra parte otro proyecto fin de carrera está trabajando en visualización y aportaría toda su experiencia a esta plataforma.

Un magnífica colaboración sellada con una coca- cola light en el bar de la Eskuel@ (debía ser cerveza, ya lo sé)

Hoy por fin he terminado una presentación de lo que podría ser esta plataforma. La suma de muchos esfuerzos individuales que construyan algo grande, como los pececitos de la imagen de arriba.

Archivado en arquitectura | dejar un comentario