Título de la tesis: "Agrupación de Tablas HTML para Extraer Informacion"
Resumen:
La web semántica nace con varios objetivos, uno de ellos es dar una estructura a los datos en internet facilitando su recuperación. Para ello, provee alternativas de formatos estructurados como RDF y OWL. Sin embargo la cantidad de información disponible en estos formatos es ínfima, comparada con el contenido existente en una estructura limitada como HTML. Por esta razón el área de “extracción de información” trabaja en encontrar métodos para extraer información de fuentes sin estructura o semi-estructurados.
Las tablas HTML poseen información concisa y relevante, organizada de una forma compacta en un formato semi-estructurado. A pesar de que existen varios trabajos en el área, sigue siendo un problema desafiante por la dificultad de generalizar un método para el universo de datos en estas estructuras, la diversidad de formas y representaciones, tablas anidadas, datos ambiguos, etc.
En este trabajo, se analiza la posibilidad de mejorar la extracción de datos estructurados de las tablas HTML agrupando las tablas de acuerdo a su contenido antes de intentar extraer información. La agrupación permitirı́a evitar la traducción individual de las tablas a un formato estructurado como RDF.