Estudiante del DCC asistió a LREC 2022, la conferencia más importante sobre recursos de lenguaje

La 13° edición de la conferencia LREC 2022 (Language Resources and Evaluation Conference), reúne anualmente miles de artículos enfocados en recursos, aplicaciones, metodologías y herramientas de evaluación que se utilizan en el área del procesamiento del lenguaje natural (PLN), un campo de estudio de la inteligencia artificial que se dedica a entender cómo las computadoras son capaces de entender el lenguaje humano.

José Cañete, ingeniero en machine learning y parte del equipo de desarrollo de Cenia, asistió al evento para presentar dos papers en la conferencia principal. El primero se titula “Evaluation Benchmarks for Spanish Sentence Representations”, y fue realizado por el ingeniero junto a los investigadores Vladimir Araujo, Andrés Carvallo, Souvik Kundu, Marcelo Mendoza, Robert E Mercer, Felipe Bravo-Marquez, Marie-Francine Moens y Alvaro Soto. Este paper busca crear un marco de trabajo para evaluar la calidad de los modelos construidos, considerando tanto las representaciones individuales de las oraciones creadas, así como el contexto de las mismas. “En este trabajo desarrollamos equivalentes en español de SentEval y DiscoEval. Para esto usamos datasets ya existentes y también creamos algunos nuevos”, agrega.

Cañete tiene un especial interés en desarrollar recursos que sean accesibles, abiertos y gratuitos. Un ejemplo de ello es BETO (la versión en español de BERT), un modelo de red neuronal que permite el procesamiento computacional del lenguaje natural, del cual José Cañete es uno de los creadores.

En este sentido, el segundo paper que presentó se titula “ALBETO and DistilBETO: Lightweight Spanish Language Models”, realizado por el expositor junto a los investigadores Sebastián Donoso, Felipe Bravo-Marquez, Andrés Carvallo y Vladimir Araujo, y propone la creación, entrenamiento y evaluación de seis nuevos modelos lingüísticos pre entrenados en español. La motivación para desarrollar este proyecto surgió ante la escasa disponibilidad de modelos ligeros en idioma español, por lo que hacer una versión en este idioma contribuiría a democratizar su uso. “Nuestros modelos logran resultados comparables a los de BETO, aún cuando son mucho más ligeros y eficientes en términos de su cantidad de parámetros. Todos los modelos y el benchmark ya están disponibles para que cualquiera los pueda usar “ explica el ingeniero.

José Cañete es el impulsor de la iniciativa Open Cenia, un espacio facilitado por el Centro Nacional de Inteligencia Artificial, que busca crear recursos abiertos y gratuitos para toda la comunidad interesada en el desarrollo y/o uso de la inteligencia artificial. “Creo que es una iniciativa muy importante dentro de Cenia, porque va muy alineada con el objetivo de poner la inteligencia artificial al servicio de las personas y del bien común. Actualmente hemos reunido algunos modelos, datasets y cursos, pero hay mucho trabajo todavía por hacer”, concluye.

Comunicaciones CENIA