Profesor Felipe Bravo Márquez y estudiante de doctorado Frank Zamora organizaron competencia de detección de cambio léxico semántico

¿Cómo ha variado en el tiempo el significado de las palabras? ¿“Planta” o “villano” tienen la misma definición semántica en los años 1800 que en el 2000? Descubrir estas variaciones utilizando modelos computacionales fue el desafío planteado a investigadores de todo el mundo que participaron en “Lexical Semantic Change Discovery Shared Task”, competencia organizada por el académico del DCC, Felipe Bravo Márquez, el estudiante de doctorado del DCC, Frank Zamora, y el investigador del Institute for Natural Language Processing, de la Universidad de Stuttgart, Dominik Schlechtweg.

Se trató de una competencia de cambio léxico semántico, donde el objetivo fue detectar palabras en español que han variado o modificado su significado en el tiempo, la cual se realizó en el marco del 3rd International Workshop on Computational Approaches to Historical Language Change 2022 (LChange'22), alojado en ACL 2022, la conferencia más importante en el área de Procesamiento de Lenguaje Natural (NLP por su sigla en inglés). Si bien el workshop se realizó el 26 y 27 de mayo en Dublín, Irlanda, la competencia se llevó a cabo en forma previa, del 28 de febrero al 31 de marzo, de modo de poder presentar los resultados obtenidos tanto por organizadores como por participantes durante el evento realizado en mayo.

La competencia se dividió en dos fases, participando en la primera seis equipos y siete en la segunda, todos conformados por 3 a 4 integrantes, en su mayoría estudiantes de postgrado de países como Canadá, España y Rusia, siendo estos últimos los ganadores en cada fase.

El estudiante doctorado del DCC, Frank Zamora, explica que los participantes debieron desarrollar modelos que realizaran predicciones sobre cierto conjunto de palabras: “El objetivo fue detectar palabras que cambian su significado en el tiempo. Para esto, entregamos dos dataset con palabras comunes, uno de un período antiguo y el otro con palabras de un período moderno. Los competidores debían crear modelos que les permitieran detectar si esas palabras comunes cambiaron su significado, esto es, que hayan adquirido uno nuevo o lo hayan perdido”. Para entender esto, ejemplifica: “Una analogía es ‘planta’, que tal vez en 1810 lo más común era referirse para hablar de una flor o un árbol, pero hoy en día se puede estar hablando de eso y también de un piso en una edificación o de una industria”.

Para construir ambos dataset los investigadores recurrieron al proyecto Gutenberg, para cubrir el periodo considerado antiguo, que abarcó desde 1806 hasta 1910, mientras que para el período moderno, que cubrió desde 1994 a 2020, recurrieron al proyecto Opus. Tanto Frank Zamora como el profesor Felipe Bravo Márquez destacan el enorme desafío que representó realizar las anotaciones de palabras contenidas en ambos documentos, sobre lo cual señala: “Las palabras en español en general son polisémicas, entonces representó un desafío porque hubo que anotar bastantes datos, de modo de tener previamente los resultados que podían arrojan los modelos de predicciones que desarrollaron los participantes en la competencia”. Gracias a este trabajo, se logró crear el dataset con más anotaciones que existen en este campo, contabilizando 62 mil anotaciones de palabras en español.

Innovando en la generación de nuevo conocimiento

Tras finalizar la competencia en marzo, el paso siguiente para Felipe Bravo Márquez, Frank Zamora y Dominik Schlechtweg fue presentar en el Workshop on Computational Approaches to Historical Language Change 2022 (LChange'22), el artículo científico (paper) “LSCDiscovery: A shared task on semantic change discovery and detection in Spanish”. Este trabajo describe todos los aspectos que consideró la organización y desarrollo de esta competencia, tales como la forma en que se realizaron las anotaciones, el problema planteado a los competidores, los equipos participantes y los modelos desarrollados, entre otros. Además, cada equipo participante presentó su propio paper describiendo el modelo desarrollado en la competencia.

Tanto el académico del DCC como el estudiante de doctorado, destacan la forma en que se genera nuevo conocimiento a partir de este tipo de eventos. En particular, Frank Zamora cuenta que esta área de NLP llamada Detección de Cambio Semántico, es relativamente nueva y se ha hecho muy popular a partir de este tipo de competencias. “Nosotros entramos en este campo participando en una competencia de este mismo estilo hace dos años. En aquel entonces la competencia abordaba cuatro idiomas: sueco, latín, alemán e inglés. Luego, se hizo una competencia en italiano y, después, otra sobre el ruso. Entonces vimos un nicho sobre el idioma español, donde en el campo de NLP hay muy pocos recursos, siendo ésta la cuarta competencia que se organiza a nivel mundial” señala Zamora.

En esta línea, el profesor Felipe Bravo Márquez, destaca que estas competencias resultan especialmente atractivas para quienes se están iniciando en labores de investigación: “Lo que más cuesta cuando uno parte en investigación es buscar un problema. En este tipo de eventos está definido el problema, hay acceso a datos y métricas de evaluación. Entonces solo hay que resolver, lo cual facilita mucho la tarea”. El académico resalta también la forma colaborativa en que se desarrolla investigación señalado que “es como hacer metainvestigación, porque propones un problema, lo estandarizas, invitas a la comunidad a resolverlo y en meses tienes varios estudios de distintos grupos de investigadores, en los que puedes ver qué funciona y qué no, y sabes que todo se desarrolló bajo las mismas condiciones y en forma muy transparente”.

--
Comunicaciones DCC