loader image

Investigación revela la importancia de considerar diferencias dialectales en el análisis de frecuencias de palabras en español

Tiempo de lectura: 20 minutos
Lorenzo Palma
Lorenzo Palma Morales es Periodista, Licenciado en Comunicación Social y Bachiller en Humanidades y Ciencias Sociales de la Universidad Austral de Chile. Diplomado en Periodismo de Investigación de la Universidad de Chile y Magíster en Desarrollo Rural, Becado por CONI- CYT (UACh), Diplomado en Escritura Creativa de No Ficción por la Universidad Alberto Hurtado. En el año 2018 fundó el medio de comunicación nacional y agencia de contenidos www.cienciaenchile.cl, del cual es su director. Ha participado organizando actividades de divulgación y difundiendo resultados de investigación en innumerables proyectos de norte a sur del país.

Compartir publicación

Un estudio liderado por el investigador Julian van Bijnen, tesista del Núcleo Milenio MiNSoL, ha destacado la relevancia de considerar las diferencias dialectales en el análisis de frecuencias de palabras en español usando inteligencia artificial

Julian van Bijnen, estudiante de postgrado del Máster en Inteligencia Artificial de Radboud University, llevó a cabo una investigación titulada “Dialectos y diferencias: desafiando la uniformidad del español”, la cual cuestiona la efectividad de las bases de datos existentes, como Suplex y Spalex, en las que se trata al español como una lengua homogénea, sin tener en cuenta las variaciones regionales. Este trabajo contó con los profesores patrocinantes Dr. Ton Dijkstra, del Instituto Donders para la Cognición y el Comportamiento, y el Dr. Roberto Ferreira, director del Núcleo Milenio para la Ciencia del Aprendizaje (MiNSoL).

van Bijnen realizó un estudio con 37 chilenos para evaluar la frecuencia de uso de 150 palabras dialectales específicas de diferentes países. Con los datos recopilados, creó una nueva base de datos de frecuencias, centrándose en las particularidades del dialecto chileno. Utilizando el modelo de inteligencia artificial Multilink, comparó los resultados obtenidos con las bases de datos existentes y encontraron que su enfoque basado en los nuevos datos superó significativamente a Subtlex y Spalex. 

Para tener un ejemplo, el investigador explica lo que sucede con la palabra ‘popcorn’ en Google Translate, ya que devuelve tres traducciones diferentes: ‘palomitas’, ‘rosetas’ y ‘ñaco’. Curiosamente, solo en cinco países se usan comúnmente cualquiera de estos tres términos. ‘Palomitas’ se utiliza en España, México y partes de América Central, mientras que ‘rosetas’ y ‘ñaco’ ni siquiera se utilizan en ningún país.

“El resultado que más me sorprendió fue la capacidad del modelo para distinguir entre las diferentes categorías de palabras. Pensábamos que, si bien podríamos obtener buenos resultados en general con todas las palabras analizadas, que sumaban 150 en total, no esperábamos que el modelo pudiera hacer una diferencia significativa con categorías más pequeñas”  comentó el próximamente máster en inteligencia artificial.

Una de las conclusiones más sorprendentes del estudio fue la capacidad del modelo Multilink para diferenciar entre categorías de palabras, como aquellas exclusivas de España, Chile o América Latina en general. Este hallazgo sugiere que el análisis de frecuencias de palabras debe considerar no solo las diferencias regionales, sino también las particularidades léxicas de cada país hispanohablante.

El impacto de esta investigación se extiende más allá del ámbito académico, ya que plantea importantes implicaciones para el desarrollo de herramientas de procesamiento del lenguaje natural y la enseñanza del español como lengua extranjera. Van Bijnen espera que su trabajo contribuya a una mayor comprensión de la diversidad lingüística del español y, fomente el uso responsable de la inteligencia artificial en investigaciones lingüísticas.

 

Compartir publicación

Sorry, No posts.

Etiquetas de esta publicación

Artículos
relacionados

Sorry, No posts.