Accede al contenido principal
Universitat Autònoma de Barcelona

La inteligencia artificial suspende en gramática

11 ene 2024
Compartir por WhatsApp Compartir por e-mail

Un estudio de investigadoras de la UAB y la URV pone de manifiesto que el ser humano puede reconocer errores gramaticales en una oración en la que la IA falla. En el estudio, publicado en la revista PNAS, han puesto a prueba tres de los mejores grandes modelos de lenguaje disponibles actualmente.

Ordinador portàtil, mans i il·lustracions representatives d'IA

El lenguaje es uno de los principales rasgos que diferencia a los seres humanos de otras especies. De dónde proceden, cómo se aprende y por qué las personas han sido capaces de desarrollar este complejo sistema de comunicación ha generado muchos interrogantes a lingüistas y científicos de diversos campos de la investigación. En los últimos años se ha avanzado mucho a la hora de intentar enseñar el lenguaje a los ordenadores, lo que ha dado lugar a la aparición de los llamados grandes modelos de lenguaje, tecnologías entrenadas a partir de enormes cantidades de datos que son la base de algunas aplicaciones de inteligencia artificial (IA): motores de búsqueda, traductores automáticos o conversores de audio a texto, por ejemplo.

Pero, ¿cómo son las capacidades lingüísticas de estos modelos? ¿Se pueden equiparar a las de un ser humano? Un equipo investigador liderado por la URV con participación de la Universidad Humboldt de Berlín, la Universitat Autònoma de Barcelona (UAB) y la Institución Catalana de Investigación y Estudios Avanzados (ICREA) puso a prueba estos sistemas para comprobar si realmente tienen capacidades lingüísticas equiparables a las de las personas. Para ello compararon la habilidad humana con la de los tres mejores grandes modelos de lenguaje disponibles actualmente: dos basados en GPT3, además de ChatGPT, basado en GP3.5.

Se les asignó una tarea fácilmente ejecutable para las personas: a partir de muchos tipos distintos de oraciones debían identificar al momento si esta estaba gramaticalmente bien formada en su lengua materna o no. Tanto a los humanos que participaron en este experimento como a los modelos del estudio se les hizo una pregunta muy simple: "¿Esta oración es gramaticalmente correcta?".

Los resultados demostraron que los humanos respondieron correctamente mientras que los grandes modelos de lenguaje dieron muchas respuestas erróneas. De hecho, se detectó que adoptaron una estrategia predeterminada que consistía en responder "sí" la mayoría de las veces, independientemente de si la respuesta era correcta o no.

"El resultado es sorprendente, ya que a estos sistemas se les instruye según lo que es gramaticalmente correcto o no en un idioma", explica Vittoria Dentella, investigadora del Departamento de Estudios Ingleses y Alemanes, que ha liderado el estudio. Los evaluadores humanos capacitan a estos grandes modelos de lenguaje explícitamente sobre el estado de gramaticalidad de las construcciones que pueden encontrar. A través del proceso de aprendizaje reforzado a partir de la retroalimentación humana, a estos modelos se les pondrá ejemplos de frases que no están gramaticalmente bien construidas y se les dará la correcta versión. Este tipo de instrucción es parte fundamental de su “entrenamiento”. Esto, en cambio, no ocurre en los humanos. “Si bien las personas que educan a un bebé pueden corregirle ocasionalmente la forma en que habla, esto no ocurre constantemente ni en todas las comunidades lingüísticas del mundo”, afirma la investigadora.

El estudio, pues, pone de manifiesto que existe un doble desajuste entre humanos y IA. Las personas no tienen acceso a “evidencia negativa” —sobre lo que no es gramaticalmente correcto en el idioma que se hable—, mientras que los grandes modelos de lenguaje tienen un amplio acceso a esta información a través de la retroalimentación humana, pero aun así no pueden reconocer fallos gramaticales triviales, mientras que los humanos pueden hacerlo instantáneamente y sin esfuerzo.

“Desarrollar herramientas útiles y seguras de inteligencia artificial puede ser muy útil, pero pasa necesariamente por determinar sus limitaciones. Dado que la mayoría de las aplicaciones de IA dependen de la comprensión de órdenes dadas en lenguaje natural, determinar estas limitaciones en el manejo de la gramática, como hemos hecho en este estudio, es de vital importancia”, señala Evelina Leivada, profesora de investigación ICREA en el Departamento de Filología Catalana de la UAB.

“Con estos resultados pensamos que es necesaria una reflexión crítica sobre las afirmaciones que atribuyen a las IA capacidades lingüísticas similares a las de las personas”, concluye Dentella, quien considera que adoptar estos modelos de lenguaje como teorías de lenguaje humano no está justificado en la etapa actual de su desarrollo.

Artículo: Systematic testing of three Language Models reveals low Language accuracy, absence of response stability, and a yes-response bias. Vittoria Dentella, Fritz Günther and Evelina Leivada. PNAS. https://doi.org/10.1073/pnas.2309583120

Dentro de