La intel·ligència artificial suspèn en gramàtica
Una recerca d’investigadores de la UAB i la URV posa de manifest que l’ésser humà pot reconèixer errades gramaticals en una oració en què la IA falla. En l’estudi, publicat a la revista PNAS, han posat a prova tres dels millors grans models de llenguatge disponibles actualment.
El llenguatge és un dels principals trets que diferencia els ésser humans d’altres espècies. D’on procedeix, com s’aprèn i per què les persones han estat capaces de desenvolupar aquest sistema de comunicació tan complex ha generat molts interrogants a lingüistes i investigadors de diversos camps de la recerca. En els darrers anys s’ha avançat molt en intentar ensenyar el llenguatge als ordinadors, i això ha donat lloc a l’aparició dels anomenats grans models de llenguatge, tecnologies entrenades a partir d’enormes quantitats de dades que són la base d’algunes aplicacions d’intel·ligència artificial (IA): motors de cerca, traductors automàtics o conversors d’àudio a text, per exemple.
Però, com són les capacitats lingüístiques d’aquests models? Es poden equiparar a les d’un ésser humà? Un equip investigador liderat per la URV amb participació de la Universitat Humboldt de Berlín, la Universitat Autònoma de Barcelona (UAB) i la Institució Catalana de Recerca i Estudis Avançats (ICREA) va posar a prova aquests sistemes per comprovar si realment tenen capacitats lingüístiques equiparables a les de les persones. Per fer-ho van comparar l’habilitat humana amb la dels tres millors grans models de llenguatge disponibles actualment: dos basats en GPT3, així com ChatGPT, basat en GP3.5.
Se’ls va assignar una tasca fàcilment executable per a les persones: a partir de molts tipus diferents d’oracions havien d’identificar al moment si aquesta estava gramaticalment ben formada en la seva llengua materna o no. Tant als humans que van participar en aquest experiment com als models de l’estudi se’ls va fer una pregunta molt simple: “Aquesta oració és gramaticalment correcta?”.
Els resultats van demostrar que els humans van respondre correctament, mentre que els grans models de llenguatge van donar moltes respostes errònies. De fet, es va detectar que van adoptar una estratègia predeterminada que consistia en respondre “sí” la majoria de vegades, independentment de si la resposta era correcta o no.
“El resultat és sorprenent, ja que a aquests sistemes se’ls instrueix segons el que és gramaticalment correcte o no en un idioma”, explica Vittoria Dentella, investigadora del Departament d’Estudis Anglesos i Alemanys, que ha liderat l’estudi. Els avaluadors humans capaciten aquests grans models de llenguatge explícitament sobre l’estat de gramaticalitat de les construccions que poden trobar. A través del procés d’aprenentatge reforçat a partir de la retroalimentació humana, a aquests models se’ls posarà exemples de frases que no estan gramaticalment ben construïdes i se’ls donarà la versió correcta. Aquest tipus d’instrucció és una part fonamental del seu “entrenament”. Això, en canvi, no passa en els humans. “Si bé les persones que eduquen un nadó poden corregir-li ocasionalment la forma com parla, això no passa constantment ni en totes les comunitats lingüístiques del món”, afirma la investigadora.
L’estudi, doncs, posa de manifest que hi ha un doble desajust entre humans i IA. Les persones no tenen accés a “evidència negativa” —sobre el que no és gramaticalment correcte en aquell idioma—, mentre que els grans models de llenguatge tenen un ampli accés a aquesta informació a través de la retroalimentació humana, però tot i així no poden reconèixer errades gramaticals trivials, mentre que els humans poden fer-ho instantàniament i sense esforç.
“Desenvolupar eines útils i segures d’intel·ligència artificial pot ser molt útil, però passa necessàriament per determinar les seves limitacions. Atès que la majoria de les aplicacions d’IA depenen de la comprensió d'ordres donades en llenguatge natural, determinar aquestes limitacions en el maneig de la gramàtica, com hem fet en aquest estudi, és de vital importància”, assenyala Evelina Leivada, professora d’investigació ICREA al Departament de Filologia Catalana de la UAB.
“Amb aquests resultats pensem que cal una reflexió crítica sobre les afirmacions que atribueixen a les IA capacitats lingüístiques similars a les de les persones”, conclou Dentella, qui considera que adoptar aquests models de llenguatge com a teories de llenguatge humà no està justificat en l’etapa actual del seu desenvolupament.
Article: Systematic testing of three Language Models reveals low Language accuracy, absence of response stability, and a yes-response bias. Vittoria Dentella, Fritz Günther and Evelina Leivada. PNAS. https://doi.org/10.1073/pnas.2309583120