Lingüistas abordan el análisis computacional de la gramática

Visualización gramatical de una palabra
Foto: RICARDO AGUILERA/RESEARCH COMPUTING CENTER
Actualizado: jueves, 26 febrero 2015 17:00

MADRID, 26 Feb. (EUROPA PRESS) -

   A los niños no hay que decirles que 'gato' y 'gatos son variantes de la misma palabra. Lo entienden con sólo escuchar.

   Para un ordenador, sin embargo, son tan diferentes como si se hablase de gatos y perros. Sin embargo, se supone una capacidad superior a los ordenadores en la detección de patrones y reglas que a los niños de 4 años.

   John Goldsmith, profesor de Lingüística y Ciencias de la Computación de la Universidad de Chicago, y el estudiante graduado Jackson Lee están tratando, si no de resolver ese rompecabezas definitivamente, al menos proporcionar las herramientas para hacerlo.

   El estudio de la morfología del lenguaje natural tiene aspectos prácticos y teóricos. En teoría, los lingüistas y científicos cognitivos han buscado durante mucho tiempo una mejor comprensión de cómo los seres humanos aprenden el lenguaje.

   "El modelado computacional de cómo la morfología natural del languaje puede ser aprendida de un texto sin formato es un intento explícito de responder a esta pregunta", dijo Lee. Y prácticamente, una mejor comprensión de la morfología del lenguaje natural puede conducir a interfaces hombre-máquina mejor diseñados y una mejor manera de buscar en grandes bases de datos.

   "Estamos tratando de hacer computacionalmente lo que los lingüistas han hecho siempre", explicó Goldsmith. "Reunir grandes cantidades de textos en un idioma, y producir análisis gramaticales de la lengua. Nos gustaría entender ese proceso de lo que humanos y lingüistas humanos hacen tan bien para que podemos implementarlo computacionalmente ".

   Para dar ejemplos para su análisis, Goldsmith y Lee utilizan los organismos de normalización de la lengua escrita llamado corpus. Cada corpus contiene millones, a veces miles de millones de palabras, tomadas de diferentes géneros de la escritura. El corpus Brown, la primera de su tipo en América del Inglés, contenía aproximadamente un millón de palabras; el corpus N-gramo de Google contiene 155.000.000.000 palabras.

   Su conjunto de datos combinado era demasiado grande para ser manejado en una computadora de escritorio. En su lugar, se dirigieron al Research Computing Center (RCC) y al Midway Cluster Supercomputing a pedir ayuda. Los consultores de RCC les ayudaron a hacer un mejor uso de los múltiples núcleos de Midway, ayudándoles a paralelizar sus algoritmos, y a visualizar sus resultados.

   "Un escenario típico para nosotros es que, teniendo en cuenta algunos datos en bruto, tenemos cierta intuición sobre ciertos patrones en los datos, y colaboramos con RCC para crear herramientas de visualización para mostrar los datos de una manera que nos permite explorar estos patrones." dijo Lee. Puso como ejemplo la palabra consulta 'going' (gerundio de ir en inglés): La visualización mostró lo que las palabras se producen con mayor frecuencia en la izquierda y derecha de la misma en un corpus de lenguaje natural.

   "La construcción de esta herramienta de visualización surgió de la observación de que los patrones generales de distribución de palabras son sensibles a la distribución específica de palabras individuales, y necesitamos una herramienta para 'ver' a qué se parece la gramática de una palabra dada realmente", agregó Lee.

   Lee y Goldsmith están desarrollando una herramienta de investigación y visualización integrada. "Esto incluye no sólo el conjunto de las herramientas de visualización desarrolladas, sino también las implementaciones de algoritmos e ideas, tanto nuestras como de otros investigadores, en relación con el aprendizaje no supervisado de la estructura lingüística", dijo Lee. El producto final permitirá que diferentes grupos de investigación visualicen sus resultados y comparen métodos.

   Pero más allá del problema computacional, Goldsmith ve una cuestión más profunda que espera ser contestada. Los filósofos y lingüistas han debatido durante mucho tiempo acerca de si una lengua sólo puede ser aprendida sólo entendiendo el significado de las frases que lo componen. "Al final", dijo Goldsmith, "el lenguaje existe con la función de organizar y comunicar significados. Pero, ¿es posible definir y detectar la estructura gramatical, incluso antes de conocer el significado de un texto?"

Leer más acerca de: