El hispanohablante reconoce 30 000 palabras de media

Jon Andoni Duñabeitia, Director del Centro de Ciencia Cognitiva de la Facultad de Lenguas y Educación, Universidad Nebrija
·8 min de lectura
<span class="caption">Ficheros de la Real Academia Española.</span> <span class="attribution"><a class="link rapid-noclick-resp" href="https://www.rae.es/comunicacion/multimedia/listado?tipo=1" rel="nofollow noopener" target="_blank" data-ylk="slk:RAE">RAE</a>, <a class="link rapid-noclick-resp" href="http://creativecommons.org/licenses/by-nd/4.0/" rel="nofollow noopener" target="_blank" data-ylk="slk:CC BY-ND">CC BY-ND</a></span>
Ficheros de la Real Academia Española. RAE, CC BY-ND

Estimar el vocabulario de una persona con total precisión es una quimera, y todos los datos que se han podido proponer hasta ahora sobre esto son, en el mejor de los casos, buenas aproximaciones. La razón del poco éxito de las estimaciones de vocabulario radica en la maravillosa capacidad del cerebro humano para utilizar los recursos lingüísticos para la creación y modificación de palabras.

Sabemos que cálculo es un cómputo hecho mediante operaciones matemáticas. Por tanto, sabemos que calcular es realizar esa acción, que calculadora es la persona o máquina que la realiza, y que calculable es aquello que puede ser calculado. También sabemos que calcularé corresponde al futuro, y que calculé corresponde al pasado. Y sabemos que un individuo puede ser calculador, pero si son dos o más, serán entonces calculadores.

Sin movernos demasiado de un mismo punto de anclaje léxico, podemos comprobar el conocimiento exponencial de palabras concretas que podemos tener utilizando mecanismos simples de flexión y derivación morfológica. Y así, podemos darnos cuenta de lo complejo que resultaría determinar con precisión el vocabulario conocido por una persona si quisiéramos, por ejemplo, medir todas las formas verbales del verbo calcular. ¡Calcúlelo usted!

Para tratar de conquistar este terreno de conocimiento quimérico y acercarlo a la realidad, otra opción más efectiva podría ser poner a prueba todas las palabras incluidas en el diccionario. En el ámbito lingüístico, a esas entradas se les conoce como lemas.

¿Están todas las palabras en el diccionario?

Una aproximación basada en explorar los lemas conocidos liberaría de la necesidad de probar flexiones verbales, de género y número, asumiendo que los hablantes de una lengua serán capaces de aplicar las reglas de concordancia y dependencia correctas. Si nuestra lengua estuviera totalmente representada en un diccionario y si el número de lemas recogidos fuera manejable, no sería difícil poner a prueba a la población con todas esas palabras.

Pero ninguna de las dos condiciones se cumple, devolviéndonos al terreno de la ilusión y lo irrealizable: ni todas las palabras conocidas por los hablantes están recogidas en el diccionario, ni el número de palabras que sí están recogidas es manejable.

Lo primero es bastante obvio, especialmente si tenemos en cuenta que las lenguas son manifestaciones culturales vivas y cambiantes. De hecho, el propio Diccionario de la lengua española pasó de incluir aproximadamente 83 000 lemas en su 21ª edición de 1992, a 88 000 lemas en su 22ª edición de 2001, y a incorporar cerca de 93 000 en su 23ª edición de 2014.

Y así, además de ver la magnitud y riqueza de una lengua viva, comprobamos también que el número de palabras cambia y crece. ¿Quién estaría dispuesto a responder una encuesta con cerca de 10 000 preguntas?

Hacer una estimación con precisión

Gracias a los estudios psicolingüísticos a gran escala (llamados megaestudios) y al apoyo de las redes sociales y las plataformas en línea, hoy estamos un paso más cerca de resolver estas incógnitas. ¿Cómo podemos estimar con precisión el vocabulario conocido por una persona? La respuesta requiere una combinación de elementos que, mezclados de manera idónea, pueden guiarnos hacia un conocimiento mucho más certero sobre el nivel léxico de las personas.

En primer lugar, necesitaremos escoger un número de lemas que sea alto y representativo de la lengua. En segundo lugar, deberemos integrar esas palabras en una tarea que suponga un reto para las personas y que nos aporte información sobre su capacidad de reconocimiento léxico. En tercer lugar, tendremos que crear una plataforma ludificada con la que las personas se puedan poner a prueba, y a su vez puedan invitar y retar a sus conocidos y allegados, generando un efecto bola de nieve. Confiando en la viralización de la plataforma, en cuarto lugar, se deberá generar un algoritmo de muestreo aleatorio que permita obtener datos de decenas de miles de palabras pidiendo que cada persona responda solamente a un número reducido y manejable de ellas. Y, en quinto lugar, tendremos que recoger información sociodemográfica básica de las personas, para poder generar mediante aproximaciones fundamentadas en análisis de macrodatos (big data), predicciones y estimaciones fiables sobre el conocimiento de vocabulario.

Siguiendo esta receta de ingredientes alquímicos, algunos laboratorios internacionales ya han logrado dar las primeras respuestas a esta gran pregunta sobre el léxico. El Center for Reading Research de la Universidad de Gante es sin duda la institución pionera a nivel mundial en estimar el vocabulario de los hablantes de lenguas como el inglés o el holandés, poniendo a prueba a cientos de miles de personas.

Vocabulario en español

En 2020, y gracias a la colaboración de investigadores de la Universidad Nebrija, el Basque Center on Cognition, Brain and Language y la propia Universidad de Gante, vio la luz un estudio que, por primera vez, permitió estimar el vocabulario conocido por los hablantes de español.

Para poder calcular esta estimación del léxico conocido, el equipo coordinado por quien firma este artículo reunió los ingredientes necesarios para elaborar la receta del éxito. Primero, seleccionaron más de 45 000 palabras del español. Después, diseñaron una tarea clásica en psicolingüística denominada decisión léxica visual: cada persona vería en la pantalla una serie de cadenas de texto, y debía decidir si lo que se presentaba era una palabra real del español o si, por el contrario, era una palabra inventada (pseudopalabra).

Con esto, se puso en marcha una plataforma a la que se podía acceder desde dispositivos con conexión a internet y donde se ponía a prueba el conocimiento léxico. Cada vez que iniciase el juego, cada participante recibiría un grupo de 70 palabras y 30 pseudopalabras escogidas aleatoriamente.

Además, los jugadores tenían que aportar algunos datos generales para poder ajustar después los cálculos, como su género, edad, años de estudios y número de lenguas conocidas.

En pocas semanas, cerca de 170 000 hablantes nativos de español de 19 países diferentes completaron el juego. Con los aproximadamente 12 millones de datos individuales recogidos para las palabras y gracias a una serie de análisis estadísticos complejos, el equipo pudo por fin ofrecer una respuesta a la gran pregunta.

Según las estadísticas generales, el ciudadano medio es una persona de alrededor de 45 años. ¿Cuántas palabras conocerá esa persona? Con cierta variabilidad debida al número de años que haya podido estar en el sistema educativo, a si es hombre o mujer y al número de lenguas que pueda hablar, la respuesta no nos dejará indiferentes: aproximadamente 30 000 palabras. Es decir, un ciudadano medio reconoce correctamente dos tercios de las palabras recogidas en el Diccionario de la Lengua Española.

Factores para que el léxico aumente o disminuya

¿Y qué factores hacen que el conocimiento léxico aumente o disminuya? El factor con mayor impacto en el nivel de vocabulario de las personas es su edad. Como es lógico, durante la primera parte de nuestra vida es cuando el crecimiento del número de palabras conocidas crece exponencialmente.

Así, a lo largo de la infancia vamos poblando esa tabula rasa léxica inicial hasta llegar a la juventud con la capacidad de reconocer alrededor de la mitad de las palabras de nuestro diccionario (alrededor de 25 000 palabras a los 25 años).

Curiosamente, y en contra de lo que intuitivamente algunos pensaban, el nivel de vocabulario aumenta con la edad, llegando a alcanzar las 35 000 palabras a los 80 años, o, lo que es lo mismo, cerca de un 80 % de los lemas del diccionario.

Por tanto, debemos agradecer a nuestros mayores su aporte, entre otras muchas cosas, al conocimiento léxico general. En un país con un claro envejecimiento demográfico, el vocabulario conocido por los grupos de edad avanzada es un referente para el resto de la población, y supone un tributo al aprendizaje continuo.

Otro factor directamente relacionado con el anterior y con un peso determinante en el nivel de vocabulario de las personas es el nivel educativo que han alcanzado. Cuantos más años de educación formal atesore una persona y cuanto mayor sea el nivel educativo superado, mayor será también su nivel léxico.

Este hallazgo coincide con los resultados de los estudios que muestran que el número de años que una persona pasa en el sistema educativo es un factor crítico para su nivel intelectual, extendiéndolos también al nivel léxico. Educación, inteligencia y vocabulario son compañeros de viaje en este camino que llamamos vida.

Por último, otro de los descubrimientos más sorprendentes, y que coincide también con los hallazgos de los equipos de otros países, es el hecho de que el tamaño del vocabulario aumenta con el conocimiento de otras lenguas. El conocimiento del léxico español aumenta de manera lineal en función del número de lenguas que hable una persona. En un mundo en el que el multilingüismo es más la norma que la excepción, esto supone un dato prometedor que revaloriza el aprendizaje de lenguas.

Aprendemos palabras nuevas constantemente. A veces, aprendemos de manera voluntaria. Otras veces aprendemos de manera accidental, tal vez sin darnos cuenta. Así, en la época de la desescalada de los efectos del coronavirus, combinamos días laborables llenos de videollamadas de teletrabajo con tiempo de ocio durante el finde. Hace unos años, poca gente conocía estos términos. Hoy, casi todos los usamos, y ya forman parte de nuestro léxico, y también del Diccionario de la Lengua Española, tras su última actualización.

Este artículo fue publicado originalmente en The Conversation. Lea el original.

Jon Andoni Duñabeitia no recibe salario, ni ejerce labores de consultoría, ni posee acciones, ni recibe financiación de ninguna compañía u organización que pueda obtener beneficio de este artículo, y ha declarado carecer de vínculos relevantes más allá del cargo académico citado.