Se publica el "Léxico del Quijote", una serie de diccionarios de lemas, formas y personajes de la obra magistral de Cervantes

Present

Se trata de un novedoso recurso digital de ciencia abierta que ofrece una base completa y cuantitativa para desarrollar investigaciones sobre el léxico y el estilo de la obra cervantina.

13/05/2026

Ejemplo de la letra V. Entre paréntesis, las categorías sintácticas. Los números indican frecuencia en la obra. En la entrada "valer" se listan las formas flexionadas. El * significa que es una forma arcaica. (rf) son refranes. Algunas entradas tienen explicacaciones de su significado (vaca de la boda).

El Léxico del Quijote ha sido recopilado por un grupo de expertos en lingüística computacional, literatura e historia del español de diferentes universidades (Alcalá, Complutense, Granada...) coordinados por el catedrático de Lingüística de la UAM Antonio Moreno Sandoval y el prestigioso hispanista Hiroto Ueda (Universidad de Tokio).

¿Qué es el Léxico del Quijote?

En la plataforma Madroño de la Universidad Autónoma de Madrid se acaba de poner a disposición de los estudiosos, de forma gratuita y abierta, el Léxico del Quijote, una recopilación completa de la información léxica de la obra, un trabajo que faltaba en los 400 años de estudios cervantinos. Aunque existían listas completas de las palabras del Quijote, nunca antes se habían presentado organizadas por lemas. Los lemas son las palabras que encabezan las entradas de los diccionarios y agrupan todas las formas asociadas (por ejemplo, en la entrada del infinitivo "amar" se agrupan todos los tiempos y las personas del verbo: amo, amas...). Esta presentación muestra la verdadera riqueza léxica de la obra.

Además, el diccionario incluye el número de veces que aparece cada palabra, es decir, su frecuencia. También proporciona información sobre la categoría sintáctica y los rasgos morfológicos, como el género, la persona y el tiempo verbal, así como sobre locuciones y frases hechas.

¿Quién la ha compilado?

Un grupo de lingüistas coordinados por Antonio Moreno Sandoval (UAM ) y Hiroto Ueda (Tokio). Hay especialistas en lingüística computacional, literatura e historia del español de diferentes universidades (Alcalá, Complutense, Granada...). Es una colaboración multidisciplinar que se ha desarrollado durante 7 años, principalmente a distancia. Comenzó justo antes de la pandemia y se ha podido completar mediante la metodología de Filología Digital y programas computacionales para el tratamiento del español.

Características innovadoras

La metodología combina el procesamiento automático con la validación humana. El uso de tecnología lingüística permitió reducir considerablemente el tiempo requerido para etiquetar las casi 400.000 palabras que componen el corpus de la obra. Se partió de una edición en formato electrónico y la primera lematización se realizó de forma automática mediante programas especializados en el reconocimiento de variantes diacrónicas y en la identificación de nombres propios (muy abundantes en la obra cervantina).

Sin embargo, dado que el procesamiento automático suele tener una tasa de error aproximada del 10%, este análisis preliminar se sometió posteriormente a una revisión manual minuciosa a cargo de un equipo de lingüistas expertos del proyecto LYNEAL, lo que garantiza la precisión filológica y la casi inexistencia de errores en la base de datos final.

Otra aportación significativa de este Léxico del Quijote es que el resultado se ha plasmado en una base de datos que permite asociar cada frase con el personaje que la pronuncia. Así, es posible vincular las características sociolingüísticas concretas de los personajes, como sexo, edad y clase social, con su vocabulario y su forma de hablar, lo que permite realizar estudios léxicos comparativos. Por ejemplo, cuáles son las palabras distintivas del Quijote en relación con Sancho; qué conceptos predominan en los personajes cultos y en los de clase baja; o incluso las diferencias y semejanzas entre el lenguaje de las mujeres y el de los hombres en la obra cervantina. Además, la base de datos es el elemento clave del proyecto, ya que en ella se realizan todas las correcciones y modificaciones para, posteriormente, generar el lexicón final.

Finalmente, cabe destacar que todo el texto del Quijote puede consultarse en la aplicación web LYNEAL

Ciencia abierta: desde la elección de la edición digital hasta la creación de la aplicación web de consulta, todos los diccionarios se ofrecen al público sin restricción alguna en su uso.

Se utilizó como base la edición, tanto impresa como digital, de Florencio Sevilla y Antonio Rey (1996), profesores del Departamento de Filología Hispánica de la UAM. La elección de la edición se debió a su accesibilidad en formato electrónico para su uso público. Desde el punto de vista lingüístico, su interés radica en que preserva las formas originales de la edición princeps, lo que garantiza la fidelidad a la realidad lingüística de la época.

Para la publicación de los diccionarios, se utiliza el Repositorio de Datos del Consorcio Madroño. Los datos de los diccionarios están bajo una licencia que permite la redistribución y la reutilización de la obra, con la condición de que los creadores sean mencionados y que no se utilice con fines comerciales.

La publicación digital ofrece dos beneficios principales: a) acceso inmediato a los diccionarios y a la obra, lo que facilita considerablemente el análisis para los usuarios; y b) una actualización ágil de las versiones corregidas de los diccionarios, sin coste adicional en su producción, que puede gestionarse con rapidez.

Hacia la estilometría computacional del Quijote.

La estilometría es la medición cuantitativa del estilo. Para ello, es necesario utilizar programas que cuenten las unidades del texto. Por ejemplo:

- Número total de palabras del Quijote (versión utilizada): 377.414

- Número total de entradas (lemas) del diccionario: 8.555

- Número total de formas diferentes del diccionario: 22.150

Para hacerse una idea de la riqueza léxica que suponen estas cifras, basta con saber que en el uso normal se emplean alrededor de 3.500 palabras, el vocabulario necesario para alcanzar un nivel B2 en un examen de lengua extranjera.

La separación del texto en segmentos con las palabras del narrador y de todos los personajes nos ha permitido, en primer lugar, saber cuántos personajes contiene la obra (214) y el detalle de las palabras que dice cada uno, lo que da una idea de su peso dentro de la obra. La proporción de palabras de los principales participantes es la siguiente: Narrador (133.566 palabras, 35% del total), Quijote (73.874 palabras, 20%), Sancho (47.823, 13%) y luego... el cautivo Ruy Pérez (12.493, 3%), Cardenio (7.244, 2%), cura (5.728, 1,5%)...

Es conocido que tanto Quijote como Sancho aumentan su participación léxica de la primera a la segunda parte. Así, el Quijote sube del 9% al 11% (total 20%) mientras que Sancho duplica su participación (del 4% al 9% para llegar al 13% total). Esto nos lleva a afirmar que se produce más bien una "quijotización de Sancho" que una "sanchificación del Quijote", según la terminología de Madariaga.

Otro resultado del estudio es conocer las palabras exclusivas y propias de los principales personajes, en comparación entre ellos:

Las palabras propias del Quijote: Amadís de Gaula (frecuencia: 26), belleza (15), castellano (14), afrentar (13), premio (13), venidero (11), acción (10), comedia (10), espíritu (10), honestidad (10), poderoso (10)... todas ellas cultas y relacionadas con la caballería andante.

Las palabras propias de Sancho: bolsa (7), olla (7), tocino (7), Ricote (6), avellana (6), cola (6), jugar (6), podrir (6), queso (6), saco (6)... palabras de la vida cotidiana propias del estilo llano.

Los campos semánticos son conjuntos de palabras de la misma categoría gramatical (nombres, verbos, adjetivos) que comparten rasgos de significado comunes y están relacionadas temáticamente. A partir del diccionario completo de lemas, estamos recopilando nombres de instrumentos musicales, profesiones, tejidos y vestimentas, etc. Esto proporciona un rico inventario de conceptos que existían en la época de Cervantes.

Otros análisis estilométricos abordan la alternancia entre variantes arcaicas y modernas. Por ejemplo, "mesmo" y "mismo" pertenecen al lema mismo, siendo la primera propia del español medieval y la segunda una innovación que finalmente predominó. Así, "mesmo" se usa más en la Primera parte (1605) y "mismo" en la Segunda (1615). Esto muestra que este cambio está en proceso de transición en esos años. Es aún más interesante que tanto el Quijote como el narrador prefieran claramente la variante "mesmo" propia del español medieval. Además, al examinar el uso de ambas variantes por género, se observa que los personajes masculinos muestran una preferencia marcada por "mesmo", mientras que las mujeres muestran una ligera inclinación hacia la forma más moderna. Estos hallazgos sugieren que el habla masculina conserva un carácter más tradicional en la obra, en comparación con la femenina. También se observa esta tendencia en diferentes grupos de edad, en los que los mayores prefieren "mesmo". En resumen, en la obra, "mesmo" se asocia principalmente con el personaje principal, el habla masculina y el narrador.

Esta estructuración en unidades discretas y enriquecidas no solo ha facilitado la creación de un diccionario de frecuencias de formas y lemas muy preciso, sino que constituye la arquitectura de datos necesaria para la implementación de tecnologías avanzadas, como los grafos de conocimiento y los sistemas de RAG. En los próximos 12 meses desarrollaremos un chatbot para consultar la obra de Cervantes.

Esto es una muestra de lo que se puede lograr con un análisis cuantificado y organizado por personajes. Esperamos que esta serie de diccionarios propicie nuevas investigaciones y comparaciones que amplíen el conocimiento sobre la riquísima obra cervantina.

Sobre los autores principales

Antonio Moreno Sandoval es Catedrático de Lingüística, director del Laboratorio de Lingüística Informática y director de la Cátedra UAM-IIC en Lingüística Computacional. Su carrera investigadora empezó en 1988 en el proyecto europeo Eurotra, para continuar en el Centro Científico UAM-IBM, en la Universidad de Nueva York (con una beca Fulbrigth postdoctoral) y en la Universidad de Ausgburgo (beca DAAD). Ha realizado estancias en Lancaster, Florencia, Beijing y Tokio. Ha dirigido más de 12 proyectos como IP y numerosos contratos de transferencia. Ha contribuido a diferentes ramas de la Lingüística computacional como traducción automática, extracción de información, procesamiento de narrativa financiera, corpus de habla espontánea y humanidades digitales.

Hiroto Ueda es Catedrático jubilado de la Universidad de Tokio, reconocido hispanista y Académico Correspondiente Extranjero de la Real Academia Española.