El presidente del Gobierno, Pedro Sánchez, defiende en el Congreso de los Diputados la prórroga del estado de alarma el 22 de abril de 2020. Congreso.es

Cómo nos ayuda la minería de datos a analizar los discursos de Pedro Sánchez sobre COVID-19

Mucho se ha hablado sobre la exposición pública del presidente del Gobierno de España, Pedro Sánchez, en las últimas semanas, y también del estilo (¿épico? ¿bélico?) de sus intervenciones, frente a los discursos más contenidos de otros líderes europeos. La minería de textos nos permite analizar estos discursos y comprobar similitudes y diferencias entre unos y otros según el foro de intervención.

Se preguntarán: ¿qué es la minería de textos? Se trata de una rama de la minería de datos que analiza la información de tipo textual. Es una disciplina transversal y de creciente interés, cuyas aplicaciones son múltiples. Entre otras: indexación de documentos, traducción automática, resumen automático de textos, reconocimiento de voz o identificación de la autoría de textos.

También se ha utilizado en más de una ocasión para analizar discursos de diversas personalidades, con el objetivo de interpretar su estilo o sus cambios a lo largo del tiempo. Su aplicación más habitual y sencilla es la nube de etiquetas (figura donde cada palabra se representa en un tamaño proporcional a su frecuencia de aparición), presente desde hace tiempo en los medios de comunicación. Pero las diversas técnicas disponibles nos permiten ir más allá.

Y ahora vayamos con el presidente español. Hasta mediados de abril, Pedro Sánchez había realizado siete intervenciones relacionadas con la crisis sanitaria: cuatro ruedas de prensa (21, 22, y 28 de marzo, y 5 de abril) y tres comparecencias en el Congreso de los Diputados (18 y 25 de marzo, y 9 de abril).

Análisis descriptivo

Veamos primero un análisis puramente descriptivo de la extensión y complejidad de los discursos. Como se puede comprobar en las figuras 1 y 2, tanto la extensión (medida mediante el número de palabras utilizadas) como la complejidad (medida mediante la extensión media de las palabras o el porcentaje de palabras largas, es decir, de siete o más letras) es, en general, superior en los discursos del Congreso (CD) que en los de las ruedas de prensa (RP).

Sin embargo, el porcentaje de palabras únicas es similar, con diferencias entre los discursos pero sin un patrón claro.

Figura 1.
Figura 2.

Términos más frecuentes

En segundo lugar, vamos a visualizar la nube de etiquetas conjunta de los siete discursos (figura 3) y las dos que surgen de diferenciar según el foro de intervención (figuras 4 y 5). Se han seleccionado las 50 palabras más frecuentes en cada caso (las etiquetas están lematizadas, es decir, recortadas para representar la raíz común de palabras relacionadas. Por ejemplo, tod representa la suma de apariciones de las palabras todo, toda, todos y todas. Además, se han eliminado palabras vacías como preposiciones, conjunciones o artículos; estos tratamientos son comunes en análisis de textos).

Figura 3.

En la nube conjunta se puede apreciar que las palabras más frecuentes son bastante lógicas: medidas, sanitarios, hacer, trabajar, país, todos/as, virus, público, social, etc.

Una primera característica que se puede apreciar en la comparativa según el foro es que en el Congreso hay unas pocas palabras dominantes, mientras que en las ruedas de prensa esa preponderancia queda más diluida, porque hay un conjunto amplio de palabras con un peso similar. En términos técnicos, esto se mide mediante la sparsity, que en el primer caso es del 27%, y en el segundo del 46%, confirmando que en el Congreso los discursos son más homogéneos que en las ruedas de prensa.

Figura 4-CD.
Figura 5-RP.

En la comparativa según el foro también se puede comprobar que hay palabras frecuentes en ambos (España/españoles, personas), otras que siendo comunes se utilizan algo más en uno u otro entorno (por ejemplo, social o medidas se utilizan más en el Congreso que en las ruedas de prensa, y al revés ocurre con virus o país), y otras claramente diferenciadoras: en el Congreso se hace mayor uso que en las ruedas de prensa de las palabras señorías (por motivos obvios), crisis, salud o servicios, mientras que lo contrario sucede con palabras como días, Europa o vida.

No obstante, como decíamos antes, las diferentes técnicas de minería de texto (text-mining) nos permiten profundizar un poco más en el análisis y localizar aquellos términos que, aun no siendo muy frecuentes, son más específicos o diferenciadores entre los dos foros.

La tabla 1 muestra los diez términos más específicos en cada caso.

Tabla 1.

Y es aquí donde quizás sí se aventuren algunas de las diferencias que comentábamos al inicio, con un uso de términos más pragmáticos (euros, servicios, aprobar) en el Congreso frente a otros algo más emocionales (vidas, desgracia) en las ruedas de prensa. Si bien las diferencias tampoco parecen excesivas.

Want to write?

Write an article and join a growing community of more than 109,200 academics and researchers from 3,581 institutions.

Register now