“Informática a nivel de usuario”. Cuatro herramientas digitales para principiantes que te van a ayudar en tu investigación en humanidades.

Allá por marzo, Santi Pérez Isasi publicó en este blog una entrada sobre Humanidades Digitales. El tema parece estar últimamente en boca de todos y su proyección es indudable, pero a veces podría parecer que las Humanidades Digitales están solo al alcance de grandes grupos de investigación con grandes proyectos y un presupuesto enorme para pagar informáticos, o de expertos programadores que llevan años trabajando en el tema.

Bueno, en parte sí, pero el caso es que hay Humanidades Digitales y Humanidades Digitales, y como están creciendo tan rápidamente y son tan ambiciosas, hoy en día es complicado encontrar husmeando por Internet el punto de partida por el que debería comenzar alguien novato pero curioso. Personalmente lo que me ha resultado más difícil ha sido encontrar ejemplos de trabajos de investigación en hispanismo (artículos, capítulos de libro) que utilicen una metodología digital. Debo aclarar que no soy ninguna experta en el tema, pero sí que soy curiosa, y por eso hice un par de cursos sobre HD y me puse a aplicar modestamente algunas cositas, así que me he decidido después de varias conversaciones con colegas de profesión, a contar aquí algunas formas sencillas en las que los que no tienen ni idea de programación, ni etiquetado, ni estadística (todavía), pueden empezar a incorporar a su investigación herramientas digitales que van a serles útiles. Lo haré utilizando algunos ejemplos de mis propios intentos humildes de jugar con las herramientas. Va a ser rápido, fácil e indoloro:

AntConc:

AntConc es un programa gratuito muy útil para la minería textual (ya estamos con las palabrejas…). Se puede bajar de esta web. Lo primero que tienes que hacer para utilizarlo es encontrar los textos que quieras utilizar en versión digital. Hay diferentes bibliotecas virtuales que te pueden ayudar en el empeño, como nos recordaba Guillermo Gómez en la entrada de abril. Una vez hecho esto, lo mejor es que pases los textos (copiar y pegar) a un documento de texto sí, el viejo .txt del Bloc de notas que nunca has sabido muy bien para qué servía (aunque en lugar de usar el Bloc de notas, os aconsejo que os bajéis el Notepad++, si seguís con el tema digital, os será útil). Si son varios los libros con los que vas a trabajar, guarda cada libro en un documento de texto diferente. Ahora ya puedes subirlos a AntConc. Este tutorial explica de manera muy clara y sencilla cómo hacerlo y cómo utilizar las diferentes herramientas que incluye.

¿Para qué me va a servir?

Con AntConc puedes obtener una lista de las palabras más frecuentes de un texto o varios textos, y ver las palabras que las rodean. O incluso visualizar en qué partes del texto aparece una palabra y en cuáles no:

antconc
Imagen 1: Trabajo con AntConc. Las líneas negras verticales indican dónde aparecen las palabras “Filipinas”, “filipino”, “filipina”, “filipinos” y “filipinas” en varios libros (representados por el rectángulo azul).

Os pongo un ejemplo: en varios textos críticos del siglo XX se acusaba a los filipinos de escapistas por escribir obras modernistas y se les afeaba que no se ocuparan de las cuestiones que acuciaban al país, que se encontraba en una encrucijada histórica. Les criticaban que no contribuyeran a la construcción colectiva de una identidad distintivamente filipina. Wenceslao Retana llegaba a llamar “Adelfos” a los modernistas filipinos, por usar esta flor, que no es autóctona del archipiélago asiático, en sus poemas. Medio en serio medio en broma, me puse a comparar la frecuencia de aparición de algunas flores en los poemas filipinos gracias a AntConc, con la que aparecía en poemas modernistas extraídos del CORDE (Corpus Diacrónico del Español), con el siguiente resultado:

exagera retana
Imagen 2: gráfico que muestra la frecuencia relativa de aparición de cinco tipos de flores en poemas filipinos y españoles escritos entre 1890 y 1920.

En el CORDE simplemente tienes que seleccionar el género deseado y el intervalo de años y meter la palabra que quieres encontrar para que te dé el resultado. Ambos, el CORDE y AntConc nos pueden dar el número de veces que aparece una plantita en cuestión en una serie de textos. Si este resultado lo multiplicas por cien y lo divides entre el número total de palabras del texto o textos que estás midiendo, obtienes la frecuencia relativa de dicha palabra. Parece que tan Adelfos no eran los filipinos, que de hecho utilizan mucho más en sus poemas la Sampaguita, una flor autóctona del lugar.

El diagrama está hecho en Powerpoint, dándole a “insertar gráfico” y metiendo como datos del gráfico los valores relativos que hemos obtenido. Este ejemplo es un poco tontón, pero nos puede hacer pensar en nuestra propia investigación… ¿cuántas veces aparecerá “oriente” o palabras relacionadas (Asia, China, Japón… se pueden hacer varias búsquedas a la vez) en los poemas de Rubén Darío? ¿y América? ¿Y si resulta que el nicaragüense tampoco era tan escapista? ¿Qué palabras o sentimientos asocia Darío a oriente? ¿Y los filipinos? ¿Y los españoles que escribían en la misma época? Todo esto se puede descubrir jugando un poco con AntConc.

Voyant Tools

Voyant Tools es una aplicación online para la visualización de datos cuantitativos en textos. Es decir, que él solito también te cuenta las palabras y te hace nubes de palabras y otros gráficos. Es sencillísimo de utilizar, se suben directamente aquí los textos (en formato .txt, como en AntConc). Tiene algunas desventajas respecto a AntConc que es más “certero”, pero en general, para un corpus no demasiado grande de textos, funciona bien. Como sucede en AntConc, puedes utilizar listas de stop-words es decir, palabras muy utilizadas en español (como preposiciones, conjunciones o verbos copulativos) que siempre coparán los primeros puestos en nuestras listas de palabras más frecuentes, pero que no aportan demasiado al significado semántico del texto, pero aquí no puedes utilizar lematizaciones (listas de palabras que hacen que a la hora de contar las frecuencias, el singular y el plural de una palabra cuenten como una sola palabra, por ejemplo, o las diferentes conjugaciones de un verbo):

lematización
Imagen 3: Ejemplo cutrecillo de lista de lematizaciones para ser utilizada en AntConc. Tiene que tener ese formato para que el programa la entienda (palabra principal ->y siguientes palabras separadas por comas sin espacios)

¿Para qué sirve?

Dos imágenes valen más que mil palabras. Siguiendo con la cuestión del nacionalismo y el modernismo hacia la que apuntaba antes, mirad estas dos imágenes hechas con voyant-tools:

El pase de diapositivas requiere JavaScript.

En la primera imagen vemos que entre las palabras más frecuentes de los textos filipinos encontramos varias directamente relacionadas con su patria e identidad. La segunda es un poco más difícil: mirad en la parte filipina cómo por lo general, cuando sube la línea verde (patria) sube también la rosa (oriente) y cuando baja una, la ora también baja, es decir, que no se cruzan. En la parte de Rubén Darío, la línea rosa y la amarilla están todo el rato cruzándose. Esto indica que en el primer caso, en los fragmentos del texto (lo podemos dividir en los fragmentos que queramos) que aparece la palabra “patria” también aparece la palabra “oriente”. En el segundo caso, lo que sucede es que cuando aparece “oriente” no aparece “patria” y viceversa. Esto nos puede servir para hablar de antagonismos, pero de manera muy general… hay una manera mucho más sofisticada de hacerlo con programas estadísticos como ‘R’ en los que además se compara estas diferencias de apariciones con las frecuencias y diferencias de otras palabras aleatorias para asegurarse de que los resultados dados son relevantes, pero por el momento, para dar una idea inicial de la cuestión, Voyant-tools o Overviewdocs, son dos instrumentos intuitivos y suficientes.

Gephi y GIGRAPH

Digamos que Gephi es una herramienta mucho más potente que GIGRAPH, pero ambas sirven para cosas muy parecidas. Gephi es un programa para visualizar redes. Tienes un manual de instrucciones en español aquí. GIGRAPH es un complemento de Excel mucho más básico y más sencillo de utilizar, pero también nos puede servir para la visualización de redes que no tengan demasiados elementos, como puedes ver aquí:

redes gigraph
Imagen 6: visualización de la relación entre autores filipinos y periódicos en una determinada época, hecha con el complemento de Excel GIGRAPH
redes gephi
Imagen 7: visualización de los mismos datos de la imagen 6, hecha con Gephi esta vez.

¿Para qué puede servir?

Para visualizar relaciones de elementos. Sigo explicando con el ejemplo de las imágenes de arriba: en ambos casos lo que he hecho ha sido una tabla con los nombres de todos los autores filipinos en español de cierta antología, y he puesto al lado los periódicos para los que han trabajado, así:

tabla periodistas y periódicos
Imagen 8: tabla en Excel de escritores y periódicos en los que trabajaban.

Esta tabla de Excel, al introducirla en Gephi o en GIGRAPH me muestra cuáles son los periódicos en torno a los que se agrupaban más autores, y qué autores escribían con qué otros en qué periódicos, lo que para estudiar cuestiones de canon me ha sido muy útil.

gráfico con la vanguardia resaltada
Imagen 9: gráfico hecho con GIGRAPH con el periódico La Vanguardia resaltado.

También se puede aplicar a minería de textos utilizando AntConc, pero eso lleva algo más de trabajo… ¡todo es cuestión de ir jugando con las herramientas!

Heurist

La última herramienta de la que voy a hablar fue desarrollada por la Universidad de Sydney y también es bastante intuitiva de utilizar. Sirve para crear bases de datos y buscar en ellas sin tener que recurrir a complicados lenguajes y códigos. Ellos proporcionan los tipos de elementos que puedes introducir y tú los puedes modificar como quieras. También ofrecen una plataforma de visualización a partir de los datos introducidos. Además, si quieres, tu base de datos será accesible a todo el mundo, siguiendo la filosofía de compartir y colaborar por la que se rigen la mayoría de iniciativas de Humanidades Digitales.

heurist
Imagen 10: ejemplo de categorías de elementos añadidas a una base de datos de Heurist.

¿Para qué me puede servir a mí?

Pensemos en cosas como el “Campo literario” de Pierre Bourdieu. Si miramos el campo literario desde un punto de vista sociológico veremos que hay diversos factores que participan de él: los premios literarios, los periódicos en que publican los autores y sus ideologías, las editoriales, sus relaciones con los periódicos… todo forma una gran red de conexiones. Crear una base de datos puede servirnos, por ejemplo, para comprender el funcionamiento de esa red. Tomemos como ejemplo, por salir un poco de Filipinas, el mundillo literario de Barcelona de los años 90. Introduce una ficha de cada autor. Esa ficha indica las revistas en las que ha escrito, los libros que ha publicado, las editoriales con las que ha trabajado y los premios que ha ganado. Hay además, una ficha para cada revista literaria de la época, para cada periódico, cada premio… y estas fichas se “mencionan” unas a otras, de manera que puedes visualizar la red o preguntar cosas a la base de datos como ¿en qué periódicos escribían todos los que ganaron x premio literario? O ¿Cuál es la profesión mayoritaria de los escritores de cierto lugar en cierta época?

Por supuesto que sirve, esta herramienta y todas, para muchas otras cosas. Como os decía arriba, solo propongo algunos ejemplos de lo que yo he ido haciendo con ellas.

Bonus Track: el entorno EVI del grupo LINDH

Si os ha picado la curiosidad con la cuestión digital y os apetecería comenzar un proyectillo más allá de lo individual, el grupo de Humanidades Digitales de la UNED, LINDH, ha creado una plataforma llamada EVI (Entorno Virtual de Investigación), “un entorno al alcance de todos para crear proyectos en Humanidades Digitales” como dice su propia web. Es gratuito, solo hay que registrarse.

¿Para qué puede servir?

EVI propone tres tipos de proyecto, para los cuales proporciona las herramientas: un Entorno de Edición Digital, una Biblioteca Digital y una página web. El vídeo introductorio puede resolver muchas dudas.

Y hasta aquí la introducción de Humanidades Digitales para novatos. Que me disculpen los expertos y que tengan en cuenta que esto es solo el principio… a partir de aquí la experiencia práctica y teórica no tiene límites… pero por algún lado hay que empezar. Buena suerte.

Rocío Ortuño Casanova.

 

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s