Ensayos con Google Ngram Viewer

En una nota anterior mencionaba la utilidad de las series de datos para analizar tendencias culturales, y en particular el atractivo de una herramienta de Google, el Ngram Viewer, que permite obtener de manera muy simple cifras seriadas y nítidos diagramas procedentes de una búsqueda automática en Google Libros, su vastísimo repositorio de libros digitalizados.

El ensayo atrajo varios comentarios que agradezco, de Vae victis (@Inigus) sobre la selección implícita que conlleva la digitalización de libros en bibliotecas académicas; y de mi colega bloguero Víctor Gayol, sobre la falta de transparencia en la recopilación de datos y el carácter “tosco” de los resultados estadísticos, que pone en cuestión su utilidad para publicaciones formales.

Por otro lado, Aude Argouse, en su blog sobre el “papel sellado”, retoma esta herramienta y procede a presentar las tendencias de las palabras “papel sellado”, “papier timbré” y “stempepapier” (que son equivalentes en distintos idiomas). Los resultados son curiosos y dan para algunas reflexiones. Permiten también a la autora señalar algunas limitaciones, como la imposibilidad de presentar en la misma gráfica los resultados de distintos cuerpos lingüísticos, de diferenciar los resultados por países, y algo que ya había advertido, los “falsos positivos” (o “falsos negativos”) de la búsqueda en libros antiguos, donde la grafía no es la actual (por ejemplo habría que buscar por “papel fellado” en español antiguo).

Retomando la idea, aquí presento algunos resultados particulares del uso de este “visor”, que muestran sus posibilidades. El primero tiene que ver con la introducción del uso general en español de “México” (con “x”) en lugar de Méjico, que es lo correspondería por la pronunciación. Se trata, desde luego, de un arcaísmo y también de una “cortesía gramatical”, aunque ambas formas siguen considerándose apropiadas.

Ngram MéjicoPuede verse asimismo la tendencia en el cambio ya no sólo de grafías, sino del empleo de distintas palabras para designar una misma realidad. Para tomar un ejemplo que me resulta cercano, presento el uso alternativo de “tarasco/purépecha”. Esta última opción es la considerada “correcta”, aunque algunos historiadores, entre los que me cuento, seguimos empleando la primera, y tenemos razones para ello. He utilizado en este caso el corpus en inglés, porque el total predominio de “tarasco” en español resulta menos contrapunteado.

Ngram tarasco

Finalmente, presento la evolución en la la recepción de algunos pensadores contemporáneos que tuvieron gran influencia en la historia y las ciencias sociales, como Michel Foucault, Louis Althusser, Jacques Derrida y Pierre Bourdieu.

Ngram Foucault

Ya había hecho un ejercicio parecido en mi nota anterior, contrastando a Karl Marx y Max Weber.

Como comentaba, tendría mis dudas para emplear estas gráficas en trabajos académicos formales, aunque es posible “afinar” las búsquedas y  Google ya resolvió algunos posibles problemas que podrían haber derivado en falacias estadísticas, como se explica aquí. También hay que tener en consideración que de hecho todas las estadísticas, cuadros y gráficas, a pesar del aspecto técnico y “científico” que tanto nos impresionan, tiene un proceso de “construcción” que incluye cierto grado de subjetividad.  Esto incluye los censos contemporáneos de población y vivienda, y desde luego los limpios y bonitos cuadros de la demografía de épocas antiguas, donde los datos son irregulares y poco confiables (lo cual no impide que los empleemos y construyamos argumentos a partir de ellos). Diría que respecto de Google Ngram Viewer, el juicio sobre su confiabilidad y aceptabilidad académicas está aún pendiente. Sin duda habría que discutirlo tanto del punto de vista técnico como conceptual,  porque su posible empleo resulta sugerente y atractivo.

Anuncios

Explorando tendencias culturales con series de datos en Google Libros

Siempre me han interesado las cuantificaciones para estudiar situaciones y procesos que no pueden apreciarse sino mediante el estudio de regularidades y patrones colectivos. Una de las vías más interesantes es el seguimiento de términos y conceptos, porque evidentemente toda nueva realidad debe de ser pensada y nombrada. En este sentido, el masivo “corpus” de Google Libros es una excelente fuente, porque permite una búsqueda en el tiempo para apreciar cuando un término (por ejemplo, “despotismo ilustrado”) comenzó a ser de uso común. La compilación y procesamiento cuantitativo de registros de este género es también de interés serial porque hace posible ver la aparición, desarrollo y posible declive del empleo de términos en el tiempo. Se le conoce como “minería de textos”, una metáfora que me agrada por sus alusiones metalúrgicas. Es incluso un posible campo de estudios en sí,  llamado provisionalmente culturomics (o, muy feamente en español, “culturomía”).

La herramienta más a propósito para estos fines son los n-gramas, esto es la búsqueda de secuencias o “cadenas” de información, en este caso en un texto (hay otros empleos posibles). Desde luego, hacerlo “a mano” es muy laborioso, pero afortunadamente Google ofrece gratuitamente y en línea su Ngram Viewer, que  permite hacer búsquedas que generan automáticamente gráficas muy presentables. Es como hacer un verso sin ningún esfuerzo.

Caben algunas advertencias (como siempre debe hacerse con cualquier estadística) antes de confiar alegremente en los resultados.  Aunque podría pensarse que Google Libros representa el universo de todos los impresos, esto no es exactamente así. Sus ejemplares digitalizados provienen de bibliotecas públicas de prestigio, esto es de repositorios que adquieren y almacenan los libros considerados “de interés”, lo cual establece un filtro de entrada. Las obras que se venden en puestos callejeros, los comics, muchos “bestsellers” (¿en cuántas bibliotecas universitarias estará la “saga” completa de Harry Potter?) probablemente estén subrepresentados; lo que tenemos aquí sería una compilación primordialmente de literatura “culta” y “académica”.

Asimismo, ya he comprobado que  el escaneo de Google tiende a confundirse con las letras impresas de libros muy antiguos. Para tiempos modernos, también puede haber algunos casos de homonimias y “falsos positivos”. Ah, y  las búsquedas deben hacerse separando las variables por comas, no entrecomilladas.

Finalmente, este “visor” hace las búsquedas por corpus lingüísticos particulares; no está del todo “al día” en la indexación (en español llega sólo hasta 2008); y en su vertiente “automática” sólo incluye cadenas de alta frecuencia (esto es, que aparecen al menos en 40 libros distintos).  Hay por otro lado opciones para “afinar” las búsquedas con algunos descriptores avanzados, que se explican aquí; y es posible consultar los datos “en bruto”, si se tienen aficiones “culturómicas” y se cuenta con una conexión a red muy eficiente.

Con todas estas precauciones, el N-gram Viewer es interesante y atractivo. Para no alargarme, dejaré los experimentos para otra nota que publicaré en breve en este blog. Por lo pronto, les dejo un ejemplo sobre las n-gramas cruzadas de las menciones en español a dos autores de importante influencia en humanidades y ciencias sociales.

N-Gram Marx-Weber

Los porcentajes corresponden a las frecuencias respecto del conjunto de textos.

Vale la pena señalar que el empleo de esta herramienta digital parece estar siendo progresivamente aceptada en publicaciones académicas formales, aunque ha sido también motivo de diversas objeciones. Y, desde luego, son gráficas que admiten distintas interpretaciones, porque las cifras en sí siempre serán solamente un punto de partida para la reflexión.

El INAH y su asociación con Google: beneficios y políticas institucionales

El Instituto Nacional de Antropología e Historia continúa incesantemente ampliando su muy notable presencia en web,  en particular mediante su asociación con Google. Acaba ahora de presentar una  capa o nivel para la aplicación Google Earth, con la cual además de ofrecer un nuevo servicio, puede enlazar entre sí un amplio conjunto de desarrollos anteriores (paseos “virtuales”, micrositios de cada museo o sitio arqueológico, maquetas en 3D realizadas por distintas personas en un concurso, infografías, un canal en youtube).  Como una imagen resulta más clara que una larga descripción técnica, véase el siguiente video.

El único pero es que se da como obvio que el usuario conoce que debe instalar  “Google Earth” en su computadora, y asimismo obtener un pequeño archivo KML, disponible por ahora en la página principal del INAH.

La oferta de recursos de este proyecto  seguramente va a crecer, dado que el INAH ha  ha anunciado que próximamente el triciclo de Google Street View filmará en “imágenes circulares”, a nivel del suelo, muchas zonas arqueológicas.

La evolución aquí presentada es interesante, además, en términos de política institucional. En efecto, el INAH se ha asociado con Google, con buenos resultados.  Por su parte, otra gran institución nacional, la Universidad Nacional Autónoma de México, ha optado por vincularse con Microsoft.  Es algo que tiene ya un par de años y cuya manifestación inmediata fue la oferta a las decenas de miles de estudiantes universitarios de programas de esta corporación, a precio reducido. El siguiente desarrollo fue la reciente entrega del manejo del sistema de correo universitario a Microsoft, abandonando el propio.

La nueva pantalla de ingreso a Correo UNAM
La nueva pantalla de ingreso a Correo UNAM

Como ocurre con todas las decisiones de este género, todas tienen sus pro y sus contras. No es cuestión de declaraciones de principios, sino de resultados, riesgos y beneficios concretos.  Habrá que ver, con el tiempo, que resulta de las  opciones adoptadas por ambas instituciones.

Dialnet en perspectiva

Hace unos días necesité preparar un listado de obras de referencia, con particular énfasis en artículos que estuviesen disponibles en línea, y como en otras ocasiones, Dialnet fue una valiosa ayuda. Se trata de un portal de difusión y referencia de la producción científica hispana, con énfasis en ciencias humanas y sociales, establecido por la Universidad de La Rioja (España) en 2001.  Incluye primordialmente índices de revistas, pero asimismo algunos libros, tesis doctorales y otros documentos.  Los contenidos proceden de universidades españolas e hispanoamericanas que aportan los contenidos de sus publicaciones.

Los  resultados de las consultas a Dialnet se presentan de de manera ordenada y  clara, con registros bibliográficos formales y un icono que indica si el material está o no disponible en línea. Es posible (previo registro gratuito) solicitar el envío al propio buzón  de una “alerta bibliográfica” que informa al usuario cuando aparece un material que reúne ciertas condiciones preseleccionadas.

Dialnet ha procurado contribuir al espacio iberoamericano del conocimiento, y ha encontrado universidades participantes  en algunos países latinoamericanos, como Argentina, Brasil, Colombia, Chile y Uruguay. Como es sabido, no  es fácil dejar atrás la tendencia hacia el aislamiento, la dispersión y la redundancia de iniciativas de catalogación y digitalización.  El localismo institucional y lo que podríamos llamar el “nacionalismo digital” siempre han sido y lamentablemente serán obstáculos difíciles de superar.

Por eso, el problema principal de de  Dialnet se llama Google, en sus opciones Libros  y Académico. Este buscador revisa constantemente toda la red mundial, y de alguna misteriosa manera logra incorporar automáticamente toda la información que parezca provenir de ámbitos vinculados a la investigación especializada o la docencia universitaria. El resultado  requiere cierto trabajo de selección, y la presentación  es bastante tosca:  solamente aparece el título, a veces el autor y unas dos o tres líneas del contenido.  Sin embargo, la masividad de la información compilada asegura casi siempre la pertinencia de algunos registros.

¿Sobrevivirá Dialnet al crecimiento acelerado y  exponencial de la incursión de Google en el mundo académico? En primera instancia así parece, porque la agencia de “rankings” Alexia lo ubica en el lugar mundial 17,190 (lo cual no está nada mal para un sitio especializado en un idioma que no es el inglés), y recibe muchas visitas procedentes de España y, por alguna razón, de Perú  y Ecuador. Actualmente, según sus últimas estadísticas disponibles,  dispone de más de tres millones de documentos, y el  número de usuarios registrados es de 636.890.

En lo personal, utilizo Google para búsquedas generales, y recurro a Dialnet cuando estoy tras la pista de alguna publicación o autor específicos.  Las experiencias personales, desde luego, pueden ser muy variadas, y asimismo cambiar con el tiempo. Habrá que seguir el desarrollo de esta muy recomendable iniciativa ibérica.

La pinacoteca virtual de Google

Hace un par de años Google nos sorprendió al incluir un recorrido por los pasillos del Museo del Prado, con la opción de contemplar varias de sus obras con imágenes de alta resolución. Aunque desde luego estas imágenes no sustituyen a la experiencia de maravillarse personalmente con  la contemplación de estas obras, permiten un nivel de acercamiento que sería imposible tener de otra manera. El resultado es fascinante y a veces inquietante, porque es posible ahora ver las ligeras grietas del lienzo, o las vacilaciones imperceptibles que el maestro tuvo al plasmar algunos detalles.

El gigante de los buscadores ha extendido este proyecto a otros museos, en lo que ahora se denomina Google Art Project. Se trata de 17 instituciones de amplia fama y prestigio, entre ellas la National Gallery (Londres), la Galleria Degli Ufizzi (Florencia), el Rijksmuseum y el Museo Van Gogh (Amsterdam), el Metropolitan Museum of Art (Nueva York),  el Hermitage (San Petersburgo) y la Galería Tretyakov (Moscú). El sistema permite “recorrer” los pasillos de los  museos, ver el listado de obras, consultar todas las creaciones disponibles de un autor, leer algunas notas  didácticas (breves) e incluso “crear” una “colección particular” de imágenes. Algunas opciones y vínculos aun necesitan alguna revisión, pero hay que recordar que es una aplicación nueva.

Google parece haber actuado respetuosamente con los museos, dándoles libertad para escoger cuáles obras presentar en este proyecto. En varios casos, ha bloqueado en el recorrido “a nivel de pasillo” la visibilidad de algunos cuadros, a solicitud de las instituciones (básicamente, por razones de copyright). Es posible asimismo acceder a las imágenes desde las páginas web de cada museo.

Cabe esperar que otras instituciones se incorporen a esta iniciativa (o establezcan otras equivalentes). Además de los ya presentes, hay varios museos que realmente  querría visitar…aunque sea, por lo pronto, virtualmente.

Tres años de Clíotropos

En este mes de noviembre se cumplen tres años de la aparición de este blog. Por simple coincidencia,  hace una semana publiqué la centésima nota. En total, el sitio ha recibido 67,561  visitas (que desde luego no significan, necesariamente. lecturas), y 105 comentarios. Las entradas  son enlazadas de manera automática (vía RSS)  por la prestigiosa revista virtual “Nuevo Mundo – Mundos Nuevos“, entre otros  blogs y páginas web.

El blog siempre tuvo una orientación temática: comentar y analizar lo que definía como “el amor (y el

La primera portada de Clíotropos

desamor) de los historiadores por los medios virtuales”. Después de algunos artículos que recogían ensayos anteriores presentados en diversos foros, el interés  derivó hacia las novedades  y tendencias. Desde luego, me interesaba difundir las posibilidades de los blogs, y por esa razón comencé a preparar y distribuir una relación mensual de los que estaban activos, así como de los que de nuevo cuño aparecían. Esto  coincidió con una coyuntura de  notable crecimiento de la utilización de estos medio entre historiadores. En cosa de un semestre, sin embargo, esta  expansión llegó a un punto de equilibrio, y realmente concluí que no tenía caso reiterar mes tras mes el mismo contenido. En su lugar, inicié la práctica de dar noticia de los artículos más interesantes en la página Facebook de H-Mexico.

Entre los temas más frecuentes estuvieron las notas relacionadas con los servicios de Google (al punto de que tuve la preocupación de que el blog acabaría por ser una especie de “Googletropos”).  Fue, asimismo, una coyuntura en la que esta corporación desarrolló  muchas interesantes aplicaciones.  En fechas posteriores, dediqué varios artículos  a los múltiples servicios ofrecidos por la innovadora página web del Instituto Nacional de Antropología e Historia, y en particular a sus “visitas virtuales“. Me ocupé asimismo de la digitalización de bibliotecas y archivos, y de las posibilidades de TwitterFacebook y Wikipedia.

Desde luego, del  punto de vista institucional esta es una actividad inexistente, de cuya realización  ni siquiera tiene caso dar cuenta.  Esto puede o no cambiar en el futuro,  pero tampoco es algo que me inquiete particularmente. En cierto sentido, este desapego institucional me concede una libertad que no tengo en otras labores más formales.

Hacia donde irá este blog, no sabría decirlo de cierto. Nunca he tenido un “programa” temático, sino que voy escribiendo notas en la medida en que algún producto, tendencia o situación atrae mi atención. Lo hago simplemente porque me atrae,  me divierte, me pone en contacto con personas de intereses afines y puede que tenga alguna influencia en mis lectores, a juzgar por algunos comentarios. Como quiera que sea, aquí seguiré mientras conserve la inquietud y la curiosidad por estos temas, y tenga el tiempo para teclear sobre ellos.

Alertas automáticas por correo, ahora disponibles en Google Académico

Google Académico es una excelente herramienta para estudiantes, profesores e investigadores que buscan información relevante para sus trabajos semestrales, cursos o artículos, dado que ofrece búsquedas restringidas a publicaciones académicas y sitios con contenidos afines. En la medida en que cada vez más revistas especializadas están en línea, los resultados han sido cada vez más nutridos  y valiosos (aunque, evidentemente, cierto número de “falsos resultados” es inevitable). Las opciones de búsqueda avanzada permiten ubicar información de manera selectiva, combinando exclusiones e inclusiones, así como localizar materiales escritos por cierto autor o publicados por alguna revista en particular. Asimismo,  dado que pueden especificarse parámetros cronológicos, resulta posible restringir la búsqueda al  año en curso y así conocer que hay de nuevo sobre cierto tema, para estar siempre “al día”.

Un inconveniente inevitable era que  ciertos materiales muy específicos aparecen de manera muy intermitente e imprevisible,  lo cual obligaba a perder tiempo en búsquedas inútiles y reiteradas. Este problema ya ha sido resuelto por Google, y ahora disponemos de un servicio de alerta que revisa todos los nuevos contenidos de manera automática, y envía el resultado al correo electrónico del usuario. Simplemente, después de configurar una búsqueda con los parámetros adecuados, hay que utilizar el icono de “correo” en la parte superior de la página o el enlace provisto al final. No es siquiera necesario tener una cuenta en google, aunque eso permite administrar las alertas de manera más eficiente. Ahora sólo nos falta que este servicio se extienda a Google Libros…Ya se sabe: cuanto más se obtiene (y de manera gratuita) más ambicioso uno se vuelve…