Explorando tendencias culturales con series de datos en Google Libros

Siempre me han interesado las cuantificaciones para estudiar situaciones y procesos que no pueden apreciarse sino mediante el estudio de regularidades y patrones colectivos. Una de las vías más interesantes es el seguimiento de términos y conceptos, porque evidentemente toda nueva realidad debe de ser pensada y nombrada. En este sentido, el masivo “corpus” de Google Libros es una excelente fuente, porque permite una búsqueda en el tiempo para apreciar cuando un término (por ejemplo, “despotismo ilustrado”) comenzó a ser de uso común. La compilación y procesamiento cuantitativo de registros de este género es también de interés serial porque hace posible ver la aparición, desarrollo y posible declive del empleo de términos en el tiempo. Se le conoce como “minería de textos”, una metáfora que me agrada por sus alusiones metalúrgicas. Es incluso un posible campo de estudios en sí,  llamado provisionalmente culturomics (o, muy feamente en español, “culturomía”).

La herramienta más a propósito para estos fines son los n-gramas, esto es la búsqueda de secuencias o “cadenas” de información, en este caso en un texto (hay otros empleos posibles). Desde luego, hacerlo “a mano” es muy laborioso, pero afortunadamente Google ofrece gratuitamente y en línea su Ngram Viewer, que  permite hacer búsquedas que generan automáticamente gráficas muy presentables. Es como hacer un verso sin ningún esfuerzo.

Caben algunas advertencias (como siempre debe hacerse con cualquier estadística) antes de confiar alegremente en los resultados.  Aunque podría pensarse que Google Libros representa el universo de todos los impresos, esto no es exactamente así. Sus ejemplares digitalizados provienen de bibliotecas públicas de prestigio, esto es de repositorios que adquieren y almacenan los libros considerados “de interés”, lo cual establece un filtro de entrada. Las obras que se venden en puestos callejeros, los comics, muchos “bestsellers” (¿en cuántas bibliotecas universitarias estará la “saga” completa de Harry Potter?) probablemente estén subrepresentados; lo que tenemos aquí sería una compilación primordialmente de literatura “culta” y “académica”.

Asimismo, ya he comprobado que  el escaneo de Google tiende a confundirse con las letras impresas de libros muy antiguos. Para tiempos modernos, también puede haber algunos casos de homonimias y “falsos positivos”. Ah, y  las búsquedas deben hacerse separando las variables por comas, no entrecomilladas.

Finalmente, este “visor” hace las búsquedas por corpus lingüísticos particulares; no está del todo “al día” en la indexación (en español llega sólo hasta 2008); y en su vertiente “automática” sólo incluye cadenas de alta frecuencia (esto es, que aparecen al menos en 40 libros distintos).  Hay por otro lado opciones para “afinar” las búsquedas con algunos descriptores avanzados, que se explican aquí; y es posible consultar los datos “en bruto”, si se tienen aficiones “culturómicas” y se cuenta con una conexión a red muy eficiente.

Con todas estas precauciones, el N-gram Viewer es interesante y atractivo. Para no alargarme, dejaré los experimentos para otra nota que publicaré en breve en este blog. Por lo pronto, les dejo un ejemplo sobre las n-gramas cruzadas de las menciones en español a dos autores de importante influencia en humanidades y ciencias sociales.

N-Gram Marx-Weber

Los porcentajes corresponden a las frecuencias respecto del conjunto de textos.

Vale la pena señalar que el empleo de esta herramienta digital parece estar siendo progresivamente aceptada en publicaciones académicas formales, aunque ha sido también motivo de diversas objeciones. Y, desde luego, son gráficas que admiten distintas interpretaciones, porque las cifras en sí siempre serán solamente un punto de partida para la reflexión.

Anuncios

El e-gobierno, los beneficios y las desigualdades de la modernización

Acabo de recibir una circular del Archivo General de la Nación dando noticia de que en adelante todos los pagos por distintos servicios (como copias certificadas de documentos, reproducción de mapas,  venta de libros) tendrán que hacerse con un nuevo formato, el e5cinco.  Está disponible en internet, y puede realizarse el desembolso por ese medio o bien,  imprimiendo el formato,  en el banco +más cercano.  Es necesario incluir varios datos personales (nombre, RFC, CURP), así como administrativos (clave del trámite, código de la dependencia), pero hay formatos “prellenados” disponibles, y supongo que pronto se contemplará el caso de los usuarios extranjeros que, evidentemente, no tienen identificación fiscal mexicana.  En lo inmediato, puede ser un poco fastidioso tener que realizar un trámite engorroso por pagos menores (¿habrá algún banco cerca del Archivo?), pero al cabo no se trata de algo que se realice cotidianamente.  El asunto, en realidad, no ameritaría una entrada en este blog,  sino fuese porque se trata de una manifestación concreta  de un proceso mucho más amplio, el de la transición progresiva hacia un sistema en el que todos los trámites se realizan entera o parcialmente por internet, lo que a veces se llama un e-gobierno.

Los tres o cuatro lectores que siguen este blog saben bien que soy un entusiasta usuario (y, en lo que cabe promotor) del uso de internet para la difusión del conocimiento. Desde luego, el acceso a la red de redes  también nos facilita  los asuntos cotidianos de nuestra  vida, como consultar horarios de trenes, saber el horario de bibliotecas, comprar y pagar servicios, comunicarnos de manera fácil y eficiente con familiares, amigos y colegas e incluso ubicar y “ver”  el lugar donde debemos acudir por necesidad, curiosidad o placer.  En este caso, aunque en lo inmediato a veces no lo parezca así,  un e-gobierno nos facilitaría tener la información sobre actividades gubernamentales (es posible actualmente solicitar datos públicos por internet, de respuesta obligatoria para las instituciones), realizar trámites desde la comodidad de nuestra casa, y acceder a diversos servicios.

Todo esto parece muy bien, pero existen ciertos problemas cuando la única forma de acceder a estos trámites y prestaciones es mediante procedimientos que implican el uso de computadoras y el acceso a internet. En México, según el Instituto Nacional de Estadística, Geografía e Informática, 40.1% de la población tenía las habilidades básicas para utilizar una computadora, y el 22.2%  de los hogares contaba con acceso a la red (datos para 2010).  Estamos ante una porción muy considerable de la población que no cuenta con esta posibilidad. Existen también fuertes desigualdades regionales (25.7% con acceso doméstico a computadora en Chiapas, contra 53.8% en Sonora) y generacionales (son usuarios de computadoras el 20.9% del grupo de edad de 18-24 años, en contraste con el 7.2% para el grupo de 45-54 años.

¿Estamos creando inadvertidamente un nuevo género de incapacidad social, en el que sectores importantes de la población no tendrán acceso, sin ayuda de terceros, a la información, servicios y trámites  gubernamentales? El entusiasmo por las virtudes del e-gobierno no debería llevarnos a descuidar algo que los antropólogos bien conocen: el cambio tecnológico no es un proceso que ocurra de la misma manera en todas las sociedades. Sobre todo allí donde la modernización viene en gran medida desde fuera, de manera repentina, ocurren casi siempre marcadas distorsiones y desigualdades.  La mejor tecnología no es siempre la más adecuada, ni puede implementarse haciendo abstracción de las condiciones económicas y educativas de la población. Es algo que debería considerarse con algún detenimiento, dejando abierta de manera temporal procedimientos alternativos, aunque no resulten tan llamativos y relucientes.

Continúa en aumento el número de usuarios de Internet (INEGI)

El Instituto Nacional de Estadística Geografía e Informática (INEGI) acaba de presentar los resultados de la última Encuesta Nacional sobre Disponibilidad y Uso de las Tecnologías de la Información en los Hogares. Es este documento resalta que un 13.5% del total de hogares tenía conexión a internet, lo cual  representa un notable incremento del 16.5% respecto del pasado año. Hay en el país 22.3 millones de usuarios de la red de redes  (un aumento del 7.2%), de los cuales el 70% eran personas entre los 12 y los 34.

En cuanto al tipo de uso, 43.5% de los usuarios declaró que utilizaban internet para  actividades escolares,  un 40.1% para correos electrónicos, y un 35.1% para “información de carácter general” (sea esto lo que sea). Solamente un 7.8% ha recurrido a la red para realizar transacciones comerciales.

Estas cifras confirman que, pese a los problemas económicos del país, continúa el acelerado incremento en el número de personas (sobre todo jóvenes) que navega habitualmente en Internet (véase aquí mi nota del pasado año). Aparte de su interés sociológico y cultural, son cifras que deberían tomar en cuenta quienes toman decisiones sobre la manera en que se difunde la investigación científica. O al menos, eso cabría esperar.

Se dispara uso de computadoras y acceso a internet: INEGI

Según el Instituto Nacional de Estadística, Geografía e Informática, en México hay ya  20.8 millones de personas  (un 12.3% de la población) que usan internet habitualmente.  En el anterior censo, de diciembre de 2001, el número de internautas era de  7.0 millones de personas. O sea, hay un crecimiento explosivo en el acceso a este recurso.  También, contra lo que podría pensarse, la mayoría de los usuarios (43.1%) declaró utilizar internet para tareas escolares.

Estos datos son relevantes para la discusión sobre la importancia del uso de internet para la divulgación del conocimiento científico y, asimismo,  con las dudas sobre si la red virtual favorecería la democratización del acceso al conocimiento o, por el contrario, aumentaría las desigualdades existentes

……………..

Actualización: estos datos son de 2007; la información estadística correspondiente a 2008  (la última disponible) se encuentra AQUÍ