Una primera revisión del Portal de Datos Abiertos de la UNAM

Con cierta pompa y ceremonia la Universidad Nacional Autónoma de México (UNAM) inauguró en días pasados su Portal de Datos Abiertos – Colecciones Universitarias. Como se explica en la presentación, incluye de entrada 29 colecciones procedentes de once distintas dependencias universitarias, con un impresionante conjunto de más de un millón y medio de registros. Éstos se dividen en materiales referentes a biodiversidad (plantas, animales, fósiles o microorganismos, sobre todo del Instituto de Biología); obra artística (destacadamente, del Instituto de Investigaciones Estéticas, notablemente fotografías de “viajes de campo”); proyectos universitarios y “objetos digitales” (que viene a ser la sección “miscelánea”, con textos varios, artículos, conferencias, tesis, partituras)

Portal de datos abiertos.

La intención aparente es digitalizar todo lo que se hace en la institución, incluyendo cursos, aulas virtuales, bibliografías e investigaciones, lo cual desde luego es un propósito muy ambicioso. No resulta claro cómo va a relacionarse este proyecto con otros ya existentes que tienen contenidos afines, como el catálogo TesiUNAM, la Hemeroteca Naci0nal Digital, o los libros ya digitalizados que ofrecen diversas dependencias, tanto los recientes como de sus acervos antiguos.

Debe notarse un aspecto muy notable: los materiales publicados son de acceso abierto, contienen los metadatos, su ubicación será permanente y serán de libre uso, sin necesidad siquiera de un registro previo del usuario;  bastará con que se dé el crédito correspondiente. Muy encomiable, y ciertamente coherente con el principio general de Toda la UNAM en Línea. Por otro lado, habría que mencionar un “pero”: la mayor parte de las imágenes no están todavía disponibles. Sin duda será algo que se solucionará paulatinamente, pero por el momento resulta muy frustrante para el lector. Una breve mención en los metadatos (o una opción de búsqueda que enliste “sólo archivos con imágenes disponibles”) sería un buen recurso transitorio.

Si le interesan las posibilidades que ofrece el empleo de este notable conjunto de materiales artísticos, históricos y etnográficos, vea un ejemplo en esta nota.

 

*Actualización (30 de octubre de 21016): En los metadatos de las imágenes pertenecientes al Instituto de Investigaciones Estéticas aparece una  línea que expresa que “Las imágenes del Archivo Fotográfico Manuel Toussaint se publican únicamente para su consulta”, y agrega el procedimiento para obtener permisos para su utilización. Desde luego, cada institución tiene el derecho de manejar su patrimonio como mejor le parezca, pero cómo esto se concilia con la política general del Portal (sus imágenes son “De libre uso: Citan la fuente de origen como único requerimiento para ser utilizados libremente” no me queda claro.

 

 

 

Anuncios

Ensayos con Google Ngram Viewer

En una nota anterior mencionaba la utilidad de las series de datos para analizar tendencias culturales, y en particular el atractivo de una herramienta de Google, el Ngram Viewer, que permite obtener de manera muy simple cifras seriadas y nítidos diagramas procedentes de una búsqueda automática en Google Libros, su vastísimo repositorio de libros digitalizados.

El ensayo atrajo varios comentarios que agradezco, de Vae victis (@Inigus) sobre la selección implícita que conlleva la digitalización de libros en bibliotecas académicas; y de mi colega bloguero Víctor Gayol, sobre la falta de transparencia en la recopilación de datos y el carácter “tosco” de los resultados estadísticos, que pone en cuestión su utilidad para publicaciones formales.

Por otro lado, Aude Argouse, en su blog sobre el “papel sellado”, retoma esta herramienta y procede a presentar las tendencias de las palabras “papel sellado”, “papier timbré” y “stempepapier” (que son equivalentes en distintos idiomas). Los resultados son curiosos y dan para algunas reflexiones. Permiten también a la autora señalar algunas limitaciones, como la imposibilidad de presentar en la misma gráfica los resultados de distintos cuerpos lingüísticos, de diferenciar los resultados por países, y algo que ya había advertido, los “falsos positivos” (o “falsos negativos”) de la búsqueda en libros antiguos, donde la grafía no es la actual (por ejemplo habría que buscar por “papel fellado” en español antiguo).

Retomando la idea, aquí presento algunos resultados particulares del uso de este “visor”, que muestran sus posibilidades. El primero tiene que ver con la introducción del uso general en español de “México” (con “x”) en lugar de Méjico, que es lo correspondería por la pronunciación. Se trata, desde luego, de un arcaísmo y también de una “cortesía gramatical”, aunque ambas formas siguen considerándose apropiadas.

Ngram MéjicoPuede verse asimismo la tendencia en el cambio ya no sólo de grafías, sino del empleo de distintas palabras para designar una misma realidad. Para tomar un ejemplo que me resulta cercano, presento el uso alternativo de “tarasco/purépecha”. Esta última opción es la considerada “correcta”, aunque algunos historiadores, entre los que me cuento, seguimos empleando la primera, y tenemos razones para ello. He utilizado en este caso el corpus en inglés, porque el total predominio de “tarasco” en español resulta menos contrapunteado.

Ngram tarasco

Finalmente, presento la evolución en la la recepción de algunos pensadores contemporáneos que tuvieron gran influencia en la historia y las ciencias sociales, como Michel Foucault, Louis Althusser, Jacques Derrida y Pierre Bourdieu.

Ngram Foucault

Ya había hecho un ejercicio parecido en mi nota anterior, contrastando a Karl Marx y Max Weber.

Como comentaba, tendría mis dudas para emplear estas gráficas en trabajos académicos formales, aunque es posible “afinar” las búsquedas y  Google ya resolvió algunos posibles problemas que podrían haber derivado en falacias estadísticas, como se explica aquí. También hay que tener en consideración que de hecho todas las estadísticas, cuadros y gráficas, a pesar del aspecto técnico y “científico” que tanto nos impresionan, tiene un proceso de “construcción” que incluye cierto grado de subjetividad.  Esto incluye los censos contemporáneos de población y vivienda, y desde luego los limpios y bonitos cuadros de la demografía de épocas antiguas, donde los datos son irregulares y poco confiables (lo cual no impide que los empleemos y construyamos argumentos a partir de ellos). Diría que respecto de Google Ngram Viewer, el juicio sobre su confiabilidad y aceptabilidad académicas está aún pendiente. Sin duda habría que discutirlo tanto del punto de vista técnico como conceptual,  porque su posible empleo resulta sugerente y atractivo.

Explorando tendencias culturales con series de datos en Google Libros

Siempre me han interesado las cuantificaciones para estudiar situaciones y procesos que no pueden apreciarse sino mediante el estudio de regularidades y patrones colectivos. Una de las vías más interesantes es el seguimiento de términos y conceptos, porque evidentemente toda nueva realidad debe de ser pensada y nombrada. En este sentido, el masivo “corpus” de Google Libros es una excelente fuente, porque permite una búsqueda en el tiempo para apreciar cuando un término (por ejemplo, “despotismo ilustrado”) comenzó a ser de uso común. La compilación y procesamiento cuantitativo de registros de este género es también de interés serial porque hace posible ver la aparición, desarrollo y posible declive del empleo de términos en el tiempo. Se le conoce como “minería de textos”, una metáfora que me agrada por sus alusiones metalúrgicas. Es incluso un posible campo de estudios en sí,  llamado provisionalmente culturomics (o, muy feamente en español, “culturomía”).

La herramienta más a propósito para estos fines son los n-gramas, esto es la búsqueda de secuencias o “cadenas” de información, en este caso en un texto (hay otros empleos posibles). Desde luego, hacerlo “a mano” es muy laborioso, pero afortunadamente Google ofrece gratuitamente y en línea su Ngram Viewer, que  permite hacer búsquedas que generan automáticamente gráficas muy presentables. Es como hacer un verso sin ningún esfuerzo.

Caben algunas advertencias (como siempre debe hacerse con cualquier estadística) antes de confiar alegremente en los resultados.  Aunque podría pensarse que Google Libros representa el universo de todos los impresos, esto no es exactamente así. Sus ejemplares digitalizados provienen de bibliotecas públicas de prestigio, esto es de repositorios que adquieren y almacenan los libros considerados “de interés”, lo cual establece un filtro de entrada. Las obras que se venden en puestos callejeros, los comics, muchos “bestsellers” (¿en cuántas bibliotecas universitarias estará la “saga” completa de Harry Potter?) probablemente estén subrepresentados; lo que tenemos aquí sería una compilación primordialmente de literatura “culta” y “académica”.

Asimismo, ya he comprobado que  el escaneo de Google tiende a confundirse con las letras impresas de libros muy antiguos. Para tiempos modernos, también puede haber algunos casos de homonimias y “falsos positivos”. Ah, y  las búsquedas deben hacerse separando las variables por comas, no entrecomilladas.

Finalmente, este “visor” hace las búsquedas por corpus lingüísticos particulares; no está del todo “al día” en la indexación (en español llega sólo hasta 2008); y en su vertiente “automática” sólo incluye cadenas de alta frecuencia (esto es, que aparecen al menos en 40 libros distintos).  Hay por otro lado opciones para “afinar” las búsquedas con algunos descriptores avanzados, que se explican aquí; y es posible consultar los datos “en bruto”, si se tienen aficiones “culturómicas” y se cuenta con una conexión a red muy eficiente.

Con todas estas precauciones, el N-gram Viewer es interesante y atractivo. Para no alargarme, dejaré los experimentos para otra nota que publicaré en breve en este blog. Por lo pronto, les dejo un ejemplo sobre las n-gramas cruzadas de las menciones en español a dos autores de importante influencia en humanidades y ciencias sociales.

N-Gram Marx-Weber

Los porcentajes corresponden a las frecuencias respecto del conjunto de textos.

Vale la pena señalar que el empleo de esta herramienta digital parece estar siendo progresivamente aceptada en publicaciones académicas formales, aunque ha sido también motivo de diversas objeciones. Y, desde luego, son gráficas que admiten distintas interpretaciones, porque las cifras en sí siempre serán solamente un punto de partida para la reflexión.

La Biblioteca Franciscana de la UDLAP: avances en el acceso en línea

La Biblioteca de la Universidad de Las Américas Puebla alberga, entre otros valiosos fondos antiguos, la Biblioteca Franciscana, con   el acervo bibliográfico de la Provincia Franciscana del Santo Evangelio de México. Está ubicada en el  Portal de Peregrinos del Convento de San Gabriel, en Cholula,  y cuenta con cerca de 24,000 volúmenes provenientes de seis diferentes casas conventuales del centro y sur del país. Hace algún tiempo comenzó a digitalizar sus colecciones, y actualmente hay 141 libros disponibles en línea , en parte gracias al patrocinio del programa Adopte una Obra de Arte y de CONACULTA.

UDLAP-BibliotecaFranciscana

Como es de esperarse, la mayor parte son obras que interesan sobre todo a los estudiosos de la historia de la teología moral y la filosofía, pero también hay otros títulos que nos remiten a temas tales como el guadalupanismo (la Apología de la aparición de Nuestra Señora de Guadalupe de Méjico en respuesta a la disertación que la impugna, de Jose Miguel Guridi (México, Valdés, 1820), escrita en réplica a la sonada “Disertación” de Juan Bautista Muñoz;  otras que nos informan sobre la vida cotidiana del cura párroco (El ayudante de cura instruido en el porte a que le obliga su dignidad, en los deberes a que le estrecha su empleo, y en la fructuosa práctica de su ministerio, de Andres Miguel Pérez de Velasco (Colegio Real de San Ignacio de Puebla, 1766), los que son de  relevancia para la historia de la medicina (La caridad del sacerdote para con los niños encerrados en el vientre de sus madres difuntas, y documentos de la utilidad, y necesidad de su práctica, traducidos del idioma italiano fray  Josef Manuel Rodriguez, OFM, (que incluye curiosas contradicciones entre tradición y modernidad), cartas consolatorias  (de tema fúnebre, que indirectamente dan buenos datos sobre vidas e instituciones), así como cartas pastorales de diversos obispos, ordenanzas, sermonarios, al igual que escritos referentes a momentos difìciles y críticos en la vida de la Iglesia  (como el Crisol de la verdad; manifestada por el R.P. Fr. Francisco de Ayeta … de la Orden Seraphica de N.P. San Francisco … de la Provincia del Santo Evangelio de Mexico … en defensa de dicha su provincia, sobre el despojo, y sequestro de las 31 doctrinas, de que la removió el Reverendo Obispo D. Juan de Palafox, siendo visitador del Reyno  (¿1693?).

Algunas de estas obras están disponibles en otras colecciones digitales (como Google Books o la John Carter Brown), y desde luego nunca está de mas tener otro ejemplar que dé testimonio de su difusión y lectores; de otras es la primera noticia que tengo, y vienen muy bien para varios temas y discusiones de que aquí espero dar alguna cuenta. La UDLAP ha logrado poner un verdadero tesoro bibliográfico a disposición del historiador, del aspirante a serlo, y desde luego del aficionado a la lectura de viejas obras y antiguas ideas. Espero que pueda proseguir por ese buen camino.

México en la Digital Public Library of America

La recientemente inaugurada  Digital Public Library of America ofrece el acceso abierto a millones de objetos -no solamente libros, sino también DPLA-Portadamanuscritos, fotografías, registros fonográficos y cinematográficos-, que pueden ubicarse fácilmente mediante búsquedas por año, lugar, formato y tema, e incluso delimitar aún más los resultados con opciones adicionales. Es posible crear cuentas gratuitas de acceso, con lo cual se obtienen recursos adicionales, como “guardar” búsquedas y compartirlas en redes sociales, como Facebook y Twitter.

Cabe señalar que en realidad no se trata de nuevos materiales , sino de la compilación en un sitio central de esfuerzos de digitalización realizados previamente por diversas instituciones, como Library of Congress, HathiTrust y el Internet Archive, así como varias universidades. Por la misma razón, los derechos y posibles restricciones de uso son los mismos de las instituciones de origen. Existe también un acuerdo de colaboración con Europeana, la equivalente iniciativa europea.

Ya conocía varios de estos repositorios, pero otros han sido una agradable sorpresa. Así ocurre, en particular, con las colecciones de estampas, imágenes estereoscópicas y postales existentes en el  National Museum of American History; así como las piezas prehispánicas de Yale University  y Dallas Museum of Art.  En cuanto a los impresos, que resultan siempre tan importantes para los historiadores, los resultados de una búsqueda comienzan a ser nutridos para el siglo XIX, donde aparece buena cantidad de folletería mexicana procedente de la Widener Library (Harvard) y de  la Boston Public Library.

La DPLA es un recurso del mayor interés, y sirve para recordar que, como he comentado anteriormente, no hay nada parecido en México, donde cada institución ha ido por su cuenta. Los esfuerzos de compilación interinstitucional  (como, por ejemplo, la Biblioteca Digital Mexicana, Biblioteca Digital Mexicana del Bicentenario, el Portal México de la Biblioteca Virtual Miguel de Cervantes, y el de Primeros Libros) han procedido sin coordinación entre sí, ya sea por problemas técnicos o por las aparentemente inevitables renuencias (¿o serán vanidades?) institucionales. Como resultado, hay que navegar por diferentes sitios para ubicar algún material, y por la misma razón hay esfuerzos que no reciben la justa apreciación pública. Es algo a lo cual debería darse solución.

La historia de México en las páginas públicas de Facebook

A pesar de todas las reservas, de sus  limitaciones y de ciertos inconvenientes (véase “Razones de un historiador para usar/no usar Facebook“), cada vez es más frecuente que instituciones y asociaciones académicas recurran a una “página pública”  de Facebook para fines de difusión y divulgación.  Las ventajas son evidentes: pueden establecerse y administrarse muy fácilmente, no tienen costo, y atraen la atención de un público joven que mucho nos interesa (o debería interesarnos). También hay grupos  que han encontrado en Facebook un medio adecuado de difusión, sin tener que recurrir a los enredados y lentos procedimientos institucionales para acceder a la red.

Fuente: AMIPCI. Estudio de hábitos de los usuarios de Internet, 2010.

Desde luego, no siempre es seguro que estas páginas correspondan exactamente a una institución o un autor, porque hace un tiempo Facebook introdujo unas páginas de comunidad que son creadas de manera automática a partir de Wikipedia, o bien  de informaciones puestas en el “perfil” de los usuarios. Con un poco de atención, es posible darse cuenta de quienes realmente son quienes dicen ser.

He compilado aquí un listado de las páginas “públicas” de Facebook  (esto es, las que puede consultar cualquier persona, sin necesidad de ser usuario registrado), excluyendo  las páginas “personales” (aunque no lo crea, hay instituciones que utilizan esta opción) y los “grupos”. Estos dos últimos  requieren ser usuario de Facebook para consultarlos, o bien registrarse como “amigo”.

Instituciones

Centro de Investigaciones y Estudios Superiores en Antropología Social (CIESAS)

El Colegio de México, A.C.

El Colegio de México. Doctorado de Historia

El Colegio de San Luis.

Instituto Nacional de Antropología e Historia (INAH)

INAH TV

INAH. Escuela Nacional de Antropología e Historia. Difusión Cultural

Instituto de Investigaciones Dr. José María Luis Mora

UNAM (Universidad Nacional Autónoma de México) en línea.

Casa de las Humanidades

Facultad de Filosofía y Letras. Extensión Académica

Instituto de Investigaciones Antropológicas

Instituto de Investigaciones Bibliográficas

Instituto de Investigaciones Estéticas

Instituto de Investigaciones Filológicas

Archivos, bibliotecas y museos

Archivo General de la Nación (AGN)

Archivo Histórico del Arzobispado de México

Acervo Histórico del Palacio de Minería, Facultad de Ingeniería. UNAM.

Antiguo Colegio de San Ildefonso.UNAM.

Biblioteca Histórica José María Lafragua, BUAP

Museo Numismático Nacional

SINAFO. Fototeca Nacional,  INAH.

Sociedades y asociaciones científicas

Academia Mexicana de la Historia

Apoyo al Desarrollo de Archivos y Bibliotecas de México (ADABI)

Asociación Mexicana de Historia Económica

Colegio de Etnólogos y Antropólogos Sociales, A.C. (CEAS)

Editoriales y revistas

Estudios de Historia Moderna y Contemporánea de México (UNAM)

Portal de Revistas Científicas y Arbitradas de la UNAM

20/10 Memoria de las Revoluciones en México

Revista Bicentenario. Instituto Mora

Temáticos

La ciudad de México en el tiempo. Un espacio abierto para compartir fotografías, anécdotas e información sobre la ciudad de México.

Archeográfica. Reconstrucción virtual, maqueta y ambientación tridimensionales asistidos por computadora sobre arqueología precolombina

Archivo para la Memoria. Pograma académico y archivístico que rescata, organiza, resguarda y difunde los vestigios de la vida cotidiana e institucional generados por particulares

Artes e Historia México.  Portal dedicado a la difusión de la historia, el arte y la cultura.

H-MEXICO, grupo virtual sobre historia de México

Cultura y Lengua Maya. Dedicada a los investigadores, admiradores y aficionados de esta gran civilización.

 ……………

Si encuentra que hay alguna otra  página pública FB de interés que debería agregarse a este listado, envíeme una nota en “comentarios”.

La Hemeroteca Nacional de México, finalmente en línea

Después de un largo, complicado y tortuoso proceso, la Hemeroteca Nacional de México (custodiada por la UNAM) está finalmente en línea en este sitio.  Se trata de un acervo de más de nueve millones de imágenes correspondientes a 947 títulos de publicaciones periódicas mexicanas desde 1722 hasta principios del siglo XX. Aun no son todos los fondos antiguos de la institución; es algo que al parecer irá incorporándose paulatinamente.

La interface permite búsquedas de “cadenas de texto” en opciones “básica” y “avanzada” (búsqueda por año y por publicación). El lector se evitará algunos problemas si consulta la página de ayuda. El resultado presenta algunas dificultades para “visualizarse” en Firefox o Chrome; al parecer está configurado para Explorer. También, la forma de agrandar la imagen (algunas aparecen en tamaño muy reducido de letra) no es evidente; desde luego, es siempre posible recurrir a las opciones generales del navegador.

Detalles técnicos (y menores) aparte, este es un recurso que ha sido largamente esperado, y que representará un valioso auxiliar para la investigación histórica.