Tras un tiempo con mucho lío, ya estamos otra de vez de vuelta y con muchas ganas. Para ir retomando la actividad he querido aprovechar un trabajo que publicamos hace muy poco en el que desgranamos y ponemos a prueba una herramienta poco conocida de WorldCat . Se trata de WorldCat Identities, una página que resume el contenido de WorldCat y se enrique de otras fuentes, como VIAF.

La idea de usarlo surgió no mucho antes, en la redacción de un capítulo para el libro homenaje a Henk F. Moed . En este repasamos el origen y evolución del uso de catálogos de bibliotecas para la evaluación del impacto. El denominado Library Catalog Analysis (LCA). Fue buscando las propuestas más actuales cuando dimos precisamente con esta herramienta, la cual recoge perfiles de autores con sus diferentes publicaciones disponibles en WorldCat, ofreciendo una serie de indicadores de mucha utilidad. En aquel momento llevamos a cabo un pequeño experimento y tras ello decidimos analizarlo en mucho mayor detalle.
¿Qué utilidad bibliométrica tiene WorldCat Identities?
Es por ello que en esta herramienta vimos la oportunidad de analizar este impacto y difusión a nivel autor. Una perspectiva poco explotada y que busca mirar más allá de los artículos científicos, permitiendo reflejar la actividad de autores que realizan muchas contribuciones a través de formatos como los libros.
De manera más específica, WorldCat Identities permite buscar perfiles de autores, ofreciendo en cada uno de ellos el número de obras, ediciones, idiomas y la presencia de estos en catálogos de bibliotecas (library holdings) de todo el mundo. De igual manera también ofrece otra información relevante, como sus 20 obras más destacadas. En algunas situaciones este tope es más que suficiente para recoger todas sus publicaciones pero en otras queda lejos de cubrir todas ellas.

A la vista del potencial de esta herramienta, hemos querido explorarla usando una muestra de autores de bibliometría. Concretamente los 398 autores principales del campo recogidos en Scholar Mirrors. El objetivo con ello es analizar WorldCat Identities al completo y reseñar sus fortalezas y debilidades, desde el proceso de recogida de datos a su análisis y comparación con otros indicadores, ofreciendo algunas recomendaciones y herramientas al respecto para todos aquellos que quiera hacer uso de ello.
Una herramienta válida pero con trabajo por delante
Para la recopilación de datos hicimos uso de su API. En este sentido, publicamos un pequeño paquete en Python (worldcatidentities), además de todos los datos y scripts en GitHub, pudiendo ejecutarse a través de Binder. En primer lugar consultamos directamente el nombre exacto del autor, seleccionando el resultado principal y extrayendo de este sus indicadores. Sin embargo, aquí topamos con sus principales problemas: la desambiguación y falta de control de autoridades.
Solo bastan con unas consultas, en especial con nombres de autores españoles, para detectar registros duplicados, falta de resultados, libros mal asignados… Es por ello, que en lugar de empezar consultando la API buscamos de manera manual cada uno de los autores, identificando su perfil o perfiles. De cada uno de ellos almacenamos su identificador, los cuales en su mayoría son URIs de Library of Congress y VIAF, para en último lugar lanzarlos a la API y recuperar todos los datos de manera rápida y precisa.
De esta forma, identificamos como principales limitaciones las siguientes:
- No realiza bien la desambiguación en español
- No agrega autores de diferentes fuentes
- Realiza una separación de la identidad personal y corporativa
- No incluye exclusivamente libros
- Asignación incorrecta de registros
- Conflicto entre obras elaboradas por el autor y sobre el autor
- Incluye registros de catálogos de suscripciones de libros electrónicos a gran escala
Al utilizar la API directamente, conseguimos localizar a 221 autores, sin embargo, ya de manera manual identificamos a 269, de los cuales 113 tenían algún duplicado. Un grupo difícil de detectar directamente desde la API. Tras recabar sus datos unificamos los perfiles y métricas y comparamos los indicadores de esta plataforma con las citas de Google Scholar y Web of Science, tanto a nivel de autor como de libro.

Los resultados muestran claras diferencias respecto a otros indicadores basados en las citas y los artículos científicos. Encontramos como autores con una elevada actividad e impacto en citas tenían una intrascendente relevancia en library holdings y viceversa, no habiendo podido establecer correlaciones significativas entre estos indicadores. De este modo, queda contrastada su utilidad como medida complementaria que mide un fenómeno diferente y mediante la cual es posible poner en relieve la actividad de investigadores que no están centrados en los artículos científicos. No obstante, es necesario tener en cuenta los problemas descritos para trabajar con ello.