La question de l'identification des personnes et des oeuvres au sein du projet PuppetPlays

_____________________________________________________________________

La question de l’identification des personnes et des œuvres et au sein du projet PuppetPlays

 

Paul Robert (Université Paul-Valéry Montpellier 3)

_____________________________________________________________________

 Le choix des identifiants

Il est essentiel, lors de la création d’une base de données, d’attribuer des identifiants pérennes aux ressources pour répondre aux principes FAIR (Findable, Accessible, Interoperable, Reusable), un ensemble de recommandations pour le partage des données et la science ouverte. Ces principes, indépendants de toute technologie ou de toute norme, sont des caractéristiques que les métadonnées (les données décrivant les données) doivent avoir pour relever de la science ouverte. Il est donc primordial pour nous de suivre ces principes afin de respecter nos engagements en matière de libre-accès aux données.

Les identifiants pérennes répondent d’abord au premier des principes FAIR : Findable. Attribuer un identifiant stable à une personne permet de la distinguer de ses homonymes, de réunir sous un seul identifiant une personne connue sous différents noms selon les pays (ex : Aldo Manuzio appelé en France Alde Manuce) et d’identifier avec certitude une personne dont l’orthographe du nom n’est pas fixée (tel que Jean de Meun dont le nom peut également s’écrire Jean de Meung).

L’attribution d’identifiants facilite la réutilisation des données (Reusable), par exemple pour enrichir une base de données à partir de celle de PuppetPlays. Il est en effet plus aisé et plus fiable de comparer automatiquement les identifiants de deux bases de données afin d’en faire moissonner l’une par l’autre. L’utilisation de ces identifiants est donc un enjeu essentiel pour notre projet.

Néanmoins, parmi la multitude d’identifiants existants, quels sont les plus pertinents pour PuppetPlays ? Ces identifiants doivent pouvoir être utilisés internationalement et permettre de caractériser d’une part des individus créateurs de contenus intellectuels et d’autre part des œuvres de l’esprit. Mais face à l’absence d’identifiant unique et universel, nous avons choisi d’utiliser plusieurs identifiants pour un même objet afin de multiplier les possibilités de réutilisation.

Les identifiants ARK (The Archival Ressource Key) et VIAF (The Virtual International Authority File) nous servent à identifier les pièces pour marionnettes[1]. Un identifiant ARK est attribué par une institution à une ressource numérisée : sa mention permet donc de relier notre notice à un exemplaire d’ouvrage précis et d’avoir un lien internet stable vers cette même ressource. L’identifiant VIAF, quant à lui, est attribué aux œuvres présentes dans certains catalogues nationaux : l’OCLC (Online Computer Library Center), l’organisation mettant en œuvre l’identifiant VIAF, relève dans les catalogues numériques de toutes les bibliothèques du monde les notices d’autorité (c’est-à-dire décrivant les individus) et les notices bibliographiques (c’est-à-dire décrivant les œuvres) pour les harmoniser, les rassembler et leur attribuer un identifiant unique, stable et international. Malheureusement, la plupart des catalogues bibliographiques décrivant des exemplaires physiques et non des œuvres[2], le catalogue des œuvres de VIAF reste fortement lacunaire bien qu’unique en son genre.

La question de l’identification des personnes est plus simple, car de nombreux catalogues internationaux et stables existent aujourd’hui. Nous utiliserons quatre identifiants distincts pour caractériser un individu : les identifiants ARK et VIAF décrits précédemment ainsi que les identifiants ISNI (International Standard Name Identifier) et IdRef (Identifiants et Référentiels). L’identifiant ARK concerne tous types de ressources bibliographiques numériques et renvoie à une notice institutionnelle en ligne. L’identifiant VIAF est quant à lui dédié à l’identification des personnes en récupérant et en harmonisant toutes les notices des catalogues de bibliothèques nationales, ce qui en fait dans ce domaine une référence complète et stable particulièrement adaptée à l’identification d’auteurs de multiples pays. L’identifiant ISNI a été initialement conçu pour identifier des créateurs de contenu intellectuel et artistique contemporains du monde entier et distinguer leurs homonymes. Sa rigueur, sa fiabilité, sa diffusion mondiale et sa couverture des périodes anciennes en font un outil singulier, mais très efficace pour le catalogage. L’identifiant IdRef est le seul identifiant national que nous utilisons, car il est nécessaire à la création d’identifiants internationaux, lesquels fonctionnent par moissonnage des catalogues nationaux de tous les pays.  Il faut donc d’abord qu’une notice soit créée dans un catalogue national. L’avantage de l’identifiant IdRef est d’accepter les auteurs non français et non francophones. Cet identifiant est renseigné notamment par la Bibliothèque Universitaire de Montpellier, notre partenaire sur la question. Ainsi, lorsque nous découvrons des auteurs absents de tous catalogues, nous remplissons des fiches descriptives que nous transmettons à la Bibliothèque Universitaire pour que le Service Commun de la Documentation (SCD) les traite et les intègre au catalogue IdRef. Les notices nouvellement créées apparaîtront ensuite automatiquement dans les catalogues internationaux VIAF et ISNI.

La question des identifiants est cruciale à l’ère du Big Data afin d’identifier avec certitude des données, d’automatiser leur réutilisation et d’éviter les redondances entre bases de données. Néanmoins, à la foisonnante diversité des identifiants d’autorité répond un désert d’identifiants d’œuvres. Les problématiques en sont donc diamétralement opposées. Nous avons cependant choisi, au sein du projet PuppetPlays, de privilégier la multiplicité des identifiants et leur possible redondance pour ne pas imposer arbitrairement un identifiant au détriment d’un autre à ceux qui voudraient réutiliser notre base de données. Cette option nous affranchit des aléas de la vie numérique d’un identifiant, au cas où celui-ci disparaitrait.

Trouver ces identifiants

Pour des raisons aussi bien pratiques que techniques, il n’existe pas de plateformes visant à rassembler tous les catalogues et à présenter la liste de tous les identifiants existants. En effet, les identifiants que nous utilisons (ARK, ISNI, VIAF, IdRef) sont guidés par des logiques différentes répondant à des fonctions bien distinctes. Ainsi, l’identifiant VIAF est issu du moissonnage des catalogues nationaux, tandis que l’identifiant ISNI s’enrichit du travail d’agences d’enregistrement telles que la BNF en France. Par son automatisation et son ouverture sur le monde, l’identifiant VIAF est plus large et croise les sources d’informations, quitte à parfois être redondant ou à conserver des erreurs. À l’inverse, l’identifiant ISNI, plus courant dans le secteur privé que l’identifiant VIAF, est plus restreint, car seul un nombre réduit et déterminé d’agences peuvent y contribuer. En octobre 2020, on compte donc 11,51 millions de notice ISNI, tandis qu’il existait déjà, en 2014, 20 millions de notice VIAF venant de 12 pays différents alors que le VIAF était encore embryonnaire. Il est donc nécessaire de les consulter l’un et l’autre. L’identifiant ARK, quant à lui, n’a aucune vocation à fournir un catalogue commun et n’est qu’un format destiné à identifier des données de tous types sur le long terme pour répondre aux besoins des producteurs et diffuseurs de données sur le web. Il n’existe donc aucune base de données commune à ces différents identifiants.

Pour retrouver les identifiants VIAF et ISNI, il suffit de consulter sur internet leurs sites institutionnels respectifs[3]. Pour ce qui est de l’identifiant ARK, il faut aller le récupérer sur un site institutionnel l’utilisant, par exemple celui de la BNF ou celui de la British Library en le relevant dans l’URL de la donnée consultée. Une méthode en général plus rapide consiste à se rendre directement le site internet d’IdRef[4] qui fournit en principe, outre l’identifiant IdRef, tous les autres identifiants nécessaires. Mais si la notice recherchée ne s’y trouve pas, il convient de revenir à la méthode indiquée précédemment.

 

[1] Nous ne pouvons pas utiliser l’identifiant ISBN (International Standard Book Number), car il est réservé aux ouvrages imprimés et publiés après les années 1980. Ces livres-là sont très minoritaires dans le corpus de PuppetPlays.

[2] Une « œuvre », selon la définition du modèle FRBR (1997), est une création artistique ou littéraire abstraite. Il faut distinguer le concept d’« œuvre » de celui d’ « expression », une expression étant la réalisation de cette œuvre sous la forme d’un livre ou d’un film par exemple. Cette conception permet de réunir dans un catalogue le texte d’une pièce, sa traduction et la captation vidéo de sa mise en scène en tant qu’expression d’une seule et même œuvre de l’esprit.

[4] https://www.idref.fr/

 

Publisher

PuppetPlays                                                                                                                          

 

Electronic reference

Paul Robert, La question de l’identification des oeuvres et des personnes au sein du projet PuppetPlays, Marionettes et Humanités numériques : chronique d’un digital humanist 1 | 2021, Online since 09 February 2021,

URL : https://nakala.fr/10.34847/nkl.dea93844

DOI : 10.34847/nkl.dea93844

Dernière mise à jour : 10/02/2021