FranceArchives, portail des archives en France, permet d'accéder à des ressources éditoriales et professionnelles et aux données (inventaires) des services d'archives partenaires, par le biais d'un moteur de recherche globale. Les données, reliés à différents référentiels (Agent, Lieux, Thèmes) sont depuis peu interrogeables via un requêteur SPARQL.
Au début de l'année 2021, un identifiant "FranceArchives Agent" (P9371) a été créé sur Wikidata, afin de prendre en compte le nouvel identifiant unique créé sur FranceArchives pour le référentiel "Personnes et institutions". Quelques milliers d'individus ont été enrichis de cet identifiant à cette période-là à partir d'une première liste fournie par FranceArchives (moyen aussi de faire fructifier une partie de mon propre travail d'alignement faits aux Archives nationales pour les préfets et les architectes diocésains).
Aujourd'hui, les pages FranceArchives Agent sont assez bien renseignées, avec une description, des liens Wikidata, BNF, voire des liens de parentés. Ces renseignements ne sont faits que dans un sens (FranceArchives vers Wikidata) alors que l'inverse est également souhaitable et bénéfique dans un environnement de web sémantique.
À l'été 2023, je me suis donc attaquée à une grosse mise à jour de cet identifiant FranceArchives Agent (FAA pour les intimes), avec près de 12 000 ajouts sur Wikidata. Retour sur cette opération, l'utilité de ces données liées, le tout accompagné de quelques requêtes SPARQL de Wikidata, désormais possibles, et qui permettent de visualiser "les gens (indexés) dans les archives".
Sommaire :
2. Mais à quoi sert donc tout ceci ?
- Mais qui sont les gens (indexés) dans les archives françaises ?" (datavisualisations)
Mode d'emploi rapide
Ces centaines de milliers d'identifiants n'ont bien sûr pas été injectés manuellement dans Wikidata. Faute de mieux dans l'immédiat (mieux qui arrivera sans doute !), j'ai d'abord utilisé Webscrapper pour récupérer le contenu des 26 pages d'index alphabétique. Ce plug-in utilisable dans les navigateur web Firefox et Chrome (y compris sur des réseaux informatiques professionnels) permet de récupérer les contenus sériels de pages web, après avoir paramétré un schéma de structure des données. Dans le cas présent, il s'agissait de balayer l'ensemble des pages du référentiel Personnes et institutions (14 pages de A, 32 pages de B, etc.) pour récupérer les libellés "Agent" (écrits, pour les individus, sous la forme Nom, Prénom(s) (année de naissance-année de décès)) et le lien hypertexte vers leur page (lien qui contient l'identifiant unique desdits agents).
Les 26 fichiers (un par lettre) ont ensuite été compilés en un seul projet OpenRefine et rapidement retravaillés pour obtenir un tableur du genre :
Nom, prénom, année de naissance, année de décès, URL FAA, identifiant FAA
Je me suis concentrée dans l'immédiat sur les individus (le plus gros du référentiel), en excluant les organisations et personnes morales (moins présentes dans Wikidata) et les notaires (parisiens pour l'essentiel, issus du référentiel des Archives nationales, qui sont peu présents sur Wikidata, pour lesquels il y a en partie confusion dans l'encodage des données entre période d'activité et dates d'existence de l'individu ; bref, notaires qui mériteraient un traitement spécifique à part avec les données natives).
La majorité des liens d'identité (réconciliation) avec Wikidata ont été validés en comparant les années de naissance et décès : si, en plus de l'homonymie de l'individu, les années issues de FranceArchives correspondent à celles de Wikidata, c'est le même individu. Cette première étape a permis d'ajouter à Wikidata plusieurs milliers d'identifiants FAA.
Pour améliorer le matching automatique des individus "restants", j'ai aspiré leurs pages HTML (de type https://francearchives.gouv.fr/fr/agent/....) afin d'y récupérer les liens Wikidata qui pouvaient y être insérés. J'ai sans doute utilisé le procédé le plus laborieux et mangeur de mémoire vive (mon ordi a hurlé), mais à défaut de maîtriser autre chose, ça a marché : Httracker pour aspirer environ 3000 pages html pleines de choses inutiles et OpenRefine pour y récupérer une ou deux lignes contenant quelque chose ressemblant à https://www.wikidata.org...
Tout ça pour dire que dans l'été, on est passé de 3961 identifiants FAA (ajoutés principalement en 2021 lors de la création de l'identifiant) à... 19 538 en septembre (source : Wikidata Navel Gazer, P9371).
Et ce n'est pas fini puisque... :
- il n'y a ni organisation, ni notaire,
- il y a quelques doublons sur FranceArchives
- et plein d'identifiants à créer (potentiellement avec BNF to Wikidata),
- sans compter les coquilles à corriger (éléments Wikidata avec 2 identifiants FAA, soit à cause d'une erreur d'alignement, soit à cause d'identifiants à fusionner côté FAA).
Bref, un travail d'alignement est nécessairement long et infini, car les données sont vivantes. Entre l'opération de l'été 2023 et la rédaction de ce billet, chacun continue d'évoluer et enrichir ses données : FranceArchives continue de créer, relier et valider des identifiants Agent (voire à fusionner des doublons, avec heureusement des redirections entre ancien et nouvel identifiant) ; de nouveaux éléments Wikidata sont également créés, enrichis voire également fusionner (avec redirection également).
Les ajouts ponctuels sur Wikidata sont très rapides à faire, donc toute occasion est bonne à prendre pour rajouter un identifiant FranceArchives Agent (commémoration, nécrologie...).
Mais à quoi sert donc tout ceci ?
À lier les données (web sémantique)
Récupérer du contenu de Wikidata (et autres) et faire des liens de l'institution vers les référentiels, c'est bien ; relier dans les deux sens, s'enrichir mutuellement (y compris quand on modifie des informations) et s'inscrire réellement dans l'écosystème du web sémantique, c'est encore mieux. Soyons FAIR (play), quand bien même les outils et moyens métiers sont encore rarement à la hauteur des besoins (écriture en "dur" des contenus du web sémantique, difficultés à utiliser des API et faire de la réconciliation sur des réseaux informatiques institutionnels, etc.). Même sans outil métier "web sémantique proof", il est possible de contribuer et d'améliorer la découvrabilité de nos données, en renseignant des liens Wikidata (par exemple dans <bibliography>), données qui pourront être mises à profit lors de l'agrégation des données sur FranceArchives.
Les pages FranceArchives Agent ont la chance d'être a priori (dans l'immédiat du moins) des URI. Reliées à Wikidata, elles pourraient être envisagées comme "notices d'autorités" sur les articles Wikipédia.
Le fait que l'identifiant FranceArchives Agent existe sur Wikidata permet d'accéder, depuis la page FranceArchives, à de nombreux autres contenus liés via le plug-in Entity Explosion. En un clic, on peut accéder, depuis la page Agent sur FranceArchives, au dossier numérisé de Légion d'honneur de l'individu, à sa notice dans le catalogue de la BNF, ou encore aux textes sur Wikisource ou à la notice producteur des Archives nationales !
PS : en 2023, on a toujours des refontes de sites web institutionnels qui bazardent des milliers d'identifiants uniques utilisés depuis des (parfois dizaines) années, en ne se souciant pas de leur utilisation et dissémination dans l'écosystème du web, parfois sans aucune réécriture d'url...
"Mais qui sont les gens (indexés) dans les archives françaises ?" : interroger et visualiser le référentiel France Archives Agent
Même vivantes et inachevées, ces données sont très intéressantes à manipuler et à interroger. Questions non exhaustives et résultats des requêtes SPARQL de Wikidata, à partir des individus ayant un identifiant FranceArchives Agent
Sommaire des requêtes : Liste complète des individus France Archives Agent sur Wikidata - Individus par siècle - Lieux de naissance des individus originaires des Bouches-du-Rhône - Nationalité des individus - Proportion de femmes - Mosaïque de portraits féminins - Professions des individus par genre - Lieux de naissance des femmes - Femmes sans article Wikipédia en français - Individus liés à la Bretagne - Listes de travail Archives nationales - Visualiser l'identifiant FranceArchives Agent via Cat
- Liste complète des individus France Archives Agent sur Wikidata : Il y a un paquet d'individus (plus de 19 000), donc la liste complète peut être longue à charger ! "Liste des éléments ayant un identifiant FranceArchives Agent et leurs articles sur les Wikipedia fr ou anglais" (limitation à 1000 résultats par défaut pour plus de rapidité : requête SPQARL de Wikidata)
- Répartition des individus (par siècle) (requête SPARQL)
(idéalement il faudrait trier chronologiquement mais je n'ai pas réussi à faire un histogramme trié)
- Lieux de naissance et décès dans les Bouches-du-Rhône d'individus ayant un identifiant FAA (requête SPARQL)
Pour changer de lieu (département ou commune), remplacer dans la requête la valeur Q3240 par celle de l'élément Wikidata souhaité
Pour avoir la liste, changer le mode d'affichage en "Table" (exemple)
- Nationalité des individus (hors France) (requête SPARQL)
Voir aussi la liste des résultats
- Et les femmes dans tout ça ? : répartition des individus de FranceArchives par sexe et genre (requête SPARQL)
Voir aussi le tutoriel "Où sont les femmes ? ou comment genrer nos données patrimoniales
- Portraits (féminins) de famille (requête SPARQL)
Voir aussi la liste totale des femmes ayant un identifiant FAA
- Profession et genre des individus (requête SPARQL sur Wikidata)
Voir aussi la liste des résultats
- Lieux de naissance des femmes (par siècle) (requête SPARQL de Wikidata)
- Femmes avec une page sur la Wikipédia en anglais mais pas en français (requête SPARQL)... des idées d'articles Wikipédia (projet Les Sans Pages)
- Les Bretons sont partout... y compris dans FranceArchives (requête SPARQL)
Quelques listes de travail internes :
- les producteurs des Archives nationales sans identifiant FranceArchives Agent
- les préfets sans identifiant FranceArchives Agent
- les architectes diocésains sans identifiant FranceArchives Agent
Visualiser l'identifiant FranceArchives Agent via Cat
Pac a développé en ligne l'outil Cat, qui permet de proposer pour des requêtes simples de Wikidata une série d'analyses et de visualisations avec une interface grand public (en savoir plus sur Mastodon).
Voici l'accès direct pour visualiser les données rattachées à l'identifiant FranceArchives Agent. En modifiant la propriété appelée via la liste déroulante, on peut visualiser aussi bien le pays de citoyenneté, le sexe ou genre ou encore la profession des éléments en question.
Pour les professions (propriété "occupation"), cela donne une magnifique boule à facettes ! (suivie du top 20 des occurrences les plus représentées).
Pour aller plus loin
- Les outils utilisés :
- Billet "Do you SPARQL ?" - Compilation de requêtes patrimoniales et culturelles sur Wikidata
- FranceArchives, accès SPARQL (SPARnatural)
Mise à jour : ajout de la visualisation via l'outil Cat (02/03/2024)
Comments est propulsé par CComment