#36 - OpenRefine, "Excel aux hormones" pour nettoyage de données
Rechercher/remplacer par, faire des filtres, des tris, voire des macros, c'est sympa, mais souvent très long, fastidieux, et parfois frustrant. Alors jetez-vous sur OpenRefine, "Excel aux hormones" selon l'excellente expression d'Antoine Courtin.
Testé et adopté à l'occasion du datasprint des archives, OpenRefine permet de faire extrêmement vite (et très bien) des nettoyages, des harmonisations et des enrichissements de données, en masse !
Même si l'essentiel de la documentation est en anglais, l'outil est utilisable en français et manipulable assez rapidement. Point non négligeable quand on travaille en collectivité sur des réseaux informatiques très verrouillés : il suffit d'avoir téléchargé le logiciel sur une clé USB, de glisser le répertoire sur son ordinateur et d'ouvrir le fichier exécutable pour l'utiliser (même sans droit administrateur).
Pour ma part, je me suis d'abord contentée de visualiser les 3 vidéos ci-dessous (en anglais, mais elles valent le coup d'oeil, juste pour avoir une idée de l'immensité des possibles)... avant de me jeter dans le bain, de tâtonner et de chercher au fur et à mesure des besoins.
Pour l'histoire rapide, l'outil a initialement été développé en open-source, puis soutenu par Google (d'où l'existence de versions Google Refine, de 2010 à 2012) puis de nouveau entièrement ouvert.
En plus d'être un peu didactique, le tutoriel ci-dessous est surtout un pense-bête personnel mais partagé, amené à s'enrichir régulièrement, pour garder sous la main les formules plus ou moins alambiquées trouvées parfois au bout de longues recherches et d'essais plus ou moins fructueux.
Webographie succincte
- Site officiel
- Documentation officielle (la Bible des formules, en anglais)
- Thomas Padilla, Démarrer avec OpenRefine (en anglais)
- INRA, tutoriel GoogleRefine (en français)
- Mathieu Saby, Mini site tutoriel Openrefine (en français)
- Mathieu Saby, Nettoyer et préparer des données avec OpenRefine (URFIST PACA, en français) ; Nettoyer et préparer des données avec OpenRefine (BULAC, mise à jour 2019)
- Ettore Rizza, Tutoriels vidéos (en français)
- Antoine Courtin, Pense-bête OpenRefine (en français)
- Maïwenn Bourdic, Atelier OpenRefine - Forum des Archives 2019 (avec jeu de données exemple et captures d'écran pas à pas)
- Maïwenn Bourdic, Atelier OpenRefine et Wikidata (2019, journées Wikimédia Culture et numérique)
- Maïwenn Bourdic, Projet Datasprint - Permis de construire de Rennes (2016, avec nettoyage de données) (en français)
- RefinePro knowledge base, plein de formules magiques (en anglais)
- Enipedia, tutoriel OpenRefine (en anglais)
- School of data, tutoriel OpenRefine (en anglais)
- Library Carpentry, tutoriel OpenRefine (en anglais)
- Online Journalism, Convertir du XML ou JSON en tableur (en anglais)
- OpenRefine pour Wikimedia Commons : les bases