Sidebar

Patrimoine et numérique
  • Accueil
  • Tutoriels
  • Data-visualisations
  • Journées d'études
  • Ressources
    • Fichiers
    • Tags
    • Liens
  • À propos

#36 - OpenRefine, "Excel aux hormones" pour nettoyage de données

Détails
12 avril 2017
Affichages : 28620

36 openrefine 1Rechercher/remplacer par, faire des filtres, des tris, voire des macros, c'est sympa, mais souvent très long, fastidieux, et parfois frustrant. Alors jetez-vous sur OpenRefine, "Excel aux hormones" selon l'excellente expression d'Antoine Courtin.

Testé et adopté à l'occasion du datasprint des archives, OpenRefine permet de faire extrêmement vite (et très bien) des nettoyages, des harmonisations et des enrichissements de données, en masse !

Même si l'essentiel de la documentation est en anglais, l'outil est utilisable en français et manipulable assez rapidement. Point non négligeable quand on travaille en collectivité sur des réseaux informatiques très verrouillés : il suffit d'avoir téléchargé le logiciel sur une clé USB, de glisser le répertoire sur son ordinateur et d'ouvrir le fichier exécutable pour l'utiliser (même sans droit administrateur).

Pour ma part, je me suis d'abord contentée de visualiser les 3 vidéos ci-dessous (en anglais, mais elles valent le coup d'oeil, juste pour avoir une idée de l'immensité des possibles)... avant de me jeter dans le bain, de tâtonner et de chercher au fur et à mesure des besoins.

Pour l'histoire rapide, l'outil a initialement été développé en open-source, puis soutenu par Google (d'où l'existence de versions Google Refine, de 2010 à 2012) puis de nouveau entièrement ouvert.

En plus d'être un peu didactique, le tutoriel ci-dessous est surtout un pense-bête personnel mais partagé, amené à s'enrichir régulièrement, pour garder sous la main les formules plus ou moins alambiquées trouvées parfois au bout de longues recherches et d'essais plus ou moins fructueux.

 

 

Webographie succincte

  • Site officiel
  • Documentation officielle (la Bible des formules, en anglais)
  • Thomas Padilla, Démarrer avec OpenRefine (en anglais)
  • INRA, tutoriel GoogleRefine (en français)
  • Mathieu Saby, Mini site tutoriel Openrefine (en français)
  • Mathieu Saby, Nettoyer et préparer des données avec OpenRefine (URFIST PACA, en français) ; Nettoyer et préparer des données avec OpenRefine (BULAC, mise à jour 2019)
  • Ettore Rizza, Tutoriels vidéos (en français)
  • Antoine Courtin, Pense-bête OpenRefine (en français)
  • Maïwenn Bourdic, Atelier OpenRefine - Forum des Archives 2019 (avec jeu de données exemple et captures d'écran pas à pas)
  • Maïwenn Bourdic, Atelier OpenRefine et Wikidata (2019, journées Wikimédia Culture et numérique)
  • Maïwenn Bourdic, Projet Datasprint - Permis de construire de Rennes (2016, avec nettoyage de données) (en français)
  • RefinePro knowledge base, plein de formules magiques (en anglais)
  • Enipedia, tutoriel OpenRefine (en anglais)
  • School of data, tutoriel OpenRefine (en anglais)
  • Library Carpentry, tutoriel OpenRefine (en anglais)
  • Online Journalism, Convertir du XML ou JSON en tableur (en anglais)

 

Lire la suite : #36 - OpenRefine, "Excel aux hormones" pour nettoyage de données
Ecrire un commentaire (0 Commentaires)

#35 - Gérer son compte Twitter avec Tweetdeck

Détails
17 février 2017
Affichages : 14836

35 tweetdeck logoComme pour Facebook (voir le tutoriel Programmer une publication sur Facebook), il existe des outils permettant d'optimiser son utilisation de Twitter (et laisser son temps être dévoré par le petit oiseau).

Tweetdeck, outil racheté par Twitter en 2011, est aujourd'hui incontournable pour qui rêve, dans un seul et même espace, ici l'onglet de son navigateur Internet, de :

  • suivre son mur (timeline) et les publications des gens qu'on suit ;
  • programmer des tweets (le bonheur) ;
  • suivre des listes et des mots clés (hashtags) ;
  • garder un oeil sur ses notifications ;
  • gérer ses multicomptes (sans trop s'emmêler les pinceaux et tweeter avec le mauvais compte) ;
  • suivre le livetweet de LA journée d'étude à laquelle on n'a pas pu aller.

 

Lire la suite : #35 - Gérer son compte Twitter avec Tweetdeck
Ecrire un commentaire (0 Commentaires)

#34 - Programmer une publication sur une page Facebook

Détails
30 novembre 2016
Affichages : 8178

Les réseaux sociaux sont aujourd’hui l’un des principaux modes d’accès à l’information sur Internet. On napprendra rien en disant qu’ils sont très chronophages.

Mais… il existe des outils pour y être présent, actif sans pour autant s’y noyer. Car l’une des caractéristiques de base du médiateur numérique, c’est qu’il est un peu paresseux. Alors il automatise les tâches autant que possible! Et non : derrière chaque publication de page un dimanche midi, il n’y a pas systématiquement un humain d’astreinte, mais plus souvent un robot !

Intéressons-nous à Facebook qui permet de programmer la publication de contenus.

Lire la suite : #34 - Programmer une publication sur une page Facebook
Ecrire un commentaire (0 Commentaires)

#33 - Créer des formulaires et des sondages

Détails
19 octobre 2016
Affichages : 11447

33 framaforms eurekaEt si je disais qu'il est désormais facile (et gratuit) de construire un formulaire sur mesure, d'en extraire les données pour les visualiser / faire des statistiques et des visualisations / de les transformer en inventaire ou en bases de données interrogeables... voire de proposer un formulaire d'indexation collaborative pour des corpus déjà en ligne, en récupérer la substantifique moelle et faire ainsi du crowdsourcing à moindre frais ?!

 
Jusqu'à présent il n'y avait que Google Forms qui tenait la route. Désormais il y a Framaforms : c'est libre, open source, gratuit, c'est garantie confidentialité des données, et ça fait partie du projet Dégooglisons Internet dont il a déjà été question. 
 
Framaforms permet (entre autres) :
  • de créer des sondages, questionnaires ou autres formulaires plus ou moins complexes et sur-mesure avec toutes sortes de champs (listes déroulantes, cases à cocher, champ texte libre, etc.) ;
  • de les diffuser facilement avec une adresse web ou en les intégrant dans un site Internet (voir le tutoriel sur le code embed) ;
  • de récupérer le contenu sous format CSV ou Excel ;
  • d'avoir une analyse graphique rapide des résultats.
 
Lire la suite : #33 - Créer des formulaires et des sondages
Ecrire un commentaire (0 Commentaires)

#32 - Créer des gifs animés

Détails
28 septembre 2016
Affichages : 14651
32 giphoscopeIls font régulierement parler d'eux (dernièrement encore Les Archives nationales des États Unis et leurs gifs), et pourtant ca fait un moment qu'ils sévissent sur le web. Ils, ce sont les gifs animés (prononcer plutôt "jif") . 
 
Le "Graphics Interchange Format (littéralement « format d'échange d'images »), plus connu sous l'acronyme GIF, est un format d'image numérique couramment utilisé sur le web". Il permet notamment de stocker plusieurs images en un seul fichier. Et plusieurs images jouées en boucle, ca donne ça...
 
Lire la suite : #32 - Créer des gifs animés
Ecrire un commentaire (0 Commentaires)

Plus d'articles...

  1. #30 - Cartographier des données (Carto.com)
  2. #29 - Géocoder en masse des données
Page 2 sur 7
  • Début
  • Précédent
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • Suivant
  • Fin

Derniers articles

  • #39 - Opération "Signatures", ou disséminer des autographes sur Commons, Wikidata et Wikipédia
  • Le Parisien chez lui au XIXe siècle, ou reconstituer une exposition sur Commons
  • #38 - D'un inventaire PDF à un fichier XML : cas pratique OpenRefine
  • Wikidata et les archives (1) - 70 ans d'expositions aux Archives nationales
  • #37 - Faire une carte avec Umap
  • #36 - OpenRefine, "Excel aux hormones" pour nettoyage de données
  • #35 - Gérer son compte Twitter avec Tweetdeck
  • #34 - Programmer une publication sur une page Facebook

Mots-clés

couper (1) Commons (4) tutoriel (4) public (2) Framasoft (4) crowdsourcing (2) histoire (2) Paint (1) capture d'image (1) GIF (1) Framapad (2) touche Impécr (1) chercher (2) référencement (1) blog (1) automatiser (2) jeu (2) médias (4) FramaForms (1) calendrier (2)

Patrimoine et numérique - Licence Creative Commons - à propos | Plan du site | Contact | Twitter

Bootstrap is a front-end framework of Twitter, Inc. Code licensed under MIT License. Font Awesome font licensed under SIL OFL 1.1.