#36 - OpenRefine, "Excel aux hormones" pour nettoyage de données

36 refine logoRechercher/remplacer par, faire des filtres, des tris, voire des macros, c'est sympa, mais souvent très long, fastidieux, et parfois frustrant. Alors jetez-vous sur OpenRefine, "Excel aux hormones" selon l'excellente expression d'Antoine Courtin.

Testé et adopté à l'occasion du datasprint des archives, OpenRefine permet de faire extrêmement vite (et très bien) des nettoyages, des harmonisations et des enrichissements de données, en masse !

Même si l'essentiel de la documentation est en anglais, l'outil est utilisable en français et manipulable assez rapidement. Point non négligeable quand on travaille en collectivité sur des réseaux informatiques très verrouillés : il suffit d'avoir téléchargé le logiciel sur une clé USB, de glisser le répertoire sur son ordinateur et d'ouvrir le fichier exécutable pour l'utiliser (même sans droit administrateur).

Pour ma part, je me suis d'abord contentée de visualiser les 3 vidéos ci-dessous (en anglais, mais elles valent le coup d'oeil, juste pour avoir une idée de l'immensité des possibles)... avant de me jeter dans le bain, de tâtonner et de chercher au fur et à mesure des besoins.

Pour l'histoire rapide, l'outil a initialement été développé en open-source, puis soutenu par Google (d'où l'existence de versions Google Refine, de 2010 à 2012) puis de nouveau entièrement ouvert.

En plus d'être un peu didactique, le tutoriel ci-dessous est surtout un pense-bête personnel mais partagé, amené à s'enrichir régulièrement, pour garder sous la main les formules plus ou moins alambiquées trouvées parfois au bout de longues recherches et d'essais plus ou moins fructueux.

 

Webographie succincte

 

ImprimerE-mail

#35 - Gérer son compte Twitter avec Tweetdeck

35 tweetdeck logoComme pour Facebook (voir le tutoriel Programmer une publication sur Facebook), il existe des outils permettant d'optimiser son utilisation de Twitter (et laisser son temps être dévoré par le petit oiseau).

Tweetdeck, outil racheté par Twitter en 2011, est aujourd'hui incontournable pour qui rêve, dans un seul et même espace, ici l'onglet de son navigateur Internet, de :

  • suivre son mur (timeline) et les publications des gens qu'on suit ;
  • programmer des tweets (le bonheur) ;
  • suivre des listes et des mots clés (hashtags) ;
  • garder un oeil sur ses notifications ;
  • gérer ses multicomptes (sans trop s'emmêler les pinceaux et tweeter avec le mauvais compte) ;
  • suivre le livetweet de LA journée d'étude à laquelle on n'a pas pu aller.

 

ImprimerE-mail

#34 - Programmer une publication sur une page Facebook

Les réseaux sociaux sont aujourd’hui l’un des principaux modes d’accès à l’information sur Internet. On napprendra rien en disant qu’ils sont très chronophages.

Mais… il existe des outils pour y être présent, actif sans pour autant s’y noyer. Car l’une des caractéristiques de base du médiateur numérique, c’est qu’il est un peu paresseux. Alors il automatise les tâches autant que possible! Et non : derrière chaque publication de page un dimanche midi, il n’y a pas systématiquement un humain d’astreinte, mais plus souvent un robot !

Intéressons-nous à Facebook qui permet de programmer la publication de contenus.

ImprimerE-mail

#33 - Créer des formulaires et des sondages

33 framaforms eurekaEt si je disais qu'il est désormais facile (et gratuit) de construire un formulaire sur mesure, d'en extraire les données pour les visualiser / faire des statistiques et des visualisations / de les transformer en inventaire ou en bases de données interrogeables... voire de proposer un formulaire d'indexation collaborative pour des corpus déjà en ligne, en récupérer la substantifique moelle et faire ainsi du crowdsourcing à moindre frais ?!

 
Jusqu'à présent il n'y avait que Google Forms qui tenait la route. Désormais il y a Framaforms : c'est libre, open source, gratuit, c'est garantie confidentialité des données, et ça fait partie du projet Dégooglisons Internet dont il a déjà été question. 
 
Framaforms permet (entre autres) :
  • de créer des sondages, questionnaires ou autres formulaires plus ou moins complexes et sur-mesure avec toutes sortes de champs (listes déroulantes, cases à cocher, champ texte libre, etc.) ;
  • de les diffuser facilement avec une adresse web ou en les intégrant dans un site Internet (voir le tutoriel sur le code embed) ;
  • de récupérer le contenu sous format CSV ou Excel ;
  • d'avoir une analyse graphique rapide des résultats.
 

ImprimerE-mail

#32 - Créer des gifs animés

giphoscopeIls font régulierement parler d'eux (dernièrement encore Les Archives nationales des États Unis et leurs gifs), et pourtant ca fait un moment qu'ils sévissent sur le web. Ils, ce sont les gifs animés (prononcer plutôt "jif") . 
 
Le "Graphics Interchange Format (littéralement « format d'échange d'images »), plus connu sous l'acronyme GIF, est un format d'image numérique couramment utilisé sur le web". Il permet notamment de stocker plusieurs images en un seul fichier. Et plusieurs images jouées en boucle, ca donne ça...
 

ImprimerE-mail