Aller au contenu principal

Description et organisation des données

+ Types de données

On identifie les types de données qui seront utilisées au cours du projet puisque chaque type entraine des particularités dans sa gestion. Selon leur contexte de création (capture ou production), leur exploitation, leur analyse et les traitements qu’elles subissent, les données de recherche peuvent être :

  • de différente nature : brutes, dérivées, formatées, nettoyées, primaires, secondaires, traitées, etc.
  • contenues dans divers supports : carnets de laboratoire, documents électroniques, logiciels, papier, programmes informatiques, etc.
  • de tous types :

                   

    • Textuel : questionnaires, transcriptions, journaux, etc.
    •              

    • Numérique: données chiffrées, feuilles de calcul, coordonnées, etc.
    •              

    • Multimédia: photographies, audio, vidéo
    •              

    • Code de programmation: code source, algorithme, scripts
    •              

    • Code syntaxique: code de préparation de fichiers, code d’analyse statistique (Stata, SPSS, R, Matlab, etc.)
    •              

    • Logiciel
    •              

Important: Il est important dès le début de déterminer si des participants humains seront impliqués dans la réalisation du projet.

+ Formats

L'identification du format des données permet de savoir si elles seront lisibles par d'autres et si elles seront préservables. Voici la distinction que nous faisons entre les types de formats.

  • Format original : format habituel des logiciels (doc, ppt, xlsx, pdf)
  • Format de préservation : permet la manipulation et la réutilisation de l’information. Le format original est parfois suffisant.
  • Format d’accès : permet la consultation du document tel qu’il a été créé. Ex: PDF/A, CSV, MP3
 

Pour faciliter la préservation et la lisibilité des données, il faut toujours privilégier des formats ouverts.

 

+ Versions

 

Contrôle des versions

Le contrôle de version est le moyen de suivre les révisions d'un ensemble de données. Si votre recherche implique plus d'une personne, elle est essentielle.

Vous voudrez enregistrer chaque modification dans un fichier, quelle que soit sa taille. Gardez une trace des modifications apportées à un fichier dans votre convention de dénomination de fichier ou dans votre logiciel de contrôle de version. Un logiciel de partage de fichiers peut également être utilisé pour suivre les versions.

Vous pouvez le faire manuellement en incluant un indicateur de contrôle de version dans le nom du fichier et dans le fichier lui-même. Insérer une mention de version si nécessaire pour distinguer les versions de travail, finales, approuvées, etc. Pour un travail collaboratif, on peut effectuer un contrôle des versions en identifiant:

 

Vous pouvez créer un tableau de contrôle comme celui-ci pour vous aider ;a suivre l'évolution de vos fichiers:

Numéro de version Auteur Changement Date
0.1 S. Smith, Post-Doc Première ébauche 2019-01-09
0.2 F. Hill, Post-Doc Conclusion révisée 2019-01-14
0.3 G. Joe, PI Introduction révisée 2019-01-16

Il existe plusieurs logiciels conçus pour gérer le suivi des versions:  MercurialTortiseSVNApache SubversionGit, et SmartSVN.

Un logiciel de partage de fichiers peut également être utilisé pour suivre les versions. UVaBox a des options pour suivre les versions majeures et mineures des fichiers. Google Docs enregistre également les modifications de version.

 

    • le contributeur
    • la date de la version
    • le numéro de la version, tel que v01, v02, v1.4. La convention standard est d'utiliser des nombres entiers pour les révisions majeures et des nombres décimaux pour les révisions mineures. Employez une numérotation séquentielle pour les ébauches (0.1, 0.2, 0.3) jusqu'à ce que vous soyez à la version définitive.La version définitive sera le version 1.0. Si vous apportez des modifications, numérotez les version 1.1,  1.2, 1.3, jusqu'à la prochaine version définitive 2.0. 
    • Une combinaison de ces éléments.

 

+ Noms des fichiers

Voici 3 règles à suivre pour définir une convention de nommage pour les documents que vous allez créer.

Les bons noms de fichiers sont : 

  • consistants;
  • significatifs pour vous et vos collègues;
  • permettent de trouver facilement les fichiers. 

 

Principes pour bien nommer les fichiers

  • Déterminer le sujet du document et l’exprimer sous forme de mots clés. Un à trois mots significatifs. 
  • Donner un nom de fichier qui doit permettre l’identification du sujet principal d’un document sans avoir à ouvrir le fichier pour le consulter. 
  • Limiter la longueur du nom de fichier à 20-25 caractères max. 
  • Organiser les mots-clés en respectant le principe du général au particulier. Le sujet principal sera donc présenté en premier dans le nom du fichier. 
  • Proscrire l’utilisation d’une phrase complète comme nom de fichier.
  • Si l’année est importante débuté par cette dernière. 

 

Les caractères permis pour les fichiers :

  • Utiliser les tirets bas _ pour combler les espaces entre les mots. 
  • Faciliter le tri numérique en utilisant les formats de date : AAMMJJ ou AA-MM-JJ
  • Faciliter le tri numérique en utilisant le 0 devant les nombres de 1 à 9. 

Attention : 

Exclure l’utilisation les virgules, points, apostrophes, caractères accentués (é, è, ê, à, etc.), les caractères spéciaux (? & % * ! | #...) et des espaces. 

 

Source: Laure Perrier, University of Toronto

Exemples de noms de fichiers:

  • MCIM_Proposal_0.9.doc
  • PressHouseUserManual-01.02.doc

 

 

ASTUCE:

Si vous avez déjà plusieurs fichiers et que vous souhaitez les renommer, vous pouvez utiliser un de ces logiciels :

 

+ Structure des dossiers

 

Les bonnes pratique pour la structuration des dossiers

Source: Laure Perrier, University of Toronto

  • Hiérarchisation dans l’importance des données
    • Données temporaires (qui pourront être effacées)
    • Création des métadonnées tout de suite
    • Données importées (copiées) ou non (à sauvegarder)
    • Données brutes vs nettoyées
    • Résultats intermédiaires vs finaux vs à archiver
    • Limitez l’étendue des dossiers à trois ou à quatre niveaux
    • Envisagez de limiter à dix le nombre de dossiers contenus dans chacun de vos dossiers
    • Incluez un dossier de « documentation » dans l’organisation de vos dossiers. Ce dossier pourrait inclure :
      • Des propositions de projet ou des protocoles
      • Des formulaires de consentement ou d’approbation
      • Des documents de méthodologie
      • Un plan de gestion des données
      • Le code employé pour le recodage, les analyses et les résultats
      • Des fichiers Readme (lisezmoi) comportant des renseignements de transformation
      • Des fichiers Readme (lisezmoi) comportant les noms ou les titres au complet des abréviations utilisées dans un nom de fichier
      • Des livres de codes ou des guides