Indexation et structure des métadonnées : Remettre de l’ordre dans le chaos

Indexation et structure des métadonnées : Remettre de l’ordre dans le chaos

John Montaña

Disposer d’une grande quantité de données, peu importe le format qu’elles peuvent avoir – dossiers papier traditionnels, microfilms ou fiches ou toute une panoplie de formats électroniques utilisés – est apparemment une bonne idée, sinon pourquoi le faire? Et en effet, nous vivons dans une société d’information où tout ce que nous faisons dépend d’une façon ou d’une autre de la capacité d’une personne à accéder très rapidement et avec précision à de grandes quantités de données.

Toutefois, l’utilité de ces données – les nôtres, celles des entreprises de services publics, celles d’Amazon, celles des départements d’État, des véhicules automobiles ou celles de votre fournisseur de soins de santé, en réalité celles de toute entité avec laquelle nous faisons affaire – est tout à fait dépendante de la possibilité de pouvoir réellement trouver les données lorsque nécessaire. Cela signifie que vous avez besoin d’un moyen d’organiser le tout pour que vous puissiez trouver ces données. Et plus l’ensemble de données est important, plus cette règle s’applique. Vous pouvez faire défiler une pile de quelques douzaines de feuilles de papier pour trouver ce dont vous avez besoin sans trop de difficulté. Maintenant imaginez une centaine. C’est beaucoup plus difficile. Quelques milliers et voilà que c’est encore plus difficile et plus long – et que des erreurs peuvent s’y glisser. Un million – aucune chance. Et la réalité c’est qu’un système commercial de dossiers, même petit, ressemblera beaucoup plus à ce million – ou encore plus – de pages et non à quelques milliers, qu’il soit électronique ou sur papier ou qu’il s’agisse d’un mélange des deux.

Les conséquences sont simples, mais importantes : vous avez besoin d’une méthode d’organisation, sinon vous ne trouverez jamais rien – la plupart de vos renseignements seront réellement perdus. Et si vous disposez d’une méthode organisationnelle, l’utilité de vos renseignements correspond directement à la qualité de votre méthode. Les index, les métadonnées et les structures de données consistent à apporter cet ordre à votre ensemble de données.

Vos métadonnées se présentent-elles sous la forme d’un panneau ou d’une carte?

Le problème pourrait être considéré par analogie. Si vous avez déjà conduit une voiture dans une très grande ville, Londres ou Paris par exemple, vous savez que cela est très difficile, c’est le moins que l’on puisse dire. Les rues ne sont pas organisées selon un plan, elles forment tout simplement un méli-mélo qui n’a fait qu’empirer depuis mille ans. Cela peut se faire, heureusement, mais seulement parce que chaque rue a une balise de métadonnées sous la forme d’un nom. Et donc, très souvent, ceux d’entre nous qui n’ont pas mémorisé l’ensemble de la carte (comme le font les chauffeurs de taxi de Londres) ne peuvent que tenter de naviguer à l’aide d’une carte ou suite à des directives détaillées.

Sans les noms de rue, cela serait carrément impossible. Mais comme ces métadonnées ne sont en aucun cas organisées, leur valeur est limitée. C’est pourquoi les chauffeurs de taxi mémorisent le tout.

Comparez cela à ma ville, Denver. Toute la ville – en gros toute la région métropolitaine – est disposée sur une grille. Ce fait organisationnel à lui seul simplifie la navigation. Colfax Avenue, par exemple, s’étend sur une ligne droite de l’est à l’ouest, sur 65 km. Mais la grille est également numérotée. Il y a un coin de rue qui est le point zéro – zéro est-ouest, zéro nord-sud. Et en plus d’un nom, chaque rue a un chiffre – 100, 200, etc.

Donc si je vous dis que Pennsylvania Avenue est 500 est, vous savez exactement où c’est. Et si je vous dis que mon bureau est situé au 4340 South Pennsylvania, vous savez que c’est 5 coins de rue à l’est, 43 coins de rue au sud. Et ils sont allés encore plus loin, donnant aux pâtés de maisons des noms d’avenues numérotées consécutivement d’après des arbres, des personnages historiques, etc. Les rues transversales de mon quartier portent toutes des noms de collèges – je suis à quelques coins de rue de Pennsylvania et Oxford. Une fois que vous connaissez le système et les conventions d’appellation, Denver est une ville où il est très facile de se déplacer. Et c’est parce que toute la ville dispose d’un schéma de métadonnées cohérent et que les objets qui y sont présentés sont disposés de façon ordonnée et systématique.

La gestion des ensembles de données n’est pas trop loin de ce type de comparaison. Sans des renseignements sur ce qui se trouve dans l’ensemble de données, vous devez fouiller au hasard, comme si vous conduisiez à Londres sans carte et sans aucun panneau indicateur. Vous avez donc besoin de métadonnées. Et plus ces métadonnées présentent ordre et uniformité, plus efficaces elles seront.

Systèmes de classement – métadonnées pour les fichiers papier

Un système de classement bien conçu et bien géré illustre bien cette situation. Il existe un éventail de systèmes de classement couramment utilisés – numérique, alphanumérique, numérique terminal, etc., mais ils atteignent tous les mêmes objectifs importants :

  • Les fichiers possèdent des étiquettes de métadonnées systématiques et prévisibles qui y sont rattachées
  • Les fichiers sont stockés dans des emplacements systématiques et prévisibles
  • Les fichiers sur des sujets identiques ou similaires sont soit regroupés physiquement (par emplacement) ou regroupés logiquement (selon le code sur les étiquettes de fichier)

Les systèmes spéciaux comme les systèmes à séquence numérique terminale peuvent ne pas sembler logiques aux non initiés, mais ils font effectivement ce qu’on vient de mentionner. Il le faut bien, sinon, on ne trouverait jamais rien. Et si vous avez déjà eu recours à un système de classement physique où l’étiquetage et le classement ont été effectués avec négligence et imprécision, vous appréciez l’importance de ce système et de son application cohérente.

Application de ces leçons aux métadonnées pour systèmes électroniques

La même logique s’applique également aux systèmes électroniques. Lorsque vous regardez quelque chose comme la structure de fichier dans Windows Explorer ou Mac OS Finder, vous regardez l’analogie électronique directe de ce système de classement de papier. À la mode pendant une certaine période, l’Internet central préconisait que vous n’aviez pas besoin d’une structure de données systématique, que les balises de métadonnées de forme libre étaient le seul outil nécessaire, mais cette mode s’est arrêtée assez rapidement, parce que les métadonnées de forme libre deviennent rapidement inadéquates puisque le nombre d’objets de données dans la collection augmente. Si vous considérez cela dans le contexte d’un système de classement papier, vous réalisez rapidement pourquoi : Si vous avez par exemple mille cabinets de classement à remplir, les remplir tous en ordre aléatoire avec des dossiers de fichiers non étiquetés s’avérerait un système complètement inutile.

Un étiquetage aléatoire des dossiers avec tout ce qui vous viendrait à l’esprit sur le moment s’avèrerait un peu meilleur… mais pas tant que ça. Il vous serait encore très difficile de trouver un dossier en particulier. C’est seulement lorsque vous étiquetez systématiquement les dossiers et que vous les classez systématiquement que la configuration commence réellement à fonctionner. La même chose est vraie pour les systèmes électroniques. Les objets de données ne sont pas nécessairement contigus physiquement, mais le schéma de métadonnées les associe logiquement pour obtenir le même résultat.

Vous entendez souvent quelqu’un dire : « Nous n’utilisons pas d’index, nous avons un schéma de métadonnées » Les métadonnées sont-elles différentes d’un index?

Non, elles ne le sont pas : un index est un type de schéma de métadonnées. Considérez cet index simple :

  • Comptabilité
    • Comptes créditeurs
    • Comptes débiteurs
  • Ressources humaines
    • Candidatures et curriculum vitae
    • Dossiers personnels

Chaque objet de données de ce système comportera au moins deux balises de métadonnées qui lui sont associées, par exemple « ressources humaines » et « fichiers personnels ». La première place l’objet dans un groupe particulier d’objets de données et la deuxième le place dans un sous-groupe plus petit. Chaque dossier personnel comportera alors au moins une balise de métadonnées supplémentaire sous forme de nom ou d’identifiant d’employé pour permettre l’identification d’un fichier particulier. Lorsque nous considérons un tel système comme une structure de dossiers, il est important de se rappeler que la structure de dossier n’existe pas réellement. Les objets qui y sont stockés sont généralement stockés sur le disque dur – souvent plusieurs disques durs – au hasard. Il s’agit simplement d’une représentation graphique d’un schéma de métadonnées structuré et hiérarchique. Lorsque nous déposons un fichier dans un dossier, en réalité nous venons d’y attacher une balise de métadonnées.

Dynamiser une meilleure expérience de recherche avec des métadonnées profondes

La beauté d’un système électronique bien conçu est que cette hiérarchie logique peut être jumelée à toutes sortes de métadonnées supplémentaires – horodatage date et heure, mots-clés, auteur, la liste est pratiquement infinie. De plus, grâce à un bon moteur de recherche, ces champs de métadonnées peuvent être appariés, triés, filtrés et affichés de différentes façons qu’on ne peut exécuter qu’à l’aide d’un système de classement physique, ce qui vous permet de faire des recherches de façon efficace – « Montrez-moi toutes les factures payables créées par Joe Smith entre le 10 janvier et le 7 juillet et concernant Acme Corp. »

Mais pour mettre ce pouvoir en pratique, votre plan doit être systématique et ordonné. Il s’agit de la prévisibilité et de l’uniformité de la puissance. Si nous ne les étiquetons pas systématiquement comme des factures ou que nous ne les mettons pas toujours au nom de Joe, le système ne fonctionnera pas.

Quelle est la meilleure façon de présenter un index? Eh bien, il n’y a pas. Considérez cet index simple pour les formulaires de revenus des sociétés. Quelle structure est meilleure : par numéro de formulaire ou par année?

Structuré par numéro de formulaire

  • Déclarations de revenus
    • Formulaire 1120
      • 2018
      • 2019
      • 2020
    • Formulaire 941
      • 2018
      • 2019
      • 2020
    • Formulaire 940
      • 2018
      • 2019
      • 2020

Structuré par année

  • Déclarations de revenus
    • 2018
      • Formulaire 1120
      • Formulaire 940
      • Formulaire 941
    • 2019
      • Formulaire 1120
      • Formulaire 940
      • Formulaire 941
    • 2020
      • Formulaire 1120
      • Formulaire 940
      • Formulaire 941

Celui qui est le meilleur dépend de la nature des recherches dans le système. Votre objectif dans la création de l’index est de fournir le chemin de recherche le plus court possible à quiconque cherche dans le système. Vous ne pouvez pas optimiser l’index pour chaque type de recherche, alors vous l’optimisez pour les plus fréquentes.

Donc, si vous recherchez principalement tous les formulaires fiscaux pour une seule année, le deuxième système est plus logique. Si vous traitez principalement avec un seul type de formulaire sur plusieurs années, le premier est plus logique. Par conséquent, un plan optimisé pour le travail comptable quotidien est susceptible d’être très différent de celui optimisé pour répondre aux vérifications ou aux poursuites.

La réussite dépend entièrement de la planification

Donc, dans la construction de l’index et d’autres balises de métadonnées, vous devez d’abord avoir une idée de qui effectue la recherche, de la façon dont cette personne fait son travail et dans quelle mesure elle désire effectuer des recherches sur les choses. Il en va de même pour les termes de l’index eux-mêmes – ils doivent être significatifs pour vos utilisateurs, sinon ils chercheront au hasard. Ça vaut aussi la peine de noter que dans un bon système électronique, vous pourriez être en mesure de réorganiser votre index et de l’afficher d’autres façons aussi – mieux ordonné, combiné à d’autres champs de métadonnées, horizontal, déplacé, etc.

Alors, dans notre exemple de comptabilité, les deux dispositions pourraient être disponibles au besoin. La possibilité de faire ces changements dynamiques à l’écran permet d’effectuer de puissantes recherches qui ne seraient pas possibles autrement. Mais en tout temps, la conscience et le soin à l’élaboration des termes et de la structure de vos métadonnées, ainsi qu’un degré élevé de cohérence dans son application sont essentiels. Vous n’avez pas besoin d’un puissant moteur pour avoir un index et un schéma de métadonnées efficace. De plus, la capacité d’un puissant moteur sans un bon schéma de métadonnées ne sera jamais excellente. Le défi est toujours de construire le capital intellectuel – index, structure de données, ensemble de métadonnées ou peu importe comment vous l’appelez – qui conduira le système. Créez-le bien, et il sera efficace dans n’importe quel environnement, car il contient les renseignements clés et les relations clés qui permettent une recherche efficace.


Pour en savoir plus sur la façon dont les métadonnées peuvent être utilisées pour améliorer l’exploitation, consultez ce webinaire où Susan Cisco s’est jointe à nous pour une séance « Out of the Box Live! » (Nouveautés en direct) intitulée « Retention Beyond the Curve » (Fidélisation au-delà de la courbe)