Les bases de données

A l’heure d’XML, des moteurs de recherche, du "cloud", des données dites "non structurées", les bases de données sont-elles obsolètes ? Ourouk montre dans cet article que l’exigence de formalisation et de normalisation qui régit, en principe, l’approche des bases de données, reste indispensable dans une perspective de gestion optimisée de l’information.

Définition

Vue sous un angle technique, du point de vue des concepteurs des systèmes d’information, conceptuellement, une base de données est un ensemble de données, regroupées dans une application informatisée, en ligne (ce qui suppose un réseau), organisées en champs structurés selon un modèle de données, permettant des recherches multicritères (exploite la transversalité de l’information) de façon à répondre à des besoins d’utilisateurs différents.

Une base de données doit de ce point de vue satisfaire plusieurs critères
- Représentation fidèle de la réalité, modélisation adéquate, fiabilité et actualité des données
- Unicité de l’information
- Indépendance des programmes d’applications et des interfaces par rapport aux données
- Performance des applications, requêtes rapides et optimisées
- Sécurité des données (sauvegarde)
- Confidentialité des données (gestion des droits d’accès)

Les promesses

La base de données doit donc permettre la mise à jour instantanée, le partage et la diffusion à distance de l’ information à des utilisateurs qui ont des vues différentes sur l’information.

D’un point de vue théorique la base de données promet donc à chacun
- L’unité de temps : l’information est immédiatement disponible à tous les utilisateurs et quelle que soit l’heure dès lors qu’elle est produite. Elle induit la possibilité d’une information fiable, maitrisée, actualisée en temps réel.
- L’unité de lieu : tous les utilisateurs accèdent aux données quel que soit l’endroit où ils sont dès lors qu’un réseau est disponible.
- L’unité de contenu : l’information est saisie une fois, et disponible pour tous les usages, en fonction des divers besoins.

L’importance du facteur production

Dans ce schéma, le grand gagnant est l’utilisateur, il bénéficie d’un service, d’une qualité d’information pour un coût marginal de diffusion, de mise à disposition de cette information très faible. Mais la qualité de l’information dépend d’un autre grand acteur : le producteur. Acteur essentiel de la base de données, il est souvent celui qui est le moins bien pris en compte.

Dans les producteurs nous rangeons tous les organismes qui produisent l’information, la mettent à jour, la collectent, l’organisent, la structurent, la normalisent.

L’organisation de la collecte mise en place, les objectifs que se fixe un producteur, sont des facteurs déterminants de la qualité de l’information. On n’insistera jamais trop sur ces aspects qui impliquent qu’une banque de données est aussi un point de vue, une œuvre au sens il y a un point de vue d’auteur qui se caractérise par sa structuration, les moyens mis en œuvre pour produire l’information. Beaucoup de banques de données sont synthétiques, (elles vont utiliser plusieurs sources d’information, recouper et compléter leur information). Ce sont souvent les plus intéressantes. Ce sont aussi celles qui coutent le plus cher, le coût de production marginal de l’information est, très rapidement, croissant.

Aspects économiques

C’est un des paradoxes de l’économie de l’information, son coût de reproduction peut être très faible alors que son coût de production peut être très élevé. Les nouvelles technologies apportent peu à cette dernière tâche. Nous sommes toujours dans le cadre d’une économie très primaire, une économie de type chasseur-cueilleur ou une économie minière où le mieux que l’on puisse faire est de trouver les gisements les plus fertiles. Bien plus, par certains côtés, notamment parce qu’elle exige une normalisation accrue pour obtenir des performances en recherche, ou en raison du potentiel de la recherche multi critères qui du coup pousse à l’excellence quel que soit le champ ou le type de données que l’on produit, l’informatisation de l’information dans la base de données à tendance à renchérir cette production. L’information a une autre caractéristique, la donner, la partager ne vous en dépossède pas. La mutualisation de l’information est donc un puissant moyen de maîtriser les coûts de production de l’information.

Une organisation de la production à optimiser

La mutualisation passe, nous l’avons vu par une optimisation du processus de production. La base de données est l’outil idéal pour diffuser la bonne information, n’importe où, n’importe quand, à la vitesse de la lumière ou presque ; mais l’information est une production qui dépend pour l’essentiel des hommes et de leur organisation. L’information est un produit élaboré avec un niveau de qualité défini, tributaire d’une organisation. Faire travailler dans le même but des organisations différentes, qui ont produit de l’information pour satisfaire des besoins différents ne va pas de soi.

Un point de vue d’auteur à fédérer

La base de données est par essence centralisatrice. Dès lors que l’information est unique, centralisée, elle s’accommode mal des divers points de vue qui peuvent surgir en matière de production de l’information. La normalisation est indispensable, mais le choix de la norme peut être différent, et celle-ci peut ne répondre qu’à une partie des questions qui sont soulevées. L’homogénéité garantit la qualité de la banque de données. Beaucoup de bases de données achoppent sur ce point. C’est le travail dont on a le moins conscience, l’illusion technologique tend à le minimiser alors qu’il reste le travail fondamental, pour lequel non seulement la machine ne peut pas grand chose mais au contraire exige une rationalisation..

Normaliser, normaliser, normaliser. Faciliter la normalisation par le contrôle, la saisie assistée. L’information doit épouser un corset de fer. Il est capital de développer un parti pris éditorial, un point de vue d’auteur. On peut et on doit travailler en réseau, c’est une nécessité quand on veut se rapprocher de la source de l’information mais quelque part, le besoin de valider, d’harmoniser, d’unifier se fait sentir et impose une autorité finale. La question est encore plus complexe dès lors que l’on se préoccupe d’indexation. Le thésaurus, la nomenclature, la classification classent la réalité en fonction d’un point de vue, les frontières ne sont pas toujours évidentes entre les diverses rubriques. Quel descripteur choisir ? Jusqu’où doit-on détailler l’information ? Comment prendre en compte les évolutions ? Un consensus doit s’établir, s’entretenir, tout en étant perméable aux évolutions qui ne manqueront pas de se produire. Il est d’autant plus nécessaire quand des organismes différents avec des cultures différentes, des organisations différentes, des moyens différents, collaborent.

Une réalité complexe et en mouvement rebelle à la modélisation

La base de données suppose le modèle. Mais régulièrement la base de données se retrouve à l’étroit dans le modèle.Qu’est ce qu’une donnée ?

La réponse n’est pas toujours aussi simple qu’il n’y paraît. C’est la plus petite entité élémentaire qui fait sens pour l’utilisateur. Elle doit donc, du point de vue théorique, être isolée.

Prenons une adresse. Bien souvent, on en fait un champ. Pourtant, elle peut être décomposée en données (le n° de la voie, le classement interne du numéro – bis, ter -, le type de voie -rue, bd, etc.-, le nom de la voie). Dans bien des bordereaux administratifs, on pousse jusqu’au bout cette modélisation – encore faudrait-il normaliser le type des voies, leur nom (ex. Mal versus Maréchal de Lattre de Tassigny) – ; ailleurs on y renonce facilement, car elle complexifie la saisie pour un faible avantage compte tenu du besoin. La rationalité n’est pas toujours économique.

Lorsque le modèle semble établi, les cas particuliers surgissent. On a défini une zone pour l’adresse. Mais certaines entreprises ont une adresse postale (BP, cedex) et une adresse pour le livreur ou le chauffeur de taxi. Cette autre entreprise est plus complexe, elle a un siège social ici, son centre de formation ailleurs. Ce dernier n’est d’ailleurs pas stricto sensu partie intégrante de l’entreprise ; c’est une filiale à 100%, un centre de profit. Et puis l’adresse du centre de formation international est en Grande-Bretagne ce qui suppose de passer du code postal au zip code. Le champ était bien défini ; la réalité évolue. On doit veiller à l’homogénéité des contenus, ne pas employer un champ pour autre chose. La règle paraît rationnelle mais la pratique nous conduit souvent à la violer. Les définitions et les besoins évoluent, on « détourne » le contenu du champ, on le fait évoluer jusqu’à ce que la contradiction apparaisse. Tant que le producteur et l’utilisateur sont identiques, ils s’en accommodent l’un et l’autre, mais dès que la base se professionnalise le procédé est rédhibitoire.

Une information unique ?

La base de données relationnelle fait de l’unicité des données un de ses dogmes. La théorie des dépendances (fonctionnelles, multivaluées, de jointure, hiérarchique, …) et les formes normales qui leur sont associées visent à donner une cohérence maximale à la base de données.La base de données n’est pas encore créée que l’on s’empresse de la sauvegarder, donc de la dupliquer. Le doublon est inhérent à la base de données.

Des besoins différents, des usages différents conduisent à produire ou à diffuser une information différente. Par exemple, le bureau distributeur de la poste n’est pas la commune. Il y a des communes qui ne sont pas des bureaux distributeurs et des bureaux distributeurs qui ne sont pas des communes (à commencer par Paris La Défense).

D’autre part, les normes postales imposent une taille du champ (26 caractères) et une graphie ad hoc (ex. St pour Saint). La logique est différente dans le code officiel géographique, où la graphie est complète et nous devons disposer de 43 caractères pour écrire la commune pour l’instant la plus longue (Saint-Rémy-en-Bouzemont-Saint-Genest-et-Isson). Si l’usage est de pouvoir faire des publipostages et d’obtenir des tarifs de routage, il faut respecter des normes postales, si l’objectif est d’éditer un annuaire, on aura intérêt à respecter la graphie du code officiel. Le même type, voire la même information appelle des structures et des normes différentes suivant des besoins et des usages différents. Si nous devons les satisfaire simultanément, il faut dédoubler l’information sans pour autant laisser isolés les structures qui ont été créées. Par conséquent une base de données multimédia ne peut être une base unique dont on extrait suivant les besoins les éléments utiles mais une base qui tienne compte aussi des médias de destination pour autant que ceux-ci soient connus.

La situation est encore plus complexe du jour où en prend en compte le style de rédaction propre à chaque média et au sein d’un média les diverses déclinaisons de celui-ci (un dictionnaire encyclopédique n’est pas la même chose qu’un dictionnaire). La prise en compte des divers points de vue éditoriaux, induit une organisation complexe. Elle est théoriquement possible mais suppose un personnel qui soit capable de combiner diverses approches et en maîtrise toutes les composantes.

D’autre part les outils d’édition présents dans les banques de données ne sont pas nécessairement adaptés à une autre forme d’édition qu’une édition très structurée, alors que la combinaison des approches éditoriales supposent des outils d’édition plus ouverts. On peut penser que l’émergence d’outils autour de XML permettra de dépasser certaines lacunes actuelles, toujours est-il que si la banque de données multimédia reste une solution de référence, sa mise en œuvre réelle ne peut être que complexe.

Conclusion

On aura compris que l’attitude d’Ourouk en matière de base de données est de se défier des vues a priori au profit d’une analyse d’une réalité complexe et unique : celle de son client. Cette réalité nous cherchons l’approcher méthodiquement en essayant de comprendre la culture, l’histoire, l’organisation de l’organisme. L’ensemble de la chaîne de traitement est analysée, jusque dans le détail afin de dégager les solutions optimales et évolutives.