La base de données Carolus
Index de l'article
LA BASE DE DONNEES CAROLUS. DONNEES ECONOMIQUES ET DEMOGRAPHIQUES SUR L'EDUCATION EN FRANCE AUX XIXe et XXe SIECLES
par Nicolas DAURES (LAMETA)
I. Tableaux statistiques et bases de données
Toute analyse cliométrique ou économétrique s'appuie sur des données stockées dans des fichiers informatisés. Il peut s'agir de fichiers traditionnels, le plus souvent des feuilles de tableur, ou d'un support plus élaboré tel qu'une base de données. Pour l'utilisateur, la première méthode est en apparence plus simple, la seconde est plus lourde en investissement mais elle offre en contrepartie d'importants avantages. Il faut en outre, dans tous les cas, disposer d'outils adaptés pour sélectionner et préparer les données à étudier, ou les mettre à disposition de plusieurs utilisateurs.
I-1 Une pratique usuelle : les feuilles de calcul
• L'usage du tableur est une pratique fréquemment observée. La plupart des chercheurs y ont spontanément recours, car il offre de grandes facilités pour la saisie de données, leur correction, l'impression, les calculs et transformations de variables. Des données existantes, d'origine institutionnelle ou téléchargées par internet, sont souvent présentées sous cette forme. Les données peuvent être facilement transférés de ou vers des applications de calcul (tables SAS par exemple). Enfin, l'interface (écran) permet de reproduire l'aspect visuel habituel des tableaux statistiques à une ou deux dimensions, et d'y adjoindre aisément les titres et annotations utiles.
• Mais cette approche n'est pas sans inconvénients.
a. Les données sont organisées en tableaux de « structure plate », à une ou deux dimensions, à l'image des tableaux statistiques sur papier. Les données plus complexes (multidimensionnelles ou hiérarchisées) doivent être éclatées en tableaux distincts plus simples. Si elle est visuellement habituelle et confortable, cette dissociation en séries élémentaires entraîne d'une part des redondances de certaines données et d'autre part une multiplication des fichiers (à la limite, autant de fichiers ou de feuilles de tableur que de séries). Elle rend aussi plus difficile la recherche sélective, le regroupement ou l'agrégation de données hiérarchisées.
b. La multiplication de séries distinctes faisant référence aux mêmes nomenclatures oblige à répliquer ces nomenclatures. Par exemple, pour stocker 150 variables annuelles concernant l'éducation depuis 1830 ventilées par départements (France) ou par Pays – soit environ 100 zones géographiques sur 170 ans - il faut prévoir au minimum 150 tableaux croisés de taille 170 x 100 (en l'occurrence, images des documents-papier recueillis). La liste des départements, comme celle des années, est alors nécessairement reportée (copiée) dans chacun des 150 tableaux.
c. Cette duplication de données est naturellement source d'erreurs. Par exemple, le nombre des départements français n'est pas constant dans le temps, ni certaines dénominations. Des « erreurs humaines » s'y ajoutent, notamment si la saisie est effectuée par des personnes différentes (Haute-Garonne, Hte-Garonne, Haute Garonne, etc.). La sélection automatisée de données sera alors impossible.
d. On pourrait aussi évoquer les difficultés de création et de mise à jour du catalogue, l'absence de contrôle de l'intégrité et de la cohérence logique, une sécurité très insuffisante, les difficultés dans la fouille des données - sélection, regroupements, réorganisation des données.
• La construction de bases de données offre des solutions plus satisfaisantes. On réservera les supports traditionnels à certains contextes :
- travail individuel, hors réseau, pour des données non partagées, à usage ponctuel.
- séries en volumes limités, de structure peu complexe, peu évolutifs
- tableaux de structures analogues, facilement consolidables
- saisie initiale de données (‘fichiers primaires') en vue d'une intégration ultérieure vers une base de données
- récupération de données depuis une base de données, et préparation intermédiaire en vue d'une exploitation statistique avec des logiciels spécialisés.
En règle générale, les fichiers simples ou les feuilles de calcul devraient être considérés comme des compléments, en aval ou en amont, d'une véritable base de données gérée à l'aide d'un logiciel adéquat.
I-2 Une pratique recommandée : les bases de données
La constitution d'une véritable 'Base de Données', gérée à l'aide d'un logiciel de type SGBD (Système de Gestion de Bases de Données), permet en principe de combler les lacunes du système traditionnel.
Elle ne supprime pas l'usage du tableur, mais lui assigne un rôle complémentaire et subordonné.
• Cette approche offre de nombreux avantages :
- possibilité de gérer de gros volumes de données (plusieurs milliards de lignes)
- sécurisation du contenu (intégrité référentielle, contrôles de cohérence, sauvegardes)
- partage en réseau, avec sécurisation des accès à divers niveaux
- échanges aisés avec un tableur ou d'autres systèmes de gestion de bases de données
- publication en ligne facilitée au format html
- recours à des compétences humaines (administrateur) et des ressources matérielles (serveur, réseau) en principe plus performantes
- confort pour l'utilisateur (automatisations, paramétrages)
- procédures élaborées de recherche-sélection, mises à jour de données (requêtes)
- structure « physique » générale assez simple (fichiers peu nombreux)
- possibilité de modéliser et d'exploiter des relations logiques complexes entre données
- maintenance et réorganisation plus aisées.
• Principes d'organisation
L'architecture d'un système de gestion de données comporte trois éléments logiques fondamentaux :
- les données, organisées selon un modèle cohérent
- les vues ou requêtes, pour chercher et sélectionner des données, les regrouper, voire les mettre à jour et effectuer des calculs simples
- l' interface utilisateur (écrans, états à imprimer, procédures d'automatisation)
A quoi il faut ajouter :
- des outils de gestion et de maintenance de la base
- des outils de contrôle et de gestion des autorisations d'accès aux divers contenus
- des modalités d'échange avec l'extérieur (tableurs, SAS, SGBD, html..)
- en amont : outils de préparation et d'intégration des données collectées
- en aval : procédures d'exportation de données vers un tableur par exemple, ou de publication sur un site web.
La gestion de l'ensemble, sous la responsabilité d'un administrateur de base de données, s'appuie sur un ou plusieurs SGBD capable d'utiliser des procédures en langage SQL, reconnu comme standard de communication entre SGBD. Oracle, SQL-Server ou MySQL sont des logiciels de références en ce domaine. Access (MSOffice) est moins performant, mais plus répandu et d'usage confortable pour des utilisateurs peu formés à la gestion des bases, pour un usage personnel ou en petite équipe. Pour un accès aux données par Internet, on peut mettre en place des outils complémentaires (serveur web et pages d'accès aux données ou service ftp) accessibles à l'utilisateur distant via un navigateur courant. Le système ainsi constitué peut être unique ou éclaté, entre une ou plusieurs plates-formes, avec des interfaces adaptables aux besoins finals.