La base de données Carolus

La base de données Carolus

Index de l'article

 

 

 

IV. Des sources à la base de données

IV-1 Les sources primaires

La majeure partie des données cliométriques sont issues du dépouillement de Recueils, Annuaires, statistiques administratives diverses.
Concernant l'Education en France aux 19e et 20e siècles, nous avons utilisé divers tableaux issus de la « Statistique de l'Enseignement Primaire », tome 2, Ministère de l'Instruction Publique et des Beaux-Arts. Paris. Imprimerie Nationale.1880.

Les données concernent :

- les dépenses pour l'enseignement primaire, selon diverses sources et destinations
- le nombre d'écoles
- les populations d'âge scolaire et scolarisées
- les effectifs enseignants.

Toutes les données sont ventilées par départements, entre 1833 et 1876. Le catalogue complet et détaillé des séries, avec leurs propriétés particulières, est présenté en annexe. Le passage des données primaires, telles qu'elles ont été publiées en 1880, aux données finales informatisées stockées dans la base Carolus s'est effectué en plusieurs phases.

 

IV-2 Des sources primaires aux fichiers primaires

S'agissant de données anciennes, publiées il y a plus d'un siècle, la première étape consiste à les transférer dans des fichiers informatiques (les fichiers primaires ). Plusieurs méthodes ont été envisagées et testées.

Le processus [Photocopie [2] /Scanner(image)/Reconnaissance de caractères/Corrections et mise en forme] peut être intéressant pour des volumes importants de données textuelles. Ayant expérimenté cette méthode, dans des travaux précédents, pour des tableaux statistiques, nous en avons conclu à son inadéquation au cas des données numériques, surtout pour des données anciennes. Outre les problèmes de typographie, les difficultés de reconnaissance des caractères sont accrues par l'impossibilité de corriger automatiquement des erreurs sur les chiffres en s'appuyant sur leur contexte.

Nous avons également testé la reconnaissance vocale, mais la frappe au clavier s'est révélée plus rapide pour des valeurs numériques.

La saisie manuelle (recopie) est donc obligatoire en l'état actuel des techniques. L'usage du tableur a été retenu pour son confort. Les fichiers primaires ainsi constitués sont à l'image des tableaux d'origine, sous la forme de feuilles Excel™. On a conservé la présentation d'origine des tableaux, pour faciliter les premiers contrôles et corrections. Les utilisateurs individuels s'arrêtent souvent à ce stade, en stockant d'innombrables feuilles de calcul. Comme on l'a vu, cette approche est rarement optimale.

 

IV-3 Contrôles, corrections d'erreurs, données manquantes

Le tableur offre quelques moyens simples pour aider à la détection d'erreurs et à leur correction.

Une première détection d'erreurs (incohérences) est facilitée par le calcul automatique de sommes en lignes ou en colonnes, à comparer avec les totaux présentés dans la source (France entière, séries regroupées). Une distorsion peut révéler une erreur lors de la saisie informatique ; un contrôle visuel détaillé de la ligne ou de la colonne concernée permet de localiser l'erreur et de la corriger. La distorsion peut aussi provenir d'une totalisation erronée (peu fréquente) dans la source primaire. Dans ce cas, les données élémentaires sont conservées, mais leur somme est rectifiée.

Dans un second temps, les valeurs manquantes (recherche des cellules vides dans la feuille Excel) sont examinées en tenant compte de « l'inexistence administrative » de certains départements (Alpes Maritimes, Savoie, Meurthe, etc.) à plusieurs périodes. On note à ce propos que le tableur ne permet pas un traitement statistique systématique et fiable des valeurs manquantes, qu'il distingue mal des valeurs nulles. C'est pourquoi nous avons introduit dans la base Carolus une variable indicative du statut de chaque valeur (ici, statut = 0, indice d'une donnée manquante).

Un autre groupe d'erreurs (anomalies) est en partie détecté par l'observation de l'évolution de chaque série départementale au cours du temps (calcul des différences premières et recherche des variations jugées a priori aberrantes). Il s'agit alors d'erreurs probables d'écriture à la source. Dans ce cas, il est procédé à une estimation de la donnée (par interpolation ou recoupement avec d'autres informations) pour obtenir une valeur plus vraisemblable. L'observation ainsi rectifiée est marquée par son statut de ‘valeur estimée'.

Enfin, une procédure de contrôle consiste à consolider certains tableaux (regroupement de variables) pour comparer les tableaux ainsi obtenus aux données primaires correspondantes, lorsqu'elles sont disponibles. Par exemple, on vérifiera que la somme des données départementales d'une variable est égale à la donnée primaire ‘France entière' pour cette variable, si elle est disponible dans le document source. De même, les données détaillées du tableau ‘Ressources Ordinaires des Communes' (tableau T5 de la source) doivent être équivalentes aux totaux des tableaux (tableaux T2 + T3 + T4) des Legs & Dons + Subventions Communales + Contributions de familles. Ou bien encore : Ressources ordinaires totales = R.O. des Communes + R.O. Départementales + R.O. de l'Etat. (cf. infra). Il n'est pas indispensable de stocker dans la base les séries agrégées (par exemple France entière), alors que l'on pourra toujours les recalculer à partir des données détaillées.

Ces procédés de vérification n'évitent pas toutes les erreurs de saisie, mais la plupart d'entre elles. Elles permettent en outre de corriger certaines erreurs dans les données d'origine (saisies de valeurs aberrantes, erreurs de sommations). Dans tous les cas, elles assurent la cohérence des données, propriété plus importante encore que leur exactitude.

A la fin de ce processus, chaque donnée est assortie d'un indicateur de son statut :

0 = donnée manquante,
1 = donnée d'origine,
2 = donnée estimée ou rectifiée
3 = donnée calculée (sommes ou différences d'autres données de la base)

Il sera ainsi possible à l'utilisateur d'avoir une information sur la qualité des données qu'il exploite.

 

IV-4 Organisation des séries et sélection des tableaux primaires à saisir

Les données primaires (document initial) sont organisées en tableaux croisés, avec les données ventilées par départements et année. Ainsi, pour les dépenses d'enseignement primaire, la source dispose de plus de quinze tableaux croisant années et départements.

Chacun correspond à une double référence budgétaire :

- selon l'origine des ressources financières
(Legs et dons, Contributions des familles, Subventions publiques, qui constituent les ressources ordinaires ; les ressources extraordinaires ; l'ensemble des ressources)

- selon le « niveau institutionnel »
(communes, départements, état, ensemble)

Plusieurs de ces séries peuvent se déduire les unes des autres, si bien qu'il n'est pas nécessaire de les saisir en totalité. Nous avons calculé certaines d'entre eux par agrégation ou par différence, en vérifiant que les résultats obtenus sont égaux aux données primaires correspondantes. Cette opération a permis de réduire la saisie à 7 tableaux sur un maximum théorique de 24, selon le schéma suivant (les tableaux saisis sont indiqués en gras italique) :

 

Séries COMMUNES DEPARTEMENTS ETAT ENSEMBLE
Legs, dons T2 (0) (0) (=T2)
Familles T3 (0) (0) (=T3)
Subv. publiques T4 T6 T7 T12=T4+T6+T7
Ress. ordinaires T5=T2+T3+T4 T10=T8-T6 T11=T9-T7 T13=T2+T3+T12
Ress. Extraord. (0) T8 T9 T14=T8+T9
Total (=T5) T15=T10+T8 T16=T11+T9 T17=T13+T14


Un principe de sélection analogue a été adopté, lorsque cela était possible, pour les séries des autres domaines (démographie, établissements, personnels), afin de restreindre les tâches de saisie, et les erreurs qu'elles génèrent.

 

IV-5 Migration des données, des fichiers primaires vers la base Carolus

Une fois les fichiers primaires (feuilles Excel) ainsi construits par saisie ou par calcul, complétés et validés, leur contenu doit être transféré dans les différentes tables de la base de données Carolus. La structure de celle-ci est établie au préalable, avec toutes les relations et contraintes de validité et d'intégrité nécessaires, de manière à bloquer toute importation invalide. Les définitions complètes des Thèmes et Séries ont été renseignées manuellement, directement dans les tables de la base, à commencer par leurs identifiant. Les codes identifiant des séries ont été ensuite reportés dans les fichiers Excel pour l'ensemble des données correspondantes. On a complété également toutes les données des feuilles Excel par les références adéquates aux zones géographiques (ici : codes des départements) et par l'indication du statut (0 à 4) selon le principe indiqué précédemment.

Le processus de transfert des données statistiques s'effectue alors en plusieurs étapes et met en œuvre d'une part des « macros » Excel programmées en VBA (Visual Basic for Applications), d'autre part des requêtes écrites en langage SQL pour SQL-Server. Les procédures VBA assurent une restructuration et une mise en forme des tableaux Excel en les adaptant à la structure de la base de destination. Les requêtes SQL de création et de mise à jour de tables permettent de récupérer les données ainsi formatées, et de les intégrer dans la base.

Ces deux outils constituent les deux volets complémentaires, « push » et « pull », de l'outil de migration [3].

D'autres requêtes permettent des contrôles supplémentaires sur les données finales ainsi intégrées, et portent notamment sur les sommes, les données manquantes, les intervalles de valeurs. Il ne nous paraît pas utile de décrire ici plus en détail l'ensemble de ce processus.

 


Notes :

[2] Le recours à la photo numérisée s'est avéré encore plus décevant, du fait des déformations accrues de l'image.

[3] Voir par exemple : Bouzeghoub 2002, qui parle plutôt de LVA et GVA à ce propos.

Migration Joomla effectuée par HOB France Services