Analyse statistique des résultats
Le travail d'indexation
Le travail d'indexation a débouché sur plus de 1,6 million de renvois pour quelque 195'000 notices, chiffres ronds. Cela fait en moyenne, 8,5 descripteurs par notice.
Les différents tableaux informent sur la distribution de ces renvois. Celle-ci est proche d'une distribution statistiquement normale. Pour toutes les périodes analysées, la classe modale est celle des 5-9 descripteurs par notice.
Autre constat majeur: l'indexation ne présente pas de déséquilibre temporel flagrant qui en ferait un outil inutilisable pour interroger la base de données. C'était un des risques de l'entreprise qui semble avoir été écarté.
C'est l'indexation des notices médiévales qui semble avoir été nettement favorisée par le dictionnaire. La raison de cette "sur représentation" est moins à chercher dans la construction du dictionnaire que dans la présence relativement plus fréquente de notices longues et décrivant un seul document, avec un niveau de détail supérieur aux notices des périodes contemporaines. Dès lors la simple probabilité pour un énoncé long de rencontrer un nombre de termes plus élevé dans le dictionnaire explique le phénomène. Pour des notices de moins de 20 caractères, le nombre de descripteurs est en moyenne inférieur à cinq. Ce nombre moyen ne cesse de croître à mesure que la notice est plus longue pour atteindre une moyenne proche de 20 descripteurs avec des notices de 250 à 500 signes typographiques. Au-delà de 500 signes, l'indexation permet même d'associer plus de 30 descripteurs en moyenne à chaque notice.
