Veille scientifique et technologique - Les techniques de la bibliométrie et de l'infométrie (II)
Une réalisation intégrée : la plateforme Atlas
Le besoin des initiateurs
Le Cedocar (Centre de documentation de l’armement, dépendant de la Direction des recherches, études et techniques, Dret) a senti depuis de nombreuses années le besoin de compléter son activité de fourniture de documents primaires par une activité de recherche d’information documentaire, en particulier sur les thèmes ayant une sensibilité de défense, ainsi que par une activité d’analyse, à partir des fonds documentaires, des domaines comparés de force et de faiblesse de la France dans les secteurs scientifiques et techniques de sa compétence. Il s’est donc naturellement intéressé très tôt aux activités bibliométriques. De son côté, un service du Premier ministre chargé, entre autres, d’organiser à son profit une activité de veille scientifique et technique ainsi que la coordination interministérielle d’actions de valorisation et de protection du patrimoine scientifique et technique recherchait des moyens techniques de faire face aux flots d’informations en Information scientifique et technique (IST).
De leur action conjointe de soutien au développement des recherches bibliométriques est né le concept de « station bibliométrique Atlas » (Atelier logiciel pour l’analyse de l’information scientifique), à savoir la réunion sur un même support matériel de moyens permettant de réaliser l’ensemble de la chaîne de traitement : depuis l’extraction des corpus jusqu’à la fourniture d’information élaborée sous forme finie, par exemple par génération automatique de rapport. Cette station, qui a déjà atteint un niveau opérationnel et existe à quelques exemplaires, est le résultat des travaux conjoints de plusieurs laboratoires pour la plupart déjà mentionnés, comme le CRRM (Centre de recherche rétrospective de Marseille), le Centre de sociologie de l'innovation (CSI) de l’École des mines de Paris, l’Institut de l'information scientifique et technique (Inist), l’Irit (Institut de recherche en informatique de Toulouse), le Cemap et celui de M.C. Krumeisch.
Les traitements
Avant d’énumérer les fonctions de la station, il est bon de rappeler que l’étude d’une question commence par l’identification des bases de données (BD) qu’il faudra consulter (souvent 3 à 4) et la formulation des requêtes à poser pour l’interrogation des bases. Il faut alors télédécharger automatiquement ces bases depuis leurs serveurs, qui peuvent se situer partout dans le monde, puis effectuer des tris a posteriori (travail de validation), ainsi que des fusionnements des sources, ce qui peut se montrer ardu en raison des problèmes de doublons et de l’absence de normes.
Ce travail peut parfois représenter, en temps, le plus gros du travail de l’analyse, et demander un certain investissement de l’expert. Il est essentiel pour éviter les biais techniques (étant entendu que le choix des bases ou des interrogations peut déjà conduire à des biais…). De nombreux moyens existent pour ce faire, que ce soit dans le commerce ou bien intégrés dans ceux décrits ci-dessous. Le véritable travail d’analyse commence ensuite, lorsqu’on a obtenu un corpus documentaire « propre ». Les principaux modules exploitent alors les théories indiquées plus haut :
– Dataview, développé avec le CRRM, est une bibliothèque permettant, avec une interface conviviale, la création de fichiers statistiques ainsi que des comparaisons entre champs significatifs des textes. Il permet ainsi de mettre en évidence les domaines principaux d’étude d’un corpus documentaire et leurs associations.
– Tétralogie est un ensemble de logiciels (appelé package outre-Atlantique, et parfois solution en France) qui a été mis au point à l’Irit sous la direction de M. Dousset à la fin des années 1980. Il est organisé autour des concepts de l’analyse des données issues d’un corpus documentaire télédéchargé (AFC, ACP, CAH). Il permet en outre d’exploiter une « 4e dimension » dans la représentation des données, et même d’offrir une visualisation dynamique interactive. Les restitutions sur écran et sur graphiques sont ainsi plus expressives.
– Leximappe, fondé sur l’analyse des mots associés.
– L’analyseur de Taïga a été intégré, et son application opérationnelle est à l’étude.
– Mars, moyen d’ARD développé par le Cemap d’IBM France. Il se prête bien à l’analyse de documents fortement structurés, comme les brevets.
Enfin, des liens sont faits pour permettre la communication entre modules.
La station Atlas permet ainsi, « hors temps serveur », c’est-à-dire par un travail sur une BD locale constituée par des fichiers télédéchargés, sans avoir besoin de rester connecté à un tarif horaire élevé à un serveur de BD, d’effectuer des tris statistiques simples pour mettre en évidence les entités les plus importantes du champ étudié ; des tris plus évolués pour mettre en relation les entités d’un même champ (thématiques de recherche, par exemple) ; des comparaisons de fichiers statistiques ; des corrélations entre entités appartenant à deux champs différents ; un traitement et une analyse des données multifactorielles. Grâce à l’environnement Unix, ces travaux peuvent s’effectuer en multitâches, multifenêtrage, et utiliser des communications entre processus.
Le futur
Les travaux en cours sont principalement des travaux de stabilisation de l’environnement : portage de toutes les applications sur l’environnement Unix et amélioration de leur interopérabilité, intégration opérationnelle de Taïga. En outre, l’utilisation de ce moyen a permis de prendre conscience de certains phénomènes : les moyens se multiplient ; les BD, qu’elles soient primaires et commerciales ou constituées de corpus faits à la demande, sont de plus en plus réparties ; ces moyens ne sont pas d’un emploi immédiat et demandent une formation pour leur mise en œuvre, effectuée par des centres de compétence eux aussi répartis.
Les idées ont donc évolué vers le concept de « plateforme Atlas », représentant un environnement permettant à des applications de coopérer, éventuellement réparties sur un ensemble de machines connectées en réseau local et effectuant des traitements en parallèle, et l’on étudie la mise sur pied d’un réseau de compétence effectuant des traitements sur des données circulant par un réseau, physique celui-là, à savoir Renater.
Afin de pouvoir progresser dans ce sens, une Société de services en ingénierie informatique (SSII), Cleversix, a reçu la charge de définir un ensemble de spécifications afin de faciliter la coopération des modules existants : permettre la coopération des applications en cours de développement ; faciliter la définition fonctionnelle des différents moyens qui pourront constituer des « stations bibliométriques » adaptées aux besoins des divers utilisateurs, en mettant cette norme à la disposition du public (industriels, universitaires et grands utilisateurs) ; aller dans la voie d’un « format bibliométrique standard » fondé sur la norme SGML.
Cette action jouera un rôle significatif dans la constitution d’un véritable secteur industriel national des moyens informatiques de VST.
Prolongements possibles des actions entreprises
Les travaux antérieurs ont été effectués sans grande publicité, la conscience de l’importance de l’IST et de la VST étant alors peu répandue. Celle-ci s’est développée depuis, tant dans les entreprises que dans la recherche et les administrations publiques. Le besoin d’une action de coordination de l’effort national s’est alors fait sentir et, suite à un rapport commandé par le Premier ministre, une structure de concertation et de coordination dans le domaine de l’IST a été prévue par un décret du 12 janvier 1993. Celle-ci prévoit, entre autres, la mise sur pied d’une Commission technique interministérielle de l’information élaborée (CTIIE), comprenant des représentants techniques des organismes, publics ou privés, producteurs ou consommateurs d’IST, ou bien acteurs reconnus dans les techniques de VST. Sa mission est de « coordonner les actions visant à maintenir la disponibilité d’outils et de méthodes de veille technologique et stratégique ». Elle devrait se mettre à la tâche prochainement. Elle pourra sans doute donner aux travaux mentionnés précédemment une ampleur supplémentaire par des actions de sensibilisation et d’étude de marchés auprès des utilisateurs potentiels, notamment publics ; par une orientation et un soutien des travaux de recherche dans certains domaines ; par l’étude de normes techniques ; par une action de veille internationale et d’expertise dans le domaine ; enfin, et ce ne sera pas le moindre, en favorisant la naissance d’une authentique formation de haut niveau en « sciences de l’information ».
Il y a en tout cas un travail encore important à faire, tant dans le domaine de la sensibilisation à la nécessité de la VST que du développement de ces moyens. Ce dernier reste un exercice difficile, dans lequel de nombreux travaux de recherche sont encore nécessaires pour avoir des moyens pleinement opérationnels, adaptables aux besoins des usagers et utilisables par un personnel peu formé. Ce dernier objectif est sans doute un peu illusoire : les moyens resteront sans doute toujours techniques, si l’on veut un service de qualité à forte valeur ajoutée. Dès maintenant, cependant, ceux existants sont capables de fournir des informations très intéressantes, parfois inaccessibles à une analyse humaine. La difficulté est souvent la définition du domaine de recherche, des thèmes d’intérêt et des objectifs.
Il faut aussi savoir exploiter l’information obtenue, et pour cela avoir des délais d’exploitation et de rediffusion compatibles avec le cycle de travail de l’entreprise ou de l’organisme ! Tout cela permet de faire de la fonction de « chargé de veille scientifique et technique » un exercice passionnant pour lequel beaucoup de moyens et de méthodes restent à inventer et à mettre au point. ♦