Programme de l’association

(posté initiallement en 2009)

WebAtlas est un projet de recherche et d’expérimentations technologiques dont le web est à la fois le terrain et l’horizon.

Le web comme terrain ou lieu d’observation (des usages), de mise à l’épreuve (technologique), d’expériences (phénoménales ou ludiques) dont le développement ces dix dernières fait apercevoir combien il ne se résume pas à la question d’un « système d’information » (fut-il « universel ») mais inclut de fait de nombreuses facettes de notre expérience sociale, de notre vie économique et politique, de notre construction psychologique ou de nos émotions esthétiques. Dans le champ des savoirs, quelle discipline échappe encore à ce prisme anthropologique du « réseau » qui interdit, renouvèle ou reconduit les problématiques « anciennes », convoquant de façon impérieuse une majorité de chercheurs ? Les modalités de l’interaction sociale, les « chaînes de valeur », la sémiotique des supports de connaissance en réseau, l’ergonomie des outils de navigation, les bibliothèques électroniques dédiées à l’archéologie comme au séquencement du génome… C’est dans ces démarches problématiques que voudrait se loger WebAtlas pour accompagner la mise en place de ces terrains d’investigation du web, méthodologiquement et techniquement donner corps aux outils et aux méthodes qui leur seront associés.

Mais chacun de ces chantiers représente aussi une occasion singulière de sonder le web comme objet et de la constituer, pour lui-même, comme horizon de WebAtlas. Les principes qui le régissent comme architecture documentaire représentent encore aujourd’hui un défi pour la connaissance scientifique : à quelle forme ou à quelle organisation obéit-elle ? Quelles sont ses lois, locales ou générales, permanentes ou temporaires ? Quels sont sa vitesse et ses scénarios d’évolution ? comment s’y répartissent les « flux informationnels » ? Combien de « documents » y sont abrités ? Est-il réglé par des « échelles de dynamicité », du « site statique » au « blog actif » ? Quels types de corrélation, s’ils existent, entre « contenu » des documents et distribution des liens hypertextes peut-on imaginer ? Autant de questions stratégiques pour les chercheurs, les ingénieurs, les industriels, les experts en marketing ou les pouvoirs politiques mais aussi, à vrai dire, des questions curieuses pour un artefact issu de l’univers à-priori le plus contrôlable, celui de l’ingénierie numérique du discret et du stockable. En deçà d’une possible « raison du réseau », sa simple description comme systèmereprésente une gageure. En termes de réflexion, de méthodes et de construction d’outils, WebAtlas voudrait participer à ce travail minutieux de sondage du réseau, en arpentant sa structure et en cartographiant son information.

Voilà l’objectif : concevoir les hypothèses, inventer les méthodes mais aussi former les hommes à de nouveaux outils exploratoires pour agir dans un espace dont on aura réussi, peut être, à révéler une partie des propriétés.

WebAtlas ne s’inscrit pas dans un héritage disciplinaire unique : il s’agit d’abord d’un projet « d’ingénierie heuristique » ou d’une ingénierie de la découverte qui interroge les formes d’une architecture documentaire distribuée et ouverte, en mouvement constant. La mobilisation de plusieurs éléments théoriques ou techniques sera nécessaire pour conduire l’exploration du web : les formalismes logiques et informatiques, les données statistiques, les méthodes de text et de data mining, des architectures de stockage et de traitement de l’information ou même l’observation des usages. Mais c’est la production de « formes » ou de « modèles » du web, tout à la fois intellectuels et graphiques, qui constitue l’objectif premier de WebAtlas. S’il n’existe pas encore aujourd’hui de critères d’évaluation pour ce type technique et scientifique d’objets, on peut souhaiter qu’ils seront stimulants du point de vue sémiotique et cognitif, appropriables et diffusables largement, implémentables technologiquement. WebAtlas repose donc en grande partie sur le pari des patterns graphiques comme puissants instruments de synthèse et de manipulation de « grandes masses de données », dans un foisonnement ouvert pour le chercheur mais dont il faudra baliser l’usage et assurer les conventions pour les acteurs auprès de qui certains modèles « cartographiques » pourront être transférés.

WebAtlas sera donc placé sous le signe du bricolage inventif et de l’ingénierie expérimentale. Le projet pourra s’inspirer, selon les occasions, de domaines comme l’analyse des réseaux d’acteurs, la sémiotique des supports, les interfaces Homme-Machines ou les solutions de traitement de Grandes Masses de Données. Mais il serait vain de lui assigner une place dans une discipline reconnue de la recherche française, qu’il s’agisse des “Sciences de l’Information” ou de “l’Informatique”, ou dans l’un des “programmes thématiques” de l’Agence Nationale pour la Recherche. WebAtlas repose scientifiquement et techniquement sur la fusion de problématiques comme celle, d’un côté, des “grandes masses de données dynamiques et distribuées” et, de l’autre, de “la constitution des corpus en SHS et de leurs cadres interprétatifs”. L’investigation de la structure documentaire du web suppose l’émergence d’une démarche heuristique où s’emboîtent naturellement sciences humaines et sciences “dures”, mais aussi “science” et “ingénierie”. S’inscrire dans ce type de segmentation ce serait reconduire un cadre dont il faut au contraire s’affranchir pour construire, ici et maintenant, une partie de ce domaine des computer sciences qui aura permis à nos collègues nord-américains de conduire il y a plus de vingts ans la « révolution de l’information », technologiquement mais aussi intellectuellement.

Pour qualifier WebAtlas, on pourrait le ranger rapidement dans cette rubrique commode des “projets d’ingénierie de la connaissance”, comme en périphérie des programmes thématiques et disciplinaires de notre recherche nationale. Il est vrai que ce projet voudrait s’inscrire, modestement, dans l’histoire moderne des systèmes d’information, ceux dont on rêvés Vannevar Bush ou Ted Nelson, ceux qu’ont réalisés Tim Berners-Lee ou S. Brin et L. Page . Mais ce serait encore réducteur, et laisser sous-entendre que les projets « d’ingénierie de la connaissance » n’ont pas débouché, d’eux-mêmes, sur la production d’authentiques modèles conceptuels et scientifiques.

Si WebAtlas ne s’inscrit pas dans (l’ancienne) façon de distribuer les savoirs, sa place, pourtant, nous semble claire et déterminée d’avance, nourrie notamment de trois récentes contributions scientifiques majeures : celle de J. Kleinberg pour ses aperceptions sur la structure réelle du web en « agrégats » (algorithme HITS, 1997) et les procédures d’analyse qu’il propose des phénomènes dynamiques (les fameux « bursty phenomenons », 2002), S. Chakrabarti pour l’ingéniosité de sa démarche dans Mining the Web (notamment sur les focus crawler, 2003) et, enfin, A.-L. Barabasi dansLinked (2003) qui fait apercevoir combien la question (locale) de l’architecture du web n’est qu’une façon de poser celle, plus générale, des systèmes complexes, de la biologie à la physique en passant par l’épidémiologie ou la sociologie. Plus près de nous, en France, le « modèle gravitationnel du web » > (Fabien Montgolfier), les travaux sur l’analyse des grands graphes (M. Latapy), les projets de recherche comme PERSI ou AUTOGRAPH mais aussi les aventures industrielles remarquables comme Exalead (moteur de recherche français, leader européen de son domaine) ou la toute récente entreprise R.T.G.I. (rtgi.fr) et ses outils de cartographie de l’information comme la « Blogopole » s’inscrivent indéniablement dans l’horizon de WebAtlas comme repères naturels.

Les clefs conceptuelles et techniques du web ne nous ont pas été livrées d’emblée, comme si l’histoire nous léguait un réseau co-construit de façon universelle, « transparent » et désincarné, accueillant des informations circulant librement. On ne peut pas non plus se résoudre à le symboliser systématiquement sous la forme graphique du fameux « nuage » qui résume notre incapacité à le modéliser et qui peuple la plupart des articles scientifiques sur le sujet. De là, on comprend pourquoi WebAtlas trouve son origine dans une série de campagnes expérimentales sur l’architecture documentaire du web au cours desquelles, durant trois années, nous avons cartographié des milliers de pages et des sites liés à l’Eglise de Scientologieau mouvement « aller-mondialisation », à la Culture Scientifique et Technique (CSTI) ou les blogs des mouvements politiques français. Ces domaines, quelle que soit leur diversité de contenu, se sont révélés comme de véritablesterritoires où l’on pouvait vérifier le degré élevé de corrélation entresimilitude de contenus des pages web, proximité hypertextuelle en termes de « clics » et horizon social commun des acteurs. Il apparaît alors clairement le principe d’un Atlas du Web qui ne s’arrêterait pas aux résultats des moteurs de recherche, bien au contraire : aux mots rangés sous forme de liste, on doit pouvoir adjoindre une vision synthétique du vaste système de couches distinctes qui constituent le web, organisées en « localités » thématiques et hypertextuelles que nous appelons « agrégats ». Autrement dit une géographie de l’information basée sur des mots, des liens et des acteurs.

WebAtlas entend donc ouvrir la voie à l‘exploration et au relevé cartographique de cette granularité sociale et communautaire du réseau. L’émergence d’un possible « web 2.0 », le « peer to peer » ou l’avènement du « logiciel libre » constituent aujourd’hui un contexte favorable à un projet comme WebAtlas, mais c’est surtout le passage graduel ces dernières du data mining au web mining puis maintenant au social data mining dans lescomputer sciences qui nous semble constituer une orientation scientifique majeure. Là, au cœur des publications sur les Systèmes d’Information Web (W.I.S.), résident les trois pierres angulaires de notre démarche : l’hypothèse d’un web nourri de topical localities (les « localités thématiques » définies par une forte corrélation entre contenu des documents et proximité hypertexte, dessinant comme un territoire), l’étude des folksonomies (la façon dont les mots comme les concepts ou les domaines thématiques varient suivant le lieu social du réseau) et le caractère dynamique temporellement des phénomènes observés (scénarios d’évolution et modèles propagatoires de l’information tels que les définit Kleinberg en 2002 avec l’expression « bursty phenomenon »). De ces trois domaines d’investigation scientifiques, il faut oser l’hypothèse du web occupé comme un territoire, nourri de différents espaces, où se distribuent des acteurs, évoluant à différents niveaux selon les effets de résonance d’événements informationnels. En d’autres mots, c’est peut être avant tout vers les Sciences Humaines et Sociales qu’il faut se tourer pour saisir cette « raison du réseau » qui nous échappe.

WebAtlas trouve ainsi naturellement sa place dans une Maison des Sciences de l’Homme , là où les SHS ont depuis longtemps capitalisé les savoirs et les méthodes à priori mobilisables pour conduire diverses formes d’expérimentations sur la dimension anthropologique du web. Pourtant, dans ce projet d’investigation de la géographie documentaire du réseau, il ne s’agit pas de convoquer les SHS pour mesurer depuis la périphérie les « effets produits » par la technologie réseau (l’observation des usages, les modèles d’acteur, l’ergonomie des interfaces, les conséquences sociétales, juridiques, économiques ou culturelles…) mais pour leur capacité à produire des modèles de temps, d’espaces, de territoires, d’interactions, de valeurs, ou d’organisation politique qui figureront au cœur des projets de développement technologique. Autrement dit, des concepts implémentables .

L’idée qui réside au coeur du projet consiste donc à sonder les propriétés du web en le transformant explicitement, pour en éprouver, en quelques sortes, la plasticité. Si nous avons raison de parier sur la dimension sociale du réseau, on peut alors espérer que notre démarche et nos outils trouveront naturellement un écho sur le réseau, comme par effet de résonance. La stratégie adoptée consiste d’abord à accompagner des démarches et des projets d’innovation sociale et/ou scientifique sur le web, une sorte « d’ingénierie réseau pour les SHS » dont chaque déploiement sera l’occasion de recueillir des données expérimentales sur l’architecture du web (en observant la façon dont nous le modifions). Ensuite, les systèmes d’information web développés devront rendre compte de leur caractère manifestement contextualisé pour un réseau d’acteurs, localisé à l’échelle du web, situé dans ce vaste système e-cologique : moteurs de recherche communautaires, bibliothèques électroniques personnelles ou collectives, outils d’aide à la navigation cartographique, mapping de l’information et des réseaux d’acteurs qui la produisent et la diffusent, sans oublier l’effort qu’il faudra porter sur l’étude et la modélisation des différentes dimensions temporelles des flux informationnels. En rendant ainsi visible et manifeste aux usagers l’architecture documentaire avec laquelle ils travaillent (via notamment le principe puissant des cartographies d’informations), on peut espérer voire émerger, petit à petit, de véritables stratégies d’occupation des territoires numériques, la construction délibérée de positionnements sur un horizon constitué de « voisinages » et de complémentarités, de politiques d’ouverture ou, au contraire, de concentration sur le réseau. Autrement dit, les « systèmes WebAtlas » ne seront pas seulement dédiés à la gestion de l’information sur le réseau (extraction, stockage, indexation, traitement, classement…) mais aussi à l’exploitation de sa dimension anthropologique, comme dans le principe des « centres de calcul » imaginé par Bruno Latour : chaînes de transformation, modèles propagatoires des flux et instruments de traçabilité, mémoires collectives (mais jamais universelles) construites par convention ou consensus, relativité des connaissances capitalisées, recensement des acteurs contributeurs, modèles politiques d’organisation et jusqu’à la manipulation des données inscrites dans les systèmes. Contribuer, en un mot, à peupler le web de ces Harbors imaginés par Thomas Drugeon où chacun, individuellement comme collectivement, pourra nourrir le web comme une forme authentique de mémoire.

Et, un jour, pouvoir les rassembler dans un Atlas.

Franck Ghitalla, Mathieu Jacomy

This entry was posted in In French, What we do. Bookmark the permalink.

Comments are closed.