WebAtlas, orientations et pratiques de la recherche

Note d’information du 5 novembre 2007

Au moment où WebAtlas entreprend de recenser la communauté d’acteurs qui sont entrés dans son sillage, il est temps pour son président de remettre en perspective les objectifs et les activités afin de préparer l’avenir de l’association. La place originale que veut occuper notre association dans le paysage de la recherche et de l’innovation en France se nourrit de défis à relever mais aussi d’expériences passées dont il faut à présent tirer les leçons, plus de cinq ans après la naissance du projet expérimental de recherche “R.T.G.I.” devenu aujourd’hui une entreprise innovante de premier plan.

La volonté commune d’explorer une architecture documentaire aussi fascinante que le web nous aura conduit à poser les premières pierres de nouveaux foyers d’innovation, au plan technologique mais aussi scientifique, industrielle ou citoyenne. Ce projet collectif d’investigation s’est construit sur le développement de technologies (sur webatlas.fr et web-mining.fr), de méthodes et de concepts mais aussi et surtout sur la rencontre d’acteurs différents qui auront permis à WebAtlas de s’insérer pleinement dans le paysage de l’innovation en région Ile-de-France. La rencontre avec ces acteurs, au delà des projets communs qui nous lient maintenant, constitue aussi la confirmation d’une curiosité largement partagée pour ce vaste système e-cologique que l’on ne peut plus seulement cantonner à un “système d’information” parmi d’autres.

Ce projet d’investigation a conduit les ingénieurs-chercheurs de WebAtlas vers le développement de technologies inédites mais aussi vers la formation des hommes qui demain les utiliseront à plus grande échelle. Les membres de WebAtlas sont maintenant déployés dans la plupart des secteurs associés, de près ou de loin, à l’exploitation de ce territoire numérique distribué : systèmes de veille stratégique, analyse de réseaux d’acteurs sur le web, phénomènes informationnels dynamiques, outils d’aide à la décision, procédés cartographiques de l’information. Mais, si le regard porte plus loin que le champ passionnant du web mining et de nos outils, il se peut que nous ayons à aborder d’autres objets tout aussi complexes et attirants que le web. L’exploration du web n’est peut être en effet qu’un tremplin vers ces trois continents qui constituent déjà une sorte de “triangle magique” de l’innovation : les structures du vivant, les sciences de l’environnement et les circuits discrets de la finance mondiale. Les “grandes masses de données, dynamiques et peu structurées” du web entretiennent d’étroites parentées d’organisation avec celles qui règlent les topologies cellulaires, les équilibres écologiques et les marchés financiers. L’une des expériences acquises de l’Association est d’avoir abordé le champ du web-mining en développant des outils et des méthodes de réduction (momentannée et jamais acquise) de la complexité d’un système, générateur de surcroît de relativité permanente. On ne saurait trop ré-affirmer sur ce point notre attachement à l’avèvement de ces mapping and network sciences en France ou en Europe qui auront permis ces dernières années à nos collègues américains de comprendre les enjeux d’une recherche unique dont les terrains iraient des systèmes techniques aux systèmes sociaux, et des systèmes biologiques aux systèmes environnementaux.

Mais l’originalité d’un projet comme WebAtlas vient surtout des pistes que développent conjointement maintenant des ingénieurs et des chercheurs en SHS dans nos projets. On l’a déjà noté, le formidable patrimoine intellectuel des SHS en termes de modèles de temps, d’espaces, d’interactions sociales ou d’organisation de la pensée constitue à nos yeux un capital primordial. C’est de lui qu’il faut tirer les processus qualitatifs d’analyse des données pour orienter le traitement algorithmique à grande échelle en intégrant ici un sociologue, là un chercheur en sciences de l’information ou un historien, dans un travail de conception de technologies inédites et qui dépasserait largement le seul point de vue de l’observation des usages. Ce travail d’intégration du patrimoine intellectuel en SHS à un processus de design technologique innovant constitue une arme pertinente pour aborder la question des systèmes complexes, sur le web mais aussi ensuite ailleurs. Duncan J. Watts, dans Six Degrees, décrit comment la redécouverte des travaux sur les strong et les weak ties de Mark Granovetter en sociologie a profondément renouvellé les travaux mathématiques sur la théorie des graphes ces dix dernières années. Il pourrait en aller de même pour bien des problématiques actuelles sur lesquelles buttent encore les sciences exactes, les sciences pour l’ingénieur ou les computer sciences.

____________________________

1) Le défi du social data mining

Il est temps maintenant de revenir sur ce qui apparaît de plus en plus comme la dimension essentielle de la révolution associée aux technologies de l’information et de la communication et qui éclaire singulièrement le trajet deWebAtlas. Si l’on peut encore discuter le terme de “révolution”, le constat, lui, semble incontournable : le web se présente comme une matrice technique distribuée façonnée par des usages dont le réseau garde la mémoire. Le seul fait d’utiliser une technologie numérique contribue à produire des traces et, à grande échelle, elles constituent un réservoir immense de données disponibles et peu exploitées. Pour la première fois dans l’histoire, le social devient potentiellement traçable, dès la plus petite échelle (un individu, une idée, une interaction, une valeur, une organisation, un produit…) à la plus grande comme le montrera bientôt notre étude sur la galaxie du “développement durable” et de ses acteurs sur le web francophone. Ces données sont maintenant en plus grand nombre que celles que manipulent les sciences exactes (et tout aussi complexes et incertaines) et constituent à notre sens, l’enjeu principal des recherches de ces prochaines années dans le champ de ces Network Sciences émergentes. Mais elles devraient aussi l’être pour les chercheurs en SHS.

Cette question de la traçabilité du social éclaire singulièrement plusieurs des pistes théoriques et expérimentales que nous avons poursuivies jusqu’ici mais, comme au départ d’un puzzle, sans pouvoir les organiser en un tout cohérent. Tout d’abord l’intérêt marqué par tous les membres deWebAtlas pour les “technologies web 2.0″ et le succès industriel qu’elles représentent aujourd’hui. Peu importe que l’on y voit le règne du “système marchand” ou un espace de “libération citoyenne” : Youtube, E-bay,FaceBook, Baagz, Wikipedia, MySpace ou Dailymotion fonctionne comme des formes manifestes d’ingénierie sociale nourrie par l’apport spontané de réseaux sociaux, implicitement ou explicitement organisés ou déclarés. En ouvrant les systèmes d’information aux utilisateurs, c’est à dire en traitant les traces d’usages et en les rendant manifestes en retour aux usagers, les ingénieurs et les chercheurs ont vu se peupler rapidement leurs systèmes d’une richesse anthropologique jusque-là insoupçonnée, parfois surpris de leur propre succès. Dans ces systèmes, mais aussi à l’échelle du web tout entier, le social semble comme s’autoformaliser, là devant nous, non pas produit par les techniques numériques, mais au contraire leur donnant cecorps individuel ou collectif dont elles semblaient dépourvues jusqu’à présent. S’il fallait réduire à un principe explicatif ce vaste système d’interaction humaine via des technologies (dont l’énergie et la diversité dépasse de loin tout projet de contrôle global de l’Internet), il faudrait aller le chercher du côté de l’anthropologie beaucoup plus que du côté de la théorie de Shannon et Wiever. Le Connected Age n’est pas celui des Machines mais celui des Hommes qui, en ligne, peuplent le réseau de boucles vertueuses d’interaction d’où naît, à grande échelle, un certain principe d’ordre, et donc une lisibilité.

Dès lors, on comprend mieux les conclusions du rapport qui officialise la naissance des NetWork Sciences aux Etats-Unis en 2006 : au delà des aspects techniques et théoriques de la démarche, au delà même de ces “champs du complexe” que sont les systèmes techniques, les structures du vivant ou l’architecture de ce mécano céleste qu’est l’environnement, “the ultimate value derived from these engineered networks depends on the effectiveness with which humans use them. Therefore research into the interaction of social and engineered networks is a national priority” (cf.note d’information n°1). Pour WebAtlas, comme dans l’esprit des promotteurs de ce vaste programme scientifique, il ne s’agit pas seulement d’observer et de mesurer les usages depuis leur “extérieur” manifeste (les usagers en situation, les logs machines, l’analyse des données échangées, le type d’information diffusée) mais d’approcher la forme même de cette dynamique dont émergent des modalités politiques d’organisation que les acteurs se donnent eux-mêmes. C’est dans le réseau lui-même, en sondant sa structure-même, que l’on pourra surtout découvrir/analyser/visualiser ceslocalités issues des pratiques du social computing. La théorie des graphes et les méthodes de détection de patterns relationnels y sont appelés à jouer central pour des épisodes de mapping statique mais un pas de géant sera accompli quand, demain, l’on pourra monitorer en temps réel l’émergence d’une “communauté” ou un la naissance d’un agrégat social, prévoir son avènement sur la base de la détection d’un signal faible, assister à son développement et, éventuellement, à sa disparition. La maîtrise du temps dans le traitement des données comme dans leur représentation représente le levier majeur qu’il nous manque encore. Le défi est autant intellectuel que technique et les ingénieurs qui travaillent au projet WebAtlas connaissent bien les verrous à lever pour assurer au fait social en réseau sa phénoménologie.

Les patterns socio-relationnels marquent de leur empreinte l’ensemble de l’architecture du web et, avec du recul, nos expérimentations menées en 2003- 2004-2005 sur différentes “thématiques” ou différentes “communautés” nous l’ont démontré exemplairement. Que l’on indexe des liens hypertextes, des mots, des posts et des commentaires, des modèles de mises en pages, et qu’éventuellement on développe des méthodes pour corréler ces données entre elles, on retombe systématiquement sur le principe des agrégats (Kleinberg, WebAtlas) ou des topical localities(Davison, IBM, 2002), sur les notions de centralité et de périphérie (Watts, Barabasi), de couches et de frontières (Chakrabarti). Autrement dit, qu’il s’agisse d’étudier sur le web le mouvement des Sans-Papier, l’Eglise de Scientologie, la CSTI ou la blogosphère politique française, la distribution de la connectivité hypertexte se donne sous forme d’agrégats, la production des mots sous forme de folksonomies, la circulation des idées sous formed’idéologies, les mises en page selon des patrons et les internautes accordent manifestement une valeur toponymique aux noms de domaine qu’ils fréquentent. Tous les indices constitutifs de l’émergence d’authentiquesinstitutions se manifestent à grande échelle, et elles n’attendent que leur géographie pour enfin se manifester sous forme organisée de patterns typiques.

__________________________________

2) Recherche et innovation dans le paysage national

L’exploitation des traces numériques et la cartographie de cette granularité sociale du web constituent aujourd’hui un enjeu majeur pour la recherche mais aussi pour l’industrie et la société. Du moins, c’est un principe. Dans les faits, nombre d’acteurs se sont en effet lancés avec WebAtlas dans l’exploration de quelques pistes prometteuses en termes de recherche et d’expérimentation. Des industriels de l’information tout d’abord (RTGI-SAS, le leader français Exalead, FT-RD) beaucoup plus attachés à la recherche fondamentale qu’on ne le dit souvent, mais aussi des institutions comme la MSH, Science-Po (et le projet de MediaLab auquel nous sommes associés) et même le Ministère de la Recherche avec qui directement nous allons déployer un système de veille collective sur les questions de sciences-société à l’échelle européenne dès 2008. L’Europe mais aussi la région Ile de France ou la région Picardie (via l’observatoire RENUPI), sans oublier certains responsables locaux d’incubateurs ou des organisations de la société civile (RITIMO) nous ont accompagnés dans différents types de partenariats.

Pourtant, le projet WebAtlas n’a guère encore trouvé de place dans le paysage “officiel” de la recherche française et ce n’est pas seulement pour la jeunesse (et l’inexpérience supposée) de ses membres. La raison la plus évidente tient au fait que les innovations méthodologiques et technologiques sur lesquelles nous nous appuyons sont aussi porteuses, comme toujours en ce cas, de renouvellement des pratiques expérimentales et des repères scientifiques. Sur ce point, WebAtlas ne peut que souscrire aux propos de B.Latour qui, dans un document récent de présentation de son projet deMediaLab, en appelle à la recomposition des disciplines SHS en un “saut radical” pour entamer (enfin) cet immense chantier des traces numériques

    “Tout le système de recherche et d’enseignement français souffre de la division entre les sciences sociales et les sciences expérimentales. Au sein même des sciences sociales, subsiste un grand morcellement disciplinaire organisé autour d’anciennes lignes de fractures. Or cette fragmentation est très largement un artefact du mode de production des données tel qu’il a existé au XXe siècle : selon qu’on avait accès à tel ou tel agrégat de données on devenait économiste, sociologue, politologue ou historien. Ces distinctions n’ont plus grand sens aujourd’hui dès lors que les archives, les bases de données, les documents en texte intégral, les sources d’image, les sondages, se mêlent dans la même matérialité numérique (…) Un centre commun de production de données transversales dont les méthodes et les principes s’appliquent indifféremment aux domaines les plus divers, jouerait un rôle décisif dans la recomposition des disciplines des sciences sociales que plus rien ne distingue vraiment sinon – éventuellement – la genèse de leur formation“.

A défaut d’une redistribution rapide des disciplines en SHS, les territoires numériques pourraient au moins représenter dans un premier temps un terrain partagé d’observation et d’analyse. Il pourrait préfigurer la construction de cet espace commun aux SHS, comme l’ont opéré historiquement les sciences exactes, à partir de données et de méta-langages symboliques collectifs, rendant ainsi possible l’avènement d’un savoir “« explicite, partageable, opératoire et capable d’enrichissement des connaissances » comme l’a aussi écrit récemment P. Levy. Cet appel à occuper cette “nouvelle matrice culturelle” que représentent l’ensemble des traces accumulées par nos acitvités se conjugue avec le constat qu’en SHS « les instruments d’observation sont peu élaborés au plan de l’ingénierie » et que la « calculabilité, la capacité de prédiction et la testabilité des théories sont faibles». Voilà un défi auquel entend contribuer notre association.

Mais, au delà de cet objectif de la construction d’un terrain privilégié d’observation pour les SHS, nos objectifs et nos pratiques diffèrent tant des cadres habituels de la “science” que l’on aurait bien du mal à évaluer la “place” d’un projet comme WebAtlas dans le paysage de la recherche française. En particulier, la démarche de l’association est ainsi précisément fondée sur le dépassement du triple cloisonnement qui règle encore aujourd’hui le paysage scientifique, notamment dans nos universités : entre la “recherche” et “l’enseignement” tout d’abord en affirmant le rôle central que peuvent jouer les étudiants dans les projets de recherche pour peu qu’on leur fasse partager nos doutes et la relativité de nos hypothèses, en somme notre ignorance. Entre SHS et sciences exactes ou Sciences Pour l’Ingénieur ensuite alors que les grands chantiers intellectuels autour des phénomènes complexes réclament au contraire au moins leur association, sinon leur fusion. Enfin, entre savoirs théoriques et démarche expérimentale : l’administration de la preuve scientifique doit pouvoir se réaliser par l’ajustement d’arguments intellectuels mais aussi par le développement de dispositifs techniques, en SHS comme ailleurs. Sur ce dernier point les réticences sont encore nombreuses et il n’est pas rare de se voir reprocher de “ne pas faire de Science” par des responsables d’équipe ou de département de SHS au prétexte de développer des outils ou des méthodes de traitement de données numériques! Avouons-le, le chemin à parcourir est encore long et les signes adressés aux plus jeunes chercheurs ne sont ainsi guère encourageants.

Ces cloisonnements se retrouvent pour partie hors des murs de l’université, notamment dans l’organisation des programmes nationaux de recherche. Dans les appels d’offre de l’Agence Nationale de la Recherche, on cherchera en vain à placer le moindre de nos projets, éventuellement quelque-part entre le programme “Masse de Données et Connaissances” et “Corpus et outils de la recherche en sciences humaines et sociales” dans un espace intellectuel et technique qui n’est pas encore né. L’orientation des “programmes blancs”, ni non plus les perspectives dégagées par la “réflexion prospective – Sciences et sociétés”, ne laissent d’espace à un projet ambitieux autour de l’exploration de cette “matrice” numérique que nourrissent chaque jour des millions d’usagers. Hormis quelques (rares) projets autour d’approches fondamentales et auxquelles WebAtlas doit aussi beaucoup comme la question des modes de visualisation des données scientifiques ou des approches très logico-mathématiques en théorie des graphes, on s’en tient pour le reste à des questions de numérisation de fonds imprimés, à celle de la place de la “science” sur à l’heure du numérique ou, comme souvent, aux différents aspects de la question rebattue des “médiations” (culturelle, scientifique, politique, pédagogique…) sur les réseaux, présentée systématiquement comme “nécessaire”. Les traditions de discipline y impriment leurs frontières et l’apport des SHS ne peut y être envisagée autrement que sous l’angle de “l’histoire”, de “l’épistémologie”, des rapports entre “sciences et croyances” ou des “usages de la science et régulation”. Les Humanités, dépuis cette extériorité au fait technique, peuvent briller de leurs concepts mais fort peu de leur pouvoir expérimental, et donc démunies pour appréhender des données aussi formalisées techniquement que celles que nous traitons en web-mining.

Les Sciences de l’Information et de la Communication (les “SIC”) pourraient assurément s’emparer de façon claire de ces territoires numériques. Ou, du moins, réserver cet espace nécessaire à l’innovation scientifique et technologique, comme dans une sorte de pépinière ou de “bassin de décantation” où nul cloisonnement de traditions ne viendrait influer sur l’activité de recherche, mêlant ensemble de nombreux horizons scientifiques et expérimentaux. Deux conditions, au moins, doivent être réunies pour réussir le pari d’organiser un espace permanent de recherche autour du traitement théorique et technologique de dizaines de milliards de traces dont le web est peuplé, pour préparer ainsi d’autres bonds scientifiques plus audacieux vers les autres disciplines, en SHS mais aussi au delà. La première tient à la modification nécessaire d’une posture intellectuelle (largement partagée) qui consiste à situer la technique (et donc les ingénieurs entre autre) dans une sorte “d’extériorité”, vaguement associée au “pouvoir techno-politique” ou à “l’industrie libérale”. Il faut s’intéresser aux technologies numériques “de l’intérieur”, en les construisant, et non les considérer seulement comme des “dispositifs socio-techniques de médiation” que l’on observe depuis leur périphérie pour mesurer leurs effets sociétaux. Les mobiliser, autrement dit, pour leur pouvoir de transformation des hommes et des idées. En second, il faut assumer pleinement les fondements pluri ou inter-disciplinaires des sciences de l’information, quitte à laisser se dessiner des formes inédites et inclassables de pratiques scientifiques. A notre sens, il ne suffit pas de proclamer l’interou la pluri-discipline comme une chance, un “gage de diversité” ou la preuve “d’une science en mouvement”. Il faut aussi lui associer son terrain expérimental de prédilection que seule (en un premier temps) une discipline où se mêlent déjà théories, discours sur la technique et les réseaux, pratiques documentaires et informatiques pourra aborder. Au fond, il s’agirait là de construire collectivement une démarche globale d’exploration du web à partir de procédés communs, où les données pourraient être partagées à grande échelle pour dessiner, entre autre, géographie documentaire du réseau et ses communautés d’acteurs. Tant que l’on aura pas entrepris d’embrasser le web d’un seul regard, on ne pourra y voir que “fragmentation” et “dispersion”, en restant rivé à des politiques de préserver les niches de ce qui constituait l’infrastructure éditoriale de l’univers de l’imprimé (la “science sur le web”, la CSTI, les fonds patrimoniaux numérisés accessibles via le net, les bilbiothèques sur le web…).

___________________________________

3) Repères pour l’association

C’est dans ce contexte national que s’inscrivent les objectifs et les pratiques de WebAtlas. Notre association sedonne pour vocation, dès maintenant, de développer l’infrastructure technologique et les compétences humaines nécessaires à l’exploration de l’architecture documentaire du web à grande échelle. Localement, modestement et avec des moyens limités nous avons entamé plusieurs chantiers expérimentaux qui constituent autant de foyers discrets mais opérationnels d’innovation méthodologique et technologique. Avec nos partenaires, il s’agit aussi de mettre en pratique une certaine « philosophie de l’innovation » qui nous semble indispensable à la poursuite de notre objectif d’exploration de la géographie sociale et informationnelle du web.

A) de « l’innovation »

Pratiquer comme nous le faisons l’indiscipline scientifique, enseigner nos doutes et notre ignorance, exercer l’imagination à la construction de dispositifs que nous pensons inédits conduit nécessairement à pratiquer des formes « d’innovation ». En réalité nous ne savons pas ce qu’est « l’innovation » technologique ou méthodologique. Au regard de notre expérience, c’est seulement au moment où nos « trouvailles » se trouvent projetées dans des univers extérieurs ou ceux de nos partenaires que « l’innovation » se révèle, et souvent là où on ne l’attend pas. C’est peut-être cette part d’incertitude et d’imprévisibilité qui fait d’un dispositif, d’une méthode ou d’un concept une « innovation ». C’est pourquoi, dansWebAtlas, nous n’imposons aucun caractère à priori au processus de création et, sans hiérarchie, les projets « innovants » que nous accompagnons peuvent être tour à tour ou simultanément à dimension industrielle dans la conception de nouveaux services, citoyenne dans la création de système d’information à visée politique et sociale, scientifique (on l’aura compris dans ce document), voire esthétique tant nous ne désespérons pas de voir un jour notre approche figurer dans une exposition sur les réseaux distribués.

B) l’aventure humaine collective

Mais le processus d’innovation continu que nous essayons de construire dépend moins des « choses », des « objets », des méthodes, des contenus ou des dispositifs que du degré d’engagement des hommes qui les produisent. En d’autres mots, il est clair que pour nous les hommes que nous formons valent plus que les projets dans lesquels ils sont engagés. C’est pourquoi tout membre de WebAtlas est propriétaire du patrimoine intellectuel ou technologique de WebAtlas, non seulement pour le développer, mais aussi pour s’en emparer et le faire évoluer dans des directions que nous serions bien incapables de prévoir aujourd’hui.WebAtlas doit donc être considérée comme une plate-forme expérimentale ouverte dans laquelle on vise à pérenniser des pratiques et à accompagner des acteurs, malgré nos faibles moyens. A ce titre, on ne saurait trop insister sur notre opposition au « management » actuel des projets de recherche dans lesquels on organise à grande échelle, et sans perspective aucune, le « turn-over » de la main-d’oeuvre étudiante qui, à coup de thèse, de Master, de projets dans des enseignements, se voient au final sommés de participer à des objectifs dont ils ne seront presque jamais les porteurs, les propriétaires ou les acteurs. Si le capital de WebAtlas est d’abord humain, il ne peut y avoir dans notre association de différences entre « chercheur », « étudiant », « employé » ou « chômeur ». Le réseau d’innovateurs que nous voudrions voir advenir se construit donc d’abord par une série de projets modestes à petite échelle en pariant sur la jeunesse et la motivation, où les idées circulent et se fertilisent et qui donnent lieu à leur tour à de nouveaux projets qui engageront de nouveaux acteurs. Si l’innovation relève, paraît-il, des destins personnels et singuliers, WebAtlas voudrait pour une fois en faire une aventure collective et partagée. Cette dynamique vertueuse contraste évidemment avec le contexte actuel des stratégies de « concentration » pyramidale dans la recherche comme dans l’industrie où les jeunes diplômés (entre autre) se voient exiger une foule d’expériences avant d’exercer la moindre responsabilité. A une époque tournée vers la question de « l’emploi des seniors », vers la défense d’anciennes barrières disciplinaires où il s’agit de « sauver la recherche » ou vers de nouveaux cloisonnements dans la réforme annoncée des universités et de leur autonomie (donc moins enclines à la circulation ouverte des savoirs innovants pour les figer dans le marbre des brevets), WebAtlas voudrait au contraire assumer l’orientation collective de son activité en pariant d’abord sur la jeunesse et l’imagination comme seuls gages réels de réussite et comme levier manifeste de transformation des hommes et des idées.

C) l’adossement au territoire

Ce processus d’innovation continu et croisé ne peut évidemment se réaliser sans un lieu géographique et un milieu d’acteurs sans lesquel il n’est pas d’histoire de leurs interactions. L’adossement au territoire et à ses réalité est une nécessité. La région Ile de France représente le territoire « naturel » d’un projet comme WebAtlas, pour la concentration des acteurs dans le domaine des SHS et des systèmes d’information mais aussi pour son pôle de compétitivité CapDigital ou son tissu riche d’organisations de la société civile. Cet enracinement constitue la base opérationnelle du système d’interaction que l’association voudrait développer entre différents acteurs, aussi bien scientifiques qu’industriels ou citoyens. Là encore, il ne s’agit pas seulement d’affirmer la fameuse « fertilisation croisée » des démarches ou des idées mais de la réaliser effectivement, notamment par le développement de toute une série de dispositifs auxquels collaborent déjà, selon leurs accointances, aussi bien des scientifiques, des industriels, des organisations citoyennes et des institutions d’Etat. On mêle indifféremment sur ces plates-formes communes logiciels libres et propriétaires, ingénieurs et chercheurs, partenariats de RetD par agrégations géographiques successives en Ile-de-France. L’un des objectifs majeurs de WebAtlas est clairement d’irriguer le paysage francilien de projets locaux et modestes dans un processus « d’innovation ascendante » (celle des citoyens de ce pays engagés à la construction de leur nation) en rapport, par exemple, avec les objectifs de la Région et de ses pôles de compétitivité. Il faut espérer que notre approche se développe ailleurs, et pour d’autres domaines que le web, mais nous parions que la construction de ce contexte favorable pourra inciter d’autres acteurs à nous rejoindre. Disons, pour tout dire, qu’il s’agit là de cultiver un certain penchant pour le “non-délocalisable” en développant des compétences locales et en construisant un contexte riche de la diversité et de la qualité des interactions qu’il promeut entre ses éléments (ce qui en fait un centre de gravité inamovible). N’est-ce pas là, après tout, l’une des leçons de la théorie des graphes où la “robustesse” d’un système complexe s’éprouve autant par le nombre des composants que par la richesse de leurs interactions?

D) Trois critères de validation des projets associés à WebAtlas

Au terme de cet exposé, il reste à préciser la philosophie qui guide notre façon d’évaluer les projets dans lesquels nous nous engageons ou que nous pourrions accompagner, y compris financièrement, le jour où nous aurons éventuellement les moyens de diffuser notre propre appel d’offre. Sur ce point, il nous semble important de rappeler que nous tenons à un triple mode d’évaluation des projets sur lesquels sont engagés des fonds publics d’Etat (Ministère, région, équipes…), des fonds privés industriels et des fonds (ou plutôt des moyens) issus d’autres associations : validation par leraisonnement argumentatif ou spéculatif (ce qui est reconnaître la valeur de la production de la recherche fondamentale et de la production de connaissances théoriques) validation par le faire (le fait que « ça marche » constitue bien pour nous une preuve de la pertinence d’une démarche, et sur le même plan que les savoirs théoriques), validation, enfin, par le « viable » économiquement et/ou l’utile sociétalement. Ce dernier point mérite d’être souligné en termes d’attendu d’un projet de recherche dont on ne peut plus réduire sa “valorisation” au fameux site web associé, quelques publications et un ou deux colloques dans une rubrique “dissémination scientifique” qui n’en a souvent que le nom. Par exemple, en quoi des citoyens, des organisations de la société civile, des industriels ou des institutions ont-ils été mobilisés dans le développement du projet? A l’occasion d’un projet, qu’est-ce qui réellement a été initié, développé, pérennisé et sous quelle forme? Il ne s’agit pas là de professer “l’utilitarisme” mais les idées comme les dispositifs se partagent aussi dans un contexte sociétal où la recherche ne peut plus se cantonner à la reproduction endogamique de ses traditions.

En substance, voilà le programme de travail qui nous attend et il concerne, on l’aura compris, autant l’exploration du web que la recomposition du paysage scientifique français.

Franck GHITALLA, Président de WebAtlas,

novembre 2007.

Posted in In French, What we think | Comments Off

Programme de l’association

(posté initiallement en 2009)

WebAtlas est un projet de recherche et d’expérimentations technologiques dont le web est à la fois le terrain et l’horizon.

Le web comme terrain ou lieu d’observation (des usages), de mise à l’épreuve (technologique), d’expériences (phénoménales ou ludiques) dont le développement ces dix dernières fait apercevoir combien il ne se résume pas à la question d’un « système d’information » (fut-il « universel ») mais inclut de fait de nombreuses facettes de notre expérience sociale, de notre vie économique et politique, de notre construction psychologique ou de nos émotions esthétiques. Dans le champ des savoirs, quelle discipline échappe encore à ce prisme anthropologique du « réseau » qui interdit, renouvèle ou reconduit les problématiques « anciennes », convoquant de façon impérieuse une majorité de chercheurs ? Les modalités de l’interaction sociale, les « chaînes de valeur », la sémiotique des supports de connaissance en réseau, l’ergonomie des outils de navigation, les bibliothèques électroniques dédiées à l’archéologie comme au séquencement du génome… C’est dans ces démarches problématiques que voudrait se loger WebAtlas pour accompagner la mise en place de ces terrains d’investigation du web, méthodologiquement et techniquement donner corps aux outils et aux méthodes qui leur seront associés.

Mais chacun de ces chantiers représente aussi une occasion singulière de sonder le web comme objet et de la constituer, pour lui-même, comme horizon de WebAtlas. Les principes qui le régissent comme architecture documentaire représentent encore aujourd’hui un défi pour la connaissance scientifique : à quelle forme ou à quelle organisation obéit-elle ? Quelles sont ses lois, locales ou générales, permanentes ou temporaires ? Quels sont sa vitesse et ses scénarios d’évolution ? comment s’y répartissent les « flux informationnels » ? Combien de « documents » y sont abrités ? Est-il réglé par des « échelles de dynamicité », du « site statique » au « blog actif » ? Quels types de corrélation, s’ils existent, entre « contenu » des documents et distribution des liens hypertextes peut-on imaginer ? Autant de questions stratégiques pour les chercheurs, les ingénieurs, les industriels, les experts en marketing ou les pouvoirs politiques mais aussi, à vrai dire, des questions curieuses pour un artefact issu de l’univers à-priori le plus contrôlable, celui de l’ingénierie numérique du discret et du stockable. En deçà d’une possible « raison du réseau », sa simple description comme systèmereprésente une gageure. En termes de réflexion, de méthodes et de construction d’outils, WebAtlas voudrait participer à ce travail minutieux de sondage du réseau, en arpentant sa structure et en cartographiant son information.

Voilà l’objectif : concevoir les hypothèses, inventer les méthodes mais aussi former les hommes à de nouveaux outils exploratoires pour agir dans un espace dont on aura réussi, peut être, à révéler une partie des propriétés.

WebAtlas ne s’inscrit pas dans un héritage disciplinaire unique : il s’agit d’abord d’un projet « d’ingénierie heuristique » ou d’une ingénierie de la découverte qui interroge les formes d’une architecture documentaire distribuée et ouverte, en mouvement constant. La mobilisation de plusieurs éléments théoriques ou techniques sera nécessaire pour conduire l’exploration du web : les formalismes logiques et informatiques, les données statistiques, les méthodes de text et de data mining, des architectures de stockage et de traitement de l’information ou même l’observation des usages. Mais c’est la production de « formes » ou de « modèles » du web, tout à la fois intellectuels et graphiques, qui constitue l’objectif premier de WebAtlas. S’il n’existe pas encore aujourd’hui de critères d’évaluation pour ce type technique et scientifique d’objets, on peut souhaiter qu’ils seront stimulants du point de vue sémiotique et cognitif, appropriables et diffusables largement, implémentables technologiquement. WebAtlas repose donc en grande partie sur le pari des patterns graphiques comme puissants instruments de synthèse et de manipulation de « grandes masses de données », dans un foisonnement ouvert pour le chercheur mais dont il faudra baliser l’usage et assurer les conventions pour les acteurs auprès de qui certains modèles « cartographiques » pourront être transférés.

WebAtlas sera donc placé sous le signe du bricolage inventif et de l’ingénierie expérimentale. Le projet pourra s’inspirer, selon les occasions, de domaines comme l’analyse des réseaux d’acteurs, la sémiotique des supports, les interfaces Homme-Machines ou les solutions de traitement de Grandes Masses de Données. Mais il serait vain de lui assigner une place dans une discipline reconnue de la recherche française, qu’il s’agisse des “Sciences de l’Information” ou de “l’Informatique”, ou dans l’un des “programmes thématiques” de l’Agence Nationale pour la Recherche. WebAtlas repose scientifiquement et techniquement sur la fusion de problématiques comme celle, d’un côté, des “grandes masses de données dynamiques et distribuées” et, de l’autre, de “la constitution des corpus en SHS et de leurs cadres interprétatifs”. L’investigation de la structure documentaire du web suppose l’émergence d’une démarche heuristique où s’emboîtent naturellement sciences humaines et sciences “dures”, mais aussi “science” et “ingénierie”. S’inscrire dans ce type de segmentation ce serait reconduire un cadre dont il faut au contraire s’affranchir pour construire, ici et maintenant, une partie de ce domaine des computer sciences qui aura permis à nos collègues nord-américains de conduire il y a plus de vingts ans la « révolution de l’information », technologiquement mais aussi intellectuellement.

Pour qualifier WebAtlas, on pourrait le ranger rapidement dans cette rubrique commode des “projets d’ingénierie de la connaissance”, comme en périphérie des programmes thématiques et disciplinaires de notre recherche nationale. Il est vrai que ce projet voudrait s’inscrire, modestement, dans l’histoire moderne des systèmes d’information, ceux dont on rêvés Vannevar Bush ou Ted Nelson, ceux qu’ont réalisés Tim Berners-Lee ou S. Brin et L. Page . Mais ce serait encore réducteur, et laisser sous-entendre que les projets « d’ingénierie de la connaissance » n’ont pas débouché, d’eux-mêmes, sur la production d’authentiques modèles conceptuels et scientifiques.

Si WebAtlas ne s’inscrit pas dans (l’ancienne) façon de distribuer les savoirs, sa place, pourtant, nous semble claire et déterminée d’avance, nourrie notamment de trois récentes contributions scientifiques majeures : celle de J. Kleinberg pour ses aperceptions sur la structure réelle du web en « agrégats » (algorithme HITS, 1997) et les procédures d’analyse qu’il propose des phénomènes dynamiques (les fameux « bursty phenomenons », 2002), S. Chakrabarti pour l’ingéniosité de sa démarche dans Mining the Web (notamment sur les focus crawler, 2003) et, enfin, A.-L. Barabasi dansLinked (2003) qui fait apercevoir combien la question (locale) de l’architecture du web n’est qu’une façon de poser celle, plus générale, des systèmes complexes, de la biologie à la physique en passant par l’épidémiologie ou la sociologie. Plus près de nous, en France, le « modèle gravitationnel du web » > (Fabien Montgolfier), les travaux sur l’analyse des grands graphes (M. Latapy), les projets de recherche comme PERSI ou AUTOGRAPH mais aussi les aventures industrielles remarquables comme Exalead (moteur de recherche français, leader européen de son domaine) ou la toute récente entreprise R.T.G.I. (rtgi.fr) et ses outils de cartographie de l’information comme la « Blogopole » s’inscrivent indéniablement dans l’horizon de WebAtlas comme repères naturels.

Les clefs conceptuelles et techniques du web ne nous ont pas été livrées d’emblée, comme si l’histoire nous léguait un réseau co-construit de façon universelle, « transparent » et désincarné, accueillant des informations circulant librement. On ne peut pas non plus se résoudre à le symboliser systématiquement sous la forme graphique du fameux « nuage » qui résume notre incapacité à le modéliser et qui peuple la plupart des articles scientifiques sur le sujet. De là, on comprend pourquoi WebAtlas trouve son origine dans une série de campagnes expérimentales sur l’architecture documentaire du web au cours desquelles, durant trois années, nous avons cartographié des milliers de pages et des sites liés à l’Eglise de Scientologieau mouvement « aller-mondialisation », à la Culture Scientifique et Technique (CSTI) ou les blogs des mouvements politiques français. Ces domaines, quelle que soit leur diversité de contenu, se sont révélés comme de véritablesterritoires où l’on pouvait vérifier le degré élevé de corrélation entresimilitude de contenus des pages web, proximité hypertextuelle en termes de « clics » et horizon social commun des acteurs. Il apparaît alors clairement le principe d’un Atlas du Web qui ne s’arrêterait pas aux résultats des moteurs de recherche, bien au contraire : aux mots rangés sous forme de liste, on doit pouvoir adjoindre une vision synthétique du vaste système de couches distinctes qui constituent le web, organisées en « localités » thématiques et hypertextuelles que nous appelons « agrégats ». Autrement dit une géographie de l’information basée sur des mots, des liens et des acteurs.

WebAtlas entend donc ouvrir la voie à l‘exploration et au relevé cartographique de cette granularité sociale et communautaire du réseau. L’émergence d’un possible « web 2.0 », le « peer to peer » ou l’avènement du « logiciel libre » constituent aujourd’hui un contexte favorable à un projet comme WebAtlas, mais c’est surtout le passage graduel ces dernières du data mining au web mining puis maintenant au social data mining dans lescomputer sciences qui nous semble constituer une orientation scientifique majeure. Là, au cœur des publications sur les Systèmes d’Information Web (W.I.S.), résident les trois pierres angulaires de notre démarche : l’hypothèse d’un web nourri de topical localities (les « localités thématiques » définies par une forte corrélation entre contenu des documents et proximité hypertexte, dessinant comme un territoire), l’étude des folksonomies (la façon dont les mots comme les concepts ou les domaines thématiques varient suivant le lieu social du réseau) et le caractère dynamique temporellement des phénomènes observés (scénarios d’évolution et modèles propagatoires de l’information tels que les définit Kleinberg en 2002 avec l’expression « bursty phenomenon »). De ces trois domaines d’investigation scientifiques, il faut oser l’hypothèse du web occupé comme un territoire, nourri de différents espaces, où se distribuent des acteurs, évoluant à différents niveaux selon les effets de résonance d’événements informationnels. En d’autres mots, c’est peut être avant tout vers les Sciences Humaines et Sociales qu’il faut se tourer pour saisir cette « raison du réseau » qui nous échappe.

WebAtlas trouve ainsi naturellement sa place dans une Maison des Sciences de l’Homme , là où les SHS ont depuis longtemps capitalisé les savoirs et les méthodes à priori mobilisables pour conduire diverses formes d’expérimentations sur la dimension anthropologique du web. Pourtant, dans ce projet d’investigation de la géographie documentaire du réseau, il ne s’agit pas de convoquer les SHS pour mesurer depuis la périphérie les « effets produits » par la technologie réseau (l’observation des usages, les modèles d’acteur, l’ergonomie des interfaces, les conséquences sociétales, juridiques, économiques ou culturelles…) mais pour leur capacité à produire des modèles de temps, d’espaces, de territoires, d’interactions, de valeurs, ou d’organisation politique qui figureront au cœur des projets de développement technologique. Autrement dit, des concepts implémentables .

L’idée qui réside au coeur du projet consiste donc à sonder les propriétés du web en le transformant explicitement, pour en éprouver, en quelques sortes, la plasticité. Si nous avons raison de parier sur la dimension sociale du réseau, on peut alors espérer que notre démarche et nos outils trouveront naturellement un écho sur le réseau, comme par effet de résonance. La stratégie adoptée consiste d’abord à accompagner des démarches et des projets d’innovation sociale et/ou scientifique sur le web, une sorte « d’ingénierie réseau pour les SHS » dont chaque déploiement sera l’occasion de recueillir des données expérimentales sur l’architecture du web (en observant la façon dont nous le modifions). Ensuite, les systèmes d’information web développés devront rendre compte de leur caractère manifestement contextualisé pour un réseau d’acteurs, localisé à l’échelle du web, situé dans ce vaste système e-cologique : moteurs de recherche communautaires, bibliothèques électroniques personnelles ou collectives, outils d’aide à la navigation cartographique, mapping de l’information et des réseaux d’acteurs qui la produisent et la diffusent, sans oublier l’effort qu’il faudra porter sur l’étude et la modélisation des différentes dimensions temporelles des flux informationnels. En rendant ainsi visible et manifeste aux usagers l’architecture documentaire avec laquelle ils travaillent (via notamment le principe puissant des cartographies d’informations), on peut espérer voire émerger, petit à petit, de véritables stratégies d’occupation des territoires numériques, la construction délibérée de positionnements sur un horizon constitué de « voisinages » et de complémentarités, de politiques d’ouverture ou, au contraire, de concentration sur le réseau. Autrement dit, les « systèmes WebAtlas » ne seront pas seulement dédiés à la gestion de l’information sur le réseau (extraction, stockage, indexation, traitement, classement…) mais aussi à l’exploitation de sa dimension anthropologique, comme dans le principe des « centres de calcul » imaginé par Bruno Latour : chaînes de transformation, modèles propagatoires des flux et instruments de traçabilité, mémoires collectives (mais jamais universelles) construites par convention ou consensus, relativité des connaissances capitalisées, recensement des acteurs contributeurs, modèles politiques d’organisation et jusqu’à la manipulation des données inscrites dans les systèmes. Contribuer, en un mot, à peupler le web de ces Harbors imaginés par Thomas Drugeon où chacun, individuellement comme collectivement, pourra nourrir le web comme une forme authentique de mémoire.

Et, un jour, pouvoir les rassembler dans un Atlas.

Franck Ghitalla, Mathieu Jacomy

Posted in In French, What we do | Leave a comment

Google, France Télécom et Suicides

Au fil de mes recherches je suis tombé sur une courbe qui m’a fait froid dans le dos. No comment.

For english readers:

  • To kill oneself
  • How to kill oneself
  • Suicides, France Telecom

There was a wave of suicides at France Telecom / Orange in 2009.

Posted in In French | 1 Comment

Sociology / Sociologie

The comparison between en.wikipedia.org and fr.wikipedia.org sometimes reveals interesting things. Today, I was surprised by the first image here compared to there.

Posted in What we think | 1 Comment

What we do…

Our dear President Franck Ghitalla has listed the websites of our members as well as projects and tools we are involved in (individually or collectively). To launch this Links Section, I comment here how we are involved in, or connected to, each of these entities and projects.

Members and Partners

  • Linkfluence is a startup created by three founder members of WebAtlas (Alain Le Berre, Guilhem Fouetillou and Camille Maussang), not to mention its skilled designer Antonin Rohmer. With its innovative tools, methods and concepts, linkfluence allows its clients to divide, analyze and map the social web community by community. Linkfluence is a long-time and faithful research partner of WebAtlas, and its involvement in social sciences as a startup is incomparable.
  • Sciences Po | médialab is a technological infrastructure created at the cutting edge by Sciences Po in order to place social sciences within the new numerical practices, to exchange and to test. The médialab is a reliable and helpful partner of WebAtlas since its creation, and is currently hosting Mathieu Jacomy and Anne l’Hôte.
  • The Gephi Consortium is a legal entity created to ensure future developments of Gephi by collecting funds and in-kind contributions. We all support this network, brilliantly animated by Sébastien Heymann with the help of Gephi‘s head developer Mathieu Bastian.
  • The Cartographer’s Workshop (l’Atelier de Cartographie) is simply Franck Ghitalla‘s hideout. Take a tour in this short but dense website!
  • TIC Migrations, ”the Program for the Study of the Use of Information and Communication Technologies [ICTs] in Migrations”, directed by Dana Diminescu, is a research program exploring the impact of new technologies on the world of migrants. TIC Migrations is our first research partner, and has incubated many of our projects (including Gephi). Matthieu Renault, Mathieu Jacomy and Mehdi Bourgeois keep developing its emblematic project e-Diasporas Atlas.

Projects and Mapping Systems

  • LinkedIn Maps is the ground-breaking initiative of LinkedIn Labs, Mathieu Bastian‘s new playground.
  • Exalead Constellation is Hugo Zanghi‘s remake of the Exalead search engine, but cartographic.
  • Linkfluence’s Atlas shows the various emblematic projects of this startup since 2005.
  • The CPAN Explorer is the live cartography of CPAN, the main Perl repository. Thanks Julian Bilcke and the tireless Frank Cuny.
  • The Diseasome is an amazing map (and more) credited as a collective work of WebAtlas and Linkfluence.

Tools

  • Gephi is the famous graphviz software created by Mathieu Jacomy and developed (so greatly) by Mathieu Bastian, with the help of Sebastien Heymann, and now featuring a healthy community of free and skilled developers. Now bigger than WebAtlas.
  • Of Nodes And Edges is Alexis Jacomy‘s blog, where you’ll find his works on graphviz: Flash plugins (like Sigma) to visualize Gephi’s graphs online!
Posted in In English, What we do | Leave a comment

WebAtlas Logo

If you are here because you need the logo of WebAtlas, congratulations !

13 x 16

26 x 32

Continue reading

Posted in In English, In French, The life of WebAtlas | Tagged , | Leave a comment

Editorial guidelines: The way we post !

We want to reach several goals with this website, and one of them is to provide you regular informations about what we think, what we do and what we like. But three problems tend to stop us from doing so:

  1. We are shy, and it’s hard to speak “in the name of” WebAtlas
  2. We have problem with communicating in english (at various levels)
  3. We do not have the time (ouch, what a bad excuse…)

That’s why I’m exposing here three guidelines, that I expect are good answers to these problems. These are just guidelines, people may or may not follow them…

Guideline #1 – We will post short messages

We will post long discussions to expose our philosophy or hold strong positions. But we will also post many short messages, just to keep you in touch or express our feeling about something. Writing often, means writing quickly.

Guideline #2 – We’ll write in English but also in French… or in Frenglish

We want to talk to our non-french-speaking friends. We want foreign people know what we do and communicate with us. But we will sometimes write in French, in mixed language or in an ugly “globish” to give short and/or local news. We will also republish documents that we wrote in French (like slides or reviews…).

Guideline #3 – We will post serious stuff, but also fun stuff.

Writing often, means writing quickly. And writing quickly means communicating your mood and inspiration of the moment, and not writing a scientific paper. That’s why I will encourage any post, even if possibly superficial !

Posted in In English, Uncategorized | Tagged | Leave a comment

Hello world of NetSci!

Hello, world of Network Sciences!

We are WebAtlas and our website is born again! And in English this time. We’ll inform you about our different activities and we’ll also explain our way to deal with graphs, networks and complexity in general.

I apologize for the long time It took to bring you this new website. This is literally the first post since the rest of the website is totally empty. I’m planning to build it little by little: you may syndicate to keep in touch.

Posted in The life of WebAtlas | 2 Comments