Navicrawler

UPDATE: There now a portable version of Firefox with Navicrawler included:

More information on these:

  • These folders are zipped. Unzip and run “Firefox Portable”. You might have some obvious messages, and after that you have a fully functionnal Firefox 3.6 with Navicrawler installed.
  • These are portable apps, it means that they do not interfere with other versions of Firefox that you might have. They do not install, you have to run them from their folder.
  • Two other extensions are also installed: Flem and Greasemonkey. You an remove them if you want…

Regular versions:

You can download the Navicrawler 1.7 or the Navicrawler 1.8b (now hosted directly on WebAtlas.fr).

The Navicrawler is no longer supported. But it is actually a good news! I am currently working to the future of the Navicrawler, even if it will probably get a new name. This project is codenamed “Hyper Corpus Initiative” and supported by the Sciences Po Medialab. Firefox is changing faster and the documentation is still incomplete. Keeping the Navicrawler “alive” needs more and more time while I have no more. Because my priority is now to prepare the “next gen” Navicrawler, I officially stop to fix bugs and incompatibilities. Of course, if someone wants to do it, I can provide help ;) !

In this “next generation Navicrawler” you will be able to dynamically change the boundaries of every website, to have graphs with pages and websites at the same time, and to declare aliases (the same website with different domain names). The memory structure will be separated from the interface, so that you can host your data on your computer or on a server, and you’ll be able to edit the corpus from an extension (like the current Navicrawler), from a web page or from a rich client (a dedicated software). The connexion with Gephi will be more efficient, the data will be searchable, the performance will be better and there will be a real crawler. We wrote most of the specifications, we have proofs-of-concepts for the memory structure, the user interface and the crawler. We plan to release a public prototype before the end of 2012.

Until then, the most reliable way to use the Navicrawler is probably to install Firefox 3.6 and the Navicrawler 1.7 (you might be able to install both versions of Firefox, the old one for the Navicrawler and the last one for you). I’m sorry for the patience I ask you!

Documentation (in French):

The version 1.8 (and above) use a toolbar button to launch the sidebar. You have to add this button to your toolbar. Here is how to do it:

  1. Right-click on the “Home” button in the menu
  2. Choose “customize” (“Personnaliser” in French)
  3. In the end of the list, there is a “Navicrawler” icon. Drag and drop it to your menubar.

44 Responses to Navicrawler

  1. Bonjour,
    Je suis ravi de voir la nouvelle version du Navicrawler.
    Je souhaiterais savoir s’il y a des formations prévues bientôt pour l’utilisation des heuristiques. Il semblerait qu’il faut réadapter le schéma pour son usage sur Youtube. J’aimerais apprendre à extraire les métadonnées des profils utilisateur sur un corpus thématique dans youtube. Est-ce possible?

    Bien cordialement,

    Juan Paulhiac

    • Mathieu.Jacomy says:

      Bonjour,

      Les heuristiques sont rarement utilisées et comme elles se périssent vite, il faut spécifiquement les remettre en route à chaque fois. Sachez qu’il existe des outils similaires où il est plus facile d’écrire une heuristique (WebHarvest par exemple). Si néanmoins vous avez l’usage des heuristiques spécifiquement dans le Navicrawler, on peut prendre rdv pour voir ça ensemble. Pour me joindre: mathieu.jacomy chez gmail.

      Bien à vous

      Mathieu Jacomy

    • badinter says:

      en l’absence d’extensions chez Mozilla la réponse réside dans une vieille version de Firefox http://ftp.mozilla.org/pub/mozilla.org/mozilla.org/firefox/releases/3.5rc3/
      et
      la version 1.73 de navicrawler http://196.32.210.50/addons/200263/

      en attendant les mises à jour, encore merci à Mathieu Jacomy

  2. Thibault says:

    Bonjour !

    Juste une petite question : une version du Navicrawler compatible avec Firefox 5 est-elle prévue ? Merci !

    Thibault

    • Mathieu.Jacomy says:

      Je me suis fait prendre de vitesse. Je vais checker le fonctionnement global et si ça se trouve ce sera facile, mais ça va quand même prendre un peu de temps.

    • Mathieu.Jacomy says:

      Le Navicrawler marche maintenant avec Firefox 5. Vous pouvez télécharger la version 1.8 sur la page des versions sur le site des addons en attendant qu’il soit vérifié pour un update automatique. Petit changement: il aut maintenant ajouter le bouton à la toolbar.

  3. Thibault says:

    Bon même si c’est pas pour tout de suite, content d’apprendre que c’est prévu !
    Bon courage et merci pour le travail :)

  4. Chloé says:

    Je serais également très intéressée par une version de Navicrawler compatible avec Firefox 5 . . .
    Quand pensez-vous que cela puisse être possible? Ce logiciel pourrait vraiment beaucoup me servir!
    Merci d’avance et Bravo pour le boulot!

  5. Jean says:

    Également intéressé par cette version pour Firefox 5.
    Ainsi qu’une version de Flex pour FireFox 5
    Merci d’avance

  6. lomig says:

    Bonjour,

    bien évidemment, je suis également intéressé par un navicrawler pour Firefox 5 !
    Je voudrais également ajouter quelques commentaires d’usager :

    1- les liens hypertextes ne sont pas reconnus par Navicrawler lorsqu’ils sont présents dans un cadre de la page, il faut alors manuellement ouvrir ce cadre dans un autre onglet pour récupérer les URL, cela alourdi la navigation manuelle et diminue l’intérêt de l’auto-navigation qui passe à coté de pas mal de liens. serait il possible de faire la peau à ces fichus cadres ?
    2- serait il possible d’introduire une gestion des sites alias ? il y a en effet de plus en plus de sites désignés par plusieurs URL (par ex avec ou sans http://www., ou encore des changements de nom) ce qui tend à bruiter le graphe résultant du crawling. un outil de gestion des alias voire d’identification de ces alias serait me semble t’il bienvenu même si une réflexion ontologique doit être menée sur ce que l’on cherche à représenter : en tant que sociologue ce qui m’intéresse ce sont les acteurs derrière les sites, je n’ai donc pas trop de problème à regrouper les sites d’un même acteur, mais la situation peut être bien différente dans d’autres contextes d’usage !

    Voilà donc quelques suggestions qui doivent certainement déjà être dans votre cahier des charges bien…. chargé ;) bon courage pour le maintien de ce bel outil !

    • Mathieu.Jacomy says:

      Le Navicrawler marche maintenant avec Firefox 5. Vous pouvez télécharger la version 1.8 sur la page des versions sur le site des addons en attendant qu’il soit vérifié pour un update automatique.

      Nous travaillons en ce moment, au médialab de Sciences Po, à une refonte complète du système. C’est à cette occasion que nous implémenterons le type d’amélioration que vous évoquez, mais ce n’est pas encore pour cette année. Un prototype public sera publié l’année prochaine.

      Bien à vous

  7. joseph says:

    Bonjour, je suis aussi impatient que Lomig… je recherche ce type de programme depuis longtemps.
    J’ai donc installé Mozilla4 à la place du 5.
    J’ai ensuite téléchargé NaviCrawler et il s’est installé automatiquement. Par contre je n’arrive pas à trouver le moyen de la lancer…:/

    • joseph says:

      J’ai essayé sur deux postes différents, mis à contribution un informaticien. Il semble y avoir un conflit (bugg?)=> Après installation Navicrawler n’apparaît pas dans le sous menu des barres latérales (interface Mozilla).
      Dois-je installer Mozilla Firefox 2? J’ai actuellement testé avec les versions 4.0 et 4.0.1

  8. Mathieu.Jacomy says:

    Chers tous,

    Le Navicrawler marche maintenant avec Firefox 5. Vous pouvez télécharger la version 1.8 sur la page des versions sur le site des addons en attendant qu’il soit vérifié pour un update automatique.

    /!\ IMPORTANT /!\
    Vous devrez probablement ajouter le bouton de lancement du Navicrawler dans la barre de menu:
    - Clic-droit sur le bouton “Home” (ou ailleurs dans la barre d’outils de Firefox)
    - Choisissez “personnaliser” en bas
    - Dans la fenêtre qui s’ouvre, en bas de la liste, il y a une icône “Navicrawler”. Glissez-la dans votre barre de menu.

  9. joseph says:

    Merci, l’installation a fonctionné sur Firefox5. J’ai pu ouvrir le panneau de navicrawler par le menu des barres latérales.
    Pas contre le voyant d’activité de Navicrawler et le bouton de mise en marche n’apparaissent pas en bas à droite de la fenêtre d’explorer.
    J’ai simplement dans la barre latérale le logo de navicrawler et ce texte:
    “WebAtlas Navicrawler
    Load a page to Start!”
    Je ne peux donc pas mettre en marche le plugg-in.

  10. joseph says:

    Re…, j’ai fini par réussir à le mettre en marche :)
    Par contre je ne saurai pas comment vous l’expliquer: Suite au drag&drop du bouton de démarrage depuis la fenetre “customize” jusqu’à l’explorer. Le contenu de la barre latérale ne change pas ( voir mon message précédent.) Ensuite, il faut effectuer plusieurs fois des clicks simples et doubles clicks sur le bouton pour qu’il apparaisse en vert. Puis il faut penser à rafraichir la side-bar (on s’imagine que le crawler n’est pas marche): pour cela changer de fenetre d’explorer et revenir, le contenu de la Side-Bar finira par s’afficher. En fait on croit que le crawler n’est pas lancé alors qu’il est bien en marche mais l’affichage semble buggué.

    J’ai recherché partout des tutoriels: c’est à dire un document sana explication généraliste qui prend un exemple simple à suivre et écrit “cliquez ici, click droit là, choisir option X dans sous menu Y etc”
    Je n’ai trouvé que des manuels complets sur les méthodologies, l’architecture d’internet. Les explications concernant navicrawler sont rédigées et noyées dans ce flot d’informations non prioritaires, ce qui ne permet pas de retrouver dans cette masse de pages les manipulations exactes et manipulations à effectuer sur l’interface. Ou même deviner les correspondantes dans l’interface des termes de language utilisés pour la rédaction est impossible.

    Internet permet désormais de comuniquer plus efficacement avec des images claires plutôt qu’avec des textes. Des impressions d’écran avec flèches et annotations sont plus efficaces que de longues rédactions surtout lorsqu’elles n’utilisent pas le vocabulaire contenu dans l’interface. Ce qui rend la compréhension difficile, et l’essayage du logiciel quasi impossible. Je n’ai peut être pas bien cherché, avez vous un lien direct vers un tutoriel simple SVP?

    • joseph says:

      Suite… je suis toujours bloqué au lancement du programme. J’ai testé sur deux ordinateurs différents. Y a-t-il un conflit avec les “firewalls”, n’aurai-je pas trouvé d’explication qui décrit comment effectuer des manipulations de base? je me suis référé aux docs PDF. Manque-t-il les explications pour lancer un crawl simple, puis l’enregistrer à partir d’un site et deux ou trois liens associés? Oubien le problème vient-il d’ailleurs?
      En suivant les opérations décrites dans le PDF, les paramètres dans le panneau latéral du crawler restent désespérément inactifs.
      Manque-t-il des étapes basiques dans le tutoriel PDF, oubien s’agit-il d’un bugg?

      • Franck says:

        Salut,

        J’essaie d’utiliser Navicrawler en vain. Je crois que j’ai le même problème que tu as rencontré l’année passée :
        le voyant d’activité de Navicrawler et le bouton de mise en marche n’apparaissent pas en bas à droite de la fenêtre d’explorer!
        J’arrive désormais sur l’interface mais rien ne fonctionne!
        Comment puis-je réparer ça?
        Merci d’avance

        • Mathieu.Jacomy says:

          Etes-vous sûr d’utiliser la version “Firefox 3.6 Portable + Navicrawler” ?
          Car normalement il ne devrait pas y avoir le moindre problème de cet ordre…

          • Franc; says:

            Effectivement, j’avais la mauvaise version de Firefox. Donc, merci beaucoup.
            Mais maintenant, je n’arrive pas à retrouver l’icône Navicrawler. Il n’apparaît pas dans la palette de personnalisation de la boîte à outils.

            Du coup, le lancement est moins facile.
            Ou puis-je le trouver?

          • Mathieu.Jacomy says:

            Tout-à-fait. Sur cette version en quelque sorte antérieure, l’icône est en permanence en bas à droite ! Ce n’est pas exactement la même mais vous ne pouvez pas la rater.

  11. Thibault says:

    Excellent boulot, encore une fois !

    Merci !

  12. Lahmeri says:

    Bonjour,
    Je ne trouve pas navicrawler dans les addons firefox…

  13. vinblog says:

    Bonjour
    Le lien vers Firefox addons ne marche pas :-( .
    “Nous sommes désolés, mais nous ne pouvons pas trouver ce que vous cherchez.”
    J’aurais bien aimé tester

  14. Malheureusement plus aucune source n’est trouvable sur Mozilla, seul le cache de Google permet de retrouver l’ancienne page de téléchargement…

    Navicrawler est-il en préparation pour FF6 ?

    Bonne continuation et merci pour vos travaux !

  15. Karl M. says:

    Bonjour,
    merci pour votre fantastique travail.
    Par contre, je ne peux pas télécharger Navicrawler depuis la page des extensions Firefox. Pouvez vous m’aider ?

    Merci

  16. Thibault says:

    Argh effectivement, bien que j’ai la chance de l’avoir téléchargé suffisamment tôt, il semblerait que le NaviCrawler ne soit plus fonctionnel…
    Il ne veut tout simplement pas enregistrer ma navigation, la table “IN” reste désespérement vide…

  17. Benoit says:

    je n’ai pas pu récupéré la dernière version du crawler.

    Pensez vous la remettre en ligne bientôt ? Ou si quelqu’un possède la version 1.8 j’aimerai bien la récupéré.

    En tout cas très beau travail.

  18. Pingback: Introdução ao Gephi | Bibliotecários Sem Fronteiras - Biblioteconomia Pop

  19. Jayanthi A. Pushkaran says:

    I am looking forward to the future version of Navicrawler. It stopped working as soon as I updated my Firefox. I can no longer use it. hoping to see the new version soon.

    • Mathieu.Jacomy says:

      The idea is to keep an updated version of Firefox for yourself (with a regular install) and a portable one with Navicrawler on it (downloaded on this page). Of course, the portable one should not be updated…

  20. Pingback: Post-Fukushima Radiation Debate: Mapping The online Issue-Network - Cartonomics: Space, Web and Society » Cartonomics: Space, Web and Society

  21. Anders Munk says:

    Hi guys,

    I get an frequently get an error message when I try to reload my saved sessions:

    “Error while importing WXSF :None or several nodes ”

    Any clue what to do about it?

    Thanks!
    Anders

    • Anders Munk says:

      That’s “None or several nodes ”

      Sorry for the typos…

    • Mathieu.Jacomy says:

      This problem often comes from a misformed XML markup. It’s not supposed to happen but sometimes a mistyped html link goes in the WXSF (that is actually a XML file). It’s possible to repair the file.

      The idea is just to search for the mistype. It’s for example a “&” that is not escaped like it’s supposed to: “&amp;”. It can be also a “< " or ">” (escaped as “&lt;” and “&gt;”)

      How to do it: just use your brower (Chrome of Firefox) since it can read XML. Rename your .WXSF in .XML and open it with your browser.
      You should see an XML error, with the line n° where it happens. Search for this line in a text editor, and correct it.
      A very common case is a mistyped website, for example: “google.com</a>”. Of course this website does not exist, so you could just erase all the <site> or <link> node.
      If it’s too complicated, just rename the website as “error”.

      Once you have made the correction, reload the file in your browser to check for other errors. Often the same error occurs twice (once for the website, once for the link).

      Finally, you’ll succeed to make your XML valid. Rename it in WXSF and import it in the navicrawler. It should work!

  22. Anders Munk says:

    “none or several nodes ‘session’”

  23. Pingback: Banning pro-ana websites? Not a good idea, as Web censorship might have a toothpaste tube effect : Antonio A. Casilli :: BodySpaceSociety

  24. Pingback: De la réplicabilité des corpus de sites web - Cartonomics: Space, Web and Society » Cartonomics: Space, Web and Society

  25. Marie-Hélène says:

    Bonjour
    Un informaticien vient de m’installer Mozilla Firefox et Navicrawler. Malheureusement, je n’arrive pas à faire fonctionner ce dernier qui, par rapport à Firefox, n’apporte pas de fonctionnalités complémentaires.
    Que dois-je faire? Par avance merci de votre réponse.

  26. Pingback: The Singaporean Leisure blogosphere revealed ! « Martin Pasquier

  27. Pingback: Cartographier vos informations avec Gephi | Stratidev

  28. Pingback: Instruments, outils, projets | L'Atelier de Cartographie