Quelles solutions pour retrouver l’information dans l’entreprise ?

14 avril Quelles solutions pour retrouver l’information dans l’entreprise ?

Introduction

Dans le monde professionnel ou personnel, on stocke une quantité pharaonique de documents. Si trouver un espace de stockage pour ces documents n’est plus un problème (voir le prix du GO), il en va différemment pour retrouver les informations contenues dans ces documents, au moment où l’on en a besoin.

Dans cette série d’articles, nous allons nous pencher sur les différentes solutions qui s’offrent à nous, dans le monde professionnel, pour retrouver des PDF, des documents Word (doc ou docx), des courriels, des présentations PowerPoint (ppt ou pptx), voire même des documents numérisés (PDF scannés). On analysera trois cas d’études, selon que l’on est sous Windows, Linux, ou Mac OS X.

Solutions à l’étude

Récapitulatif

Voici un condensé de l’étude, pour les plus pressés (version imprimable en couleurs) :

Critères Windows SearchWindows Search IntraChercheIntraCherche RecollRecoll Vainqueur Commentaire
Installation Facile (intégrée à Windows 7) Facile (installateur tout en un) Moyenne (dépendances manuelles à installer) Windows Search IntraCherche
Configuration Manuelle Simple (Auto-configuré) Manuelle IntraCherche
Temps d’indexation 9 min 4 min 1 min IntraChercheRecoll Attention : Recoll n’a pas indexé les PDF scannés présents dans le répertoires
Temps de recherche Résultats quasi instantanés Recoll IntraCherche Windows Search
Limitation de la bande-passante utilisée (lors de l’indexation de répertoires partagés) Non Oui (index central) Oui si configuré correctement IntraCherche On ne peut pas empêcher Recoll d’indexer des répertoires partagés, mais on peut lui indiquer d’utiliser un index distant déjà existant
Formats pris en compte MS Office 2003 et antérieur Oui Oui Oui IntraCherche
2010 + Non Oui Oui
PDF (normaux) Oui Oui Oui
PDF protégé par DRM Non Oui Oui
PDF scanné Non Oui Non
Moteur d’indexation Sources fermées (même que Bing?)

Sources ouvertes

(Lucene)

Sources ouvertes

(Xapian)

IntraChercheRecoll Les sources ouvertes sont souvent garantes de codes éprouvés
Durabilité / Maintenance Comme Windows 7 Solution professionnelle et active. Maintenance garantie (contrat de 1, 3, ou 5 ans renouvelable) Projet actif IntraCherche

Podium

IntraCherche finit en tête, suivi par Recoll, et Windows Search ferme la marche

IntraCherche finit en tête, suivi par Recoll, et Windows Search ferme la marche

C’est donc IntraCherche qui termine en tête de ce comparatif, devançant de très loin Windows Search et étant talonné par Recoll. Il est vrai que ce comparatif ne teste pas tous les formats de fichiers, et que Windows Search aurait pu faire aussi bien que Recoll (aux PDF protégés près), si l’on avait installé Microsoft Office 2010 ou plus récent. Mais comme cela est indiqué dans l’article détaillé, certaines entreprises ne souhaitent pas acquérir la suite bureautique de Microsoft.

Quant à Recoll, une fois bien installé et configuré, il se débrouille plutôt très bien sous Linux, bien qu’il ne sache pas fouiller dans les PDF scannés. Si l’on n’a pas ce type de document dans l’entreprise, et qu’on est sous Linux, le jeu en vaut peut-être la chandelle. Le seul hic, est au niveau de la bande passante utilisée, puisqu’il sera très tentant pour les utilisateurs d’aller indexer des répertoires partagés intéressants sur le serveur, et donc de saturer le réseau interne.

Au final, avec l’échantillon documentaire utilisé qui pourrait représenter par exemple une partie des documents présents dans un service de R&D d’une entreprise, IntraCherche apparait comme parfaitement adapté. Ainsi comme il est très versatile, il est capable de retrouver toute sorte de documents dans les différents formats utilisés dans l’entreprise. La recherche à l’intérieur des PDF scannés est l’un des ses atouts qui permet de le distinguer de ses concurrents. Par conséquent, ses capacités en font un allié redoutable d’efficacité pour les entreprises qui cherchent à se dégager du marasme actuel et progresser par l’innovation en se basant sur les connaissances internes déjà acquises.

No Comments

Sorry, the comment form is closed at this time.