RSS2.0

Lire un document pdf rapidement

samedi 23 février 2008

J'ai toujours un tas de pdf que je dl mais que je ne prend jamais le temps de lire. Ils s'accumulent et j'oublie souvent à quoi ils correspondent, je finis par les mettre dans un dossier d'où ils ne sortiront plus jamais. Pourtant, j'avais une bonne raison de les télécharger, c'est tout de même dommage de ne pas savoir de quoi cela parle...

Je viens de trouver un soft super-pratique dont j'avais entendu parler mais que j'avais jamais testé. Ca s'appelle Theme Reader de la societe australienne MindSystems et ça permet de savoir de quoi parle un txt sans le lire !!!
Je m'explique: imaginons un titre du genre : 149992.pdf. Aucune idée de ce que ça peut bien être. Je le passe dans Theme Reader et voila le résultat :



Parfait !
J'ai les principaux axes et la structure sémantique du document. (J'ai copié/colé le titre dans le haut de l'arborescence). En plus, le soft s'insère dans le clic droit Windows et vous pouvez lancer l'analyse depuis l'explorer.

Le résultat de Themereader se lit dans un soft qui s'appelle Mind Manager (qui est terrible pour bosser sur des gros dossiers, reportages, etc... où s'ammoncellent idées, fichiers, textes...). Il permet de lire le synopsis du pdf par exemple, lorsque vous cliquer sur l'icone de texte à coté d'une des mots, le logiciel vous donne le passage le plus pertinent en surlignant les occurences du mot(voir screenshot ci-dessous).




Le hic, c'est le prix :
Mind manager Single License (install on 2 PCs) 265 € /2 yrs
Theme reader Single License (1 primary PC) €43.18 EUR /2 yrs

Je suis à la recherche d'un équivalent libre mais ça paraît compliqué... Par contre, le site de MindSystems permet de télécharger des versions démo qui durent 21 jours pour tester vraiment.


Dans le style, il existe également des petits softs comme Dico qui vous permet d'afficher le nombre d'occurence d'un mot dans un texte, pratique pour l'analyse lexicale et pour extraire un sens pas toujours évident d'un discours (voir cet exemple). Egalement le logiciel Contextes qui permet, lui, d'isoler un mot tout en le visualisant dans sa phrase d'origine.
Ces deux softs sont développé par Jean Veronis. (Source : journalistiques.fr)


Le problème de ces petits softs sont qu'ils ne traitent que le texte brut. Vous pouvez donc convertir vos pdf, html, doc, etc... en texte brut (.txt) grâce au trés simple Text Minig Tool.
Le site pdftextonline.com est trés efficace et permet d'extraire à partir de trés nombreuses langues et fonts le texte brut d'un pdf.

Un exemple de résultat de Dico du même pdf converti par le site pdftextonline.com

Forme Fréquence
INFORMATION 124
TECHNOLOGIE 117
EXEMPLE 102
SOCIETE 97
INFORMATIONS 95
INTERNET 93
TECHNOLOGIES 92
CONTENUS 91
IDENTITÃ 91
POURRAIT 83
WEB 83
SEAUX 82
SYSTEME 81
HTTP 80
VOIR 80
2006 77
DROIT 76
NUMERIQUE 76
RFID 74
VIE 74
SEAU 72
LIBERTE 71
INFORMATIQUE 60
RADIO 59
MONDE 57
CALCUL 56
POURRAIENT 56
COMMUNICATION 54
DROITS 53
COM 50
GENS 50
PERMETTRE 50

0 commentaires: