FLUX RSS



ACCUEIL / FORUMS / QUESTIONS TECHNIQUES / INDEXATION FICHIER PDF - EZ 4




sondages
Avez-vous déjà utilisé les exports statiques ? :
oui
non
RESULTATS | SONDAGES
liens
eZ systems
http://ez.no
PHPEdit
http://www.waterproof.fr/
AFUL
http://www.aful.org
Framasoft
http://www.framasoft.net
Indexation fichier pdf - Ez 4

Vous devez être connecté pour utiliser le forum. Vous pouvez le faire ici.

Auteur Message

Olivier Calmel

Mercredi 25 Juin 2008 3:18:33 pm

Indexation fichier pdf - Ez 4

Bonjour à tous
Je suis complètement newbie sur ez, je connais assez bien d'autres cms (joomla, drupal) et suis développeur j2ee.
Je suis en cours de prototype pour un intranet sous ez 4.
Tout se déroule plutot bien pour l'instant mais je n'arrive pas à indexer des fichiers pdf.
J'ai bien :
- rendu la classe 'File' searchable
- checké le binaryfile.ini http://ez.no/ezpublish/documentat...ne/configuring_binary_file_indexing)

Rien n'y fait, aucun résultat dans la recherche.
L'installation de l'extension ezfind est-elle indispensable ?
Merci pour votre aide.

Linux
Apache 2.0
PHP 5.1.6
MySQL 5.0.22
Ez 4

Olivier Calmel

Mardi 01 Juillet 2008 3:01:43 pm

Re: Indexation fichier pdf - Ez 4

aucune idée ? personne ne pourrait m'aiguiller ?
pour une fonctionnalité décrite comme 'standard' je suis assez sceptique ...
merci de votre aide

Damien POBEL

Mardi 01 Juillet 2008 11:29:07 pm

Re: Indexation fichier pdf - Ez 4

Salut Olivier,

Pour indexer les PDF, eZ Publish utilise des utilitaires installés sur le système pour en extraire le contenu textuel. Par défaut, eZ Publish utilise pstotext (configuration dans binaryfile.ini).
Il faut donc que tu vérifies que pstotext est bien installé sur le serveur et que PHP peut le lancer (pas de safe_mode et autres restrictions du genre notamment). L'autre chose à vérifier est le fait que le commande pstotext soit capable d'extraire du texte de tes PDF ce qui n'est parfois pas le cas selon la méthode de génération des PDF.
Tu peux aussi utiliser pdftotext pour indexer tes PDF, il est parfois plus performant.
Sinon eZ FInd n'est pas requis pour l'indexation des PDF, ça devrait fonctionner sans soucis avec le moteur de recherche d'eZ Publish par défaut.

Bon courage

--
Damien POBEL
Publications autour d'eZ publish http://pwet.fr/blog/tags/ez_publish
eZVim, plugin vim pour eZ Publish : http://projects.ez.no/ezvim

Olivier Calmel

Lundi 21 Juillet 2008 4:03:02 pm

Re: Indexation fichier pdf - Ez 4

Salut Damien
Merci beaucoup pour ta réponse, la recherche dans les pdf fonctionne maintenant, tout comme pour les fichiers texte.

Par contre aucun resultat sur des documents openoffice et/ou office
dans le binaryfile.ini l'extracteur word est par défaut :
TextExtractionTool=wvWare -x /usr/local/wv/wvText.xml
Apparement ces librairies ne fonctionne que sur windows ? (http://www.prestosoft.com/edp_plugins.asp)

Quel(s) extracteur(s) utilisez-vous pour des docs office ?

merci !
Olivier.

actualités
Traduction d'un tutorial eZ
eZ publish 4.0 est sorti
EzPublish 3.9 enfin disponible !
Ez Publish 3.9 RC2 est en ligne !
Ez Publish 3.9 RC1 disponible !
références
Site ohmycom
OhmyBlog