Fichiers PDF à problème

Il peut arriver qu'un fichier PDF ne s'importe pas dans Knowledge Hub. Plusieurs raisons sont possibles, mais le problème est souvent dû à l'endommagement de la couche texte du fichier PDF au moment de sa création ou au fait que le fichier PDF est en réalité une image numérisée ou intégrée.

La première mesure à prendre, en présence d'un fichier PDF à problème, consiste à déterminer si le fichier contient du texte ou non.

Pour déterminer si un fichier PDF contient du texte

Pour déterminer rapidement et en toute simplicité si le fichier PDF contient le moindre texte, ouvrez-le sous Adobe Acrobat et, à l'aide de la fonction de recherche, recherchez-y un extrait de texte que vous pouvez clairement lire à l'écran. Si le texte est introuvable, la couche texte du fichier a été endommagée ou n'existe pas, auquel cas le document est vraisemblablement une image que Knowledge Hub, pas plus qu'Acrobat, ne peut donc lire.

Un autre test consiste à copier un peu de texte à l'aide de l'outil d'extraction de texte d'Acrobat et de le coller dans le Bloc-notes (Notepad). (Remarque : Si l'outil d'extraction ne réussit pas à sélectionner le texte lorsque vous cliquez et que vous faites glisser le curseur, le texte affiché à l'écran est une image.) Si le texte collé dans le Bloc-notes est différent de celui affiché sur la page du fichier PDF, la couche texte du fichier est endommagée.

Situations dans lesquelles Knowledge Hub ne peut pas importer un fichier PDF

Les situations les plus fréquentes dans lesquelles Knowledge Hub ne réussit pas à importer un document PDF particulier sont décrites ci-dessous, de même que quelques suggestions susceptibles de résoudre le problème.

  • Fichiers PDF numérisés – Si un fichier PDF ne contient pas de texte (voir plus haut), la raison peut en être qu'il s'agit d'une image numérisée ou autrement intégrée. Une image numérisée est une image de document convertie au format numérique par un numériseur puis incorporée dans un document PDF. Knowledge Hub ne peut pas extraire le texte d'une image. Le seul moyen de traiter ces images consiste à procéder par reconnaissance optique de caractères (ROC), pour essayer de reconnaître et d'extraire le texte.

  • ATTENTION : Il n'est PAS recommandé d'appliquer un logiciel ROC à des documents financiers de nature critique. La précision de l'extraction varie en effet d'un document à l'autre et suivant le logiciel utilisé. L'approche ROC est particulièrement sensible aux petites erreurs de reconnaissance, qui peuvent passer inaperçues faute de révision ou de vérification minutieuse des données.

  • Fichiers PDF endommagés – Même si un fichier PDF semble s'afficher correctement dans Adobe Acrobat, sa création peut avoir endommagé profondément la couche texte, au point de rendre impossible son extraction par Knowledge Hub. Adobe Acrobat peut détecter et réparer de nombreuses petites erreurs dans les documents PDF. L'ouverture d'un fichier PDF endommagé dans Acrobat et son ré-enregistrement dans un nouveau fichier PDF au moyen de l'option de menu Fichier|Enregistrer sous suffisent parfois à remédier au problème.

  • Extraction de texte interdite – Au moment de la publication d'un fichier PDF, certaines options de sécurité peuvent être configurées pour empêcher l'extraction de contenu. Knowledge Hub renvoie dans ce cas le message « Importation du fichier PDF impossible : extraction de texte non admise. » Il vous faudra dans ce cas demander à l'éditeur du fichier PDF de le re-publier à votre intention, sans y interdire l'extraction de contenu.

 

 

© 2024 Altair Engineering Inc. All Rights Reserved.

Intellectual Property Rights Notice | Technical Support