Personnalisation des options d’importation PDF dans Data Prep Studio

À l’importation d’un fichier PDF dans Monarch Data Prep Studio, l’application analyse le fichier et détermine la méthode optimale de conversion des données. Dans la plupart des cas, les sous-programmes Monarch Data Prep Studio de détection automatique produisent les meilleurs résultats. L’ajustement des options d’importation PDF s’avère cependant parfois nécessaire.

Les moteurs PDF précédemment utilisés dans Monarch s’appuyaient sur le concept de mise en forme du texte libre et de police à espacement constant pour ajuster l’alignement du texte. Ces anciens moteurs sont généralement adéquats pour :

  • Les fichiers PDF contenant des tableaux dont les colonnes sont particulièrement compactes.

  • Les fichiers PDF comportant plusieurs tailles de police et la police des données qui vous intéressent est plus petite que celle de la plupart du texte restant du PDF. La taille de police auto-calculée est par conséquent trop grande.

  • Les fichiers PDF présentant un mélange de polices à espacement constant et proportionnelles et les données qui vous intéressent sont à espacement constant.

  • Les fichiers PDF présentant un mélange de données libres et en tableaux.

Cependant, dans les états PDF plus récents :

  • L’alignement du texte sur les pages avec peu de texte n’est pas homogène.

  • Le retour à la ligne du texte peut causer un mauvais alignement horizontal.

  • L’alignement du texte centré est imprévisible.

En outre, les états PDF sont désormais publiés par de nombreux produits logiciels et peuvent être imprévisibles en termes d’utilisation des polices, des fonds et des couleurs de lignes. Ainsi, un moteur de rendu capable de tolérer n’importe quel mélange de polices (y compris les polices à écartement constant et libres) et de couleurs de fond est nécessaire.

Monarch introduit un nouveau moteur PDF (version 4.5) qui améliore la précision d’extraction du texte en identifiant les éléments graphiques, comme les lignes et les rectangles verticaux et horizontaux, dans les pages PDF rendues et en utilisant ces éléments pour former des grilles qui seront utilisées pour l’alignement du texte. Cette nouvelle fonctionnalité résout les problèmes d’alignement qui rendent certaines opérations de sélection/capture dans les fichiers PDF extrêmement difficiles.

  1. Ouvrez un état PDF dans la fenêtre Conception de l’état. Dans cet exemple, nous allons utiliser Compositeurs.pdf, généralement disponible dans C:\Users\Public\Documents\Altair Monarch\Reports.

    Comme vous le voyez sur l’illustration ci-dessous, quand cet état est ouvert dans la fenêtre Conception de l’état, la deuxième colonne ne s’affiche pas correctement si un moteur PDF inférieur est utilisé.

     

  2. Cliquez sur l’onglet Options du document pour afficher les paramètres d’importation PDF.

  3. Spécifiez les paramètres voulus pour les options suivantes :

    • Réglage automatique – Sélectionnez ce bouton pour que Data Prep Studio sélectionne automatiquement les paramètres optimaux pour la page type affichée. Remarque : Si vous avez changé les paramètres d’importation PDF, cette option rétablira probablement les paramètres originaux.

    • Texte

      • Espacement constant (pour moteur PDF version 4.4 ou inférieure)

      • Ce paramètre indique qu’une police à espacement constant (à chasse fixe ou non proportionnelle) a été utilisée dans le fichier PDF. Les polices à espacement constant sont des polices où tous les caractères sont de largeur égale. Ainsi, dans une police à espacement constant, les caractères « o » et « i » sont de largeur identique : ils occupent un même espace horizontal. (Les polices à espacement constant sont aussi appelées polices à chasse fixe ou non proportionnelles. L'opposé de l'espacement constant est l'espacement proportionnel, dans lequel les caractères ont chacun une largeur différente : la lettre « o » est plus large, par exemple, que la lettre « i ».)

        Lors de l’importation d’un fichier PDF dans Monarch Data Prep Studio, l’application détecte l’usage de polices à espacement constant et optimise la conversion en conséquence. Il arrive toutefois que Monarch Data Prep Studio ne puisse pas détecter ces polices dans le fichier PDF. La situation est généralement due à la présence d’une combinaison de polices proportionnelles et non proportionnelles dans un même fichier PDF. Si vous savez que le fichier PDF contient des polices à espacement constant mais que les polices ne s’affichent pas correctement, sélectionnez ce paramètre pour forcer Monarch Data Prep Studio à optimiser la conversion en fonction de ce type de police. D’apparence moins attrayante peut-être, les polices à espacement constant conviennent mieux aux données tabulaires car la largeur uniforme des caractères facilite l’alignement des colonnes.

        En général, les fichiers PDF à polices à espacement constant se convertissent mieux. Pour optimiser votre application génératrice de PDF pour Monarch Data Prep Studio, veillez donc à utiliser ce type de polices. Il s’agit principalement des polices suivantes : Andale Mono, Anonymous, Crystal, Bitstream Vera Sans Mono, Courier, Courier New, Elronet Monospace, Everson Mono Latin 6, Fixedsys, Lucida Sans Typewriter, Lucida Console et PrestigeFixed.

      • Libre (pour moteur PDF version 4.4 ou inférieure)

      • Cette option optimise le texte libre, par rapport au texte en colonnes ou colonnes groupées. Un document en colonnes présente un simple format de tableau. En colonnes groupées, il ressemble davantage à l’un de nos états types Monarch Data Prep Studio : Boîte à musique d’Aline (classique.pdf), par exemple. Cette option conviendrait à un document de type état académique composé à 95 % de texte, avec quelques tableaux à extraire toutefois. Remarque : L'option est parfois efficace sur les documents à colonnes lorsque les paramètres par défaut ne produisent pas un résultat acceptable.

      • Ancrer le texte à gauche (moteur PDF version 4.5) – Sélectionnez cette option pour aligner le texte à gauche de la grille PDF

      • Ancrer le texte en haut (moteur PDF version 4.5) – Sélectionnez cette option pour aligner le texte en haut de la grille PDF

      • Toujours aligner à gauche (moteur PDF version 4.5) – Sélectionnez cette option pour toujours aligner le texte à gauche de la grille PDF

    • Supprimer Espaces Blancs Gauche (moteurs PDF v4.2–4.5)

    • Demande à Monarch de supprimer tous les espaces blancs de gauche lors de l’affichage de l’état.

    • Étirer

    • Cette option régit l'espacement utilisé lors du processus de conversion. Lors de l’analyse du fichier PDF, Monarch Data Prep Studio essaie de respecter autant que possible l’espacement du document original. Plusieurs facteurs exigent cependant l’introduction d’un plus grand espacement à la conversion. Ainsi, les données masquées du fichier PDF, bien que non visibles à l’écran, n’en font pas moins partie du fichier PDF en soi. Les colonnes aux données tronquées en sont un exemple. Même si aucune donnée ne semble manquer à première vue, Monarch Data Prep Studio convertit toutes les données du fichier PDF, et pas seulement celles visibles dans une application d’affichage PDF. Pour maintenir un alignement de colonnes adéquat, Monarch Data Prep Studio doit dans ce cas recalculer et élargir l’espacement. Celui original des colonnes ne suffirait en effet pas à recevoir toutes les données.

      Monarch Data Prep Studio choisit généralement un espacement plus large que le fichier PDF. Dans la fenêtre d’état, le document semble étiré par rapport au fichier PDF original, mais Monarch Data Prep Studio préfère la prudence, pour éviter que les colonnes ne se chevauchent dans le document converti. Au cas où une itération ultérieure du même état (ou d’un état similaire) présenterait des valeurs de données plus larges, l’approche permet aussi la compatibilité continue du modèle.

      Si vous connaissez bien vos états, vous pouvez réduire la valeur d'étirement pour les rendre plus présentables en évitant les toutes petites polices dans la fenêtre d'état ou l'exigence de défilement horizontal.

      Utilisez les boutons + et – pour spécifier une valeur d’étirement.

    • Rogner

    • Sélectionnez cette option pour rogner de l’espace supplémentaire de la page PDF. Utilisez les boutons + et – pour spécifier une valeur de rognage.

  4. Quand vous avez terminé de spécifier les options d’importation PDF, cliquez sur le bouton Accepter pour les enregistrer et les appliquer au fichier PDF. Dans l’exemple ci-dessous, les options Toujours aligner à gauche et Supprimer Espaces Blancs Gauche ont été sélectionnées.

     

  5. Monarch Data Prep Studio importe le fichier PDF en utilisant les options d’importation que vous avez spécifiées.

 

 

 

© 2024 Altair Engineering Inc. All Rights Reserved.

Intellectual Property Rights Notice | Technical Support