PDF-Importoptionen in Data Prep Studio anpassen

Wenn Sie eine PDF-Datei in Monarch Data Prep Studio importieren, analysiert die Anwendung die Datei, um die beste Methode zum Transformieren der Daten zu finden. In den meisten Fällen erzielen die automatischen Erkennungsroutinen von Monarch Data Prep Studio das beste Ergebnis. Unter bestimmten Bedingungen müssen die PDF-Importoptionen evtl. etwas anders eingestellt werden.

Frühere in Monarch verwendete PDF-Engines nutzten nichtproportionale Schrift und freien Textfluss zur Einstellung der Textausrichtung. Diese älteren Engines reichen gewöhnlich für folgende Zwecke aus:

  • PDF-Dateien mit Tabellen mit sehr engen Spalten.

  • PDF-Dateien mit mehreren Schriftgrößen und den zu extrahierenden Daten in kleinerer Schriftgröße als der übrige Text, wodurch die automatisch berechnete Schriftgröße zu groß ist.

  • PDF-Dateien mit verschiedenen nichtproportionalen und proportionalen Schriftarten, während die zu extrahierenden Daten nichtproportionaler Art sind.

  • PDF-Dateien mit einer Kombination von Freitext- und Tabellendaten.

In neueren PDF-Berichten passiert jedoch Folgendes:

  • Textausrichtung auf Seiten mit wenig Text ist uneinheitlich.

  • Textumbruch kann zu horizontaler Fehlausrichtung führen.

  • Die Ausrichtung von zentriertem Text ist unberechenbar.

Außerdem werden PDF-Berichte nun von zahlreichen Softwareprodukten veröffentlicht und können hinsichtlich der Verwendung von Schriftarten, Hintergründen und Strichfarben unberechenbar sein. Daher ist eine Renderingmaschine erforderlich, die eine beliebige Kombination von Schriftarten (einschließlich sowohl nichtproportionale als auch Freitext-Schriftarten) und Hintergrundfarben tolerieren kann.

Monarch stellt eine neue PDF-Engine (Version 4.5) vor, die die Genauigkeit der Textextraktion verbessert, indem grafische Elemente wie vertikale und horizontale Linien und Rechtecke auf den wiedergegebenen PDF-Seiten erkannt und diese Elemente zur Bildung von Rastern verwendet werden, an denen der Text ausgerichtet wird. Diese neue Funktion adressiert Ausrichtungsprobleme, die einige Selektionsvorgänge in PDF-Dateien extrem schwierig gestalten.

  1. Öffnen Sie einen PDF-Bericht im Fenster „Berichtsentwurf“. In diesem Beispiel verwenden wir die Datei Komponisten.pdf, die normalerweise in C:\Users\Public\Documents\Altair Monarch\Reports verfügbar ist.

    Wie in der Abbildung unten dargestellt, erscheinen die Einträge in der zweiten Spalte des Berichts im Fenster „Berichtsentwurf“ versetzt, falls eine PDF-Engine mit niedrigerer Versionsnummer verwendet wird.

     

  2. Klicken Sie auf die Registerkarte Dokumentoptionen, um die Importeinstellungen für PDF-Dateien anzuzeigen.

  3. Geben Sie die gewünschten Einstellungen für folgende Optionen an:

    • Autom. anpassen – Bei Auswahl dieser Option wählt Data Prep Studio automatisch die optimalen Einstellungen für die angezeigte Beispielseite. Falls Sie irgendwelche PDF-Importeinstellungen geändert haben, können die Originaleinstellungen durch Anklicken dieser Option meistens wiederhergestellt werden.

    • Textfluss

      • Nichtproportional (für PDF-Engine-Versionen 4.4 und darunter)

      • Diese Einstellung zeigt, dass eine nichtproportionale Schriftart in der PDF-Datei verwendet wurde. Nichtproportionale Schriftarten sind Schriftarten, bei denen alle Zeichen den gleichen Platz einnehmen. In einer nichtproportionalen Schrift sind beispielsweise die Buchstaben „o“ und „i“ gleich breit, d. h., beide nehmen in einer Zeile den gleichen horizontalen Platz ein. (Eine nichtproportionale Schriftart wird auch mitunter auch dickengleiche Schriftart genannt. Das Gegenteil von nichtproportional ist proportional. Bei einer proportionalen Schriftart nimmt der Buchstabe „o“ beispielsweise mehr Platz ein als der Buchstabe „i“.)

        Wenn Sie eine PDF-Datei in Monarch Data Prep Studio importieren, versucht die Anwendung zu erkennen, ob nichtproportionale Schriftarten verwendet werden, um die Konvertierung dann entsprechend optimieren zu können. Monarch Data Prep Studio kann aber u. U. nicht klar erkennen, ob nichtproportionale Schriftarten in der PDF-Datei verwendet wurden. Der Grund dafür ist gewöhnlich, dass verschiedene nichtproportionale und proportionale Schriftarten in derselben PDF-Datei vorhanden sind. Wenn Sie wissen, dass in der PDF-Datei nichtproportionale Schriftarten verwendet, aber hier nicht richtig angezeigt werden, können Sie Monarch Data Prep Studio durch diese Einstellung dazu veranlassen, die Optimierung für nichtproportionale Schriftarten vorzunehmen. Proportionale Schriftarten sehen zwar besser aus, aber nichtproportionale Schriftarten sind vorteilhafter für Tabellendaten, da die dicktengleichen oder nichtproportionalen Zeichen das Ausrichten der Spalten vereinfachen.

        Im Allgemeinen können PDF-Dateien, die aus nichtproportionalen Schriftarten bestehen, besser konvertiert werden. Mit anderen Worten, wenn Sie Ihre PDF-erzeugende Anwendung für die Verwendung mit Monarch Data Prep Studio optimieren wollen, sollten Sie nichtproportionale Schriftarten verwenden. Hier sind einige der gebräuchlichsten Schriften dieser Art: Andale Mono, Anonymous, Crystal, Bitstream Vera Sans Mono, Courier, Courier New, Elronet Monospace, Everson Mono Latin 6, Fixedsys, Lucida Sans Typewriter, Lucida Console und PrestigeFixed.

      • Freitext (für PDF-Engine-Versionen 4.4 und darunter)

      • Durch diese Option wird versucht, die Konvertierung optimal auf Text einzustellen, der nicht unbedingt in Spalten oder Spaltengruppen erscheint. Ein Spaltendokument hat ein einfaches Tabellenformat, während Spaltengruppen evtl. einem der Monarch Data Prep Studio-Beispielberichte ähnlich sind, z. B. „Der Musikladen“ (Classic.pdf). Diese Einstellung würde z. B. besonders für einen wissenschaftlichen Bericht praktisch sein, der zu 95% aus Text besteht, aber auch einige zu extrahierende Tabellen enthält. Hinweis: Diese Einstellung wirkt sich mitunter positiv auf Spaltendokumente aus, wenn durch die Standardeinstellungen kein zufriedenstellendes Ergebnis erreicht werden kann.

      • Text nach links einschnappen (PDF-Engine-Version 4.5) – Wählen Sie diese Option aus, um Text links vom kalkulierten PDF-Raster auszurichten.

      • Text nach oben einschnappen (PDF-Engine-Version 4.5) – Wählen Sie diese Option aus, um Text an der Oberseite des kalkulierten PDF-Rasters auszurichten.

      • Immer links ausrichten (PDF-Engine-Version 4.5) – Wählen Sie diese Option aus, um Text immer links vom kalkulierten PDF-Raster auszurichten.

    • Linke Leerstellen unterdrücken (PDF-Engines V4.2 – 4.5)

    • Weist Data Prep Studio an, alle linken Leerstellen beim Anzeigen des Berichts zu entfernen.

    • Gedehnt

    • Durch diese Option wird festgelegt, wie die Abstände zwischen den Zeichen während des Konvertierungsvorgangs gehandhabt werden sollen. Beim Analysieren der PDF-Datei versucht Monarch Data Prep Studio die Abstände möglichst wie im Originaldokument zu belassen, aber mitunter ist es erforderlich, beim Konvertieren größere Zeichenabstände einzufügen, als in der Originaldatei vorhanden zu sein scheinen. Das ist z. B. der Fall, wenn sich in der PDF-Datei verdeckte Daten befinden, d. h. Daten, die zwar in der Datei vorhanden, aber auf dem Bildschirm nicht zu sehen sind. Es kann sich dabei z. B. um Spalten handeln, in denen die Daten gestutzt werden. Auf den ersten Blick ist nicht ersichtlich, dass irgendwelche Daten fehlen, aber Monarch Data Prep Studio konvertiert sämtliche in der PDF-Datei befindlichen Daten und nicht nur solche, die in einem PDF-Viewer sichtbar sind. Um die ordnungsgemäße Spaltenausrichtung beizubehalten, muss Monarch Data Prep Studio in manchen Fällen die Abstände neu berechnen und nötigenfalls mit Leerzeichen auffüllen, da die ursprünglichen Spaltenabstände u. U. nicht ausreichen, um alle Daten sicher aufzunehmen.

      Im Allgemeinen verwendet Monarch Data Prep Studio größere Abstände als in der PDF-Datei vorhanden sind. Im Berichtsfenster sieht das dann so aus, als ob das Dokument weiter auseinander gezogen ist als in der Original-PDF-Datei, aber Monarch Data Prep Studio benutzt diese größeren Abstände, um sicherzustellen, dass die Spalten nicht ineinander laufen. Ferner wird dadurch erreicht, dass das Modell auch dann noch funktioniert, wenn in einer späteren Wiederholung desselben oder eines ähnlichen Berichts mit Datenwerten gearbeitet wird, die mehr Platz benötigen.

      Wenn Sie mit dem Aufbau Ihrer Berichte ausreichend vertraut sind, können Sie den Abstandswert evtl. reduzieren, damit die Berichte dann besser aussehen und im Berichtsfenster keine zu kleinen Schriftgrößen erscheinen. Auch wird dadurch möglicherweise das horizontale Blättern vermieden.

      Geben Sie Dehnungswerte anhand der + und -Schaltflächen an.

    • Zuschnitt

    • Diese Option entfernt überflüssige Bereiche von der PDF-Seite. Geben Sie Zuschnittwerte anhand der + und - Schaltflächen an.

  4. Wenn Sie mit dem Festlegen der gewünschten PDF-Importoptionen fertig sind, klicken Sie auf Akzeptieren, um diese Einstellungen zu speichern und auf die PDF-Datei anzuwenden. Im Beispiel unten wurden die Optionen Immer linksbündig und Linke Leerstellen unterdrücken ausgewählt.

     

  5. Monarch Data Prep Studio importiert die PDF-Datei unter Verwendung der festgelegten Importoptionen.

 

 

 

(c) 2023 Altair Engineering Inc. All Rights Reserved.

Intellectual Property Rights Notice | Technical Support