PDF-Importoptionen in Data Prep Studio anpassen

Wenn Sie eine PDF-Datei in Monarch Data Prep Studio importieren, analysiert die Anwendung die Datei, um die beste Methode zum Transformieren der Daten zu finden. Das Ziel einer optimalen Textausrichtung in einem PDF-Bericht besteht darin, die Erstellung von Selektoren und die Datenerfassung zu erleichtern. Wenn der Text nicht richtig ausgerichtet ist, müssen Sie unter Umständen zahlreiche Selektoren erstellen, um Daten aus verschiedenen Textzeilen zu erfassen, was sowohl mühsam als auch zeitaufwendig ist. Wenn also eine Anpassung von Ausrichtungen in PDF-Berichten gerechtfertigt ist, sollen Sie sich unbedingt genau überlegen, wie Sie die Daten erfassen möchten. In den meisten Fällen erzielen die automatischen Erkennungsroutinen von Monarch Data Prep Studio das beste Ergebnis. Unter bestimmten Bedingungen müssen die PDF-Importoptionen aber eventuell etwas anders eingestellt werden.

Frühere in Monarch verwendete PDF-Engines nutzten nichtproportionale Schrift und freien Textfluss zur Einstellung der Textausrichtung. Diese älteren Engines reichen gewöhnlich für folgende Zwecke aus:

  • PDF-Dateien mit Tabellen mit sehr engen Spalten.

  • PDF-Dateien mit mehreren Schriftgrößen und den zu extrahierenden Daten in kleinerer Schriftgröße als der übrige Text, wodurch die automatisch berechnete Schriftgröße zu groß ist.

  • PDF-Dateien mit verschiedenen nichtproportionalen und proportionalen Schriftarten, während die zu extrahierenden Daten nichtproportionaler Art sind.

  • PDF-Dateien mit einer Kombination von Freitext- und Tabellendaten.

In neueren PDF-Berichten passiert jedoch Folgendes:

  • Textausrichtung auf Seiten mit wenig Text ist uneinheitlich.

  • Textumbruch kann zu horizontaler Fehlausrichtung führen.

  • Die Ausrichtung von zentriertem Text ist unberechenbar.

Außerdem werden PDF-Berichte nun von zahlreichen Softwareprodukten veröffentlicht und können hinsichtlich der Verwendung von Schriftarten, Hintergründen und Strichfarben unberechenbar sein. Daher ist eine Renderingmaschine erforderlich, die eine beliebige Kombination von Schriftarten (einschließlich sowohl nichtproportionale als auch Freitext-Schriftarten) und Hintergrundfarben tolerieren kann.

Monarch stellt eine neue PDF-Engine (Version 4.5) vor, die die Genauigkeit der Textextraktion verbessert, indem grafische Elemente wie vertikale und horizontale Linien und Rechtecke auf den wiedergegebenen PDF-Seiten erkannt und diese Elemente zur Bildung von Rastern verwendet werden, an denen der Text ausgerichtet wird. Diese neue Funktion adressiert Ausrichtungsprobleme, die einige Selektionsvorgänge in PDF-Dateien extrem schwierig gestalten.

Wenn zum Beispiel der PDF-Bericht Composers.pdf, der normalerweise unter C:\Benutzer\Öffentlich\Dokumente\Altair Monarch\Reports verfügbar ist, in Data Prep Studio geöffnet wird und eine ältere PDF-Engine verwendet wird (z. B. 4.3), erscheint die zweite Spalte schief.

In diesem Fall reicht es aus, die PDF-Engine in 4.5 zu ändern, um alle Spalten korrekt auszurichten. Data Prep Studio stellt auch andere Eigenschaften automatisch ein, um optimale Ergebnisse zu erzielen.

In anderen Fällen reicht es jedoch nicht aus, einfach die PDF-Engine zu ändern, um eng beieinander liegende Spalten konsistent auszurichten. Für solche Fälle bietet Data Prep Studio zwei Engine-Modi an, nämlich, SIMPLE (Einfach) und EXPERT (Experten), die jeweils mehrere Eigenschaften enthalten, die Sie ändern können, um die Ausrichtung der Spalten in Ihrem PDF-Bericht zu verbessern.

 

 

© 2024 Altair Engineering Inc. All Rights Reserved.

Intellectual Property Rights Notice | Technical Support