EinMuster erstellen
Ein Monarch Data Prep Studio-Datenextraktionsmuster wird zum Extrahieren von Daten aus einer PDF-Datei oder einem Berichtsdokument verwendet. Monarch Data Prep Studio bietet sieben Mustertypen:
-
Detailmuster: Ein Detailmuster wird benutzt, um Informationen aus der untersten Berichtsebene (auch Detailebene oder Transaktionsebene) zu extrahieren. Mit Hilfe der durch das Detailmuster extrahierten Felder werden dann in der daraus resultierenden Datenbanktabelle die einzelnen Datensätze erstellt.
-
Anhängemuster: Dieses Muster ist dazu da, im Bericht die Felder aus den einzelnen Sortierebenen, die auch Gruppen- oder Anhängeebenen genannt werden, zu extrahieren. Die mit den einzelnen Anhängemustern extrahierten Felder werden dann an die einzelnen Datensätze angehängt oder mit den Datensätzen verkettet, die durch die Detailmusterfelder erstellt wurden.
-
Gruppenfußzeilenmuster: Mit Hilfe dieses Musters können die nach der Detailzeile erscheinenden Felder extrahiert werden (zur Extraktion von vor einer Detailzeile erscheinenden Feldern muss ein Anhängemuster verwendet werden). Die durch das Fußzeilenmuster extrahierten Felder werden an die einzelnen Datensätze angehängt.
-
Kopfzeilenmuster: Durch dieses Muster können die im Kopf der einzelnen Seiten erscheinenden Felder extrahiert werden. Dieser Bereich wird als Kopfzeile bezeichnet. Die über das Kopfzeilenmuster extrahierten Felder werden an die einzelnen Datensätze angehängt.
-
Ausschlussmuster: Ein Ausschlussmuster dient zum Festlegen von Zeilen oder Teilzeilen, die NICHT von anderen Arten von Mustern erfasst werden sollen.
-
Startregionmuster: Ein Startregionselektor markiert eine Zeile im Bericht, an der alle Selektortypen (z. B. Detail-, Anhängeselektoren) beginnen sollen.
-
Endregionmuster: Ein Endregionselektor markiert hingegen eine Zeile im Bericht, an der alle Selektortypen (z. B. Detail-, Anhängeselektoren) enden sollen.
Folgende Anweisungen beziehen sich auf das Erstellen eines Detailmusters, aber der gleiche Vorgang kann zum Erstellen eines Anhänge-, Fußzeilen-, Kopfzeilen- oder Ausschlussmusters verwendet werden.
Schritt 1: Ein Beispielmuster identifizieren und auswählen
-
Importieren Sie eine PDF-Datei oder einen PRN-Bericht in Data Prep Studio. Das Fenster „Berichtsentwurf“ wird angezeigt.
-
Überprüfen Sie die ersten paar Seiten des Berichts, um die Informationen der Detailebene zu identifizieren. Sehen Sie nach, ob alle Detailfelder in eine Zeile passen oder ob sie über mehrere Zeilen verteilt werden müssen. Hinweis: In den meisten Berichten passen alle Felder der Detailebene in eine einzige Zeile. Es kann aber auch vorkommen, dass die Detailfelder in Blöcken von zwei oder mehr Zeilen mit dazwischenliegenden Feldtiteln angeordnet sind. In der folgenden Abbildung befinden sich alle Detailfelder in einer einzigen Zeile.
-
Wählen Sie eine Zeile oder Zeilengruppe aus, die eine einzige Instanz der Detailfelder enthält. Hinweis: Zur Auswahl einer Beispielzeile müssen Sie links von der Zeile in den Zeilenauswahlbereich klicken. Zur Auswahl mehrerer Zeilen müssen Sie links der ersten Zeile in den Zeilenauswahlbereich klicken und dann bei gedrückt gehaltener Maustaste bis zur letzten Zeile hin ziehen.
Schritt 2: Eine Musterrolle zuweisen
Wenn Sie das erste Mal ein Muster für einen Bericht erstellen, müssen Sie eine Rolle zuweisen. Sie können die Musterrolle während der Erstellung oder Bearbeitung der Musterdefinition jederzeit ändern.
Wählen Sie im Fensterbereich „Muster- und Feldeigenschaften“ die Option Neues Muster hinzufügen und anschließend eine Musterrolle aus:
Schritt 3: Einen Selektor definieren
Für jedes Muster ist ein Selektor erforderlich, durch den die eindeutigen Eigenschaften des Musters identifiziert werden. Der Selektor wird dazu benutzt, alle Instanzen eines Musters im Bericht zu erfassen. Ein Detailselektor identifiziert z. B. die Eigenschaften, die alle Detailzeilen gemeinsam haben, aber bei anderen Zeilen nicht vorhanden sind. Ein richtig eingestellter Detailselektor erfasst dementsprechend nur Detailzeilen und ignoriert Kopfzeilen sowie Zeilen anderer Sortierebenen.
In der vorstehenden Abbildung befindet sich z. B. auf Position 9 aller Detailzeilen eine Zahl, gefolgt von zwei Leerzeichen:
Um diese Zeilen zu erfassen, können Sie den Selektor so einstellen, dass er auf Position 9 nach einem numerischen Zeichen sucht, dem zwei Leerzeichen folgen.
Ein Selektor wird, wie unten beschrieben, durch die Eingabe von Selektorzeichen in die Selektorzeile erstellt:
Die „Beispiel“-Textzeile und die „Selektorzeile“. Die Selektorzeile enthält einen definierten numerischen Selektor.
Beim Erstellen des Selektors werden Teile des Berichts durch Guillemets im Zeilenauswahlbereich markiert, um zu bestätigen, dass die Daten in diesem Bereich erfasst werden. Anhand dieser Markierungen können Sie überprüfen, ob der Selektor richtig definiert wurde.
Sie können in der Selektorzeile ein oder auch mehrere Selektorzeichen spezifizieren. Oftmals funktionieren verschiedene Kombinationen gleichermaßen gut. Es empfiehlt sich in der Regel, mehrere Selektorzeichen zu spezifizieren, um zu gewährleisten, dass nicht versehentlich Zeilen aus anderen Sortierebenen erfasst werden. Seien Sie dabei jedoch vorsichtig. Wenn Sie zu viele Selektorzeichen spezifizieren, besteht die Gefahr, dass einige der von Ihnen gewünschten Zeilen möglicherweise von der Selektion ausgeschlossen werden. Sie sollten mit dem Selektor ein wenig experimentieren, bis Sie eine Kombination gefunden haben, die gut funktioniert.
In einigen Berichten befinden sich die Detailfelder auf mehreren Zeilen, d. h. in einem Textblock. Es kann jedoch auch sein, dass die erste Zeile eines Textblocks nicht durch eindeutige Eigenschaften markiert ist.. Wenn Zeile 1 nicht verwendet werden kann, können Sie eine andere Zeile mit eindeutigen Eigenschaften angeben. In diesem Fall muss im Feld Selektorzeile die Beispielzeile angegeben werden, auf deren Basis die Selektion ausgeführt werden soll.
Sobald Sie sicher sind, dass der Selektor alle Detailzeilen, aber keine Zeilen anderer Ebenen erfasst, können die zu extrahierenden Felder hervorgehoben werden.
Data Prep Studio akzeptiert verschiedene Selektortypen, d. h. Standard-, Gleitende und Regex-Selektoren. Sie können den gewünschten, auf die Tabelle anzuwendenden Selektortyp aus der Dropdown-Liste Selektortyp auswählen.
Schritt 4: Felder markieren und benennen
So markieren Sie Felder:
Markieren Sie jedes zu extrahierende Feld in Anlehnung an die Beispielzeile. Die Länge jeder Feldmarkierung sollte ausreichen, um alle Feldwerte aufzunehmen, jedoch nicht so lang sein, dass die Markierung in die Daten eines angrenzenden Feldes hineinreicht. Bei numerischen Feldern, die rechtsbündig ausgerichtet sind, sollte sich die Markierung weit genug nach links erstrecken, um die größtmögliche Zahl im Feld aufnehmen zu können.
-
Mit der Maus. Klicken Sie in der Textzeile „Beispiel“ die linke Feldgrenze an und ziehen Sie dann bei gedrückt gehaltener Maustaste nach rechts, um das Feld zu markieren. Wiederholen Sie diesen Vorgang für jedes Feld, das extrahiert werden soll. Bei numerischen Feldern, die rechtsbündig ausgerichtet sind, sollten Sie beim Markieren des Feldes an der rechten Feldgrenze beginnen und dann nach links ziehen.
-
Mit der Tastatur. Die Tastatur erlaubt ein präziseres Markieren der Felder, da Sie hier zeichenweise vorgehen können. Klicken Sie in der Textzeile „Beispiel“, um den Cursor anzuzeigen. Verwenden Sie dann die Pfeiltasten, um den Cursor auf das erste Zeichen im Feld zu setzten. Drücken Sie danach die EINF-Taste und benutzen Sie anschließend die NACH-RECHTS-Taste, um das Feld zu markieren. Abschließend müssen Sie auf Eingabe drücken, um die Felddefinition zu bestätigen. Wiederholen Sie diesen Vorgang für jedes Feld, das extrahiert werden soll.
Sie können mit Hilfe der vertikalen Bildlaufleiste durch den Bericht blättern, um zu überprüfen, ob die Felder richtig definiert sind. Diese Methode kann jedoch umständlich sein, wenn Sie es mit sehr langen Berichten zu tun haben. Aus diesem Grunde bietet Monarch Data Prep Studio eine Feldprüffunktion, die den gesamten Bericht liest und die korrekte Definition der Felder überprüft.
So benennen Sie Felder:
Sie können jedes Feld im Bereich Feldeigenschaften des Fensterbereichs Muster- und Feldeigenschaften benennen. Sie sollten den Feldern geeignete, d. h. berichtsbezogene Namen geben.
-
Klicken Sie in der Zeile „Beispieltext“ auf ein Feld, das Sie umbenennen möchten.
Im Bereich Feldeigenschaften des Fensterbereichs Muster- und Feldeigenschaften werden die Beispielfeldwerte und der aktuelle Name des ausgewählten Feldes angezeigt. Wenn Sie das Feld noch nicht benannt haben, wird ihm automatisch ein vorläufiger Name zugeordnet.
-
Erstellen Sie einen passenden Namen für das Feld, indem Sie in das Feld Name klicken und den aktuellen Eintrag durch einen neuen ersetzen. Klicken Sie auf das Häkchen, das neben dem Feld angezeigt wird, um den Feldnamen zu übernehmen.
Feldnamen können bis zu 62 Zeilen lang sein und sowohl Großbuchstaben als auch Kleinbuchstaben sowie Leer- und Interpunktionszeichen enthalten, aber keine Punkte (.), Ausrufezeichen (!), Gravis-Zeichen (`) und auch keine eckigen Klammern ([]). Namen können mit jedem beliebigen Zeichen (außer Unterstreichungs- oder Leerzeichen) beginnen. Wird ein Name mit führenden Leerzeichen eingegeben, wird er zwar akzeptiert, aber die Leerzeichen dann einfach ignoriert.
Hinweis: Wenn Sie sich entscheiden, die DBF-Feldnamensgebung zu erzwingen, müssen alle Feldnamen mit den dBASE III-Feldnamenskonventionen konform gehen. Feldnamen können bis zu 10 Zeichen lang sein und jeden beliebigen Buchstaben, jede beliebige Zahl sowie auch den Unterstrich (_) enthalten. Das erste Zeichen muss ein Buchstabe sein. Leerzeichen und Interpunktionszeichen sind nicht zulässig.
-
Wiederholen Sie die Schritte 1 und 2 für jedes zu benennende Feld. Wenn mehrere Felder in einem Muster definiert werden, kann das nächste Feld durch Auswahl der Schaltfläche Nächstes Feld unten im Fensterbereich „Feldeigenschaften bearbeiten“ angezeigt und neu benannt werden.
Schritt 5: Feldeigenschaften bearbeiten
Jedes Feld wird anhand einer Reihe von Eigenschaften beschrieben, die es von anderen Feldern eindeutig unterscheidet. Diese Eigenschaften werden im Bereich Feldeigenschaften bearbeiten im Fensterbereich Muster- und Feldeigenschaften festgelegt, wenn ein Feld in der Textzeile „Beispiel“ ausgewählt wird. Verwenden Sie zum Ändern der Feldeigenschaften die Anweisungen unter Eingabefeld-Eigenschaften.
Schritt 6: Das Muster benennen und bestätigen
Sobald Sie mit den Selektor- und Felddefinitionen zufrieden sind, kann das Muster benannt und auf den Bericht angewandt werden.
-
Klicken Sie auf das Symbol Bearbeiten rechts neben dem Musternamen, um das Texteingabefeld zu aktivieren. Beachten Sie bitte, dass Monarch Data Prep Studio standardmäßig die aktuelle Musterrolle als Musternamen verwendet.
-
Geben Sie einen neuen Namen in das Feld Mustername ein.
-
Klicken Sie im Fenster „Berichtsentwurf“ auf Übernehmen, um Ihre Musterdefinition zu speichern. Andernfalls wählen Sie Abbrechen aus, um Ihre Änderungen zu verwerfen.
Schritt 7: Das Muster überprüfen
Nachdem das Muster erstellt wurde, können Sie es überprüfen, um sicherzustellen, dass keine Fehler oder Probleme auftreten.
Klicken Sie dazu in der Berichtsentwurf-Symbolleiste auf Berichtsüberprüfung.
Die Berichtsüberprüfung scannt dann den gesamten Bericht und überprüft dabei alle Feldgrenzen. Falls festgestellt wird, dass Zeichen über die Feldgrenze hinausreichen, markiert Monarch Data Prep Studio das betreffende Feld, um Sie darauf aufmerksam zu machen, dass die Länge des Feldes unter Umständen nicht ausreicht, um den Feldwert aufzunehmen, oder dass das Feld möglicherweise an der falschen Stelle definiert ist.
© 2024 Altair Engineering Inc. All Rights Reserved.