PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : (BASH) - Filtern einer ungleichen Ausgabe mit doppelten Nummern



syrius
16.12.2015, 15:40
Hi,


ich habe aktuell ein Problem bei dem ich nicht weiter komme und tue mir schwer auch über Suchmaschinen hilfreiche Ergebnisse zu finden.


Habe folgende Ausgabe:



/usr/local/bin/antrag/input/20151215160052297_01.txt:Auftragsnummer: 444185
/usr/local/bin/antrag/input/20151215160052297_07.txt:Auftragsnummer: 444058
/usr/local/bin/antrag/input/20151215160052297_13.txt:Auftragsnummer: 443949
/usr/local/bin/antrag/input/20151215160052297_15.txt:Auftragsnummer: 443949


Die letzten beiden Zeilen haben die gleiche Auftragsnummer. Jetzt darf ich aber nur folgende Ausgabe erhalten:



/usr/local/bin/antrag/input/20151215160052297_01.txt:Auftragsnummer: 444185
/usr/local/bin/antrag/input/20151215160052297_07.txt:Auftragsnummer: 444058
/usr/local/bin/antrag/input/20151215160052297_13.txt:Auftragsnummer: 443949


Es soll also die txt mit höherem Wert "_xx.txt" und gleicher Auftragsnummer von der Ausgabe ausgenommen werden.


Grüße

Nimbus
17.12.2015, 18:04
Ist die Eingabe schon so sortiert, dass man davon ausgehen kann, dass der 2. identische Eintrag der zu überspringende ist?

Falls ja, dann könntest du folgendes probieren "dein_cmd | uniq -s 68"

Das liefert hier bei mir das gewünschte Ergebnis mit der Beispieleingabe. Falls das nicht das gewünschte liefert, dann wäre es eventuell hilfreich, wenn du mehr Beispieldaten angibst bzw. uns über die Homogenität der Daten aufklärst. Damit würden sich dann eventuell andere Ansätze finden lassen.

syrius
03.01.2016, 00:49
Der Fehler lag bei mir schon viel vorher im System denn es hätte erst gar nicht zu doppelten Auftragsnummern in der Ausgabe kommen dürfen. Ich habe daher über zwei "for"-Schleifen gearbeitet.

Worum es überhaupt geht, unsere Archivierung scannt pro Tag mehrere hundert Seiten in ein PDF-Dokument das man getrennt und die PDF's am Ende nach Auftragsnummer neu und in einer ordentlichen Struktur archiviert haben möchte.

Wen es interessiert - oder das mal brauchen sollte, ich trenne das PDF Seite für Seite per "pdftk", dann nehme ich jede Seite her, konvertiere sie in ein "TIF" per "convert" und das dann in ein "TXT" per "tesseract-ocr". Aus dem "TXT" lese ich gewisse Punkte die nur auf der 1. Seite eines Auftrags vorkommen aus, füge die erste Seite des Auftrags bis zur letzten Seite des neuen Auftrags wieder zu einem PDF zusammen und das bis alle Seiten abgearbeitet sind bzw. der Scan/die Aufträge vollständig voneinander getrennt wurden.

Archiviert wird dann nach

YEAR
- MONTH-DAY
-- AUFTRAGSNUMMER_..._..._YEAR-MONTH-DAY.pdf

Danke für deine Bemühung @Nimbus)

Grüße