Die Automatisierung der Dokumentenverarbeitung ist aufgrund der hohen Anpassbarkeit eine der schwierigeren Initiativen der digitalen Transformation. Einige Unternehmen haben zwar versucht, die Dokumentenverarbeitung mit herkömmlichen OCR-Lösungen (Optical Character Recognition, optische Zeichenerkennung) zu automatisieren. Viele von ihnen durften feststellen, dass die herkömmlichen OCR-basierten Ansätze zur Dokumentenverarbeitung fehleranfällig und schwer zu skalieren sind. Daher ist das Ergebnis vieler Projekte die (wieder) menschlicher Überprüfung.  Die manuelle Datenextraktion aus Dokumenten benötigt viel Zeit, verursacht immense Betriebskosten und ist sehr anfällig für menschliche Fehler. Sie sorgt außerdem aufgrund der repetitiven Aufgaben für Frustration bei den Mitarbeitenden und, noch wichtiger, hindert diese daran, ihrem Unternehmen tatsächlichen Mehrwert zu bieten. Das CAMELOT Automated Data Extraction Tool (CADET) bietet eine automatisierte, branchenübergreifende Lösung, einschließlich einer optimierten Extraktion und Analyse aller physischen Dokumente. Es integriert die extrahierten Daten in Branchen-Standardsysteme wie SAP ERP.

Repetitiv, zeitaufwendig und unzureichende Datenqualität

Qualität und Sicherheit von Daten stehen an oberster Stelle. Dies trifft insbesondere auf Unternehmen aus der Pharma-, Biotechnologie- oder Chemie-Branche zu, wo von den entwickelten und gefertigten Produkten oft Leben abhängen. Daher ist es wichtig, dass die Datenqualität der Produkte immer gleich hoch bleibt. Die Sicherstellung der Datenqualität ist angesichts der Übergaben zwischen verschiedenen Anbietern innerhalb des komplexen Lieferkettennetzes sehr aufwändig. Ein Beispiel für dieses Problem ist die Qualitätsüberprüfung von Materialien (d. h. Analysezertifikate) in der Pharmabranche.

Es werden umfassende Qualitätsüberprüfungen für spezifische Materialeigenschaften durchgeführt, um die Einhaltung zuvor festgelegter Qualitätsstandards zu gewährleisten. Die Ergebnisse der Qualitätsüberprüfungen werden von handgeschriebenen Qualitätszertifikatsformularen manuell in das ERP-System eingegeben. Am Beispiel eines unserer Kunden aus dem Bereich Chemie und Life Sciences zeigt sich, dass dieses Unternehmen monatlich etwa 8.000 Dokumente verarbeitet, mit einer durchschnittlichen Bearbeitungszeit von 20 Minuten pro Dokument. Unser Kunde braucht für dieses Prozess insgesamt 160.000 Minuten im Monat, was etwa 17 Mitarbeitenden in Vollzeit entspricht, die ausschließlich Daten manuell in das System eingeben. Bei einem Gehalt von 50.000 Euro würde diese Aufgabe fast eine Million Euro im Jahr kosten! Zudem wäre die Qualität der Daten gefährdet, da die manuelle Datenreplizierung eines der fehleranfälligsten Verfahren im aktuellen Geschäftsprozess ist.

Unsere Software CADET ermöglicht eine automatisierte Datenextraktion und Systempflege, die das aktuelle Paradigma manuell gepflegter Einträge vollständig verändert. Sie bietet eine Standard-Lösung für eine harmonisierte Eingabeverwaltung sowie eine automatisierte Extraktion und Digitalisierung von Informationen, wobei die extrahierten Informationen zusätzlich gegen diverse externe/interne Quellen validiert werden. Die Lösung kann an jede Branche und Prozessanforderung angepasst werden.

Anpassbare Datenextraktion mit branchenübergreifenden Anwendungsfällen

Bei CAMELOT bieten wir flexible Anwendungsfälle auf der Grundlage von Projekten in verschiedenen Branchen. CADET arbeitet auf Basis von Amazon Textract, um mit Hilfe von OCR Dokumente in Text umzuwandeln, der von Computern verarbeitet werden kann. Im Folgenden bieten wir einen Überblick über Projekte mit CADET.

Extraktion von Daten über vom Kunden definierte Templates

Stellt die Datenextraktion auch für Ihr Unternehmen eine Herausforderung dar mit Tausenden von ähnlich strukturierten Dokumenten, die manuell überprüft werden müssen? Bei strukturierten Daten laden Sie ein Formular in unsere intuitive Webanwendung CADET hoch. Sie müssen lediglich die Stellen in dem Dokument festlegen, an denen Sie verschiedene Datenfelder erwarten. Wir haben mit Hilfe der strukturierten Datenextraktion in vorherigen Projekten mindestens 92 Prozent Genauigkeit bei handgeschriebenen Formularen erreicht – dank einer einzigartigen Kombination aus Amazon Textract und unserer automatisierten Validierung nach der Verarbeitung.

Materialspezifikationen für Lieferanten

Wenn Sie ein großes Unternehmen mit Hunderten oder Tausenden von Lieferanten sind, kennen Sie eventuell diesen Anwendungsfall: Einer unserer Kunden sah sich der Herausforderung gegenüber, dass er jeden Monat über 10.000 Materialspezifikationen von verschiedenen Lieferanten zu erhielt. Jeder Lieferant verwendete eigene Formate und Maße für diese Angaben. Jede Spezifikation kann überall in dem Dokument auftauchen und nicht alle Spezifikationen sind in jedem Dokument enthalten.

Wir haben den von Amazon Textract extrahierten Text in unseren eigenen Machine-Learning-Algorithmus eingegeben, der Materialeigenschaften, deren Maße und Einheiten (wenn angewendet) mit einer Genauigkeit von 89 Prozent (+/- 5 Prozent) erkennen kann. Dies bedeutet etwa 27 von 30 Dateneinträge, die korrekt extrahiert werden. Die Benutzeroberfläche ermöglicht eine spätere Validierung der Datenextraktion von CADET. Um diese Aufgabe zu vereinfachen, gibt CADET eine Wahrscheinlichkeit für die Korrektheit jedes Dateneintrags aus.

Digitalisierung von Chargenberichten in der Biotech-Branche

Prozesse in der Biotech-Branche zu verbessern, erfordert die Analyse großer Datenmengen. Aktuell fügen die meisten Biotech-Unternehmen die Datenberichte manuell in Excel-Tabellen ein, um diese anschließend zu analysieren. Dadurch entsteht ein enormer Aufwand, der sie von einer Datenanalyse abhält, die einen wirklichen Nutzen bringt. Dank CADET von CAMELOT können Biotech-Unternehmen nun die Datenextraktion automatisieren und die Daten aus den korrekten Formularen und Schemata mit einer Extraktionsgenauigkeit von 92 Prozent erhalten. Dies gilt auch für handgeschriebene Formulare.

End-to-End-Integration mit SAP ERP Systems für Sicherheitsdatenblätter

Sicherheitsdatenblätter sind in den meisten Arbeitsbereichen der Chemiebranche verpflichtend und werden streng durch verschiedene Compliance-Standards reguliert. Zusätzlich müssen diese Datenblätter in der Sprache des Ziellandes erstellt werden. Um die Datenextraktion und Dokumenterstellung für Sicherheitsdatenblätter zu unterstützen, haben wir diesen Prozess mit CADET für zwei Kunden aus der Chemiebranche nachgestellt.

Neben der Datenextraktion deckt unsere Lösung den gesamten Ende-zu-Ende-Prozess der Datendigitalisierung ab. Dank der Erfahrung von CAMELOT mit SAP können wir unsere Lösungen für die Datenextraktion in verschiedene ERP-Systeme integrieren (siehe Grafik).

Bei den Sicherheitsdatenblättern heißt das relevante SAP-System „SAP Environment, Health, and Safety Management“ (EHS). Das EHS-System beinhaltet die Standard-Vorschriften, um Sicherheitsdatenblätter aus den Systemeingaben zu erstellen. Wir verwenden die mit CADET extrahierten Daten als Input, um die erforderlichen Sicherheitsdatenblätter mit Hilfe des EHS-Systems zu erstellen. Dies erreichen wir dank einer RFC-Verbindung zu dem EHS-System und dem erforderlichen ABAP-Code.

Diese Lösung befindet sich derzeit in der Entwicklung. Aktuell können wir erfolgreich Informationen aus den Bereichen 1, 2, 8, 9 und 14 der Sicherheitsdatenblätter extrahieren und Sicherheitsdatenblätter erstellen. Unser Plan ist, dies auf das gesamte Dokument auszuweiten und die Lösung bis Ende 2022 als SaaS in AWS zur Verfügung zu stellen.

Datenqualität ist ein Muss im Zeitalter der Daten

Unsere Kunden stammen aus Branchen, in denen Datenqualität und -integrität der Schlüssel sind. Daher bieten wir ihnen zur Unterstützung einzigartige Leistungen, um Daten zu validieren. Diese Datenvalidierungsleistung umfasst einen Post-Processing-Algorithmus, der die bereits hervorragende Datenextraktionsqualität von Amazon Textract und unserer KI-Algorithmen verbessert. Wir geben unseren Kunden die Möglichkeit, ihre Datengenauigkeit durch Gegenprüfung mit ihrer Stammdatenbank noch weiter zu verbessern. So kann die Extraktionsgenauigkeit um 30 Prozent verbessert werden Einige Beispiele: Ein Eintrag mit dem Text „Bermany“ im Feld „Land“ würde zu „Germany“ normalisiert werden. Wenn Sie die Postleitzahl 69115 erhalten und die Datenbank eine Postleitzahl von 69715 für diesen Kunden gespeichert hat, dann können diese Unregelmäßigkeiten automatisch für Sie validiert werden.

Warum Amazon Textract?

Unserer Erfahrung nach ist Amazon Textract die beste OCR-Lösung von einem der Cloud-Provider. Sie extrahiert nicht nur mit hoher Genauigkeit Text aus Bildern, sondern ist auch besonders effektiv bei der Extraktion von Strukturen wie Tabellen und Formularen aus Bilddokumenten, was unseren Algorithmen eine großartige Flexibilität ermöglicht.

Als wir vor zwei Jahren unser erstes Datenextraktionsprojekt begannen, haben wir in einem ersten Schritt die großen Anbieter im OCR-Bereich miteinander verglichen. Damals war AWS sehr gut in der Erkennung von Drucktexten, aber weniger genau bei der Extraktion handgeschriebener Texte als die Mitbewerber. Allerdings hat Amazon Textract in nur einem Jahr eine erstaunliche Entwicklung genommen, sodass es jetzt mit der Datenextraktionsqualität der Wettbewerber mithalten kann und diese sogar übertrifft. Dies zeigt, dass AWS im Allgemeinen und Amazon Textract im Besonderen Leistungen bieten, die sich ständig selbst verbessern. Eine kontinuierliche Entwicklung bringt neue Features auf den Markt und erhöht ständig die Qualität. Außerdem bemüht sich AWS aktiv um Feedback von Kunden und Partnern zu ihren Erfahrungen und Branchenfachkenntnissen, was die Entwicklung neuer Features direkt beeinflusst. Aus unserer Sicht ist dies ein noch überzeugenderer Grund für die Wahl von Amazon Textract.

Die wichtigsten Features von Amazon Textract für unser Extraktionstool sind die Extraktion von Tabellen, handgeschriebenen Texten und die Sprachunterstützung, welche für die meisten westeuropäischen Sprachen unabdingbar ist. Amazon Textract ist außerdem widerstandsfähig, schnell und bietet eine erstaunlich leicht zu benutzende Programmierschnittstelle in verschiedenen Sprachen (Englisch, Deutsch, Portugiesisch, Französisch, Italienisch, Spanisch …). Die Struktur des Response-Data-Modells ist derart detailliert, dass wir es leicht und flexibel als Input für unsere hochwertigen KI-Algorithmen nutzen können, um die Datenextraktion für jede Art von Dokument zu erstellen.

Finden Sie Ihre Lösung

Bei CAMELOT haben wir uns bereits mehrfach und für verschiedene Branchen mit dem Problem der automatischen Datenextraktion beschäftigt. Jedes einzelne Projekt hat unser Wissen und unseren Erfahrungsschatz zu diesem Thema erweitert. Mit unserer umfassenden Erfahrung aus den letzten Jahren bieten wir ein branchenübergreifendes, hochgradig präzises und robustes Tool, mit dem sich die Datenextraktion für unsere Kunden automatisieren lässt.

Architektur von CADET in unserem End-to-End-Szenario der Informationsextraktion und der Erstellung von Sicherheitsdatenblättern mit Integration in das SAP-EHS-System.
Abbildung 1: Architektur von CADET in unserem End-to-End-Szenario der Informationsextraktion und der Erstellung von Sicherheitsdatenblättern mit Integration in das SAP-EHS-System.

Wir danken Jorge Abreu Vicente und Stefan Morgenweck für ihren wertvollen Beitrag zu diesem Artikel.

S/HANA Studie Banner

SAP S/4: Studie zur Transformation

Die Studie „Erwartungen an S/4HANA in 2022" von techconsult und CamelotITLab zeigt Stolpersteine der Migration und wie sie vermieden werden können. Mit Daten von 200 Unternehmen aus Deutschland.

Hier geht es zum Download

Empfohlene Artikel

Future Value Chain

Blockchain in der Gesundheitsbranche – Studie zu Marktreife und Trends

Wie stehen Pharmaunternehmen zum Einsatz der Blockchain-Technologie? Was unterscheidet die Blockchain von den derzeit genutzten Technologien? Welche Schwierigkeiten und Herausforderungen gehen …

weiterlesen
Future Value Chain

Automobilindustrie: Kreislaufwirtschaft am Beispiel Batteriemanagement

Kreislaufwirtschaft konkret: Potenzielle Geschäftsmodelle für Akteure im Automobilsektor am Beispiel von Antriebsbatterien für Autos.

weiterlesen
Logistics

Transportmanagement – Der richtige Umgang mit Kapazitätsengpässen

Themen wie webbasierte Logistikportal(e) und Transportprognosen sind wichtig, wenn es um Kapazitätsengpässe in der Logistik geht. Dieses Problem …

weiterlesen

Denken Sie Ihre Value Chain neu mit uns

Kontaktieren Sie uns