Das Datenvolumen und die Häufigkeit von Datenänderungen sind im Rahmen der Digitalisierung exponentiell gestiegen. Dies hat äußerst heterogene Datenlandschaften mit vielen verschiedenen Datenquellen zur Folge. Um die Vorteile von Big Data erfolgreich nutzen zu können, sind vor allem größere Transparenz und ein schneller Datenzugriff erforderlich. In früheren Informationsmanagement-Projekten stellte CAMELOT fest, dass viele datengetriebene Unternehmen Anwendungsfälle ausloten, um die Big Data Governance zu optimieren.

Was ist ein Datenkatalog und wozu dient er?

Ein Datenkatalog (Data Catalog, DC) ist dafür konzipiert, Benutzern das schnelle Auffinden der richtigen Informationen zu ermöglichen. In komplexen Datenumgebungen mit mehreren Quellen ist diese Aufgabe umso wichtiger geworden. Es bedarf der Unterstützung durch ein geeignetes Tool, damit die Benutzer die Informationen innerhalb eines festgelegten Rahmens von Workflows und Regeln gemeinschaftlich nutzen können. Data Liberation („Befreiung“ bzw. Export von Daten) sollte mittels schnellen Zugriffs und einfacher Durchsuchbarkeit gewährleistet werden.

Wer benötigt einen Datenkatalog?

Ein DC-Tool kann über verschiedene Domänen hinweg genutzt werden, darunter Beschaffung, Vertrieb, Finanzen und Supply Chain Management. Datenanalysten, Datenwissenschaftler, Dateneigner und weitere Rollen sind darauf angewiesen, Daten zu finden und zu verstehen. Ein Datenwissenschaftler muss beispielsweise auf verschiedene Datendomänen und -quellen zugreifen können, etwa aus einem ERP- oder CRM-System heraus. Über einen Workflow könnte der Zugriff auf domänenspezifische Tabellen vom Domänenexperten, zum Beispiel einem Dateneigner von ERP-Materialdaten, gewährt werden. Diese Governance ist deshalb wichtig, weil beispielsweise nach DSGVO nicht alle Daten für jeden Benutzer zugänglich sein dürfen. Mit strenger Governance über alle Prozesse und Rollen hinweg sorgt ein DC für Compliance und Datenschutz.

Wie kann ein Datenkatalog genutzt werden?

Es ist wichtig, dass der DC eine Geschäftsbereichsdefinition der Daten enthält und die Informationen entsprechend strukturiert, damit die Benutzer verschiedener Abteilungen unabhängig voneinander mit ihnen arbeiten können. Dies unterscheidet den Datenkatalog klar von einem Datenmodell, da die Anwendergruppe nicht zwangsläufig auf Datennutzer beschränkt ist. Mit seinem breiten Funktionsspektrum kann ein DC Rohdaten aus verschiedenen Quellen in gebrauchsfertige Daten für unterschiedliche Anwender umwandeln. Er bietet gewisse Aspekte der Datenvisualisierung, unter anderem Scorecards, Dashboards zur Datenqualität und Berichte. Daten-Governance ist eine weitere Funktion mit rollenbasierten Darstellungen oder der Möglichkeit zur Nutzung von Workflows. Darüber hinaus können Funktionen in den Bereichen Datenkooperation, Datenanalyse, Datenmodellierung, Datenintegration oder Metadatenmanagement Teil einer DC-Plattform sein Abbildung 1: Der Datenkatalog als Brücke zwischen Datenquellen und Datennutzern

CAMELOT-Experten wissen aus Projekterfahrung, dass es sich bei DCs um Plattformen handelt, die mehrere Trendthemen vereinen. Dies hat eine große Vielfalt von Lösungen mit unterschiedlichen Stärken zur Folge. So bieten manche Lösungen Vorteile im Bereich Datenqualität, andere bei der Datenkooperation. DCs zielen auf explorative Big-Data-Szenarien ab und sorgen so für eine erfolgreiche Governance des Datenanalyse-Teils. Es ist äußerst wichtig, mit unseren Kunden den echten Anwendungsfall zu identifizieren, den sie mit einer potenziellen Tool-Unterstützung bewältigen wollen. Allgemein sieht CAMELOT in DCs ein enormes Potenzial, um Data Liberation, Transparenz und Vertrauen zu erzielen.

Wir danken Sascha Zygar für seinen Beitrag zu diesem Artikel. 

Kommentare

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht.

Empfohlene Artikel

Innovation

IoT und Digital Manufacturing: Vernetzung auf allen Ebenen

Im Internet der Dinge geht es per se um Vernetzung. Doch viele IT-Verantwortliche schöpfen das Potenzial einer Integration auf den …

weiterlesen
Innovation

SAP-ILM-Funktionen und wie man sie am besten nutzt

In Anbetracht des exponentiell wachsenden Datenvolumens und der fehlenden End-to-End-Sicht auf den Informationslebenszyklus benötigen Unternehmen eine ganzheitliche ILM-Lösung anstelle …

weiterlesen
Innovation

Process Mining – Erfolgskritisch oder nicht?

Kaum ein Mediziner, Forscher oder Patient kann oder möchte heute noch auf die Computertomographie verzichten. Sie schafft Transparenz und ist …

weiterlesen