Datenkataloge ermöglichen das moderne Arbeiten mit Daten, inklusive der Optionen Glossare anzulegen und Funktionalitäten zur teamübergreifenden Zusammenarbeit zu integrieren. Sie helfen außerdem, neue Ansätze für das Datenmanagement wie Data Mesh umzusetzen und die Grundlage für den internen und externen Datenaustausch zu schaffen.

Häufige Herausforderungen im Metadaten-Management

In unserer modernen digitalen Welt basieren immer mehr Unternehmen auf Daten. Bedingt durch die steigende Datenmenge ist die Fähigkeit, Einblicke und Werte aus diesen Daten zu gewinnen, zu einem entscheidenden Wettbewerbsvorteil geworden. Vor allem große Unternehmen stehen häufig vor der Frage, wie sie diese Menge an Daten handhaben können. Dieser Blog beschäftigt sich mit den gängigen Herausforderungen des Managements von Metadaten, genauer mit der Frage, welche Rolle Datenkataloge in einer datenbasierten Welt spielen: Wo kann ich die Daten finden, die ich brauche? Wann wurden die Daten erstellt? Sind die Daten gültig? Wer hat Zugang zu den Daten? Wie ist die Qualität der Daten? Kann ich den Daten vertrauen? Was bedeuten die Daten? Welche Form kann ich erwarten?

Sind ein gut definiertes Rahmenwerk zum Metadaten-Management und ergänzende Tools noch nicht vorhanden, bleiben diese Fragen oft ungelöst oder es dauert sehr lange, sie zu beantworten. Oft Dabei wurzelt das Problem oft in heterogenen Datenlandschaften mit zahlreichen Systemen, in denen Daten auf unterschiedliche Weise gespeichert werden. Die fehlende Kontrolle über diese Daten führt zu schlechter Datenqualität, zahlreichen nicht genutzten Datensätzen oder hohem manuellem Aufwand für die Aktualisierung der verschiedenen Silos. Dies hat nicht nur ineffiziente Prozesse und höhere Kosten zur Folge, sondern auch unzufriedene Mitarbeiter. Deshalb ist Transparenz über alle Daten hinweg erforderlich, um diese für Analysen und Automatisierung nutzbar zu machen. Der Schlüssel zur Wertgenerierung sind die zugrundeliegenden Metadaten, die oft auch als „Daten über die Daten“ bezeichnet werden. Metadaten liefern verschiedene Informationen für die unterschiedlichen Benutzergruppen, um die Quelle, die Einflussfaktoren, den Inhalt, die Nutzung und technische Details der Daten verstehen zu können. Ein Datenkatalog ist ein zentrales Metadaten-Management-Tool , um Transparenz über und Vertrauen in Daten zu schaffen.

Was ist ein Datenkatalog?

Ein Datenkatalog ist das organisierte Inventar verteilter Datenbestände eines Unternehmens, einschließlich gesammelter Metadaten sowie zahlreicher Funktionen, die für unterschiedliche Teams von Nutzen sind. Mit diesem Katalog können Fachkräfte in verschiedenen Rollen auf die Daten zugreifen, diese verwalten und verarbeiten, um den benötigten Wert daraus zu extrahieren. Außerdem schließt er die Lücke zwischen Datenquellen und Datennutzern. Indem Daten für alle im Unternehmen zugänglich sind, schaffen Datenkataloge die Grundlage für die Extraktion von Wert aus den Daten mithilfe von Analytics, Data Science und Machine Learning.

Hauptmerkmale von Datenkatalogen

Wir haben das Konzept zu Datenkatalogen in diesem Blog-Beitrag bereits vorgestellt. Im Folgenden werden wir uns die wichtigsten Fähigkeiten und Eigenschaften verfügbarer Datenkatalog-Lösungen genauer ansehen:

  • Ein Glossar ist das Wörterbuch eines Katalogs, in dem die Bedeutung der Begriffe, Attribute oder Tabellen definiert werden. Außerdem sehen User die Beziehungen zwischen diesen Objekten. Auf diese Weise können auch Teams, die die Daten nicht kennen, die Bedeutung der Datensätze erfassen.
  • Während das Glossar für Klarheit in Hinblick auf geschäftliche Begriffe sorgt, liefert das Metadaten-Management Einblicke in die Daten selbst. Metadaten sind das „Protokoll“ über die eigentlichen Daten, in dem erfasst wird, wie diese strukturiert sind, woher sie kommen und wie sie sich ändern. Diese Informationen können entscheidend für die Teams sein, wenn es darum geht, Transparenz über ihre Daten zu erlangen.
  • Data Lineage erlaubt es, die Ursprünge eines Datensatzes zu verfolgen. Diese Funktion liefert dem Benutzer Informationen darüber, woher ein Datensatz stammt, wie er sich entwickelt hat und was geändert wurde.
  • Die Funktion der Suche hilft Benutzern, relevante Daten schnell zu finden, was die Tätigkeit von Analysten enorm effizienter macht.
  • Datenkataloge haben Funktionen zur Zusammenarbeit, die eine Kooperation der Teams unterstützen, so dass diese Kommentare in einen Datensatz schreiben, diese bewerten und „wiki“-ähnliche Artikel erstellen können. Gleichzeitig sind diese Funktionen zur Zusammenarbeit auch eine Möglichkeit, um per Crowdsourcing erlangte Metadaten über die Daten und ihre Qualität bereitzustellen. Auf diese Weise sind Datenkataloge nicht nur für interne Zwecke relevant, sondern bilden zugleich die Grundlage für die externe Datenbereitstellung.

Add-ons: ML- und KI-Funktionen in Datenkatalogen

Einige Datenkatalog-Produkte kombinieren Funktionalitäten mit Machine Learning und KI, um bestimmte Aspekte der Daten-Governance zu automatisieren und zu verbessern. Mögliche Szenarien sind beispielsweise die Verwendung von Verhaltensanalysen oder die Automatisierung von Aufgaben wie Profilerstellung und Klassifizierung. Auf diese Weise tragen diese Verfahren dazu bei, die Qualität, Exaktheit und Effizienz von Daten zu erhöhen, um Unternehmen die Handhabung der immer größeren Datenmenge zu ermöglichen.

Anonymisieren von Daten und Integration von Datenquellen

Datenkataloge können zum Schutz sensibler Daten beitragen, indem sie einen rollenbasierten Zugang, das Anonymisieren der Daten vor der Katalogisierung sowie die Implementierung von Datenrichtlinien unterstützen. Außerdem bieten die derzeit auf dem Markt erhältlichen Datenkatalog-Lösungen in der Regel vorgefertigte Konnektoren zur Integration der gängigsten Datenquellen bei minimalem Konfigurationsaufwand. Ein moderner Katalog verbindet alle Komponenten in einer intelligenten Plattform und wird auf Big-Data- oder Cloud-Infrastruktur entwickelt, um Skalierbarkeit zu ermöglichen. Die wichtigsten Merkmale eines modernen Datenkatalogs sind in Abbildung 1 zusammengefasst.

Die wichtigsten Merkmale eines modernen Datenkatalogs
Abbildung 1 Die wichtigsten Merkmale eines modernen Datenkatalogs

Datenkataloge als Wegbereiter in einer datengesteuerten Welt

Wird ein klassischer Ansatz verfolgt, sind gewöhnlich Data Engineers and Data Scientists für das Handling der Daten zuständig. Doch oft fehlen ihnen der Kontext der Daten sowie Wissen aus der Business-Perspektive bzw. aus dem Fachbereichen. Um das wahre Potenzial von Daten genau analysieren und erschließen zu können, ist die Business-Perspektive jedoch unerlässlich. Deshalb muss allen Teams, die Wert aus den Daten ableiten können, der Zugang ermöglicht werden, indem die Daten sichtbar und verständlich gemacht werden. Wir sprechen hierbei von einer Daten-Demokratisierung. Datenkataloge bilden hier eine wichtige Voraussetzung, da sie entscheidende Merkmale mitbringen, wie Metadaten, Glossar und Funktionalitäten zur teamübergreifenden Zusammenarbeit. Das Grundkonzept eines Datenkatalogs ist in Abbildung 2 dargestellt.

Grundkonzept eines Datenkatalogs
Abbildung 2: Das Grundkonzept eines Datenkatalogs

Datenkatalog für Data Mesh

Wie bereits erwähnt, stellen die Grundfunktionen von Datenkatalogen Mittel dar, um Attribute von Datenprodukten bereitzustellen, die eine Voraussetzung für Data Mesh bilden. Dieser neue architektonische Ansatz ist ein heiß diskutiertes Thema, da er organisatorische Maßnahmen anwendet, um die Engpässe traditioneller Datenarchitekturen wie Data Warehouse oder Data Lakes zu überwinden. Eine ausführlichere Einführung finden Sie in diesem Blog über Data Mesh. Statt eines zentralisierten Datenmanagements kommt ein dezentralisierter domänenbasierter Ansatz zur Anwendung, insbesondere für Analyse-Datensätze. Dabei sind die funktionsübergreifenden Teams, die die Daten am besten kennen, dafür zuständig, anderen Parteien Daten als Produkt (data products) bereitzustellen.

Auf diese Weise versucht Data Mesh, die Notwendigkeit eines zentralen Teams aus technischen Experten zu überwinden, die für die Bereitstellung von Daten an Konsumenten tätig werden müssen. Stattdessen setzt Data Mesh eine zentrale Selfservice-Plattform ein, um Datenprodukte auffindbar, zugänglich, interoperabel und wiederverwendbar zu machen (auch als FAIR-Prinzip bekannt). Auf der einen Seite ermöglicht die Plattform den Datenprodukteignern, Datenprodukte mit einem hohen Maß an Interoperabilität und Interkonnektivität zu erstellen. Auf der anderen Seite ermöglicht sie den Konsumenten, sich die benötigten Daten selbst zu beschaffen und diese zu verstehen. Mit einem Datenkatalog als entscheidender Komponente der Infrastruktur für Data Mesh wird dieser zu einer zentralen Voraussetzung für den internen und externen Datenaustausch.

Datenkatalog: immer unternehmensspezifisch

Letzten Endes muss ein Datenkatalog immer eine kundenspezifische Auswahl oder Kombination von Tools darstellen, weil jeder der auf dem Markt befindlichen Lösungen eigene Stärken und Schwerpunkte hat. Somit gibt es kein umfassendes Tool, das alle Kundenbedürfnisse abdeckt, weshalb das richtige Tool ausgehend von den spezifischen Anforderungen des Kunden ausgewählt werden muss. Für weitere Informationen kontaktieren Sie uns bitte.


Die Autoren danken Yosr Cheikh und Gregor Titze, Consultants für Data und Analytics, für ihre Mitarbeit an diesem Artikel.

 

 

DataDrivenLeaders

Die Community für Data Driven Leaders

Die Community für Data Driven Leaders vernetzt Branchenexperten und hält Sie mit exklusiven Einblicken auf dem Laufenden.

Werden Sie Teil der Data Driven Leaders

Empfohlene Artikel

Future Value Chain

Chemie 4.0 – Mythos oder Realität?

Seit Jahren wird vorausgesagt, dass die Digitalisierung die Geschäftsmodelle in der chemischen Industrie grundlegend verändern werde. Doch wird die …

weiterlesen
Innovation

So integrieren Sie Daten aus SAP Analytics Cloud in SAP Data Warehouse Cloud

Erfahren Sie in diesem Video-Tutorial, wie Sie Daten aus SAP Analytics Cloud (SAC) in SAP Data Warehouse Cloud (DWC) integrieren und …

weiterlesen
MDG

So gelingt die Einführung von MDG bei paralleler S/4HANA-Transformation

Einführung von SAP MDG neben einem S/4HANA Transformationsprojekt? Dies führt zu vielen Herausforderungen, wie z. B. mangelndes Verstä…

weiterlesen

Denken Sie Ihre Value Chain neu mit uns

Kontaktieren Sie uns