Datenvirtualisierung ist ein Konzept aus dem Datenmanagement, das in den nächsten Jahren immer wichtiger werden wird. Es ermöglicht die Datenintegration innerhalb eines Unternehmens, vereinfacht die IT-Infrastruktur und baut eine wertvolle Grundlage für die Datennutzung in Unternehmen. Dieser Artikel beantwortet die Fragen, warum Datenvirtualisierung immer wichtiger wird, warum es sich in vielen Anwendungsfällen um eine der besten (hybriden) Lösungen für Datenintegration handelt, wie sie implementiert werden kann und welche Herausforderungen auftreten können.

Bei steigender Menge an Daten und Datenquellen sollen Daten trotzdem vollständig sein, umfassend zugänglich, sicher abliegen, strukturiert und miteinander verbunden sein. Das kann Datenvirtualisierung leisten. Es lohnt sich, sich nicht davon abschrecken zu lassen, dass das Wording rund um Datenvirtualisierung kompliziert beziehungsweise der Begriff etwas verschwommen scheint: Datenvirtualisierung kann als ein Konzept für Datenmanagement und Datenintegration beschrieben werden. Das Ziel ist, der steigenden Anzahl von Datensilos entgegenzuwirken, die Daten aus verschiedenen Teilen des Unternehmens isolieren. Nach erfolgreicher Implementierung werden der übergreifende Zugriff auf Daten sowie deren Verwaltung und Bereitstellung ermöglicht.

Datenvirtualisierung wird implementiert, um die IT-Infrastruktur und -Architektur sowie Governance und Compliance zu verbessern und zu vereinfachen. Sie bietet auch eine wertvolle Hilfe bei Data Mining, vorausschauender Analytics, KI und Self-Service-Analytik, da der Zugriff auf eine große Anzahl an Datensätzen aus verschiedenen Quellen vereinfacht und beschleunigt wird.

ETL-Prozesse, deren Herausforderungen und ein alternativer Ansatz

Das Ziel des Datenmanagements ist das Erreichen einer Stabilität „nach oben“ für die Datennutzung und einer Flexibilität „nach unten“ in Richtung der Datenquellen. Es ist erstrebenswert, eine integrierte Ansicht der Daten aus verschiedenen Quellsystemen zu erstellen. Die bekannte Lösung hier ist Data Warehousing, die ETL-Prozesse zur Bereitstellung der Daten verwendet. ETL steht für Extrahieren, Transformieren und Laden. Es bezieht sich auf den Prozess der Übertragung von Daten von einem Ort zu einem anderen, während diese umgewandelt werden. Bei diesem Verfahren werden die Daten repliziert und in einem physischen Data Warehouse wiederhergestellt.

Obwohl ETL ein wichtiger und oft verwendeter Vorgehen zur Integration von Daten ist, ist dieser nicht fehlerfrei. Zum Beispiel ist bei der Replizierung und Bewegung von Daten Speicherplatz erforderlich, was Kosten verursacht. Außerdem hat das physische Bewegen von Daten immer ein Risiko in Bezug auf die Sicherheit der Daten.

Daher stellt sich in einigen Anwendungsfällen die Frage, ob es einen anderen Ansatz zur Integration von Daten gibt. Hier kommt Datenvirtualisierung ins Spiel. Sie kann ETL nicht vollständig ersetzen, ist aber ein großartiges Konzept für viele Anwendungsfälle oder zumindest eine gute hybride Lösung für eine Datenintegration zusammen mit ETL.

Datenvirtualisierung: Das Konzept

Die Virtualisierungsschicht und ihr Aufbau

Das Konzept der Datenvirtualisierung kann man sich am besten als eine virtuelle Schicht oder Plattform vorstellen. Diese wird manchmal als logischer Data Lake (Rohdaten) bezeichnet, der zwischen der Vielzahl der Datenquellen und den Datenkonsumenten liegt (siehe Abbildung 1). Bei der Implementierung dieser Schicht spielt es keine Rolle, wenn die Daten an verschiedenen Orten, über verschiedene Data Warehouses oder Dateiformate gespeichert sind. Datenkonsumenten müssen also nicht genau wissen, wo sich die Daten physisch befinden und wie diese auf Quellenebene organisiert sind, ob vor Ort oder in der Cloud.

Datenvirtualisierung ermöglicht Zugriff auf Daten in Echtzeit. Sie ist für Benutzer von einem einzigen Zugangspunkt aus ohne Aufwand und ohne nennenswerte Zeitverzögerung für Reports, Analysen, Visualisierungen oder andere Business-Intelligence-Prozesse erreichbar.

Darstellung der Datenvirtualisierungsschicht zwischen Datenkonsumenten und Datenquellen
Abbildung 1: Darstellung der Datenvirtualisierungsschicht zwischen Datenkonsumenten und Datenquellen

Für die Implementierung der Datenvirtualisierung braucht es einen Datenkatalog, ein unternehmensweites Verzeichnis der verfügbaren Datensätze. Der Datenkatalog zur Datenvirtualisierung darf nicht mit dem beschreibenden Katalog verwechselt werden, der mit Data-Governance-Tools erstellt wird, um eine umfassende Bestandsübersicht zur Verfügung zu haben. Er wird als interner „Datenmarktplatz“ verwendet und besteht aus Metadaten. Datenvirtualisierung mit ihren Möglichkeiten für Integration und Bereitstellung von Daten gibt dann die Möglichkeit, diesen Katalog zu durchsuchen – es handelt sich um einen virtuellen Data-Connector-as-a-Service.

Aufbau eines logischen Data Warehouse

Die virtuelle Schicht ermöglicht die Organisation von Daten in verschiedenen virtuellen Schemata und virtuellen Ansichten, die ein logisches Datenmodell darstellen können. Datennutzer können die Rohdaten aus Quellensystemen mit der Geschäftslogik des Unternehmens anreichern. Sie haben Zugriff auf die gewünschten modifizierten Datensätze, ohne diese physisch speichern zu müssen. Nach Verbindung, Umwandlung und Organisation der Rohdaten wird der logische Data Lake zu einem logischen Data Warehouse.

Herkömmliche Data Warehouses sind jedoch nicht veraltet. Sie können die Basis für den virtuellen Layer sein: Die virtuelle Schicht kann auf den Data Warehouses aufgebaut werden, wenn der Anwendungsfall und die Architektur dies erlauben. Damit lassen sich Daten aus verschiedenen Warehouses integrieren und es entsteht ein Data Warehouse der nächsten Generation.

Begrenzung von ETL und Zugriff

Zusammengefasst ist das logische Data Warehouse eine vereinheitlichte Datenzugriffsschicht, ein nicht-physischer „Speicher“ für die Informationen eines Unternehmens. Bei der Datenvirtualisierung werden die Daten weder repliziert noch verschoben, Datenvirtualisierung persistiert die Daten aus den Quellsystemen also nicht; stattdessen speichert sie die Metadaten zur Speisung der virtuellen Ansichten.

Auf das logische Data Warehouse kann mithilfe der Datenvirtualisierung über einen einzigen Zugangspunkt mit SQL-Anfragen, REST-API-Anfragen oder anderen üblichen Methoden zugegriffen werden. Es besteht kein Risiko, echte Daten unabsichtlich zu verändern – die Single Source of Truth bleibt unangetastet.

Implementierung von Datenvirtualisierung und Präsentation einiger Marktteilnehmer

Es gibt zwei Möglichkeiten, Datenvirtualisierung in einem Unternehmen zu implementieren.

  • Mitgelieferte Lösungen zur Datenvirtualisierung: Können z.B. mit Microsoft Polybase (Funktion im SQL Server 2019) oder mit SAP Smart Data Access erreicht werden. Beide Features für Datenvirtualisierung ermöglichen den einzigen Zugangspunkt zu einer virtuellen Schicht.
  • Kommerzielle Lösungen zur Datenvirtualisierung: Einige wichtige Marktteilnehmer, die Software zur Datenvirtualisierung anbieten, sind Denodo, IBM Watson Query, Data Virtuality oder SAP Data Warehouse Cloud. Data Virtuality kombiniert ETL mit Datenvirtualisierung, genau wie SAP DWC. SAP DWC ermöglicht die Integration verschiedener (ETL-)Tools und Anwendungen über native Funktionen für Integration und Virtualisierung.

In beiden Fällen bietet die implementierte Lösung ein Suchfeld, um das logische Data Warehouse nach Beschreibung, Besitzer oder Typ zu durchsuchen. Bei Bedarf sind der Standort der Daten und jede Transformation verfügbar, die in der virtuellen Datenschicht vor Bereitstellung der Datenansicht angewendet wurde. Datenkataloge, die als Bestandsüberblick dienen, werden ebenso integriert wie Caching-Möglichkeiten zur Performance-Verbesserung. Je nach Tool gibt es alle Arten weiterer Features, um die Datenarchitektur, Leistung oder den Zugriff auf die virtuelle Plattform zu verbessern.

Herausforderungen bei der Implementierung der Datenvirtualisierung

Bei der Implementierung der Datenvirtualisierung kann es einige Herausforderungen geben:

  • Die Einrichtung der Datenvirtualisierung bedeutet eine hohe Anfangsinvestition zur Vorbereitung von Servern und Speicherplatz. Außerdem können die regelmäßig anfallenden (z.B. monatlichen) Nutzungskosten bei externen Tools ein Kostenfaktor werden.
  • Bei mitgelieferte Optionen zur Datenvirtualisierung hängt die Implementierung stark von den Versionen der bestehenden Software und der IT-Architektur ab. Es ist nicht garantiert, dass eine Implementierung z.B. mit SAP SDA möglich ist.
  • Egal, ob es sich um eine eingebaute Lösung oder eine zusätzlich erworbene Anwendung handelt: Wenn viele Nutzer auf die virtuellen Daten zugreifen, können Performance-Probleme auftreten. In diesem Fall ist es sinnvoll, über eine Rückkehr zu ETL nachzudenken.
  • Datenbereinigung, Mapping und Transformation sind in dieser Schicht noch komplex.

Nach diesem Überblick über Datenvirtualisierung und wie sie in einer bestehenden IT-Landschaft angewendet wird noch ein Wort zu den Kosten: In den meisten Fällen ist die Implementierung eine hohe Investition und löst nicht alle bestehenden Probleme des Datenmanagements.

Wenn die Grundlagen des Datenmanagements bereits gelegt sind, bringt die erfolgreiche Implementierung dennoch große Vorteile für Unternehmen in den Bereichen IT-Infrastruktur, Governance und Compliance.
Außerdem ermöglicht die Implementierung einfacheren und schnellere Datenzugriff. Dies wiederum hilft Datennutzern im gesamten Unternehmen, sich auf die Bewertung der Daten zu konzentrieren –und damit Mehrwert für das Unternehmen zu schaffen.

Wir bieten bei CAMELOT einen ganzheitlichen Ansatz für Datenmanagement und Datenvirtualisierung und können Unternehmen während der verschiedenen Phasen von Erkundung und Implementierung mit unserer Erfahrung unterstützen. Falls Sie noch weitere Fragen haben, oder weitere Informationen benötigen, sprechen Sie uns gerne an.

DataDrivenLeaders

Die Community für Data Driven Leaders

Die Community für Data Driven Leaders vernetzt Branchenexperten und hält Sie mit exklusiven Einblicken auf dem Laufenden.

Werden Sie Teil der Data Driven Leaders

Empfohlene Artikel

Innovation

Data Science zur Gewinnung von Erkenntnissen

Im Zeitalter der digitalen Transformation sollten Unternehmen Machine-Learning-Methoden zur Optimierung ihrer Prozesse einsetzen. Es wurde viel darüber berichtet, wie Computer …

weiterlesen
Supply Chain Management

Ein neuer Blick auf die Resilienz von Supply Chains

Angesichts grundlegender Verwerfungen müssen Unternehmen die Gelegenheit nutzen, widerstandsfähige Supply Chains für die Zukunft aufzubauen und traditionelle, ineffektive …

weiterlesen
MDG

Optical Character Recognition Service in SAP MDG

Camelots Optical Character Recognition Service ist eine automatisierte und verlässliche Lösung, die relevante Daten in Dokumenten in Ihren SAP-MDG-Prozessen …

weiterlesen

Denken Sie Ihre Value Chain neu mit uns

Kontaktieren Sie uns