Datenvirtualisierung erklärt:
Vor- und Nachteile, Beispiele, Tools

Datenvirtualisierung erklärt:
Vor- und Nachteile, Beispiele, Tools

Virtualisierung ist ein mächtiges Prinzip, das in der IT in verschiedensten Bereichen erfolgreich zum Einsatz kommt. Es lässt sich auch auf Daten anwenden, um Nutzern und Anwendungen den einfachen Zugriff auf verschiedene Dateiformate und Informationen zu gewähren, die in unterschiedlichsten Quellen gespeichert sind. Das müssen Sie zu Datenvirtualisierung wissen.

 

Dass Datenmanagement ein komplexes Thema ist, können selbst Privatnutzer einfach nachvollziehen. Verschiedene Dateiformate und unterschiedliche Speicherorte erschweren den nahtlosen Zugriff auf die eigenen Daten selbst in überschaubaren Konstellationen zuhause. In komplexen IT-Umgebungen in Unternehmen ist die Herausforderung ungleich höher. Oft werden dann teure Data-Warehouse-Projekte aufgesetzt, um Daten aus mehreren verschiedenen Quellen zusammenzuführen. Das muss nicht immer sein bzw. es gibt oft elegantere Lösungen.

 

In der täglichen Unternehmenspraxis werden Daten aus verschiedensten Anwendungen und in unterschiedlichen Dateiformaten verarbeitet und gespeichert. Die meisten Firmen zapfen zum Beispiel im Schnitt allein 400 verschiedene Datenquellen für ihre Business-Intelligence-Vorhaben an. Auch physisch liegen diese Daten sicher nicht an einem zentralen Ort. Ein Teil ist auf On-Premise-Systemen verteilt, ein anderer liegt in verschiedenen Clouds, dazu kommen möglicherweise Daten aus sozialen Medien oder aus Big-Data-Projekten und alles in unterschiedlichsten Datenformate. Mit Datenvirtualisierung sollen alle Anwendungen in Echtzeit auf alle Daten zugreifen können, unabhängig von Quelle, Format oder Standort. Klingt gut, das steckt dahinter.

Definition: Was ist Datenvirtualisierung?

Server-Virtualisierung ist vielen IT-Teams als eine effizientere Nutzung der physischen Computer-Hardware bekannt und bildet die Grundlage für Cloud Computing. Vereinfacht gesagt, wird dabei über eine heterogene Hardware-Schicht eine homogene Software-Schicht gelegt, über die dann ein einheitlicher Zugriff erfolgt. Das gleiche Prinzip lässt sich auch gezielt auf Daten anwenden, die in verschiedenen Formaten auf unterschiedlichen Geräten gespeichert sind. Werkzeuge zur Datenvirtualisierung ziehen eine Software-Schicht zwischen die Anwendungen, die die Daten verarbeiten und die Systeme, auf denen sie gespeichert sind. Die Zwischenschicht bindet die verschiedenen Datenquellen an, übersetzt Datenabfragen bedarfsgerecht in Echtzeit und liefert passende Ergebnisse schnell zurück. Dabei ist es für Anwendungen unerheblich, wo und in welchem Format die Daten tatsächlich gespeichert sind. Damit ist Datenvirtualisierung ein cleverer Ansatz des Datenmanagements und kann dabei helfen, Datensilos aufzubrechen. Datenvirtualisierung ist sicher nicht die Lösung für alle Anforderungen, aber eine bedenkenswerte Alternative, wenn andere Arten der Datenintegration nicht realisierbar oder schlicht zu teuer oder umständlich sind.

 

Architektur & Bestandteile: Wie sieht die Architektur hinter Datenvirtualisierung aus?

Das besondere Merkmal der Datenvirtualisierung ist, sie extrahiert und transformiert die benötigten Informationen aus verteilten Quellen dynamisch bei der Abfrage. Es werden also nicht erst Daten verschoben und dann zentral abgerufen, vielmehr erfolgt die Verarbeitung in Echtzeit aus den unterschiedlichen Quellen. Oft ist in diesem Zusammenhang die Rede davon, dass die Daten nicht zur Anwendung gebracht werden, sondern die Anwendung zu den Daten. Datenvirtualisierung läuft dabei grob in drei Schritten ab:

  • Anbindung der Datenquellen: Datenvirtualisierung steht zwischen den Datenkonsumenten auf der einen Seite, also zum Beispiel Unternehmensanwendungen, und den verschiedenen Datenquellen auf der anderen Seite. Damit eine Echtzeitabfrage überhaupt funktionieren kann und auch wirklich alle Daten erfasst werden, müssen erst spezielle Konnektoren die Verbindungen zu den vorhandenen Datenquellen im Unternehmen herstellen. Die sind auch alles andere als in Stein gemeißelt, denn IT-Teams müssen praktisch ständig neue Datenquellen anbinden. Über die Konnektoren werden die benötigten strukturierten oder unstrukturierten Daten angezapft und der Virtualisierungsebene bereitgestellt. Clouds oder Software-as-a-Service-Anwendungen können das genauso sein wie Datenbanken oder Data Warehouses oder auf File-Servern gespeicherte Excel-Files. Schon in diesem Schritt werden Datenquelltypen konvertiert und normalisiert, damit den weiteren Schritten einheitliche Ansichten bereitstehen.
  • Verarbeitung und Vorbereitung der Daten: Im zweiten Schritt erfolgt die Verarbeitung der Daten, die sich an dieser Stelle flexibel kombinieren lassen. Dafür liefert die Datenvirtualisierung Bibliotheken mit Vorlagen und Komponenten für Workflow, Navigation und Extraktion sowie die Strukturierung von halbstrukturierten und unstrukturierten Daten. Daten lassen sich zum Beispiel über logischen Operatoren zu kombinierten Datenansichten zusammenfassen. In diesem Schritt können Unternehmen zusätzlich eingreifen und Datentransformationen, Metadatenmodellierung, Datenqualität und semantische Abgleichsoperationen mit SQL oder anderen Tools durchführen.
  • Datenbereitstellung: Abschließend erfolgt die eigentliche Bereitstellung der Daten für die Applikation im gewünschten Format, zum Beispiel in einem Datenbank-Schema. Datenvirtualisierungswerkzeuge liefern Daten zur Weiterverarbeitung wie ein Data Warehouse, stellen also zum Beispiel Tabellen bereit, die dann mit SQL durch BI- und Analysewerkzeuge weiterverarbeitet werden können. Hört sich einfach an, es gibt an dieser Stelle aber umfassende Optionen für die Datenbereitstellung, um den Anforderungen von verschiedenen Geschäftsanwendern zu entsprechen.

 

Vorteile der Datenvirtualisierung

Datenvirtualisierung bietet zahlreiche Vorteile. Ausgangspunkt sind verschiedene Quellsysteme mit heterogenen Daten. Die lassen sich einfach anbinden und es gibt einen einfachen Zugriff über eine Ebene, der unabhängig davon ist. Anwender müssen sich auch gar nicht damit befassen, in welcher Form bzw. wo die abgefragten Daten vorliegen. Weiterer Vorteil: Die Verwaltung der Daten ist vereinfacht. Im Vergleich zur klassischen Datenintegration können Daten in ihren Quellsystemen verbleiben. Die Abfrage ist wesentlich agiler möglich und es lassen sich Kosten für Speicherplatz sparen, weil man weniger Datenkopien erzeugt. Richtig implementiert erfolgt der Zugriff in Echtzeit. Das ist schnell, dynamisch und spart sogar Ressourcen und Kosten. Unternehmen werden damit auch in der Praxis flexibler, denn neue Datenquellen lassen sich einfacher einbinden.

 

Die Single Source of Truth ist ein in vielen Unternehmen angestrebtes Konzept, das sich durch Datenvirtualisierung erreichen lässt. Gemeint ist damit, dass jeder Entscheidungsträger im Unternehmen sein Handeln auf die gleichen Daten stützen kann. Arbeitet jeder mit seinen eigenen Daten, ist der Blindflug oder zumindest eine Verzögerung bei Business-Entscheidungen vorprogrammiert. Lange Zeit galt als Voraussetzung für die einheitliche Datengrundlage eine zentrale physische Quelle, Datenvirtualisierung stellt die einheitliche Quelle in einem modernen Unternehmen bereit. Im Vergleich zu Data Warehouses oder anderen ETL-Lösungen (Extract, Transform, Load) ist bei Datenvirtualisierung keine Replizierung der Daten notwendig. Das steigert Datenqualität- und -flexibilität und kann Kosten und Speicherressourcen niedrig halten. Gleichzeitig gewinnen Unternehmen an Agilität bei der Analyse und kriegen tiefe Einblicke in die vorhandenen Unternehmensdaten.

 

Nachteile, Herausforderungen und Risiken

Doch wie immer sollte man bei aller Begeisterung für das Thema Datenvirtualisierung die möglichen Nachteile nicht übersehen. Die gibt es zweifellos, auch wenn das Konzept schon sehr gut auf moderne Unternehmen mit vielen verschiedenen Datenquellen passt. Die gewählte Lösung zur Datenvirtualisierung muss alle Datenarten unterstützen, die im Unternehmen eingesetzt werden. Da die Zahl der Datenquellen ständig wächst, braucht man einen verlässlichen Partner, der die passenden Konnektoren liefert. Solange die Daten in Echtzeit geliefert werden, funktioniert das Konzept der Datenvirtualisierung. Doch in der Praxis können langsame Quellsysteme unangenehm bremsen. Letztendlich kann ein BI-Bericht erst dann erzeugt werden, wenn die langsamste Datenquelle geliefert hat. Kluges Caching und optimierte Anfragen können dieses Problem lindern. Trotzdem kann eine knifflige Aufgabe für IT-Teams bleiben, denn manche Datenquellen sind einfach nicht für Massenabfragen ausgelegt. Hier können auch unerwünschte Nebeneffekte eintreten, etwa abgestürzte ERP-Systeme. Konsequenterweise lassen sich über Datenvirtualisierung auch nur Echtzeitanalysen ausführen. Um Analysen mit historischen Daten auszuführen, braucht man andere Lösungen.

 

Datenvirtualisierung vs. Data Warehouse

Die Problemstellung ist bei Datenvirtualisierung und Data Warehouses gleich: Man hat verschiedenste Datenquellen und möchte diese Daten auswerten, sucht also einen Weg für die Datenintegration. Der klassische Ansatz ist dabei das Data Warehouse. Soll zum Beispiel ein BI-Bericht erstellt werden, kommen vorab Datenintegrationswerkzeuge zum Einsatz. Die laden und verarbeiten Daten und speichern die fertigen Informationen im Data Warehouse. BI-Berichte verwenden dann diese Daten. Eine leistungsfähige Lösung aus diesem Bereich ist zum Beispiel IBM DataStage. Da von diesen Werkzeugen Daten extrahiert, transformiert und geladen werden, spricht man im IT-Jargon auch von ETL-Lösungen (Extract, Transform, Load). Der Knackpunkt ist das Verschieben der Daten. Für Data Warehouses müssen Daten also repliziert werden. Es werden also Daten kopiert und mehrfach gespeichert, um Verfügbarkeit und Datenzugriff zu verbessern. Genau das entfällt bei der Datenvirtualisierung. Sie belässt sämtliche Daten in den Quellsystemen. Statt also Daten von A nach B zu kopieren, stellt die Datenvirtualisierung eine integrierte Sicht auf vorhandene Daten bereit. Soll also ein BI-Berichte erstellt werden, ruft man per Datenvirtualisierung die benötigten Daten live aus den verschiedenen Datenquellen ab. Für die Anwendungen macht es keinen Unterschied, ob man ein Data Warehouse oder Datenvirtualisierung einsetzt, denn beides sieht nach außen gleich aus. Datenvirtualisierung erlaubt es zum Beispiel sehr schnell neue BI-Anforderungen umzusetzen. Im Data Warehouse müsste man erst neue Tabellen anlegen.

 

Praxisbeispiele Datenvirtualisierung

Datenvirtualisierung ist keine Spezialdisziplin, sondern in vielen Branchen einsetzbar. Im Grunde ist sie überall dort eine Überlegung wert, wo Daten aus vielen verschiedenen Quellen zu analysieren sind. Anstelle eine zusätzliche Datenhaltung im Data Warehouse zu implementieren, ist über Datenvirtualisierung eine direkte Schnittstelle zu den Quellsystemen möglich:

  • Gesundheitswesen: Im Gesundheitswesen kann Datenvirtualisierung zum Beispiel zur Analyse von Studiendaten dienen. Oft sind hier viele verschiedene Kliniken und Universitäten beteiligt, das Zusammenführen der erhobenen Daten ist dabei eine Herausforderung, weil die Datenquellen uneinheitlich sind. Datenvirtualisierung kann diese heterogenen Quellen einfach verbinden.
  • Medienwirtschaft: Auch für die Entwicklung von Marketing-, Medien- oder Werbestrategien werden Daten immer wichtiger. Datenvirtualisierung kann zum Beispiel dabei helfen, Kundendaten aus sozialen Netzwerken auszuwerten.
  • Finanzwesen: Viele Unternehmen der Finanzbranche mussten sich in den letzten Jahren neu erfinden. Einerseits gibt es noch Mainframe-Systeme im Einsatz, andererseits sollen moderne Fintechprodukte entwickelt werden. Mit Datenvirtualisierung können bestehende Silos aufgebrochen werden, außerdem lassen sich Betrugserkennung und Risikodatenerkennung verbessern.

 

Wie starten mit der Datenvirtualisierung?

Datenvirtualisierung lässt sich nicht über Nacht einfach zuschalten, auch wenn sich das viele Unternehmen wünschen. Zuerst sollte man evaluieren, ob Datenvirtualisierung ein Konzept ist, das im eigenen Unternehmen nützlich sein könnte. Gibt es im Unternehmen hohen Druck für schnelles, kosteneffizientes Reporting, möglicherweise sogar in Echtzeit?

Sprechen vielleicht gesetzliche Regelungen dagegen, bestimmte Daten zu replizieren? Müssen Sie viele externe Quellen in interne Anwendungen integrieren? Fällt dabei ein Mix aus unstrukturierten und strukturierten Daten an? Am besten helfen in diesen Fällen Experten für Datenvirtualisierung weiter. Evaluieren Sie das Konzept erst im Kleinen, vielleicht mit wenigen Projektdatensätzen. Wichtige Punkte bei der Evaluierung: Datenvirtualisierung muss möglichst agil sein. Datenquellen müssen nicht nur angebunden werden, sondern Daten müssen auch geprüft und Beziehungen entdeckt werden. Je einfacher sich schwierige Aufgaben automatisieren lassen, desto besser. Performance ist ein kritischer Punkt bei Datenvirtualisierung, wichtig sind Funktionen zur Laufzeitoptimierung von Anfragen sowie ein Zugriff auf zwischengespeicherte Daten, also cleveres Caching.

 

Datenvirtualisierung: Lösung von IBM

IBM hat im Bereich Datenvirtualisierung seine Plattform IBM Cloud Pak for Data zu bieten. Die hilft dabei, die Produktivität in Unternehmen zu steigern und gleichzeitig die Komplexität zu reduzieren. IBM Datenvirtualisierung ermöglicht Echtzeitanalysen ohne Datenverschiebung, Duplizierung, ETL-Prozesse oder zusätzliche Speicheranforderungen. Dadurch werden die Verarbeitungszeiten erheblich beschleunigt, während Sicherheit und Governance einfacher werden. Die Lösung ist als Peer-to-Peer-Rechnernetz konzipiert und aufgebaut, was einen erheblichen Vorteil gegenüber herkömmlichen Verbundarchitekturen bietet. Die integrierte Datenvirtualisierungs-Engine ist in der Lage, Abfrageergebnisse aus mehreren Datenquellen schnell zu liefern, indem sie fortschrittliche parallele Verarbeitung und Optimierung nutzt. Performance-Probleme braucht man nicht befürchten. Der auf maschinellem Lernen basierender DB2 Machine Learning Optimizer verfeinert Abfragepfade mit jeder Ausführung. Dazu ahmt er Muster neuronaler Netze nach, was zu schnelleren Ergebnissen führt – einige Abfragen werden so 8- bis 10-mal schneller ausgeführt, wie IBM interne Tests ergaben.

 

Sollten Sie noch weitere Informationen zur Datenvirtualisierung benötigen, wenden Sie sich gerne an unsere Expertin.

 

FRAGEN SIE EINE EXPERTIN