Allein in den USA entstehen jährlich Wirtschaftsschäden von rund 600 Milliarden Dollar durch mangelhafte Datenqualität, ergab eine Studie des Data Warehousing Institute. „Wenn man diese Zahlen auf Deutschland umrechnet, entspricht das einer Belastung von zirka 186 Milliarden Euro“, so Jochen Kokemüller, Mitarbeiter des Competence Teams Informationsmanagement am Fraunhofer- Institut für Arbeitswirtschaft und Organisation (IAO). Mangelhafte Daten wirken sich negativ auf die Geschäftsprozesse aus. Sind zum Beispiel Adressdaten falsch, reicht das Problem von verschwendeten Portoausgaben bis zum Verlust von Kunden. Das Bereinigen und Pflegen von Datenbeständen verschlingt andererseits viel Zeit und Geld.

Datenqualität bringt Mehrwert

„Die Qualität bemisst sich im Endeffekt daran, was man mit Daten anfangen möchte. Eine genaue Begriffsbestimmung ist schwierig“, sagt Carsten Bange, Geschäftsführer des Business Application Research Center (Barc). Der Analyst findet die englische Bezeichnung „Fitness for Use“ (Gebrauchstauglichkeit) treffender. Die Daten müssen für den jeweiligen Einsatzzweck geeignet sein und bringen nur so einen Mehrwert. Das Problem liege jedoch darin, dass der gleiche Datensatz für verschiedene Anwender unterschiedliche Qualität haben kann – je nachdem, wofür sie die Daten benötigen. „Daten haben eine hohe Qualität, wenn sie einen Mehrwert schaffen und wertschöpfend sind“, ergänzt Kokemüller.

Eine Möglichkeit, Datenqualität zu bestimmen, bietet die Einteilung des Massachusetts Institute of Technology (MIT). Mit Hilfe von 15 Informationsqualitäts-Dimensionen wird die Qualität der Daten beispielsweise anhand von Glaubwürdigkeit, Wertschöpfung, Relevanz und Interpretierbarkeit bewertet. Die Messung ist aber nicht trivial. So lassen sich Bereiche wie Aktualität und Relevanz mit Hilfe von Management-Werkzeugen überprüfen. Allerdings gibt es auch schwer zu fassende Kriterien wie Konsistenz oder Fehlerfreiheit. Sind eingegebene Adressen und Namen überhaupt existent, oder gehören sie zu einer anderen Person? Die häufigste Fehlerquelle in Datenbanken ist die Dublette. Kokemüller weist in diesem Zusammenhang auf die objektive und die subjektive Form der Datenqualität hin. Dubletten entstehen häufig durch menschliche Fehler wie die unterschiedliche Schreibweise von Namen oder Adressen. Sie werden dadurch subjektiv als schlecht wahrgenommen. Aus Müller wird Mueller oder Steph(f)an wird einmal mit „f“ und ein anderes Mal mit „ph“ eingetragen. Fehler, die sich nur mühsam bereinigen lassen.

Eine besonders komplexe Dimension, die häufig unterschätzt wird, ist die Vollständigkeit von Datensätzen. Das MIT differenziert hier zwischen drei Formen.

1. Die schematische Vollständigkeit definiert, ob alle Informationen abgebildet sind.

2. Gleichzeitig kommt es auf die Abdeckung an, also ob in einer Datenbank die festgelegte Grundgesamtheit zum Beispiel von Kunden vorhanden ist.

3. Schließlich stellt sich die Frage nach der Dichte von Informationen. Sind alle Attribute ausgefüllt, oder fehlen Werte?

Speziell bei der Dichte von Daten existieren häufig Probleme. Ein Klassiker ist die Angabe des Berufs: Es kann passieren, dass auffällig viele Kunden in einer Datenbank Architekten sind. Der Grund ist die Vorgabe von Berufen, die sich bei der Datenerhebung etwa über ein Drop-down-Menü auswählen lassen. Fehlt die Angabe, bleibt der vorgegebene Wert „Architekt“ stehen, und der Fehler fällt erst bei der Auswertung auf.

Vier Ursachen für schlechte Daten

Datenqualitätsprobleme sind vielfältiger Natur und lassen sich zur Ursachenforschung in vier Gruppen einteilen:

1. Häufig ist in Unternehmen die Verantwortung für das Daten-Management nicht klar geregelt, so dass eine genau definierte Organisation fehlt. Wer ist für das Management der Informationen verantwortlich? Wem gehören die Daten?

2. Direkt angeschlossen ist der Prozess des Daten-Managements. Hat das Unternehmen eine Data Governance, die Richtlinien bei der Verwaltung von Daten festlegt? Wurden die Daten auf Fehler überprüft, bevor man sie in die Datenbank übernimmt?

3. Die dritte Ursache ist der menschliche Faktor. Wurden die Mitarbeiter ausreichend geschult? Sind die Richtlinien für das Daten-Management eindeutig definiert und somit für sie verständlich?

4. Schließlich kommt der technische Aspekt hinzu. Wie sind die Datenbanken aufgebaut? Welche technischen Werkzeuge eignen sich für die Kontrolle der Datenqualität?

„Bei unseren Untersuchungen haben wir festgestellt, dass in erster Linie organisatorische Änderungen eine nachhaltige Wirkung auf die wahrgenommene Datenqualität haben“, erläutert Kokemüller mit Blick auf die aktuelle Studie des IAO Datenqualitätswerkzeuge 2012. Das habe verschiedene Gründe: Um eine hohe Datenqualität zu erreichen, muss die Struktur der Organisation für die Pflege und Erstellung geeignet sein. Die einmalige Fehlerbereinigung der Datensätze behebe nur Symptome und habe keinen nachhaltigen Effekt. Die Organisation müsse darauf abzielen, wertschöpfende Informationen zu erzielen. Eine Veränderung in der Organisation werde von Mitarbeitern direkt wahrgenommen, wogegen die Bereinigung durch die IT-Abteilung kaum sichtbar sei.

Sponsor gesucht

Unternehmen empfiehlt Kokemüller deshalb ein klar strukturiertes Projekt-Management für die Datenverwaltung: „Damit ein solches Projekt erfolgreich sein kann, muss es einen Sponsor im Management haben, der über Autorität für alle betroffenen Bereiche verfügt.“ Ferner sollte vor Beginn ein Projektablauf festgelegt sowie die Verfügbarkeit der Ressourcen sichergestellt werden. Dazu gehöre auch ein koordiniertes Change-Management, das die betroffenen Mitarbeiter in das Projekt einbezieht. Daneben sei die Entwicklung einer Stammdatenstrategie wichtig, welche die Ausgangslage (Beteiligte, Prozesse, Firmenkontext und Kultur, Wettbewerbssituation, Governance-Modell) identifiziert und ein Ziel unter Berücksichtigung der Optionen sowie Herausforderungen definiert.

Die zentralen Gestaltungsbereiche eines effizienten Daten-Managements sind die Data Governance und das Führungssystem. Laut Fraunhofer IAO legt die Data Governance die Prozesse, Verantwortlichkeiten und Entscheidungskriterien für den Umgang mit Daten fest. Das beinhaltet den Umgang mit Informationen und eine Definition, wie sich neue Anforderungen durch das Datenschema abbilden lassen. Grundsätzlich orientiert sich die Data Governance am allgemeinen Organisationsprinzip eines Unternehmens. Ist dieses dezentral aufgebaut, ist eine zentrale Modellierung der Data Governance wenig praktikabel.

Zuckerbrot und Peitsche

Nachdem die Organisation des Datenqualitäts-Managements ausformuliert ist, liegt es am Führungssystem, dieses mit Leben zu füllen, wozu etwa Zielvorgaben für die Informationsqualität zählen. Ein Beispiel sind Anreizsysteme, die auf Bonus- und Malus-Regelungen basieren. Gleichzeitig muss das Datenschema aufgeschlüsselt und dokumentiert werden. Dazu gehören die Klärung der semantischen Bedeutung von Klassen und Attributen in einem Datensatz sowie die Formatierung der Informationen.

Damit die Richtlinien der Data Governance koordiniert werden, ist die Übertragung von strategischen Kompetenzen auf einen Data Steward empfehlenswert, der für die Leitung des Daten-Managements verantwortlich ist. Zusätzlich sollten die Abteilungen im Bereich der Architektur fachliche Datenschemata festlegen. Schließlich ist ein „IT-Bebauungsplan“ ratsam, wozu in der Regel die „Gold Copy“ gehört. Hinter dieser Kopie verbirgt sich ein Objekt, das immer die höchste Datenqualität hat. Änderungen in den zugrunde liegenden Daten müssen immer in dieses Objekt integriert werden, bevor man sie an die Datenabnehmer verteilt.

Barc-Empfehlungen für Datenqualitätsprojekte

1. Die Implementierung des Datenqualitätsprozesses benötigt eine ganzheitliche Betrachtung. So steigt das Vertrauen in die Daten.

2. Datenqualität ist eine Führungsaufgabe und braucht Sponsoren.

3. Die Auswirkungen schlechter Daten sowie der Nutzen einer hohen Datenqualität sollten gegenübergestellt werden. Ziel ist das Identifizieren der Bereiche, die am stärksten profitieren.

4. Ein Datenqualitäts-Assessment hilft bei der Erhebung des Ist-Zustands. Hierbei kann die Zusammenarbeit mit Herstellern und Beratern nützlich sein.

5. Bereiche, die einen schnellen Erfolg zeigen, sollten herausgehoben werden. Zudem empfiehlt sich die Nutzung erfolgreicher Pilotprojekte für ein Datenqualitäts-Marketing.

6. Ein Daten-Management- oder Business-Intelligence-(BI-)Competence Center schafft klare Verantwortlichkeiten und erleichtert die Zusammenarbeit zwischen Fachbereich und IT.

7. Der Einsatz von Datenqualitäts-Werkzeugen erfolgt in Abstimmung zwischen den beteiligten Fachbereichen und der IT. Dabei zählen fachliche Anforderungen und die Nutzbarkeit.

8. Datenqualitäts-Werkzeuge sind nicht immer sinnvoll. Der Einsatz von Standardsoftware bringt möglicherweise größere Vorteile.

9. Die Software sollte den gesamten Datenqualitätszyklus abdecken.

10. Für eine nachhaltige Datenqualität ist ein schrittweiser Prozess notwendig, der Maßnahmen zur Analyse, Bereinigung, Anreicherung und Überwachung der Datenqualität abdeckt.

Der Artikel wurde am 22. Juni 2012 auf COMPUTERWOCHE.de publiziert.