- Architekturprinzipien von Data-Warehouse-Systemen
- Datenstrukturen und Algorithmen
- Anwendungsfeld Business Intelligence
Dieses Lehrbuch behandelt Konzepte und Techniken von Data-Warehouse-Systemen, die eine wesentliche Komponente in betrieblichen Entscheidungsprozessen darstellen. Im Mittelpunkt stehen dabei Architekturprinzipien sowie die Umsetzung des multidimensionalen Datenwürfels als zentrale Komponente des Data Warehouse. Die Zusammenführung der Daten aus verschiedenen betrieblichen und externen Quellen spielt eine ebenso wichtige Rolle wie Datenstrukturen und Algorithmen für die Realisierung von Speicher- und Indexstrukturen. Die Navigation im Datenwürfel und die Anfrageverarbeitung sowie Anwendungen aus dem Themenfeld Business Intelligence geben einen Einblick in den Umgang mit dem Data Warehouse. Detailliert werden sowohl der Aufbau als auch die Nutzung von Data-Warehouse-Systemen beleuchtet. Dabei stehen Modellierungskonzepte und die Thematik der multidimensionalen Anfragen im Vordergrund. Zudem werden Interna wichtiger Systemlösungen von Oracle, IBM und Microsoft anhand zahlreicher Beispiele erläutert. Das Buch fokussiert auf relationale Umsetzungsstrategien des Data Warehouse. Es ist daher empfehlenswert, sich ebenfalls mit den Grundlagenwerken Datenbanken - Konzepte und Sprachen sowie Datenbanken - Implementierungstechniken auseinanderzusetzen; sie erlauben es dem Leser, die Konzepte aus Datenbanken für das Data Warehouse leichter zu transferieren. Das Buch ist geeignet für Studierende der Informatik oder verwandter Fächer im Masterbereich und bietet gleichzeitig auch dem Anwender bzw. Entwickler vertiefende Hintergrundinformationen zu aktuellen Data-Warehouse-Technologien. Die Autoren lehren und forschen im Bereich Datenbanken und Informationssysteme sowie Business Intelligence - Veit Köppen und Gunter Saake an der Universität Magdeburg und Kai-Uwe Sattler an der TU Ilmenau.
Aus dem Inhalt:- Data Warehousing
- Architekturkonzepte
- Extraktion, Transformation und Laden
- Datenqualität
- Business Intelligence
- Modellierung
- Multidimensionales Modell
- Relationale Umsetzung
- Star- und Snowflake-Schema
- Slowly Changing Dimensions
- Speicher- und Indexstrukturen
- ROLAP und MOLAP
- Partitionierung
- Row Stores, Column Stores und In-MemoryBitmap-Indexe
- Mehrdimensionale Indexstrukturen
- Data Warehouse:Anfragen und Verarbeitung
- OLAP-Anfrage-operatoren
- SQL-Operatoren im Data Warehouse
- Anfrageplanung
- Materialisierte Sichten
Inhaltsverzeichnis
1;Cover;1 2;Titel;3 3;Impressum;4 4;Inhaltsverzeichnis;9 5;1 Einführung in Data-Warehouse-Systeme;15 5.1;1.1 Anwendungsszenario Getränkemarkt;16 5.2;1.2 OLTP versus OLAP;18 5.2.1;1.2.1 OLAP- versus OLTP-Transaktionen;19 5.2.2;1.2.2 Vergleich von OLTP und OLAP;20 5.2.3;1.2.3 Abgrenzung: DBMS-Techniken;21 5.3;1.3 Charakteristika und Begriffe;22 5.4;1.4 Big Data und Data Warehousing;23 5.5;1.5 Aufbau des Buches;25 5.6;1.6 Vertiefende Literatur;27 5.7;1.7 Übungen;28 6;2 Architektur;29 6.1;2.1 Anforderungen;29 6.1.1;2.1.1 Grobe Übersicht über Data-Warehouse-Systeme;29 6.1.2;2.1.2 Anforderungen an die Architektur;31 6.1.3;2.1.3 Die 12 OLAP-Regeln nach Codd;32 6.1.4;2.1.4 Die FASMI-Anforderungen;35 6.2;2.2 Datenfluss in einem Data-Warehouse-System;36 6.2.1;2.2.1 Phasen des Data Warehousing;36 6.2.2;2.2.2 Datenquellen;37 6.2.3;2.2.3 Datenbereinigungsbereich;40 6.2.4;2.2.4 Extraktionskomponenten;41 6.2.5;2.2.5 Transformationskomponenten;41 6.2.6;2.2.6 Ladekomponente;43 6.2.7;2.2.7 Basisdatenbank;43 6.2.8;2.2.8 Befüllen;43 6.2.9;2.2.9 Der Datenwürfel;44 6.2.10;2.2.10 Data Marts;44 6.2.11;2.2.11 Das Data Warehouse;45 6.3;2.3 Referenzarchitektur;45 6.3.1;2.3.1 Data-Warehouse-Manager;46 6.3.2;2.3.2 Monitore;47 6.3.3;2.3.3 Repository;49 6.3.4;2.3.4 Metadaten-Manager;49 6.3.5;2.3.5 Diskussion der kompletten Referenzarchitektur;49 6.4;2.4 Architektur des Data Warehouse;50 6.4.1;2.4.1 Rolle der Data Marts;50 6.4.2;2.4.2 Abhängige Data Marts: Nabe und Speiche;51 6.4.3;2.4.3 Unabhängige Data Marts;52 6.4.4;2.4.4 Föderierte und virtuelle Datenwürfel;53 6.4.5;2.4.5 Data-Warehouse-Architektur in der Praxis;53 6.4.6;2.4.6 Ein Multi-Schichten-Architekturansatz;54 6.5;2.5 Vertiefende Literatur;57 6.6;2.6 Übungen;58 7;3 Modellierung von Data Warehouses;59 7.1;3.1 Das multidimensionale Datenmodell;59 7.1.1;3.1.1 Grundbegriffe;59 7.1.2;3.1.2 Dimensionen;61 7.1.3;3.1.3 Fakten und Kennzahlen;62 7.1.4;3.1.4 Schema des multidimensionalen Datenwürfels;64 7.2;3.2 Konzeptuelle Modellierung;66 7.2.1;3
.2.1 Das ME/R-Modell;67 7.2.2;3.2.2 ADAPT;68 7.3;3.3 Relationale Umsetzung;70 7.3.1;3.3.1 Prinzip der relationalen Abbildung;70 7.3.2;3.3.2 Snowflake-Schema;71 7.3.3;3.3.3 Star-Schema;73 7.3.4;3.3.4 Vergleich von Snowflake- und Star-Schema;74 7.3.5;3.3.5 Fact-Constellation-Schema und Galaxie-Schema;75 7.3.6;3.3.6 Alternative Modellierung von Klassifikationshierarchien;78 7.3.7;3.3.7 Vermeidung von Semantikverlusten;79 7.4;3.4 Slowly Changing Dimensions;81 7.4.1;3.4.1 Berichtsanforderungen im Data Warehouse;83 7.4.2;3.4.2 Typdefinitionen nach Kimball;86 7.4.3;3.4.3 Realisierungen im Data Warehouse;88 7.5;3.5 Vertiefende Literatur;93 7.6;3.6 Übungen;94 8;4 Extraktions-, Transformations- und Ladeprozess;95 8.1;4.1 Qualitätsaspekte;96 8.1.1;4.1.1 Der Datenbereinigungsprozess;98 8.1.2;4.1.2 Duplikaterkennung;102 8.1.3;4.1.3 Vergleichsfunktionen;104 8.1.4;4.1.4 Beheben von Datenkonflikten;110 8.2;4.2 Der ETL-Prozess;111 8.3;4.3 Die Extraktionsphase;113 8.3.1;4.3.1 Extraktionstechniken;114 8.3.2;4.3.2 Methode des Differential Snapshot;115 8.4;4.4 Die Transformationsphase;119 8.4.1;4.4.1 Daten- und Schemakonflikte;121 8.4.2;4.4.2 Mappings im Transformationsschritt;123 8.5;4.5 Die Ladephase;127 8.5.1;4.5.1 Verwendung des Oracle SQL-Loader;128 8.5.2;4.5.2 Multi-Table-Insert;130 8.6;4.6 Alternativer Ansatz: ELT;132 8.7;4.7 Vertiefende Literatur;133 8.8;4.8 Übungen;134 9;5 Anfragen an Data-Warehouse-Datenbanken;137 9.1;5.1 Einführung und Anforderungen;137 9.2;5.2 OLAP-Operationen;139 9.3;5.3 SQL-Operationen für das Data Warehouse;142 9.3.1;5.3.1 Relationale Umsetzung multidimensionaler Anfragen;142 9.3.2;5.3.2 CUBE und ROLLUP;148 9.3.3;5.3.3 OLAP-Funktionen in SQL:2003;152 9.4;5.4 MDX;159 9.5;5.5 Vertiefende Literatur;165 9.6;5.6 Übungen;166 10;6 Speicherung;167 10.1;6.1 Speicherung des Datenwürfels: Array vs. Relationen;167 10.1.1;6.1.1 Relationale Implementierung ROLAP;168 10.1.2;6.1.2 Implementierung als Array MOLAP;170 10.1.3;6.1.3 Vergleich ROLAP und MOLAP-Speicherung;174
10.1.4;6.1.4 Hybride Speicherung HOLAP;177 10.1.5;6.1.5 Alternative Speicherungsformen;178 10.2;6.2 Partitionierung;181 10.2.1;6.2.1 Partitionierung in relationalen Datenbanken;181 10.2.2;6.2.2 Partitionierung in Data Warehouses;184 10.2.3;6.2.3 Partitionierung von Datenwürfeln;185 10.3;6.3 Spaltenorientierte Datenhaltung;190 10.3.1;6.3.1 Basisideen der spaltenorientierten Datenhaltung;190 10.3.2;6.3.2 Operationen und Anfragen in spaltenorientierter Datenhaltung;191 10.3.3;6.3.3 Speichervarianten in spaltenorientierter Datenhaltung;193 10.4;6.4 Hauptspeicherdatenbanken;199 10.4.1;6.4.1 Was sind Hauptspeicherdatenbanken?;199 10.4.2;6.4.2 Technologien aktueller Hauptspeicherdatenbanken;201 10.4.3;6.4.3 Komprimierung von Daten;202 10.4.4;6.4.4 Delta-Relationen;204 10.5;6.5 Vertiefende Literatur;205 10.6;6.6 Übungen;206 11;7 Indexstrukturen;209 11.1;7.1 Klassifikation von Indexstrukturen;209 11.2;7.2 B-Bäume und Varianten;212 11.2.1;7.2.1 Der B+-Baum;213 11.2.2;7.2.2 Degenerierte B-Bäume;214 11.2.3;7.2.3 Ordnungsabhängigkeit in B-Bäumen;215 11.2.4;7.2.4 B+-Baum-Tricks: Oversized Index;216 11.2.5;7.2.5 B+-Baum-Tricks: Berechnete Indexe;217 11.3;7.3 Bitmap-Indexe;217 11.3.1;7.3.1 Prinzip von Bitmap-Indexen;218 11.3.2;7.3.2 Bitmap-Index: Realisierung;219 11.3.3;7.3.3 Standard-Bitmap-Index;220 11.3.4;7.3.4 Mehrkomponenten-Bitmap-Index;221 11.3.5;7.3.5 Bereichskodierter Bitmap-Index;222 11.3.6;7.3.6 Mehrkomponenten-bereichskodierter Bitmap-Index;222 11.3.7;7.3.7 Intervallkodierte Indexierung;224 11.3.8;7.3.8 Auswahl von Bitmap-Indexstrukturen;225 11.4;7.4 Verbundindexe;226 11.4.1;7.4.1 Prinzip des Verbundindex;226 11.4.2;7.4.2 Bitmap-Verbundindex;227 11.5;7.5 Mehrdimensionale Indexstrukturen;228 11.5.1;7.5.1 Grid-File;228 11.5.2;7.5.2 Mehrdimensionales Hashen MDH;230 11.5.3;7.5.3 KdB-Baum;231 11.5.4;7.5.4 R-Bäume;232 11.5.5;7.5.5 Varianten von R-Bäumen;234 11.5.6;7.5.6 Der UB-Baum;235 11.6;7.6 Indexierung von Hierarchien;240 11.6.1;7.6.1 Kodierung von Hierarchien;240 11.6.2;
7.6.2 Mehrdimensionales hierarchisches Clustering;241 11.7;7.7 Vertiefende Literatur;242 11.8;7.8 Übungen;243 12;8 Anfrageverarbeitung und materialisierte Sichten;245 12.1;8.1 Anfrageplanung;245 12.1.1;8.1.1 Überblick;246 12.1.2;8.1.2 Star-Join-Optimierung;248 12.2;8.2 Berechnung des CUBE-Operators;251 12.3;8.3 Materialisierte Sichten;255 12.3.1;8.3.1 Anfragebeantwortung mit materialisierten Sichten;256 12.3.2;8.3.2 Auswahl materialisierter Sichten;264 12.3.3;8.3.3 Aktualisierung materialisierter Sichten;266 12.3.4;8.3.4 Materialisierte Sichten in aktuellen DBMS;271 12.4;8.4 Vertiefende Literatur;274 12.5;8.5 Übungen;275 13;9 Business-Intelligence-Anwendungen;277 13.1;9.1 Business Intelligence;278 13.1.1;9.1.1 Begriffsklärung;278 13.1.2;9.1.2 Knowledge Discovery;282 13.1.3;9.1.3 Datenanalyse;285 13.2;9.2 Reporting;286 13.2.1;9.2.1 Balanced Scorecard;289 13.2.2;9.2.2 Navigation im Datenwürfel für Ad-hoc-Reporting;291 13.3;9.3 Data Mining im BI-Umfeld;293 13.3.1;9.3.1 Warenkorbanalyse;295 13.3.2;9.3.2 Kunden-Clustering;303 13.3.3;9.3.3 Klassifikationsverfahren;307 13.3.4;9.3.4 Zeitreihenanalyse & Prognose;311 13.3.5;9.3.5 Data Mining Extensions;313 13.4;9.4 Vertiefende Literatur;315 13.5;9.5 Übungen;316 14;Abbildungsverzeichnis;319 15;Tabellenverzeichnis;325 16;Sachindex;326 17;Literaturverzeichnis;333