Data Mining

Verfahren, Prozesse, Anwendungsarchitektur

(Autor)

Buch | Hardcover
XII, 330 Seiten
2005
De Gruyter Oldenbourg (Verlag)
978-3-486-57715-0 (ISBN)

Lese- und Medienproben

Data Mining - Helge Petersohn
49,95 inkl. MwSt
In vielen, insbesondere größeren Unternehmen entstehen in kurzen Zeiträumen Terabyte von Daten, bspw. über das Kaufverhalten von Kunden, über Produkte oder über Informationsbedürfnisse. Diese umfangreichen Datenbestände beinhalten wertvolle Information für Entscheider und erfordern die Anwendung von anspruchsvollen mathematisch-statistischen Verfahren zur Datenanalyse. Mit den mathematisch-statistischen Verfahren, die unter Data Mining-Verfahren zusammengefasst werden, sind wertvolle vorverarbeitende aber auch entscheidungsunterstützende Datenanalysen möglich. In diesem Buch wird eine Anwendungsarchitektur für Data Mining entwickelt. Ein wesentlicher Beitrag besteht in der systematischen Aufarbeitung von Data Mining-Verfahren und deren anwendungsbezogene Einordnung in die Data Mining-Anwendungsarchitektur (DMA).

Dr. habil. Helge Petersohn ist wissenschaftliche Mitarbeiterin an der Universität Leipzig und Beraterin der NH Consult GmbH. NHC ist ein Spin-off des Instituts für Wirtschaftsinformatik der Universität Leipzig und verfügt über umfangreiche Beratungs- und Entwicklungskompetenz zu Prozessmanagement und Workflowsteuerung im E-Government-Umfeld und befasst sich in Forschung und Praxis mit dem Thema Prozess Mining. Die Mitarbeiter der NHConsult GmbH können in der Vergangenheit sowohl auf wissenschaftliche Arbeiten als auch Projekte zur praktischen Umsetzung in öffentlichen Verwaltungen verweisen.

1;Vorwort;6
2;Inhalt;8
3;1. Motivation und Entwicklung der Data Mining - Architektur;14
3.1;1.1. Inhalt und Ziel des Buches;14
3.2;1.2. Theoretische Grundlagen zum Data Mining - Begriff;17
3.3;1.3. Beispiele für Anwendungsgebiete;27
3.4;1.4. Strukturierungsbedarf für Data Mining;32
3.5;1.5. Struktur, Komponenten und Elemente der Data Mining - Architektur;33
4;2. Datenselektion und Datenaufbereitung;52
4.1;2.1 Datenselektion;53
4.2;2.2 Verfahrensunabhängige Datenaufbereitung;70
4.3;2.3 Verfahrensabhängige Datenaufbereitung;76
5;3. Klassenbildung;86
5.1;3.1 Klassenbildung mit neuronalen Netzen;86
5.2;3.2 Klassenbildung mit multivariaten statistischen Clusteranalyseverfahren;104
5.3;3.3 Evaluierungskriterien für die anwendungsorientierte Bewertung der Güte einer Klassenbildung;110
6;4. Assoziationsanalyse;114
6.1;4.1 Einführung in die Assoziationsalgorithmen;114
6.2;4.2 Boolesche Assoziationsverfahren;118
6.3;4.3 Erweiterungen der Assoziationsverfahren;139
6.4;4.4 Evaluierung und Interpretation;142
7;5. Klassifizierung;144
7.1;5.1 Klassifizierung mit neuronalen Netzen;144
7.2;5.2 Klassifizierung mit Entscheidungsbaumalgorithmen;149
7.3;5.3 Evaluierungskriterien für die anwendungsorientierte Bewertung der Güte einer Klassifizierung;183
8;6. Zeitreihenanalyse;186
8.1;6.1 Zeitreihenanalyse mit neuronalen Netzen;186
8.2;6.2 Zeitreihenanalyse mit Regressionsbaumverfahren;195
8.3;6.3 Zeitreihenanalyse mit multivariaten statistischen Verfahren;206
8.4;6.4 Evaluierungskriterien für die anwendungsorientierte Bewertung der Güte einer Zeitreihenanalyse;207
9;7. Genetische Algorithmen;210
9.1;7.1 Einführung in genetische Algorithmen;210
9.2;7.2 Grundstruktur genetischer Algorithmen;213
9.3;7.3 Evolutionsstrategien;232
9.4;7.4 Erweiterungen genetischer Algorithmen;234
9.5;7.5 Einschätzung genetischer Algorithmen;237
10;8. Kombination von Analyseverfahren;238
10.1;8.1 Neuronale Netze und genetische Algorithmen;239
10.2;8.2 Entscheidungsbäume und genetische Algorithmen;254
10.3;8.3 Neuro-Fuzzy-Ansätze;256
10.4;8.4 Entscheidungsbäume und neuronale Netze;268
11;9. Aggregation zur Data Mining - Architektur;270
11.1;9.1 Ausprägung der Data Mining-Architektur;270
11.2;9.2 Abgeleitetes Forschungspotential;293
12;10. Anhang ;296
12.1;Literaturverzeichnis;296
12.2;Abbildungsverzeichnis;314
12.3;Tabellenverzeichnis;320
12.4;Abkürzungsverzeichnis;322
12.5;Symbolverzeichnis;326
12.6;Sachwortverzeichnis;338

"Die beste Behandlung (inhaltlich, Umfang, Darstellung) von Data Mining, die ich kenne." Prof. Dr. Thomas Schmidt, FH Flensburg "In diesem Buch wird die Thematik 'Data Mining' erstmalig umfassend und in einer sehr guten Mischung aus Theorie und Anwendungsbezug dargestellt!!! Für das Thema Data Mining hatte mir noch ein geeignetes Buch gefehlt. Das Buch von Petersohn füllt genau diese Lücke!" Prof. Dr. Mathias Hinkelmann, Hochschule der Medien Stuttgart "Eine ausgezeichnete Darstellung der Methoden und des praktischen Einsatzes von Data-Mining-Verfahren. Eines der wenigen sehr guten Bücher in Deutsch! Daher für die Studierenden bestens geeignet." Prof. Dr. H. Ritz, FH Gießen-Friedberg "Mit dieser Publikation ist mir eine verständliche und für den Lernenden nachvollziehbare Darstellung in die Hand gegeben worden, die für viele ‚Hintergrund-Prozesse’ in der Kommunikationstechnologie unverzichtbar ist." Prof. Dr.-Ing. habil. Werner Bärwald, TU Dresden "Eine sehr ausführliche, wissenschaftlich fundierte Aufarbeitung des Themas." Prof. Klaus Rinner, FH Nürnberg "systematische Aufarbeitung der Verfahren; methodisch-didaktisch wertvoll; praxisbezogen." Prof. Dr. Morgeneier, FH Jena "Das Buch bietet eine sehr gute Übersicht; viele Methoden werden besprochen. [...]" Prof. Dr. Georg Ohmayer, FH Weihenstephan "Das Buch bietet einen guten Überblick über Data Mining. [...]." Prof. Dr. Jürgen Cleve, Hochschule Wismar "Das Buch gibt einen sehr guten Überblick über die Möglichkeiten von Data Mining." Prof. Dr. Rainer Schwenkert, FH München "Gibt das Themengebiet mit vielen neuen Forschungsergebnissen wider." Prof. Dr. G. Gramlich, FH Ulm

" 2 Datenselektion und Datenaufbereitung (S. 40-41)

2.1 Datenselektion

2.1.1 Data Warehouse als Datenbasis für Data Mining

2.1.1.1 Komponenten eines Data Warehouse

In frühen Phasen der Datenbankdiskussion dominierte die Auffassung, daß ein Datenbanksystem allumfassend und im Zentrum aller Anwendungssysteme eines Unternehmens stehen sollte. Es galt solche Probleme wie z.B. Redundanz und Datenabhängigkeit zu lösen. Diese Ansicht mußte korrigiert werden, denn die Anforderungen an Datenbanksysteme für operative Anwendungen unterscheiden sich sehr stark von denen, die an Management Support Systeme (MSS) gestellt werden.

Operative Systeme sind auf die Verarbeitung von Transaktionen ausgerichtet, um spezielle Funktionsbereiche schnell und präzise mit Steuerungsdaten versorgen zu können. Sie werden täglich aktualisiert. Die wichtige Bezugsgröße Zeit geht verloren. Die Daten sind für das Auffinden inhaltlicher Zusammenhänge ungenügend aufbereitet. In einem Data Warehouse lassen sich die Datenbestände zu einer einheitlichen Informationsbasis aufbereiten. Damit besteht separat zu den OLTP-Systemen eine Datenbasis für den dispositiven und strategischen Bereich. Der Data Warehouse-Begriff wurde von INMON geprägt. Er beschreibt ein Data Warehouse als subjektorientierte, integrierte, zeitbezogene und dauerhafte Datensammlung zur Unterstützung von Managemententscheidungen.

Ein Data Warehouse (auch: Atomic Database, Decision Support System Foundation, Information Warehouse, Business Information Resource, Reporting Database und Data Market) beinhaltet die unternehmensindividuelle Hardund Softwaresystemlösung, um Daten aus internen und externen Informationsquellen in regelmäßigen Zeitabständen so zu speichern, daß diese für den Endbenutzer (vorwiegend Analysten und Manager) zugänglich, verständlich und für unternehmensweite Auswertungen mit Hilfe verschiedener Tools verfügbar sind.61,62 Ein Data Warehouse bezieht seine Daten aus den operativen Quelldaten, Webdaten (Logfiles) oder sonstigen Quellen über eine Import-/ Sammelkomponente und die Vermittlungskomponente (vgl. Abbildung 18).

Die Import-/Sammelkomponente verbindet Daten verschiedener Quellen und übernimmt die Übertragung der Daten in die Data Warehouse-Datenbank. In Intervallen werden über diese Komponente die Daten des Data Warehouse aktualisiert. Die Vermittlungskomponente ist für die Zuordnung und Steuerung zwischen den Datenbeständen und den einzelnen Analysewerkzeugen verantwortlich. Die für die Import-/Sammelkomponente und Vermittlungskomponente erforderliche Software basiert physisch auf Middleware und logisch auf einer Metadatenbank. Die Metadatenbank steht somit über den verfügbaren Daten und Anwendungen.

Das dort enthaltene Wissen muß übersichtlich abgelegt und verwaltet werden. Dafür eignen sich bereits bekannte Verfahren zur Prozeßmodellierung wie bspw. die erweiterten ereignisgesteuerten Prozeßketten und Vorgangskettendiagramme.63 Jeder Prozeß einer Unternehmung kann mit diesen Verfahren auf verschiedenen Abstraktionsebenen abgebildet werden. Die Metadatenbank von Data Warehouse-Lösungen hat eine Repository-Funktion zu übernehmen.

Sie umfaßt zum einen Ausschnitte der verschiedenen Prozeß- und Datenmodelle der operativen Ebene, zum anderen sollte sie die Analyseprozeßmodelle, insbesondere der strategischen Ebene, beinhalten. Die aufgabenorientierte Verknüpfung dieser Modelle ermöglicht die strukturierte mehrdimensionale Modellierung von Daten für das Data Warehouse."" Für die Übernahme der Daten in ein Data Warehouse werden ETL-Tools eingesetzt."

Erscheint lt. Verlag 21.9.2005
Verlagsort Berlin/München/Boston
Sprache deutsch
Maße 170 x 240 mm
Gewicht 584 g
Themenwelt Informatik Datenbanken Data Warehouse / Data Mining
Mathematik / Informatik Informatik Theorie / Studium
Schlagworte Anwendungsarchitektur • Data Mining • Data Mining-Anwendungsarchitektur • Data Mining-Verfahren • Datenanalyse • Datenbanken • DMA • Informatik • Mathematik, Informatik
ISBN-10 3-486-57715-8 / 3486577158
ISBN-13 978-3-486-57715-0 / 9783486577150
Zustand Neuware
Haben Sie eine Frage zum Produkt?
Wie bewerten Sie den Artikel?
Bitte geben Sie Ihre Bewertung ein:
Bitte geben Sie Daten ein:
Mehr entdecken
aus dem Bereich
Auswertung von Daten mit pandas, NumPy und IPython

von Wes McKinney

Buch | Softcover (2023)
O'Reilly (Verlag)
44,90
Das umfassende Handbuch

von Wolfram Langer

Buch | Hardcover (2023)
Rheinwerk (Verlag)
49,90
Erfolgskonzepte für die datengetriebene Organisation

von Sebastian Wernicke

Buch | Softcover (2023)
Vahlen (Verlag)
29,80