Einführung in Machine Learning mit Python - Andreas C. Müller, Sarah Guido

Einführung in Machine Learning mit Python (eBook)

Praxiswissen Data Science

Andreas C. Müller, Sarah Guido (Autoren)

eBook Download: PDF

2017 | 1. Auflage
378 Seiten
O'Reilly Verlag
978-3-96010-111-6 (ISBN)

Machine Learning ist zu einem wichtigen Bestandteil vieler kommerzieller Anwendungen und Forschungsprojekte geworden, von der medizinischen Diagnostik bis hin zur Suche nach Freunden in sozialen Netzwerken. Um Machine-Learning-Anwendungen zu entwickeln, braucht es keine großen Expertenteams: Wenn Sie Python-Grundkenntnisse mitbringen, zeigt Ihnen dieses Praxisbuch, wie Sie Ihre eigenen Machine-Learning-Lösungen erstellen. Mit Python und der scikit-learn-Bibliothek erarbeiten Sie sich alle Schritte, die für eine erfolgreiche Machine-Learning-Anwendung notwendig sind. Die Autoren Andreas Müller und Sarah Guido konzentrieren sich bei der Verwendung von Machine-Learning-Algorithmen auf die praktischen Aspekte statt auf die Mathematik dahinter. Wenn Sie zusätzlich mit den Bibliotheken NumPy und matplotlib vertraut sind, hilft Ihnen dies, noch mehr aus diesem Tutorial herauszuholen. Das Buch zeigt Ihnen: - grundlegende Konzepte und Anwendungen von Machine Learning - Vor- und Nachteile weit verbreiteter maschineller Lernalgorithmen - wie sich die von Machine Learning verarbeiteten Daten repräsentieren lassen und auf welche Aspekte der Daten Sie sich konzentrieren sollten - fortgeschrittene Methoden zur Auswertung von Modellen und zum Optimieren von Parametern - das Konzept von Pipelines, mit denen Modelle verkettet und Arbeitsabläufe gekapselt werden - Arbeitsmethoden für Textdaten, insbesondere textspezifische Verarbeitungstechniken - Möglichkeiten zur Verbesserung Ihrer Fähigkeiten in den Bereichen Machine Learning und Data Science Dieses Buch ist eine fantastische, super praktische Informationsquelle für jeden, der mit Machine Learning in Python starten möchte - ich wünschte nur, es hätte schon existiert, als ich mit scikit-learn anfing! Hanna Wallach, Senior Researcher, Microsoft Research

Andreas C. Müller hat an der Universität Bonn in Machine Learning promoviert. Bei Amazon hat er an Anwendungen für rechnergestütztes Sehen gearbeitet, heute ist er am Center for Data Science an der New York University tätig. Er ist als Core Contributor an der Entwicklung und Wartung von scikit-learn beteiligt. Sarah Guido ist als Data Scientist tätig und hat viel für Start-ups gearbeitet, zuletzt als Lead Data Scientist bei Bitly. Sie ist eine erfahrene Konferenzrednerin und hat einen Master-Abschluss im Fach Information an der University of Michigan erworben.

Andreas C. Müller hat an der Universität Bonn in Machine Learning promoviert. Bei Amazon hat er an Anwendungen für rechnergestütztes Sehen gearbeitet, heute ist er am Center for Data Science an der New York University tätig. Er ist als Core Contributor an der Entwicklung und Wartung von scikit-learn beteiligt. Sarah Guido ist als Data Scientist tätig und hat viel für Start-ups gearbeitet, zuletzt als Lead Data Scientist bei Bitly. Sie ist eine erfahrene Konferenzrednerin und hat einen Master-Abschluss im Fach Information an der University of Michigan erworben.

Inhalt 5
Vorwort 9
Kapitel 1: Einführung 15
Warum Machine Learning? 15
Welche Probleme kann Machine Learning lösen? 16
Ihre Aufgabe und Ihre Daten kennen 19
Warum Python? 19
scikit-learn 20
Installieren von scikit-learn 20
Grundlegende Bibliotheken und Werkzeuge 21
Jupyter Notebook 22
NumPy 22
SciPy 22
matplotlib 24
pandas 24
mglearn 25
Python 2 versus Python 3 26
In diesem Buch verwendete Versionen 27
Eine erste Anwendung: Klassifizieren von Iris-Spezies 28
Die Daten kennenlernen 29
Erfolg nachweisen: Trainings- und Testdaten 31
Das Wichtigste zuerst: Sichten Sie Ihre Daten 33
Ihr erstes Modell konstruieren: k-nächste-Nachbarn 35
Vorhersagen treffen 36
Evaluieren des Modells 37
Zusammenfassung und Ausblick 37
Kapitel 2: Überwachtes Lernen 41
Klassifikation und Regression 41
Verallgemeinerung, Overfitting und Underfitting 42
Zusammenhang zwischen Modellkomplexität und Größe des Datensatzes 45
Algorithmen zum überwachten Lernen 46
Einige Beispieldatensätze 46
k-nächste-Nachbarn 50
Lineare Modelle 59
Naive Bayes-Klassifikatoren 80
Entscheidungsbäume 82
Ensembles von Entscheidungsbäumen 94
Support Vector Machines mit Kernel 102
Neuronale Netze (Deep Learning) 113
Schätzungen der Unsicherheit von Klassifikatoren 126
Die Entscheidungsfunktion 127
Vorhersagen von Wahrscheinlichkeiten 130
Unsicherheit bei der Klassifikation mehrerer Kategorien 132
Zusammenfassung und Ausblick 134
Kapitel 3: Unüberwachtes Lernen und Vorverarbeitung 137
Arten von unüberwachtem Lernen 137
Herausforderungen beim unüberwachten Lernen 138
Vorverarbeiten und Skalieren 138
Unterschiedliche Möglichkeiten der Vorverarbeitung 139
Anwenden von Datentransformationen 140
Trainings- und Testdaten in gleicher Weise skalieren 142
Die Auswirkungen der Vorverarbeitung auf überwachtes Lernen 144
Dimensionsreduktion, Extraktion von Merkmalen und Manifold Learning 146
Hauptkomponentenzerlegung (PCA) 146
Nicht-negative-Matrix-Faktorisierung (NMF) 161
Manifold Learning mit t-SNE 168
Clusteranalyse 172
k-Means-Clustering 172
Agglomeratives Clustering 183
DBSCAN 188
Vergleichen und Auswerten von Clusteralgorithmen 192
Zusammenfassung der Clustering-Methoden 206
Zusammenfassung und Ausblick 207
Kapitel 4: Repräsentation von Daten und Merkmalsgenerierung 209
Kategorische Variablen 210
One-Hot-Kodierung (Dummy-Variablen) 211
Zahlen können kategorische Daten kodieren 216
Binning, Diskretisierung, lineare Modelle und Bäume 218
Interaktionen und Polynome 222
Univariate nichtlineare Transformation 228
Automatische Auswahl von Merkmalen 232
Univariate Statistiken 232
Modellbasierte Auswahl von Merkmalen 235
Iterative Auswahl von Merkmalen 236
Berücksichtigen von Expertenwissen 238
Zusammenfassung und Ausblick 247
Kapitel 5: Evaluierung und Verbesserung von Modellen 249
Kreuzvalidierung 250
Kreuzvalidierung in scikit-learn 251
Vorteile der Kreuzvalidierung 252
Stratifizierte k-fache Kreuzvalidierung und andere Strategien 252
Gittersuche 258
Einfache Gittersuche 259
Die Gefahr des Overfittings von Parametern und Validierungsdaten 260
Gittersuche mit Kreuzvalidierung 262
Evaluationsmetriken 274
Das Ziel im Auge behalten 274
Metriken zur binären Klassifikation 275
Metriken zur Klassifikation mehrerer Kategorien 296
Regressionsmetriken 298
Verwenden von Metriken zur Modellauswahl 299
Zusammenfassung und Ausblick 301
Kapitel 6: Verkettete Algorithmen und Pipelines 303
Parameterauswahl mit Vorverarbeitung 304
Erstellen von Pipelines 306
Pipelines zur Gittersuche einsetzen 307
Die allgemeine Pipeline-Schnittstelle 310
Bequemes Erstellen von Pipelines mit make_pipeline 311
Zugriff auf Attribute von Schritten 312
Zugriff auf Attribute in einer Pipeline mit Gittersuche 313
Gittersuche für Vorverarbeitungsschritte und Modellparameter 314
Gittersuche nach dem richtigen Modell 317
Zusammenfassung und Ausblick 318
Kapitel 7: Verarbeiten von Textdaten 321
Arten von als Strings repräsentierter Daten 321
Anwendungsbeispiel: Meinungsanalyse zu Filmbewertungen 323
Repräsentation von Text als Bag-of-Words 325
Anwenden von Bag-of-Words auf einen einfachen Datensatz 327
Bag-of-Words der Filmbewertungen 328
Stoppwörter 332
Umskalieren der Daten mit tf-idf 333
Untersuchen der Koeffizienten des Modells 336
Bag-of-Words mit mehr als einem Wort (n-Gramme) 337
Fortgeschrittene Tokenisierung, Stemming und Lemmatisierung 341
Modellierung von Themen und Clustering von Dokumenten 345
Latent Dirichlet Allocation 345
Zusammenfassung und Ausblick 352
Kapitel 8: Zusammenfassung und weiterführende Ressourcen 355
Herangehensweise an eine Fragestellung beim maschinellen Lernen 355
Der menschliche Faktor 356
Vom Prototyp zum Produktivsystem 357
Testen von Produktivsystemen 358
Konstruieren eines eigenen Estimators 358
Wie geht es von hier aus weiter? 359
Theorie 359
Andere Umgebungen und Programmpakete zum maschinellen Lernen 360
Ranking, Empfehlungssysteme und andere Arten von Lernen 361
Probabilistische Modellierung, Inferenz und probabilistische Programmierung 361
Neuronale Netze 362
Skalieren auf größere Datensätze 363
Verfeinern Sie Ihre Fähigkeiten 364
Schlussbemerkung 365
Index 367
Über die Autoren 377
Über die Übersetzer 377
Kolophon 377
www.oreilly.de 0

Erscheint lt. Verlag	21.7.2017
Reihe/Serie	Animals
Übersetzer	Kristian Rother
Verlagsort	Heidelberg
Sprache	deutsch
Themenwelt	Informatik ► Programmiersprachen / -werkzeuge ► Python
Schlagworte	AI • Algorithmen • Artificial Intelligence • Data Science • Deep learning • KI • Künstliche Intelligenz • machine learning • Maschinelles Lernen • matplotlib • Neuronale Netze • NumPy • Python • scikit-learn • Statistische Datenanalyse
ISBN-10	3-96010-111-2 / 3960101112
ISBN-13	978-3-96010-111-6 / 9783960101116

Haben Sie eine Frage zum Produkt?

PDF (Wasserzeichen)
Größe: 31,1 MB

DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.

Dateiformat: PDF (Portable Document Format)
Mit einem festen Seitenlayout eignet sich die PDF besonders für Fachbücher mit Spalten, Tabellen und Abbildungen. Eine PDF kann auf fast allen Geräten angezeigt werden, ist aber für kleine Displays (Smartphone, eReader) nur eingeschränkt geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür einen PDF-Viewer - z.B. den Adobe Reader oder Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür einen PDF-Viewer - z.B. die kostenlose Adobe Digital Editions-App.

Zusätzliches Feature: Online Lesen
Dieses eBook können Sie zusätzlich zum Download auch online im Webbrowser lesen.

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.