Allgemeine Informationen


Der Kurs findet als semesterbegleitende Veranstaltung im Sommersemester statt.

Das Modul wird mit 5 LP kreditiert.

Die Veranstaltung gehört zur Spezialisierung DataScienceMATSE.

Unterrichtsdauer


4 SWS (V2, Ü1, P1)

Voraussetzungen


Datenbanken, Stochastik

Inhalte


Diese Vorlesung vermittelt einen ersten Einblick in Data Science. Der Fokus liegt dabei nicht auf dem Studium einzelner Methoden sondern vielmehr in der Klassifizierung spezieller Fragestellungen und der praktischen Herangehensweise zur Lösung solcher Probleme anhand von Fallbeispielen. Auf der analytischen Seite werden dazu die Sprachen PYTHON und R eingesetzt. Zur skalierbaren Speicherung und Verarbeitung der Daten wird eine Einführung in das Hadoop-Framework gegeben. Abgeschlossen wird der Bereich durch einen Ausblick auf Anbindungsmöglichkeiten von PYTHON und R und aktuellen Entwicklungen.

Einzelne Themenbereiche sind dabei:

  • Einführung und das Hadoop-Ökosystem: HDFS, HBase, Map&Reduce, Pig und Hive.
  • Einsatz von PYTHON und SCIKIT-LEARN
  • Einsatz von R im Kontext verschiedener Regressionstechniken

Im praktischen Teil der Vorlesung werden konkrete Problemstellungen unter R und PYTHON analysiert. Die Schnittstellen zu Hadoop werden mittels Java gelöst, wobei die Integration in R und PYTHON u.a. durch PIG und HIVE erörtert wird.

Veranstaltungsunterlagen


Folgt

Prüfung


Schriftliche Klausur im Umfang von 2 Stunden oder mündliche Prüfung über 30 Min. Das Ergebnis dieser Prüfung bestimmt die Benotung. 

Literatur


  1. Freiknecht, J. (2014). Big Data in der Praxis, Lösungen mit Hadoop, HBase und Hive. Daten speichern, aufbereiten, visualisieren. Claus Hanser Verlag.
  2. Hastie T., Tibshirani R., and Friedman J. (2010). The elements of statistical learning. Springer Series in Statistics.
  3. Grus, J. (2015). Data Science from Scratch: First Principles with Python. O’Reilly.
  4. Hertzmann, A., Fleet D. (2012). Machine Learning and Data Mining,
    Lecture Notes University of Toronto.
  5. Solomon, J. (2015). Numerical Algorithms: Methods for Computer Vision, Machine Learning, and Graphics. CRC Press.
  6. Torgo, L. (2011). Data Mining with R. Chapman & Hall/CRC.
  7. Wartala, R. (2012), Hadoop – Zuverlässige, verteilte und skalierbare Big-Data-Anwendungen.
  8. White, T. (2015), Hadoop – The Definitiv Guide. O’Reilly.

  • No labels