Wirtschaftswissenschaftliche Fakultät

Suche

Projektstudium Data Mining / Project Studies in Data Mining


Dozent(in): Prof. Dr. Yarema Okhrin / Anett Wins
Termin: Blockveranstaltung Ende Dezember 2019 (Termine werden zeitnah bekannt gegeben)
Gebäude/Raum: Geb. J, Seminarraum
Ansprechpartner: Anett Wins
Anmeldung: Bewerbung vom 07.10.2019 bis zum 17.10.2019 per E-Mail (s.u.) || beschränkt auf max. 30 Teilnehmer


Inhalt der Lehrveranstaltung:

Umfangreiche Datenbestände von Unternehmen beinhalten wichtige Informationen für den Entscheidungsträger und erfordern die Anwendung anspruchsvoller statistischer und mathematischer Verfahren, die unter Data Mining Verfahren zusammengefasst werden. Man betrachtet hierbei nicht eine isolierte Variable bzw. Charakteristik, sondern das Zusammenwirken mehrerer Variablen zugleich, ihre Abhängigkeitsstruktur. Die Methoden werden zur explorativen Datenanalyse verwendet, z.B. bei der Suche nach Strukturen und Besonderheiten in den Daten.

In Gruppenarbeit sollen die Grundgedanken, Voraussetzungen sowie die Zielsetzung einzelner Data Mining Verfahren herausgearbeitet, die Anwendung anhand eines Praxisbeispiels (Umsetzung mit der Statistiksoftware R) erprobt sowie die Resultate in einer abschließenden computergestützten Präsentation vorgetragen werden. Die Teilnehmer*innen sollen die Grundsätze wissenschaftlichen Arbeitens durch die theoretische als auch empirische Auseinandersetzung mit speziellen Data Mining Verfahren erlernen und zum Erstellen einer prägnanten Präsentation sowie freier Rede beim Vortragen befähigt werden. Wesentliche methodische und empirische Erkenntnisse sollen in einer schriftlichen Ausfertigung zusammengefasst werden.

Themenübersicht:

1. Logistische Regressionsanalyse – das Logit -Modell
2. ANOVA: ein- und mehrfaktorielle Varianzanalyse
3. Clusteranalyse I – hierarchische Clusteranalyse
4. Clusteranalyse II – partitionierende Clusteranalyse (k-Means, PAM)
5. Hauptkomponentenanalyse (PCA)
6. Zeitreihenanalyse – Analyse von Longitudinaldaten
7. Künstliche Neuronale Netze – überwachtes Lernen in vorwärts gerichteten Netzen
8. Entscheidungsbäume – rekursive Partitionierung mittels CART-Algorithmus
9. Frequent Pattern Mining – eine Warenkorbanalyse
10. Textmining

Anmeldemodalitäten:

Anmeldung vom 07.10.2019 bis zum 17.10.2019 an anett.wins@wiwi.uni-augsburg.de unter Angabe von:

  • Name, Vorname:*
  • Matrikelnummer:*
  • Studienfach:*
  • Fachsemester:*
  • Themenpräferenz (1. – 3. Präferenz)
  • ggfl. „Wunschpartner“ (1-2)

Grundlegendes:

  • Gruppenarbeit (2-3 Teilnehmer*innen): eigenständige Gruppenorganisation und Terminvereinbarung mit dem Betreuer
  • Computergestützte Präsentation:
    • Inhalt: Theoretische Ausarbeitung der Methodik sowie Umsetzung mittels der Statistiksoftware R anhand eines selbstständig recherchierten, geeigneten Datensatzes.
    • Umfang: ~60 Minuten zzgl. 15 Minuten Diskussionszeit (je Gruppe)
    • Bearbeitungsumfang, Schwierigkeitsgrad sowie Präsentation der Inhalte und Ergebnisse sollten möglichst gleichmäßig verteilt werden


Vorkenntnis für die Lehrveranstaltung:

Voraussetzung für eine erfolgreiche Teilnahme sind solide statistische Kenntnisse, welche in den Veranstaltungen Statistik I/II vermittelt werden. Der Besuch der Data Mining Veranstaltung im Sommersemester 2019 wäre wünschenswert. Zudem werden Grundkenntnisse in der Statistiksprache R verlangt, so wie sie bspw. in den Veranstaltungen Statistik I/II vermittelt werden und die Bereitschaft, sich in die Statistiksprache R tiefergehend einzuarbeiten.


Literatur zur Lehrveranstaltung:

  • Breiman, Friedman, Olshen, Stone (1998): Classification and Regression Trees, Chapman & Hall.
  • Fahrmeir, Kneib, Lang (2007): Regression - Modelle, Methoden und Anwendungen, Springer.
  • James, Witten, Hastie, Tibshirani (2013): An Introduction to Statistical Learning - with Applications in R, Springer.
  • Hastie, Tibshirani, Friedman (2009): The Elements of Statistical Learning – Data Mining, Inference and Prediction, Springer.
  • Hothorn, Everitt (2014): A Handbook of Statistical Analyses using R, Chapman and Hall/CRC, 3rd edition.
  • Rousseeuw, Kaufman (2005): Finding Groups in Data – An Introduction to Cluster Analysis, John Wiley & Sons Inc.
  • Wollschläger (2017): Grundlagen der Datenanalyse mit R - Eine anwendungsorientierte Einführung, Springer.
  • u.v.w. themenbezogene Fachliteratur


weitere Informationen zu der Lehrveranstaltung:

empfohlenes Studiensemester der Lehrveranstaltung: ab dem 4. Semester
Fachrichtung Lehrveranstaltung: Bachelor: siehe Modulhandbuch ihres Studiengangs (falls einbringbar)
Dauer der Lehrveranstaltung: 3 SWS
Typ der Lehrveranstaltung: K - Kurs
Dauer der Prüfung: 60 Minuten
Lehrveranstaltungspflicht: Wahlpflicht
Semester: WS 2019/20