Wirtschaftswissenschaftliche Fakultät

Suche

Projektseminar Data Mining / Seminar Data Mining


Dozent(in): Prof. Dr. Yarema Okhrin / Anett Wins
Termin: Blockveranstaltung 20./21. Dezember 2018
Gebäude/Raum: Geb. J, Seminarraum 2102
Ansprechpartner: Anett Wins
Anmeldung: Bewerbung vom 04.10.2018 bis zum 18.10.2018 per E-Mail (s.u.) || beschränkt auf max. 30 Teilnehmer


Inhalt der Lehrveranstaltung:

Umfangreiche Datenbestände von Unternehmen beinhalten wichtige Informationen für den Entscheidungsträger und erfordern die Anwendung anspruchsvoller statistischer und mathematischer Verfahren, die unter Data Mining Verfahren zusammengefasst werden. Man betrachtet hierbei nicht eine isolierte Variable bzw. Charakteristik, sondern das Zusammenwirken mehrerer Variablen zugleich, ihre Abhängigkeitsstruktur. Die Methoden werden zur explorativen Datenanalyse verwendet, z.B. bei der Suche nach Strukturen und Besonderheiten in den Daten.

In Gruppenarbeit sollen die Grundgedanken, Voraussetzungen sowie die Zielsetzung einzelner Data Mining Verfahren herausgearbeitet, die Anwendung anhand eines Praxisbeispiels (Umsetzung mit der Statistiksoftware R) erprobt sowie die Resultate in einer abschließenden computergestützten Präsentation vorgetragen werden. Die TeilnehmerInnen sollen die Grundsätze wissenschaftlichen Arbeitens durch die theoretische als auch empirische Auseinandersetzung mit speziellen Data Mining Verfahren erlernen und zum Erstellen einer prägnanten Präsentation sowie freier Rede beim Vortragen befähigt werden. Wesentliche methodische und empirische Erkenntnisse sollen in einer schriftlichen Ausfertigung zusammengefasst werden.

Themenübersicht:

1. Data Preprocessing und Visualisierung (R-Vorkenntnisse erforderlich!)
2. Logistische Regressionsanalyse – das Logit -Modell
3. ANOVA: ein- und mehrfaktorielle Varianzanalyse
4. Clusteranalyse I – hierarchische Clusteranalyse
5. Clusteranalyse II – partitionierende Clusteranalyse (k-Means, PAM)
6. Hauptkomponentenanalyse (PCA)
7. Zeitreihenanalyse – Analyse von Longitudinaldaten
8. Künstliche Neuronale Netze – überwachtes Lernen in vorwärts gerichteten Netzen
9. Entscheidungsbäume – rekursive Partitionierung mittels CART-Algorithmus
10. Frequent Pattern Mining – eine Warenkorbanalyse
11. Textmining mit R (R-Vorkenntnisse erforderlich!)

Anmeldemodalitäten:

Anmeldung vom 04.10.2018 bis zum 18.10.2018 an anett.wins@wiwi.uni-augsburg.de unter Angabe von:

  • Name, Vorname:*
  • Matrikelnummer:*
  • Studienfach:*
  • Fachsemester:*
  • Bereich in den das Seminar eingebracht werden soll:*
  • Themenpräferenz (1. – 3. Präferenz)
  • ggfl. „Wunschpartner“ (1-2)

Grundlegendes:

  • Gruppenarbeit (2-3 TeilnehmerInnen): eigenständige Gruppenorganisation und Terminvereinbarung mit dem Betreuer
  • Computergestützte Präsentation:
    • Inhalt: Theoretische Ausarbeitung der Methodik sowie Umsetzung mittels einer Statistik Software (R oder IBM SPSS Statistics) anhand eines selbstständige recherchierten, geeigneten Datensatzes.
    • Umfang: etwa 60 Minuten zzgl. 15 Minuten Diskussionszeit (je Gruppe)
    • Bearbeitungsumfang, Schwierigkeitsgrad sowie Präsentation der Inhalte und Ergebnisse sollten möglichst gleichmäßig verteilt werden
  • Schriftliche Ausfertigung:
    • Inhalt: Zusammenfassung wesentlicher methodischer und empirischer Erkenntnisse
    • Umfang: ca. 5-7 Seiten je TeilnehmerIn


Vorkenntnis für die Lehrveranstaltung:

Voraussetzung für eine erfolgreiche Teilnahme sind solide statistische Kenntnisse, welche in den Veranstaltungen Statistik I und II vermittelt werden. Der Besuch der Data Mining Veranstaltung im Sommersemester 2018 wäre wünschenswert. Zudem werden Grundkenntnisse in der Statistiksprache R verlangt, so wie sie bspw. in den Veranstaltungen Statistik I/II vermittelt werden und die Bereitschaft, sich in die Statistiksprache R tiefergehend einzuarbeiten.


Literatur zur Lehrveranstaltung:

  • Breiman, Friedman, Olshen, Stone, (1998): Classification and Regression Trees, Chapman & Hall.
  • Fahrmeir, Kneib, Lang (2007): Regression - Modelle, Methoden und Anwendungen, Springer.
  • James, Witten, Hastie, Tibshirani (2013): An Introduction to Statistical Learning - with Applications in R, Springer.
  • Hastie, Tibshirani, Friedman (2009): The Elements of Statistical Learning – Data Mining, Inference and Prediction, Springer.
  • Hothorn, Everitt: A Handbook of Statistical Analyses using R, Chapman and Hall/CRC; 3 edition, 2014.
  • Rousseeuw, Kaufman (2005): Finding Groups in Data – An Introduction to Cluster Analysis, John Wiley & Sons Inc.
  • Wollschläger: Grundlagen der Datenanalyse mit R - Eine anwendungsorientierte Einführung , Springer, 2017.
  • u.v.w. themenbezogene Fachliteratur


weitere Informationen zu der Lehrveranstaltung:

empfohlenes Studiensemester der Lehrveranstaltung: ab dem 4. Semester
Fachrichtung Lehrveranstaltung: Bachelor: siehe Modulhandbuch ihres Studiengangs (falls einbringbar)
Dauer der Lehrveranstaltung: 3 SWS
Typ der Lehrveranstaltung: S - Seminar
Dauer der Prüfung: 60 Minuten
Prüfungsausschluss: Das Seminar kann nur einmal belegt werden.
Lehrveranstaltungspflicht: Wahlpflicht
Semester: jedes WS