Wirtschaftswissenschaftliche Fakultät

Suche

Projektseminar Data Mining


Dozent(in): Prof. Dr. Yarema Okhrin / Anett Wins
Termin: Blockveranstaltung am 21. und 22. Dezember 2017 (Zeitraum: 8:00 - 14:00 Uhr)
Gebäude/Raum: Geb. J, Seminarraum 2102
Ansprechpartner: Anett Wins
Anmeldung: Bewerbung bis zum 18.10.2017 per E-Mail (s.u.) || beschränkt auf max. 36 Teilnehmer


Inhalt der Lehrveranstaltung:

Umfangreiche Datenbestände von Unternehmen beinhalten wichtige Informationen für den Entscheidungsträger und erfordern die Anwendung anspruchsvoller statistischer und mathematischer Verfahren, die unter Data Mining Verfahren zusammengefasst werden. Man betrachtet hierbei nicht eine isolierte Variable bzw. Charakteristik, sondern das Zusammenwirken mehrerer Variablen zugleich, ihre Abhängigkeitsstruktur. Die Methoden werden zur explorativen Datenanalyse verwendet, z.B. bei der Suche nach Strukturen und Besonderheiten in den Daten.

In Gruppenarbeit sollen die Grundgedanken, Voraussetzungen sowie die Zielsetzung einzelner Data Mining Verfahren herausgearbeitet, die Anwendung anhand eines Praxisbeispiels (Umsetzung mit einer Statistiksoftware: R oder IBM SPSS Statistics) erprobt sowie die Resultate in einer abschließenden computergestützten Präsentation vorgetragen werden. Die TeilnehmerInnen sollen die Grundsätze wissenschaftlichen Arbeitens durch die theoretische als auch empirische Auseinandersetzung mit speziellen Data Mining Verfahren erlernen und zum Erstellen einer prägnanten Präsentation sowie freier Rede beim Vortragen befähigt werden.

Themenübersicht:

1. Kreuztabellierung und Kontingenzanalyse – Zusammenhangsanalyse nominal skalierter Variablen
2. Logistische Regression – das Logit -Modell bei binärem bzw. multinominalem Regressand
3. Varianzanalyse – von der einfaktoriellen zur mehrfaktoriellen Varianzanalyse 
4. Clusteranalyse I – hierarische Clusterverfahren
5. Clusteranalyse II – partionierende Clusterverfahren
6. Diskriminanzanalyse – Analyse von Gruppenunterschieden
7. Faktorenanalyse – Variablenbündelung in „zentrale Faktoren“
8. Zeitreihenanalyse – Analyse von Längsschnittdaten
9. Conjoint-Measurement (Verbundmessung) – ein dekompositionelles Analyseverfahren ordinaler Präferenzen
10. Künstliche Neuronale Netze (KNN) – überwachtes Lernen in vorwärts gerichteten Netzen
11. K-Nearest Neighbors (k-NN) – Klassifikation nach dem „Mehrheitsprinzip“
12. Entscheidungsbäume – rekursive Partitionierung mittels CART- und CHAID-Algorithmus

Anmeldemodalitäten:

Anmeldung bis zum 18.10.2017 an anett.wins@wiwi.uni-augsburg.de unter Angabe von:

  • Name, Vorname:*
  • Matrikelnummer:*
  • Studienfach:*
  • Fachsemester:*
  • Bereich in den das Seminar eingebracht werden soll:*
  • Themenpräferenz (1. – 3. Präferenz)
  • ggfl. „Wunschpartner“ (1-2)

Grundlegendes:

  • Gruppenarbeit (2-3 StudentInnen): eigenständige Gruppenorganisation und Terminvereinbarung mit dem Betreuer
  • Computergestützte Präsentation:
    • Inhalt: Theoretische Ausarbeitung der Methodik sowie Umsetzung mittels einer Statistik Software (R oder IBM SPSS Statistics) anhand eines selbstständige recherchierten, geeigneten Datensatzes.
    • Umfang: etwa 60 Minuten zzgl. 15 Minuten Diskussionszeit (je Gruppe)
    • Bearbeitungsumfang, Schwierigkeitsgrad sowie Präsentation der Inhalte und Ergebnisse sollten möglichst gleichmäßig verteilt werden


Vorkenntnis für die Lehrveranstaltung:

Voraussetzung für eine erfolgreiche Teilnahme sind solide statistische Kenntnisse, welche in den Veranstaltungen Statistik I und II vermittelt werden. Der Besuch der Data Mining Veranstaltung im vorherigen Sommersemester wäre wünschenswert. Zudem sind Grundkenntnisse in einer Statistik Software (IBM SPSS Statistics oder R) zur empirischen Umsetzung nötig.


Literatur zur Lehrveranstaltung:

  • Backhaus, Erichson, Plinke, Weiber (2011): Multivariate Analysemethoden – eine Anwendungsorientierte Einführung, 13. Auflage, Springer.
  • Backhaus, Erichson, Weiber (2011): Fortgeschrittene Multivariate Analysemethoden – eine Anwendungsorientierte Einführung, 1. Auflage, Springer.
  • Breiman, Friedman, Olshen, Stone, (1998): Classification and Regression Trees, Chapman & Hall.
  • Fahrmeir, Kneib, Lang (2007): Regression - Modelle, Methoden und Anwendungen, Springer.
  • Hastie, Tibshirani, Friedman (2009): The Elements of Statistical Learning – Data Mining, Inference and Prediction, Springer.
  • James, Witten, Hastie, Tibshirani (2013): An Introduction to Statistical Learning - with Applications in R, Springer.
  • Rousseeuw, Kaufman (2005): Finding Groups in Data – An Introduction to Cluster Analysis, John Wiley & Sons Inc.
  • Rüger (1999): Test- und Schätztheorie Band II: Statistische Test, Oldenbourg Verlag.
  • Toutenburg (2003): Lineare Modelle – Theorie und Anwendungen, Physika Verlag.
  • Tutz (2012): Regression for Categorical Data, Cambridge.
  • u.v.w. themenbezogene Fachliteratur


weitere Informationen zu der Lehrveranstaltung:

empfohlenes Studiensemester der Lehrveranstaltung: ab dem 4. Semester
Fachrichtung Lehrveranstaltung: Bachelor: siehe Modulhandbuch ihres Studiengangs (falls einbringbar)
Dauer der Lehrveranstaltung: 3 SWS
Typ der Lehrveranstaltung: S - Seminar
Prüfung: Referat / Hausarbeit
Turnus des Prüfungsangebots: jedes WS
Dauer der Prüfung: 60 Minuten
Prüfungsausschluss: Das Seminar kann nur einmal belegt werden.
Lehrveranstaltungspflicht: Wahlpflicht
Semester: jedes WS