Wirtschaftswissenschaftliche Fakultät

Suche

Data Mining


AnsprechpartnerInnen: Prof. Dr. Yarema Okhrin, Anett Wins

„Die Bedeutung der Ressource „Wissen“ wird in Volkswirtschaften und Unternehmen zunehmend erkannt. Die gesellschaftlichen und organisatorischen Rahmenbedingungen zur Generierung und effektiven Nutzung von Wissen werden in der nahen Zukunft die Wettbewerbsfähigkeit bestimmen. Ziel wissensorientierter Unternehmensführung ist es, aus Informationen Wissen zu generieren, und dieses Wissen in nachhaltige Wettbewerbsvorteile umzusetzen, die als Geschäftserfolge messbar werden.“

(North, 1999)


Data Mining kann als die Anwendung anspruchsvoller statistischer und mathematischer Verfahren bzw. Algorithmen auf umfangreiche Datenbestände verstanden werden, mit der Zielsetzung verborgene Muster, Trends und Zusammenhänge aus den Daten zu extrahieren und diese Erkenntnis zukünftig gewinnbringend einzusetzen (Prognose). Häufig synonym verwendet werden Begriffe wie “Knowledge Discovery in Databases” (KDD), Machine Learning oder auch Predictive Analytics.

Data Mining Verfahren:

  • Regression
  • Logistische Regression (binär, multinominal)
  • Clusteranalyse: hierarchische und partitionierende Verfahren (k-means, PAM, AP)
  • Diskriminanzanalyse (LDA, QDA)
  • Künstliche Neuronale Netze: MLP, RBF
  • Klassifikations- und Regressionsbäume: CART, CHAID
  • k-NN (k-Nearest Neighbor)
  • Support Vector Machines (SVM) 
  • ein- und mehrfaktorielle Varianzanalyse (ANOVA)
  • Kontingenzanalyse
  • Faktoren-/Hauptkomponentenanalyse (PCA)
  • Conjoint-Analyse (Verbundmessung)
  • Warenkorbanalyse (Assoziationsregeln)
  • Korrespondenzanalyse

Daneben relevant …

  • Umgang mit Missing Values (Imputationsverfahren und    Visualisierungsmöglichkeiten)
  • Resampling Methoden (Kreuzvalidierung, Bagging, Boosting)

Datensatzquellen:

Eine Abschlussarbeit kann auch ausgehend von einem Datensatz bearbeitet werden. Hier eine Reihe möglicher Datensatzquellen:

Anforderungen:

  • Sämtliche Themenstellungen sollen neben den theoretischen Grundlagen (d.h. der Modellbildung und den Modellannahmen) einen empirischen Teil aufweisen, in dem ein reeller, themenbezogener Datensatz mittels einer Statistik-Software (R, IBM SPSS Statistics) ausgewertet wird.

Literatur:

  • Backhaus et al., 2011, Multivariate Analysemethoden – eine anwendungsorientierte Ein­führung, Springer
  • Backhaus et al., 2011, Fortgeschrittene Multivariate Analysemethoden – eine anwendungs­orien­tierte Einführung, Springer
  • James et al.; An Introduction to Statistical Learning - with Applications in R; 2013; Springer
    Download-Link: http://www-bcf.usc.edu/~gareth/ISL/getbook.html
  • Hastie et al.; The Elements of Statistical Learning – Data Mining, Inference and Prediction; 2009; Springer
  • Rencher, Methods of multivariate analysis, 2002, John Wiley & Sons Inc.
  • Nisbet et al., 2009, Handbook of Statistical Analysis and Data Mining Applications, Academic Press
  • Hand et al., 2001, Principles of Data Mining, The MIT Press
  • Runkler, 2010, Data Mining: Methoden und Algorithmen intelligenter Datenanalyse, Vieweg+Teubner
  • Bishop, Pattern Recognition and Machine Learning, 2006, Springer
  • Fahrmeir et al., Regression – Modelle, Methoden und Anwendungen, 2007, Springer
  • Tutz, Regression for Categorical Data, 2012, Cambridge Verlag
  • Toutenburg, Lineare Modelle – Theorie und Anwendungen, 2003, Physika Verlag
  • Kaufman, Rousseeuw; Finding Groups In Data – An Introduction to Cluster Analysis; 1990; Wiley&Sons
  • Breiman et al., Classification and Regression Trees, 1998, Chapman & Hall