Główne zadania eksploracji danych

link: http://www2.cs.uregina.ca/~dbd/cs831/notes/kdd/2_tasks.html

Link: Fayyad i wsp. 1996

Dwa “wysokiego poziomu” głównych zadań eksploracji danych, w praktyce prognozowania i opis.

  1. Prognozowanie polega na wykorzystaniu niektórych zmiennych lub pól w bazie danych do przewidywania nieznanych i przyszłych wartości innych zmiennych, zainteresowania.
  2. Opis, i koncentruje się na poszukiwaniu modeli zrozumiałej dla człowieka, opisujące dane.

Względna ważność prognozowania i opis dla danego zastosowania eksploracji danych mogą się znacznie różnić. Jednak, w kontekście KDD, opis wydaje się być ważniejsze, niż przewidywania. Jest to w przeciwieństwie do rozpoznawania obrazów i uczenia maszynowego aplikacji (takich jak rozpoznawanie mowy), gdzie prognozowanie jest często podstawowym zadaniem procesu KDD.

Celów prognozowania i opis uzyskuje się za pomocą następujących podstawowych zadania eksploracji danych:

  1. Klasyfikacja jest edukacyjna funkcja, która koreluje (klasyfikuje) elementu danych w jednej z kilku predefiniowanych klas.
  2. Regresji jest edukacyjna funkcja, która koreluje elementu danych rzeczywistych zmiennych przewidywania.
  3. Klastrów jest wspólną opisowych zadań, gdzie jedna stara się odszukać odpowiednich końcowego zestawu kategorii lub klastrów do opisu danych.
    • Jest ściśle związana z klastrów-to zadanie gęstości prawdopodobieństwa oceny, która składa się z metod ustalenia na podstawie danych, wspólnej wielowymiarowej gęstości prawdopodobieństwa funkcja wszystkich zmiennych/pól w bazie danych.
  4. Uszczelki, i zawiera metody do znalezienia kompaktowe opis dla podzbioru danych.
  5. W zależności Symulacja, i składa się z znaleźć model, który opisuje istotne zależności między zmiennymi.
    Modele zależności istnieją na dwóch poziomach:

    1. struktura poziom modelu określa (często graficznie), które zmienne są lokalnie zależne od siebie, i
    2. ilościowo poziom modelu określa silnych zależności, wykorzystując niektóre dane liczbowe.
  6. Zmiana i odchylenie wykrywania, i skupia się na rozwiązywaniu najbardziej istotnych zmian w danych z wcześniej zmierzonych lub normatywnych wartości.