Weka(3) maszynowe uczenie - raport

UWAGA

Dla osób piszących sprawozdanie z zadania Autobusy:
w sekcji pliki pojawiła się poprawiona wersja zbioru danych!

Przepraszamy za utrudnienia :)

Polecenie:

Zajęcia mają na celu pokazanie praktycznego wykorzystania mechanizmów maszynowego uczenia oraz sztucznej inteligencji.

Celem przeprowadzonego studium przypadku jest analiza dostarczonych zbiorów danych. Wybór metody maszynowego uczenia wraz z podstawami teoretycznymi. Jak również próba odkrycia przy ich pomocy interesujących i potencjalnie użytecznych prawidłowości. Należy również dokonać próby interpretacji i oceny znalezionych regularności – na przykład jako formy reprezentacji wiedzy odkrytych w bazie danych.

Podsumowaniem Państwa analizy ma być pisemny raport zawierający listę najbardziej ważnych i interesujących regularności odnalezionych podczas procesu maszynowego uczenia.

Schmat raportu został przedstawiony poniżej, przydział poszczególnych zbiorów danych odbędzie się w trakcie zajęć.
Termin oddania raportu to 8.01.2008.

Raport może zostać dostarczony drogą elektroniczną - na adres lp.ude.uma|iala#lp.ude.uma|iala w formie dokumentu (.pdf, .doc,

Co umieścić w sprawozdaniu…

analiza zbioru danych

  • ocena przydatności diagnostycznej poszczególnych atrybutów oraz ich wartości skrajnych,
  • analiza wykresów (histogramów danych)

wybór algorytmu(ów) maszynowego uczenia

  • konstrukcja "klasyfikatora" (wykorzystując Wekę i zaimplementowane w niej algorytmy), czyli wskazań dla podejmowania końcowej decyzji klasyfikującej na podstawie bieżących zgromadzonych danych.
  • krótka dyskusja teoretyczna i uzasadnienie wyboru określonego algorytmu

analiza parametrów algorytmu

  • opis przyjętych, przed tworzeniem klasyfikacji, parametrów algorytmu
  • uzasadnienie na podbudowie dlaczego właśnie takie?

analiza wyników klasyfikacji

  • ocena przydatności diagnostycznej poszczególnych atrybutów
  • Twoje wnioski powinny być interpretowane w kategoriach przydatności odkrytej wiedzy z danych (czyli znalezionych regularności, klasyfikatorów itp.) dla bieżącej funkcji oceny i podejmowania decyzji o celach zadania.
  • na dotychczasowych zajęciach poznaliśmy algorytmy budowy klasyfikatorów, warto zwrócić uwagę, że automatyczna klasyfikacja jest tylko jedyną z miar oceny; Jeśli chcesz rozważać budowę klasyfikatorów to pamiętaj także iż użytkownicy nie skupiają się wyłącznie na globalnej trafności klasyfikacji lecz ważniejsza jest dla nich trafność w poszczególnych klasach, analiza „confusion matrix” jest bardzo pożądana.
  • na jakie pytania pozwala odpowiedzieć analiza danych i klasyfikacja dla tego typu problemu?

Opis atrybutów dla problemów

Autobusy

  • predkosc - prędkość maksymalna [km/h],
  • cisnienie - ciśnienie spręania [Mpa],
  • zanieczyszczenie - zawartość elementów smołowatych w spalinach wylotowych [%],
  • mom_obrotowy - moment obrotowy silnika [Nm],
  • letnie_zuzycie - letnie zużycie paliwa [l/100km],
  • zimowe_zuzycie - zimowe zużycie paliwa [l/100km],
  • zuzycie_oleju - zużycie oleju [l/1000km],
  • stan_techniczny - (atrybut decyzyjny).

Letters

  • x_box - pozioma pozycja prostokąta z literą
  • y_box - pionowa pozycja prostokąta z literą
  • width - szerokość prostokąta z literą
  • height - wysokość prostokąta z literą
  • on_pix - liczba pikseli składających się na literę
  • x_mean - średnia liczba pikseli litery w liniach poziomych (rzędach)
  • y_mean - średnia liczba pikseli litery w liniach pionowych (kolumnach)
  • x2_mean - wariancja średniej liczby pikseli w rzędach
  • y2_mean - wariancja średniej liczby pikseli w kolumnach
  • xy_cor - korelacja średnich po rzędach i kolumnach
  • x2ymean - średnia x * x * y
  • xy2mean - średnia x * y * y
  • x_edge - średnia liczba krawędzi od lewej do prawej
  • xy_edge - korelacja poziomych krawędzi z pozycją y
  • y_ege - średnia liczba krawędzi od góry do dołu
  • yx_edge - korelacja pionowych krawędzi z pozycją x
  • letter - litera (atrybut decyzyjny - 26 values from A to Z)

Kredyty (CRX)

Dane są anonimowe, dlatego interpretacja atrybutów nie jest znana.

Dwunastnica

  • plec - płeć
  • wiek - wiek pacjenta
  • proba - (błąd w nazwie, powinno być "choroba") czas trwania choroby w latach
  • bol_nadbrzusza - występowanie bólu nadbrzusza
  • bol_po_posilku - siła bólu po posiłku
  • zgaga - występowanie zgagi
  • nisza - wykrycie tzw. niszy w badaniu USG
  • komplikacje - komplikacje
  • hcl - współczynnik HCL
  • wydzielanie_soku - wydzielanie soku żołądkowego
  • zaleganie_soku - zaleganie soku żołądkowego
  • bao - współczynnik BAO
  • wydzielanie_soku_po - wydzielanie soku żołądkowego po badaniu
  • zaleganie_soku_po real - zaleganie soku żołądkowego po badaniu
  • bao_po - współczynnik BAO po badaniu
  • stan (atrybut decyzyjny)
© A. Czoska, M. Komosiński, B. Kroll, A. Kupś, A. Mensfelt, B. Szopka