UWAGA
Dla osób piszących sprawozdanie z zadania Autobusy:
w sekcji pliki pojawiła się poprawiona wersja zbioru danych!
Przepraszamy za utrudnienia :)
Polecenie:
Zajęcia mają na celu pokazanie praktycznego wykorzystania mechanizmów maszynowego uczenia oraz sztucznej inteligencji.
Celem przeprowadzonego studium przypadku jest analiza dostarczonych zbiorów danych. Wybór metody maszynowego uczenia wraz z podstawami teoretycznymi. Jak również próba odkrycia przy ich pomocy interesujących i potencjalnie użytecznych prawidłowości. Należy również dokonać próby interpretacji i oceny znalezionych regularności – na przykład jako formy reprezentacji wiedzy odkrytych w bazie danych.
Podsumowaniem Państwa analizy ma być pisemny raport zawierający listę najbardziej ważnych i interesujących regularności odnalezionych podczas procesu maszynowego uczenia.
Schmat raportu został przedstawiony poniżej, przydział poszczególnych zbiorów danych odbędzie się w trakcie zajęć.
Termin oddania raportu to 8.01.2008.
Raport może zostać dostarczony drogą elektroniczną - na adres lp.ude.uma|iala#lp.ude.uma|iala w formie dokumentu (.pdf, .doc,
Co umieścić w sprawozdaniu…
analiza zbioru danych
- ocena przydatności diagnostycznej poszczególnych atrybutów oraz ich wartości skrajnych,
- analiza wykresów (histogramów danych)
wybór algorytmu(ów) maszynowego uczenia
- konstrukcja "klasyfikatora" (wykorzystując Wekę i zaimplementowane w niej algorytmy), czyli wskazań dla podejmowania końcowej decyzji klasyfikującej na podstawie bieżących zgromadzonych danych.
- krótka dyskusja teoretyczna i uzasadnienie wyboru określonego algorytmu
analiza parametrów algorytmu
- opis przyjętych, przed tworzeniem klasyfikacji, parametrów algorytmu
- uzasadnienie na podbudowie dlaczego właśnie takie?
analiza wyników klasyfikacji
- ocena przydatności diagnostycznej poszczególnych atrybutów
- Twoje wnioski powinny być interpretowane w kategoriach przydatności odkrytej wiedzy z danych (czyli znalezionych regularności, klasyfikatorów itp.) dla bieżącej funkcji oceny i podejmowania decyzji o celach zadania.
- na dotychczasowych zajęciach poznaliśmy algorytmy budowy klasyfikatorów, warto zwrócić uwagę, że automatyczna klasyfikacja jest tylko jedyną z miar oceny; Jeśli chcesz rozważać budowę klasyfikatorów to pamiętaj także iż użytkownicy nie skupiają się wyłącznie na globalnej trafności klasyfikacji lecz ważniejsza jest dla nich trafność w poszczególnych klasach, analiza „confusion matrix” jest bardzo pożądana.
- na jakie pytania pozwala odpowiedzieć analiza danych i klasyfikacja dla tego typu problemu?
Opis atrybutów dla problemów
Autobusy
- predkosc - prędkość maksymalna [km/h],
- cisnienie - ciśnienie spręania [Mpa],
- zanieczyszczenie - zawartość elementów smołowatych w spalinach wylotowych [%],
- mom_obrotowy - moment obrotowy silnika [Nm],
- letnie_zuzycie - letnie zużycie paliwa [l/100km],
- zimowe_zuzycie - zimowe zużycie paliwa [l/100km],
- zuzycie_oleju - zużycie oleju [l/1000km],
- stan_techniczny - (atrybut decyzyjny).
Letters
- x_box - pozioma pozycja prostokąta z literą
- y_box - pionowa pozycja prostokąta z literą
- width - szerokość prostokąta z literą
- height - wysokość prostokąta z literą
- on_pix - liczba pikseli składających się na literę
- x_mean - średnia liczba pikseli litery w liniach poziomych (rzędach)
- y_mean - średnia liczba pikseli litery w liniach pionowych (kolumnach)
- x2_mean - wariancja średniej liczby pikseli w rzędach
- y2_mean - wariancja średniej liczby pikseli w kolumnach
- xy_cor - korelacja średnich po rzędach i kolumnach
- x2ymean - średnia x * x * y
- xy2mean - średnia x * y * y
- x_edge - średnia liczba krawędzi od lewej do prawej
- xy_edge - korelacja poziomych krawędzi z pozycją y
- y_ege - średnia liczba krawędzi od góry do dołu
- yx_edge - korelacja pionowych krawędzi z pozycją x
- letter - litera (atrybut decyzyjny - 26 values from A to Z)
Kredyty (CRX)
Dane są anonimowe, dlatego interpretacja atrybutów nie jest znana.
Dwunastnica
- plec - płeć
- wiek - wiek pacjenta
- proba - (błąd w nazwie, powinno być "choroba") czas trwania choroby w latach
- bol_nadbrzusza - występowanie bólu nadbrzusza
- bol_po_posilku - siła bólu po posiłku
- zgaga - występowanie zgagi
- nisza - wykrycie tzw. niszy w badaniu USG
- komplikacje - komplikacje
- hcl - współczynnik HCL
- wydzielanie_soku - wydzielanie soku żołądkowego
- zaleganie_soku - zaleganie soku żołądkowego
- bao - współczynnik BAO
- wydzielanie_soku_po - wydzielanie soku żołądkowego po badaniu
- zaleganie_soku_po real - zaleganie soku żołądkowego po badaniu
- bao_po - współczynnik BAO po badaniu
- stan (atrybut decyzyjny)