Rozdíl mezi klasifikací a regresí

2019

Klasifikace a regrese jsou dva hlavní predikční problémy, které jsou obvykle řešeny v dolování dat. Prediktivní modelování je technika vývoje modelu nebo funkce využívající historických dat k předvídání nových dat. Významný rozdíl mezi klasifikací a regresí je, že klasifikace mapuje objekt vstupních dat na některé diskrétní popisky. Na druhou stranu, regresní mapuje objekt vstupních dat na spojité reálné hodnoty.

Srovnávací graf

Základ pro srovnání	Klasifikace	Regrese
Základní	Objevení modelu nebo funkcí, kde se mapování objektů provádí do předdefinovaných tříd.	Vymyslený model, ve kterém se mapování objektů provádí do hodnot.
Zahrnuje predikci	Diskrétní hodnoty	Nepřetržité hodnoty
Algoritmy	Rozhodovací strom, logistická regrese atd.	Regresní strom (Random forest), Lineární regrese atd.
Povaha předpokládaných dat	Neuspořádané	Objednáno
Metoda výpočtu	Přesnost měření	Měření průměrné čtvercové chyby

Definice klasifikace

Klasifikace je proces hledání nebo objevování modelu (funkce), který pomáhá při oddělování dat do více kategorií. V klasifikaci je identifikováno členství skupiny v problému, což znamená, že data jsou kategorizována podle různých značek podle některých parametrů a pak jsou údaje předikovány pro data.

Odvozené modely by mohly být demonstrovány ve formě pravidel „IF-THEN“, rozhodovacích stromů nebo neuronových sítí atd. Rozhodovací strom je v zásadě vývojový diagram, který se podobá stromové struktuře, kde každý vnitřní uzel zobrazuje test na atributu, a jeho větve ukazují výsledek testu. Proces klasifikace se zabývá problémy, kde lze data rozdělit do dvou nebo více diskrétních značek, jinými slovy dvou nebo více nesouvislých množin.

Vezměme si příklad, předpokládejme, že chceme předpovědět možnost deště v některých regionech na základě některých parametrů. Pak by tam byly dva štítky déšť a žádný déšť, pod kterým by mohly být klasifikovány různé regiony.

Definice regrese

Regrese je proces hledání modelu nebo funkce pro rozlišení dat do spojitých reálných hodnot namísto použití tříd. Matematicky, s regresním problémem, se snaží najít aproximaci funkce s minimální odchylkou chyb. V regresi se předpokládá, že bude tato numerická závislost rozlišena.

Regresní analýza je statistický model, který se používá k predikci číselných dat namísto štítků. Může také identifikovat distribuční pohyb v závislosti na dostupných údajích nebo historických údajích.

Vezměme si podobný příklad také v regresi, kde pomocí některých parametrů zjistíme možnost deště v některých regionech. V tomto případě existuje pravděpodobnost spojená s deštěm. Namísto toho klasifikujeme regiony v rámci deště a žádné značky deště, klasifikujeme je s jejich přidruženou pravděpodobností.

Klíčové rozdíly mezi klasifikací a regresí

Proces klasifikace modeluje funkci, pomocí které jsou data předvídána v popisech diskrétních tříd. Na druhé straně regrese je proces vytváření modelu, který předpovídá kontinuální množství.
Klasifikační algoritmy zahrnují rozhodovací strom, logistickou regresi atd. Příkladem regresního algoritmu je regresní strom (např. Random forest) a lineární regrese.
Klasifikace předpovídá neuspořádaná data, zatímco regrese předpovídá uspořádaná data.
Regresi lze vyhodnotit pomocí kořenové chyby. Naopak klasifikace je hodnocena přesností měření.

Závěr

Klasifikační technika poskytuje prediktivní model nebo funkci, která pomocí historických dat předpovídá nová data v diskrétních kategoriích nebo štítcích. Naopak regresní metoda modeluje spojité funkce, což znamená, že předpovídá data v souvislých numerických datech.