Lineární Regrese je rodina algoritmů zaměstnané ve sledovaných úloh strojového učení (se dozvědět více o učení s učitelem, můžete si přečíst můj dřívější článek zde). S vědomím, že úkoly pod dohledem ML jsou obvykle rozděleny na klasifikaci a regresi, můžeme v druhé kategorii kolokovat lineární regresní algoritmy., To se liší od klasifikace vzhledem k povaze cílové proměnné: klasifikace, cíl je kategorická hodnota (‚ano/ne‘, ‚červená/modrá/zelená‘, ‚spam/není spam…); na druhé straně, regrese zahrnuje numerické, kontinuální hodnoty jako cíl, tudíž algoritmus bude požádán, aby předpovědět, kontinuální řadu, spíše než třídy nebo kategorie. Konkrétně si představte, že chcete předpovědět cenu domu na základě některých relativních vlastností: výstupem vašeho modelu bude cena, tedy nepřetržité číslo.,
regresní úlohy lze rozdělit do dvou hlavních skupin: ty, které používají pouze jednu funkci k předpovědi cíle, a ty, které pro tento účel používají více než jednu funkci. Aby vám příklad, podívejme se na dům úkol výše: pokud chcete předpovědět jeho cena pouze na základě jeho druhou metrů, bude spadat do první situace (jedna funkce); pokud se chystáte předvídat cenu na základě, řekněme, jeho druhou metrů, jeho postavení a obyvatelnost z okolního prostředí, které budete k pádu do druhé situace (více funkcí, v tomto případě tři).,
v prvním scénáři bude algoritmus, který pravděpodobně použijete, jednoduchá lineární regrese, o které budeme hovořit v tomto článku. Na druhé straně, kdykoli se díváte na více než jedné vlastnosti schopen vysvětlit, cílové proměnné, je pravděpodobné, že zaměstnávají Více Lineární Regrese.,
Jednoduché Lineární Regrese je statistická model, široce používané v ML regresní úlohy, založené na myšlence, že vztah mezi dvěma proměnnými, lze vysvětlit pomocí následujícího vzorce:
Kde ei je chybová termín, a α, β jsou pravdivé (ale nepozorovaně) parametry regrese., Parametr β představuje změnu závislé proměnné při nezávislé proměnné má jednotnou variace: a to, když můj parametru je rovna 0.75, když se x zvětší o 1, má závislá proměnná zvýší o 0,75. Na druhé straně parametr α představuje hodnotu naší závislé proměnné, když se nezávislá proměnná rovná nule.,
zkusme si to názorně:
Nyní, myšlenka Jednoduchá Lineární Regrese je nalezení těchto parametrů α a β, pro které se chybová termín je minimalizován. Přesněji řečeno, model minimalizuje čtvercové chyby: opravdu nechceme, aby naše pozitivní chyby byly kompenzovány negativními, protože stejně penalizují náš model.,
This procedure is called Ordinary Least Squared error — OLS.
Let’s demonstrate those optimization problems step by step.,r α:
Jakmile získány tyto hodnoty α a β, které minimalizují součet čtverců chyb, náš model je rovnice bude vypadat takhle:
Abych to shrnul, můžete zvážit OLS jako strategie pro získání, z vašeho modelu, „v přímé linii“, která je tak blízko, jak je to možné, aby vaše data bodů., I když OLS není pouze optimalizace strategie, to je nejvíce populární pro tento druh úkolů, od výstupů regrese (které jsou, koeficienty) jsou nestranné odhady reálné hodnoty alfa a beta. Opravdu, podle Gauss-Markov Teorém, podle některých předpokladů lineárního regresního modelu (linearita v parametrech, náhodný výběr pozorování, podmíněné tím rovna nule, absence multikolinearita, homoskedasticity chyb), OLS estimátorů α a β jsou Nejlepší Lineární Nestranné Odhady (BLUE) skutečné hodnoty α a β.,
Pokud jste našli toto téma zajímavé a chcete vidět praktickou aplikaci s Pythonem toho, co jste dosud četli, můžete si přečíst můj článek zde.