regresja liniowa jest rodziną algorytmów stosowanych w nadzorowanych zadaniach uczenia maszynowego (aby dowiedzieć się więcej o nadzorowanym uczeniu, możesz przeczytać mój poprzedni artykuł tutaj). Wiedząc, że nadzorowane zadania ML są zwykle podzielone na klasyfikację i regresję, możemy kolokować algorytmy regresji liniowej w tej ostatniej kategorii., Różni się od klasyfikacji ze względu na charakter zmiennej docelowej: w klasyfikacji cel jest wartością kategoryczną („tak/nie”, „Czerwony/niebieski/zielony”, „spam/nie spam”…); z drugiej strony, regresja obejmuje liczbowe, ciągłe wartości jako cel, stąd algorytm zostanie poproszony o przewidzenie liczby ciągłej, a nie Klasy lub kategorii. Mianowicie, wyobraź sobie, że chcesz przewidzieć cenę domu w oparciu o pewne cechy względne: wyjście modelu będzie cena, a zatem ciągła liczba.,
zadania regresji można podzielić na dwie główne grupy: te, które używają tylko jednej funkcji do przewidywania celu, i te, które używają więcej niż jednej funkcji do tego celu. Aby dać ci przykład, rozważmy zadanie domu powyżej: jeśli chcesz przewidzieć jego cenę tylko na podstawie jego metrów kwadratowych, wpadniesz w pierwszej sytuacji (jedna cecha); jeśli masz zamiar przewidzieć cenę na podstawie, powiedzmy, jego metrów kwadratowych, jego pozycji i żywotności otaczającego środowiska, masz zamiar wpaść w drugiej sytuacji(wiele cech, w tym przypadku, trzy).,
w pierwszym scenariuszu algorytm, który prawdopodobnie zastosujesz, będzie prostą regresją liniową, o której będziemy mówić w tym artykule. Z drugiej strony, gdy napotykasz więcej niż jedną cechę zdolną wyjaśnić zmienną docelową, prawdopodobnie zastosujesz wielokrotną regresję liniową.,
prosta regresja liniowa jest modelem statystycznym, szeroko stosowanym w zadaniach regresji ML, opartym na założeniu, że zależność między dwiema zmiennymi można wyjaśnić następującym wzorem:
gdzie ei jest terminem błędu, a α, β są prawdziwymi (ale niezauważonymi) parametrami regresji., Parametr β reprezentuje zmienność zależną, gdy zmienna niezależna ma zmienność unitarną: mianowicie, jeśli mój parametr jest równy 0,75, gdy mój x wzrasta o 1, moja zmienna zależna wzrośnie o 0,75. Z drugiej strony parametr α reprezentuje wartość naszej zmiennej zależnej, gdy niezależna jest równa zeru.,
wizualizujmy to graficznie:
teraz ideą prostej regresji liniowej jest znalezienie tych parametrów α i β, dla których termin błędu jest zminimalizowany. Aby być bardziej precyzyjnym, model zminimalizuje kwadratowe błędy: rzeczywiście, nie chcemy, aby nasze pozytywne błędy były kompensowane przez negatywne, ponieważ są one w równym stopniu penalizujące dla naszego modelu.,
This procedure is called Ordinary Least Squared error — OLS.
Let’s demonstrate those optimization problems step by step.,r α:
Po uzyskaniu tych wartości α i β, które minimalizują kwadratowe błędy, równanie naszego modelu będzie wyglądać tak:
podsumowując, możesz rozważyć OLS jako strategię uzyskania na podstawie Twojego modelu „prostej linii”, która jest jak najbliżej Twoich punktów danych., Chociaż OLS nie jest jedyną strategią optymalizacji, jest najbardziej popularna w tego rodzaju zadaniach, ponieważ wyniki regresji (czyli współczynniki) są bezstronnymi estymatorami rzeczywistych wartości alfa i beta. Rzeczywiście, zgodnie z twierdzeniem Gaussa-Markowa, przy niektórych założeniach modelu regresji liniowej (liniowość parametrów, losowe pobieranie próbek obserwacji, średnia warunkowa równa zeru, brak wielokolinearności, homoskedastyczność błędów), estymatory OLS α i β są najlepszymi liniowymi Estymatorami bezstronnymi (niebieskimi) rzeczywistych wartości α i β.,
Jeśli zainteresował Cię ten temat i chcesz zobaczyć praktyczną aplikację z Pythonem o tym, co do tej pory czytałeś, możesz przeczytać mój artykuł tutaj.