regresia liniară este familia de algoritmi angajați în sarcinile de învățare automată supravegheată (pentru a afla mai multe despre învățarea supravegheată, puteți citi fostul meu articol aici). Știind că sarcinile ML supravegheate sunt în mod normal împărțite în clasificare și regresie, putem coloca algoritmi de regresie liniară în ultima categorie., Aceasta diferă de clasificare datorită naturii variabilei țintă: în clasificare, ținta este o valoare categorică („Da/Nu”, „Roșu/albastru/verde”, „spam/nu spam”…); pe de altă parte, regresia implică valori numerice, continue ca țintă, prin urmare algoritmul va fi rugat să prezică un număr continuu, mai degrabă decât o clasă sau o categorie. Anume, imaginați-vă că doriți să prezice prețul unei case pe baza unor caracteristici relative: producția modelului dvs. va fi prețul, deci un număr continuu.,sarcinile de regresie pot fi împărțite în două grupe principale: cele care utilizează o singură caracteristică pentru a prezice ținta și cele care utilizează mai multe caracteristici în acest scop. Să vă dau un exemplu, să considerăm casa de sarcina de mai sus: dacă doriți pentru a prezice prețul său se bazează numai pe mp, va cădea în prima situație (o caracteristică); dacă aveți de gând pentru a prezice prețul bazat pe, să zicem, își mp, poziția și condițiile de trai din mediul înconjurător, aveți de gând să scadă în a doua situație (mai multe caracteristici, în acest caz, trei).,
în primul scenariu, algoritmul pe care este posibil să îl utilizați va fi regresia liniară simplă, despre care vom vorbi în acest articol. Pe de altă parte, ori de câte ori vă confruntați cu mai multe caracteristici capabile să explice variabila țintă, este posibil să utilizați o regresie liniară multiplă.,
Regresia Liniară Simplă este un model statistic, utilizat pe scară largă în ML de regresie sarcini, bazat pe ideea că relația dintre două variabile poate fi explicată prin următoarea formulă:
în cazul în Care el este termenul de eroare, și α, β sunt adevărate (dar nerespectat) parametrii de regresie., Parametrul β reprezintă variabila variabilei dependente atunci când variabila independentă are o variație unitară: și anume, dacă parametrul meu este egal cu 0.75, când X-ul meu crește cu 1, variabila mea dependentă va crește cu 0.75. Pe de altă parte, parametrul α reprezintă valoarea variabilei noastre dependente atunci când cea independentă este egală cu zero.,
Să-l vizualizeze grafic:
Acum, ideea de Regresie Liniară Simplă este de a găsi acei parametrii α și β pentru care termenul de eroare este redusă la minimum. Pentru a fi mai precis, modelul va minimiza erorile pătrate: într-adevăr, nu dorim ca erorile noastre pozitive să fie compensate de cele negative, deoarece acestea sunt la fel de penalizatoare pentru modelul nostru.,
This procedure is called Ordinary Least Squared error — OLS.
Let’s demonstrate those optimization problems step by step.,r α:
Odată obținute valorile lui α și β care minimizarea erorilor pătratice, modelul nostru ecuația lui va arata ca asta:
Pentru a rezuma, puteți lua în considerare OLS ca o strategie de a obține, la modelul tau, o „linie dreaptă”, care este cât mai aproape posibil de punctele de date., Chiar dacă OLS nu este singura strategie de optimizare, este cea mai populară pentru acest tip de sarcini, deoarece rezultatele regresiei (adică coeficienții) sunt estimatori imparțiali ai valorilor reale ale alfa și beta. Într-adevăr, potrivit Gauss-Markov Teorema, în anumite ipoteze din modelul de regresie liniară (liniaritatea în parametrii de eșantionare aleatoare de observații, condiționată egal cu zero, lipsa de multicoliniaritate, homoscedasticitate a erorilor), OLS estimatorilor α și β sunt cele mai Bune Liniar Imparțial Estimatori (ALBASTRU) de la valorile reale α și β.,dacă ați găsit acest subiect interesant și doriți să vedeți o aplicație practică cu Python a ceea ce ați citit până acum, Puteți citi articolul meu aici.