Lineáris Regresszió a család algoritmusok alkalmazott felügyelt gépi tanulási feladatokat (további információ a felügyelt tanulás, akkor olvasd el a korábbi cikket itt). Tudva, hogy a felügyelt ML feladatok általában osztályozásra és regresszióra vannak osztva, az utóbbi kategóriába sorolhatjuk a lineáris regressziós algoritmusokat., Az eltér osztályozási, mert a természet, a cél változó: az osztályozás, a cél egy kategorikus érték (“igen/nem”, ‘piros/kék/zöld’, ‘spam/nem spam…); másrészt a regressziós magában foglalja a numerikus, folyamatos értékek, mint a cél, ezért az algoritmus fogja kérni, hogy megjósolni, hogy egy folyamatos száma, ahelyett, hogy egy osztály vagy kategória. Nevezetesen, képzelje el, hogy egy ház árát néhány relatív tulajdonság alapján szeretné megjósolni: a modell kimenete lesz az ár, tehát folyamatos szám.,
a regressziós feladatok két fő csoportra oszthatók: azok, amelyek csak egy funkciót használnak a cél előrejelzéséhez, valamint azok, amelyek egynél több funkciót használnak erre a célra. Ha példát szeretne adni, fontolja meg a fenti házfeladatot: ha csak a négyzetmérők alapján szeretné megjósolni az árát, akkor az első helyzetbe kerül (egy funkció); ha meg akarja jósolni az árat, mondjuk a négyzetmérők, a pozíciója és a környező környezet élhetősége alapján, akkor a második helyzetbe esik (több funkció, ebben az esetben három).,
az első forgatókönyvben az algoritmus, amelyet valószínűleg alkalmaz, az egyszerű lineáris regresszió lesz, amelyről ebben a cikkben fogunk beszélni. A másik oldalon, ha több olyan funkcióval szembesül, amely képes megmagyarázni a célváltozót, akkor valószínűleg többszörös lineáris regressziót alkalmaz.,
Egyszerű Lineáris Regressziós statisztikai modell, széles körben használt ML regressziós feladatok alapján az ötlet, hogy a két változó közötti kapcsolat azzal magyarázható, hogy a következő képlet:
Ahol ei a hiba kifejezés, α, β az igazi (de észrevétlenül) paraméterek a regressziós., A β paraméter a függő változó variációját jelenti, ha a független változónak egységes variációja van: nevezetesen, ha a paraméterem 0,75, amikor az x 1-gyel növekszik, a függő változóm 0,75-tel növekszik. Másrészt az α paraméter a függő változónk értékét jelenti, ha a független nulla.,
Most, az ötlet Egyszerű, Lineáris Regresszió, hogy megtaláljuk azokat a paramétereket, α, illetve β, amelyre a hiba kifejezés minimális. Pontosabban, a modell minimalizálja a négyzetes hibákat: valójában nem akarjuk, hogy pozitív hibáinkat a negatívok kompenzálják, mivel ugyanúgy büntetik a modellünket.,
This procedure is called Ordinary Least Squared error — OLS.
Let’s demonstrate those optimization problems step by step.,r α:
Egyszer kapott ezeket az értékeket az α, illetve β, amely minimalizálja a négyzetes hibák, a modell egyenlet fog kinézni, hogy:
összefoglalva, fontolja meg, az OLS, mint egy stratégiai beszerzése, a modell, egy egyenes vonal, amely olyan közel, amennyire csak lehetséges, hogy az adatok pontot., Annak ellenére, hogy az OLS nem az egyetlen optimalizálási stratégia, ez a legnépszerűbb az ilyen típusú feladatokhoz, mivel a regresszió kimenetei (azaz együtthatók) elfogulatlan becslői az alfa és béta valós értékeinek. Valójában a Gauss-Markov-tétel szerint a lineáris regressziós modell egyes feltételezései (a paraméterek linearitása, a megfigyelések véletlenszerű mintavétele, a nullával egyenlő feltételes átlag, a multicollinearitás hiánya, a hibák homoskedasticitása) szerint az α És β OLS-becslők az α És β valós értékeinek legjobb lineáris elfogulatlan Becslői (kék).,
ha érdekesnek találta ezt a témát, és szeretne egy gyakorlati alkalmazást látni a Python segítségével arról, amit eddig olvasott, olvassa el a cikkemet itt.