Lineær Regresjon er familien av algoritmer ansatt i overvåket maskinlæring oppgaver (for å lære mer om overvåket læring, du kan lese min tidligere artikkel her). Å vite at tilsyn ML oppgaver er normalt delt inn i klassifisering og regresjon, kan vi collocate Lineær Regresjon algoritmer i sistnevnte kategori., Den skiller seg fra klassifisering på grunn av arten av target variable: i klassifisering, målet er en kategorisk verdi («ja/nei», «rød/blå/grønn’, ‘spam/ikke søppelpost’…); på den annen side, regresjon innebærer numerisk, kontinuerlig verdier som mål, derav algoritmen vil bli bedt om å forutsi en kontinuerlig nummer snarere enn en klasse eller kategori. Nemlig, tenk deg at du ønsker å forutsi prisen på et hus basert på noen forhold funksjoner: produksjon av modellen vil være prisen, derav en kontinuerlig nummer.,
Regresjon oppgaver kan deles inn i to hovedgrupper: de som bruker bare én funksjon for å forutsi målet, og de som bruker mer enn man har for dette formålet. For å gi dere et eksempel, la oss vurdere huset oppgave over: hvis du ønsker å forutsi prisen kun basert på sin kvadrat meter, vil du falle inn i den første situasjonen (én funksjon); hvis du kommer til å forutsi prisen er basert på, la oss si, dets kvadrat meter, sin posisjon og liveability av omgivelsene, du kommer til å falle inn i den andre situasjonen (flere funksjoner, i så fall, tre).,
I det første scenariet, algoritmen du er sannsynlig å ansette vil være Enkel Lineær Regresjon, som er den vi kommer til å snakke om i denne artikkelen. På den andre siden, når du står overfor mer enn ett funksjoner i stand til å forklare target variable, er du sannsynligvis til å ansette en Multippel Lineær Regresjon.,
Enkel Lineær Regresjon er en statistisk modell, mye brukt i ML regresjon oppgaver, basert på ideen om at forholdet mellom to variabler kan forklares ved hjelp av følgende formel:
Hvor ei er det feil begrep, og α, β er den sanne (men uobserverte) parametere av regresjon., Parameteren β representerer variasjonen i den avhengige variabelen når den uavhengige variabelen har en enhetlig variasjon: nemlig, hvis parameteren er lik 0.75, når x øker med 1 min avhengige variabel vil øke med 0.75. På den annen side, er den parameteren α representerer verdien av vår avhengige variabel når den uavhengige en er lik null.,
La oss se det klart og tydelig:
Nå, ideen om Enkel Lineær Regresjon er å finne disse parametrene α og β som feil sikt er minimert. For å være mer presis, modellen vil redusere de kvadrerte feil: ja, vi ønsker ikke at våre positive feil å være kompensert av det negative de, siden de er like penalizing for vår modell.,
This procedure is called Ordinary Least Squared error — OLS.
Let’s demonstrate those optimization problems step by step.,r α:
En gang fikk de verdier av α og β som minimere de kvadrerte feil, vår modell er ligningen vil se ut som:
for Å oppsummere, kan du vurdere OLS som en strategi for å få tak i, fra modellen, en «rett linje» som er så nært som mulig til dine data poeng., Selv om OLS er ikke den eneste optimalisering strategi, det er den mest populære for denne type oppgaver, siden resultatene av regresjon (som er koeffisientene) er forventningsrette estimatorer for den virkelige verdier av alfa-og beta. Faktisk, i henhold til Gauss-Markov-Teoremet, under noen forutsetninger for lineær regresjonsmodell (linearitet i parametre, tilfeldig utvalg av observasjoner, betinget betyr lik null, fravær av multicollinearity, homoskedasticity av feil), den OLS estimatorer α og β er den Beste Lineære Forventningsrette Estimatorer (BLÅ) på den virkelige verdier av α og β.,
Hvis du fant dette emnet interessant, og du vil se et praktisk program med Python av hva du har lest så langt, kan du lese artikkelen min her.