lineær Regression er familien af algoritmer, der er ansat i overvågede maskinindlæringsopgaver (for at lære mere om overvåget læring kan du læse min tidligere artikel her). At vide, at overvågede ML-opgaver normalt er opdelt i klassificering og regression, kan vi samle lineære Regressionsalgoritmer i sidstnævnte kategori., Det adskiller sig fra klassificering på grund af arten af target-variabel: i klassificering, målet er en kategorisk værdi (‘ja/nej’, ‘rød/blå/grøn”, “spam/ikke-spam’…), og på den anden side, regression indebærer numeriske, kontinuerlig værdier som mål, og derfor algoritme vil blive bedt om at forudsige et fortløbende nummer i stedet for en klasse eller kategori. Forestil dig, at du vil forudsige prisen på et hus baseret på nogle relative funktioner: udgangen af din model vil være prisen, og dermed et kontinuerligt antal.,Regressionsopgaver kan opdeles i to hovedgrupper: dem, der kun bruger en funktion til at forudsige målet, og dem, der bruger mere end en funktion til dette formål. For at give dig et eksempel, lad os overveje hus opgave ovenstående: hvis du ønsker at forudsige sin pris kun baseret på dens meter kvadreret, du vil falde ind i den første situation (en funktion), hvis du kommer til at forudsige prisen er baseret på, lad os sige, sin meter kvadreret, sin position og den gode leveforhold af det omgivende miljø, du kommer til at falde i den anden situation (flere funktioner, i dette tilfælde tre).,
i det første scenarie vil den algoritme, du sandsynligvis vil anvende, være den enkle lineære Regression, som er den, vi skal tale om i denne artikel. På den anden side, når du står over for mere end en funktion, der er i stand til at forklare målvariablen, vil du sandsynligvis anvende en multipel lineær Regression.,
Simpel Lineær Regression er en statistisk model, som anvendes meget i ML regression opgaver, der er baseret på den idé, at forholdet mellem to variabler, kan forklares ved følgende formel:
Hvor ei er fejl sigt, og α, β er den sande (men ikke overholdte) parametre for regression., Parameteren β repræsenterer variationen af den afhængige variabel, når den uafhængige variabel har en ensartet variation: nemlig, hvis min parameter er lig med 0.75, når min x øges med 1, min afhængige variabel stiger med 0.75. På den anden side repræsenterer parameteren a værdien af vores afhængige variabel, når den uafhængige er lig med nul.,
Lad os se det grafisk:
Nu, tanken om Simpel Lineær Regression er at finde de parametre, α og β, som fejlled er minimeret. For at være mere præcis vil modellen minimere de firkantede fejl: vi ønsker faktisk ikke, at vores positive fejl skal kompenseres af de negative, da de lige så straffer for vores model.,
This procedure is called Ordinary Least Squared error — OLS.
Let’s demonstrate those optimization problems step by step.,r α:
Når man engang har fået disse værdier af α og β, som minimere den kvadrerede fejl, vores model s ligning vil se ud som:
for At opsummere, kan du overveje OLS som en strategi til at opnå, fra din model, en ‘lige linje’, der ligger så tæt som muligt til dine data punkter., Selvom OLS ikke er den eneste optimeringsstrategi, er den den mest populære for denne type opgaver, da udgangene fra regressionen (det vil sige koefficienter) er upartiske estimatorer af de reelle værdier af alfa og beta. Faktisk, ifølge Gauss-Markov Sætningen, under visse forudsætninger, af den lineære regressionsmodel (linearitet i parametrene, stikprøvekontrol af observationer, betinget middelværdi er lig nul, fravær af multicollinearity, homoskedasticity af fejl), den OLS estimatorer α og β er den Bedste Lineære Unbiased Estimatorer (BLÅ) af reelle værdier af α og β.,
Hvis du fandt dette emne interessant, og du vil se en praktisk anvendelse med Python af det, du har læst indtil videre, kan du læse min artikel her.