linjär Regression är familjen av algoritmer som används i övervakade maskininlärningsuppgifter (för att lära dig mer om övervakad inlärning kan du läsa min tidigare artikel här). Att veta att övervakade ML-uppgifter normalt är indelade i klassificering och regression kan vi samlokalisera linjära Regressionsalgoritmer i den senare kategorin., Det skiljer sig från klassificeringen på grund av målvariabelns karaktär: i klassificeringen är målet ett kategoriskt värde (”ja/nej”, ”röd/blå/grön”, ”spam/inte spam”…). å andra sidan innebär regression numeriska, kontinuerliga värden som mål, varför algoritmen kommer att bli ombedd att förutsäga ett kontinuerligt nummer snarare än en klass eller kategori. Namnlösa: föreställ dig att du vill förutsäga priset på ett hus baserat på vissa relativa egenskaper: produktionen av din modell kommer att vara priset, därmed ett kontinuerligt nummer.,
Regressionsuppgifter kan delas in i två huvudgrupper: de som bara använder en funktion för att förutsäga målet och de som använder mer än en funktion för det ändamålet. För att ge dig ett exempel, låt oss överväga husuppgiften ovan: om du bara vill förutsäga priset baserat på dess kvadrerade mätare kommer du att falla i den första situationen (en funktion); om du ska förutsäga priset baserat på, låt oss säga, dess kvadrerade mätare, dess position och livbarheten hos den omgivande miljön, kommer du att falla i den andra situationen (flera funktioner, i så fall tre).,
i det första scenariot kommer algoritmen du sannolikt kommer att använda att vara den enkla linjära regressionen, som är den vi ska prata om i den här artikeln. På andra sidan, när du står inför mer än en funktioner som kan förklara målvariabeln, kommer du sannolikt att använda en multipel linjär Regression.,
enkel linjär Regression är en statistisk modell, som ofta används i ML regressionsuppgifter, baserat på tanken att förhållandet mellan två variabler kan förklaras med följande formel:
där ei är feltermen, och α, β är regressionens sanna (men obehindrade) parametrar., Parametern β representerar variationen av den beroende variabeln när den oberoende variabeln har en enhetlig variation: nämligen, om min parameter är lika med 0,75, när min x ökar med 1, min beroende variabel kommer att öka med 0,75. Å andra sidan representerar parametern α värdet av vår beroende variabel när den oberoende är lika med noll.,
låt oss visualisera det grafiskt:
nu, tanken på enkel linjär regression är att hitta de parametrar α Och β för vilka felperioden minimeras. För att vara mer exakt kommer modellen att minimera de kvadrerade felen: vi vill faktiskt inte att våra positiva fel kompenseras av de negativa, eftersom de också straffar för vår modell.,
This procedure is called Ordinary Least Squared error — OLS.
Let’s demonstrate those optimization problems step by step.,r α:
vadrerade fel, vår modell ekvation kommer att se ut så här:
för att sammanfatta kan du överväga hur många fel som kan uppstå.OLS som en strategi för att få, från din modell, en ”rak linje” som är så nära dina datapunkter som möjligt., Även om OLS inte är den enda optimeringsstrategin, är den mest populära för denna typ av uppgifter, eftersom regressionens utgångar (det vill säga koefficienter) är objektiva uppskattare av de verkliga värdena för alfa och beta. Enligt Gauss-Markov-teorin är OLS-estimators α Och β enligt vissa antaganden i den linjära regressionsmodellen (linearitet i parametrar, slumpmässig provtagning av observationer, villkorligt medelvärde lika med noll, frånvaro av multicollinearitet, homoskedasticitet av fel) de bästa linjära opartiska Estimatorerna (Blå) av de verkliga värdena för α Och β.,
om du hittade det här ämnet intressant och du vill se en praktisk applikation med Python av vad du har läst hittills kan du läsa min artikel här.