La regressione lineare è la famiglia di algoritmi impiegati nelle attività di apprendimento automatico supervisionato (per saperne di più sull’apprendimento supervisionato, puoi leggere il mio precedente articolo qui). Sapendo che le attività ML supervisionate sono normalmente suddivise in classificazione e regressione, possiamo collocare algoritmi di regressione lineare in quest’ultima categoria., Si differenzia dalla classificazione a causa della natura della variabile target: nella classificazione, il target è un valore categoriale (’yes/no‘,’ red/blue/green‘,’ spam/not spam’…); d’altra parte, la regressione coinvolge valori numerici e continui come target, quindi all’algoritmo verrà chiesto di prevedere un numero continuo piuttosto che una classe o una categoria. Vale a dire, immagina di voler prevedere il prezzo di una casa in base ad alcune caratteristiche relative: l’output del tuo modello sarà il prezzo, quindi un numero continuo.,
Le attività di regressione possono essere suddivise in due gruppi principali: quelli che utilizzano una sola funzionalità per prevedere il target e quelli che utilizzano più di una funzionalità per tale scopo. Per fare un esempio, consideriamo il compito della casa di cui sopra: se vuoi prevedere il suo prezzo si basa solo nella sua mq, si cade nella prima situazione (una funzione); se avete intenzione di prevedere il prezzo base, diciamo, i suoi metri quadrati, la sua posizione e la vivibilità dell’ambiente circostante, si sta andando a cadere nella seconda situazione (più, in questo caso, tre).,
Nel primo scenario, l’algoritmo che probabilmente utilizzerai sarà la Semplice regressione lineare, che è quella di cui parleremo in questo articolo. D’altra parte, ogni volta che si trovano ad affrontare più di una funzionalità in grado di spiegare la variabile di destinazione, è probabile che si utilizzi una regressione lineare multipla.,
la Regressione Lineare Semplice è un modello statistico, ampiamente usato in ML di regressione attività, basata sull’idea che la relazione tra due variabili può essere spiegato con la seguente formula:
Dove ei è il termine di errore, e α, β sono il vero (ma inosservata) i parametri della regressione., Il parametro β rappresenta la variazione della variabile dipendente quando la variabile indipendente ha una variazione unitaria: vale a dire, se il mio parametro è uguale a 0,75, quando la mia x aumenta di 1, la mia variabile dipendente aumenterà di 0,75. D’altra parte, il parametro α rappresenta il valore della nostra variabile dipendente quando quella indipendente è uguale a zero.,
visualizzare in forma grafica:
Ora, l’idea di Regressione Lineare Semplice è trovare quei parametri α e β, per i quali il termine di errore è ridotto al minimo. Per essere più precisi, il modello ridurrà al minimo gli errori al quadrato: infatti, non vogliamo che i nostri errori positivi siano compensati da quelli negativi, poiché sono ugualmente penalizzanti per il nostro modello.,
This procedure is called Ordinary Least Squared error — OLS.
Let’s demonstrate those optimization problems step by step.,r α:
Una volta ottenuti i valori di α e β, che minimizza l’errore quadratico, il nostro modello di equazione avrà un aspetto simile a questo:
Per riassumere, si può considerare l’OLS, come una strategia per ottenere, dal tuo modello, una “linea retta” che è il più vicino possibile ai punti di dati., Anche se OLS non è l’unica strategia di ottimizzazione, è la più popolare per questo tipo di attività, poiché gli output della regressione (cioè i coefficienti) sono stimatori imparziali dei valori reali di alfa e beta. Infatti, secondo il teorema di Gauss-Markov, sotto alcune ipotesi del modello di regressione lineare (linearità nei parametri, campionamento casuale di osservazioni, media condizionale uguale a zero, assenza di multicollinearità, omoskedasticità degli errori), gli stimatori OLS α e β sono i Migliori stimatori lineari imparziali (BLU) dei valori reali di α e β.,
Se hai trovato questo argomento interessante e vuoi vedere un’applicazione pratica con Python di ciò che hai letto finora, puoi leggere il mio articolo qui.