regressão Linear é a família de algoritmos empregados em tarefas de aprendizagem supervisionada por máquinas (para aprender mais sobre aprendizagem supervisionada, você pode ler o meu antigo artigo aqui). Sabendo que as tarefas supervisionadas da ML são normalmente divididas em classificação e regressão, podemos coletar algoritmos de regressão Linear na última categoria., Difere da classificação devido à natureza da variável-alvo: na classificação, o alvo é um valor categórico (“sim/não”, “Vermelho/Azul/Verde”, “spam/não spam”…); por outro lado, a regressão envolve valores numéricos contínuos como alvo, pelo que o algoritmo será solicitado a prever um número contínuo em vez de uma classe ou categoria. Ou seja, imagine que você quer prever o preço de uma casa com base em algumas características relativas: a saída de seu modelo será o preço, daí um número contínuo.,
As tarefas de regressão podem ser divididas em dois grupos principais: aqueles que usam apenas uma característica para predizer o alvo, e aqueles que usam mais de uma característica para esse propósito. Para dar um exemplo, vamos considerar a tarefa da casa acima: se você deseja prever seus preços apenas com base no seu quadrado medidores, você vai cair na primeira situação (um recurso); se você estiver indo para prever o preço com base no, digamos, a sua metros quadrados, a sua posição e a sociabilidade do ambiente que o rodeia, você vai cair para a segunda situação (vários recursos, no caso, três).,
no primeiro cenário, o algoritmo que você provavelmente irá empregar será a regressão Linear simples, que é a que vamos falar neste artigo. Por outro lado, sempre que você está enfrentando mais de uma característica capaz de explicar a variável alvo, é provável que você use uma regressão Linear múltipla.,
Linear Simples Regressão é um modelo estatístico, amplamente usados no ML regressão de tarefas, baseado na idéia de que a relação entre duas variáveis pode ser explicada pela seguinte fórmula:
, Onde ei é o termo de erro, e α, β são as verdadeiras (mas não observado) os parâmetros da regressão., O parâmetro β representa a variação da variável dependente quando a variável independente tem uma variação unitária: ou seja, se meu parâmetro é igual a 0,75, quando meu x aumenta em 1, minha variável dependente aumentará em 0,75. Por outro lado, o parâmetro α representa o valor da nossa variável dependente quando a independente é igual a zero.,
Vamos visualizar graficamente:
Agora, a idéia de Regressão Linear Simples é encontrar os parâmetros α e β para os quais o termo de erro é minimizado. Para ser mais preciso, o modelo minimizará os erros ao quadrado: na verdade, não queremos que os nossos erros positivos sejam compensados pelos negativos, uma vez que são igualmente penalizadores para o nosso modelo.,
This procedure is called Ordinary Least Squared error — OLS.
Let’s demonstrate those optimization problems step by step.,r α:
Uma vez obtidos os valores de α e β que minimizar os erros ao quadrado, o nosso modelo da equação ficará assim:
resumindo, você pode considerar o OLS como uma estratégia para obter, a partir de seu modelo, uma ‘linha reta’, que é tão perto quanto possível os pontos de dados., Apesar de OLS não ser a única estratégia de otimização, é a mais popular para este tipo de Tarefas, uma vez que as saídas da regressão (ou seja, coeficientes) são estimadores imparciais dos valores reais de alfa e beta. De fato, de acordo com o Gauss-Markov Teorema, sob alguns pressupostos do modelo de regressão linear (linearidade nos parâmetros, a amostragem aleatória de observações, a média condicional igual a zero, ausência de multicolinearidade, homoskedasticity de erros), os estimadores OLS α e β são os Best Linear Unbiased Estimadores (AZUL) dos valores reais de α e β.,
Se você achou este tópico interessante e você quer ver uma aplicação prática com Python do que você tem lido até agora, você pode ler o meu artigo aqui.