la régression linéaire est la famille d’algorithmes utilisés dans les tâches d’apprentissage automatique supervisé (pour en savoir plus sur l’apprentissage supervisé, vous pouvez lire mon ancien article ici). Sachant que les tâches de ML supervisées sont normalement divisées en classification et régression, nous pouvons colocaliser des algorithmes de régression linéaire dans cette dernière catégorie., Elle diffère de la classification en raison de la nature de la variable cible: en classification, la cible est une valeur catégorielle (‘Oui/Non’, ‘rouge/bleu/vert’, ‘spam/pas de spam’…); d’autre part, la régression implique des valeurs numériques continues comme cible, d’où l’algorithme sera invité à prédire un nombre continu plutôt qu’une classe ou une catégorie. À savoir, imaginez que vous voulez prédire le prix d’une maison en fonction de certaines caractéristiques relatives: la sortie de votre modèle sera le prix, donc un nombre continu.,
les tâches de régression peuvent être divisées en deux groupes principaux: celles qui utilisent une seule caractéristique pour prédire la cible, et celles qui utilisent plus d’une caractéristique à cette fin. Pour vous donner un exemple, considérons la tâche de la maison ci-dessus: si vous voulez prédire son prix uniquement en fonction de ses mètres carrés, vous tomberez dans la première situation (une caractéristique); si vous allez prédire le prix en fonction, disons, de ses mètres carrés, de sa position et de l’habitabilité du milieu environnant, vous allez tomber dans la deuxième situation (plusieurs caractéristiques, dans ce cas, trois).,
Dans le premier scénario, de l’algorithme sont susceptibles d’employer sera la Régression Linéaire Simple, qui est celui que nous allons parler dans cet article. De l’autre côté, chaque fois que vous êtes confronté à plusieurs fonctionnalités capables d’expliquer la variable cible, vous êtes susceptible d’utiliser une régression linéaire Multiple.,
la régression linéaire Simple est un modèle statistique, largement utilisé dans les tâches de régression ML, basé sur l’idée que la relation entre deux variables peut être expliquée par la formule suivante:
où EI est le terme d’erreur, et α, β sont les paramètres vrais (mais non observés) de la régression., Le paramètre β représente la variation de la variable dépendante lorsque la variable indépendante a une variation unitaire: à savoir, si mon paramètre est égal à 0,75, lorsque mon x augmente de 1, mA variable dépendante augmentera de 0,75. D’autre part, le paramètre α représente la valeur de notre variable dépendante lorsque la variable indépendante est égale à zéro.,
nous allons visualiser graphiquement:
Maintenant, l’idée de la Régression Linéaire Simple est de trouver les paramètres α et β pour qui le terme d’erreur est réduite au minimum. Pour être plus précis, le modèle minimisera les erreurs au carré: en effet, nous ne voulons pas que nos erreurs positives soient compensées par les erreurs négatives, car elles sont également pénalisantes pour notre modèle.,
This procedure is called Ordinary Least Squared error — OLS.
Let’s demonstrate those optimization problems step by step.,r α:
Une fois obtenues les valeurs de α et β qui permettent de réduire les erreurs au carré, de notre modèle de l’équation de ressembler à ça:
Pour résumer, vous pouvez envisager l’OLS comme une stratégie visant à obtenir, à partir de votre modèle, une « ligne droite » qui est aussi proche que possible de vos points de données., Même si OLS n’est pas la seule stratégie d’optimisation, elle est la plus populaire pour ce type de tâches, car les résultats de la régression (c’est-à-dire les coefficients) sont des estimateurs impartiaux des valeurs réelles d’alpha et de bêta. En effet, selon le théorème de Gauss-Markov, sous certaines hypothèses du modèle de régression linéaire (linéarité des paramètres, échantillonnage aléatoire des observations, moyenne conditionnelle égale à zéro, absence de multicollinéarité, homoskédasticité des erreurs), les estimateurs OLS α Et β sont les meilleurs estimateurs linéaires non biaisés (bleu) des valeurs réelles de α Et β.,
Si vous avez trouvé ce sujet intéressant et vous voulez voir une application pratique avec Python de ce que vous avez lu jusqu’ici, vous pouvez lire mon article ici.