die Lineare Regression ist eine Familie von algorithmen beschäftigt in überwachten machine-learning-Aufgaben (erfahren Sie mehr über das betreute lernen, Sie können Lesen Sie meine früheren Artikel hier). Da wir wissen, dass überwachte ML-Aufgaben normalerweise in Klassifikation und Regression unterteilt sind, können wir lineare Regressionsalgorithmen in der letzteren Kategorie zusammenfassen., Es unterscheidet sich von der Klassifizierung aufgrund der Art der Zielvariablen: In der Klassifizierung ist das Ziel ein kategorialer Wert (‚Ja/Nein‘, ‚rot/blau/grün‘, ‚Spam/nicht Spam’…); Auf der anderen Seite beinhaltet die Regression numerische, kontinuierliche Werte als Ziel, daher wird der Algorithmus aufgefordert, eine kontinuierliche Zahl anstelle einer Klasse oder Kategorie vorherzusagen. Stellen Sie sich nämlich vor, Sie möchten den Preis eines Hauses anhand einiger relativer Merkmale vorhersagen: Die Ausgabe Ihres Modells ist der Preis, daher eine fortlaufende Zahl.,
Regressionsaufgaben können in zwei Hauptgruppen unterteilt werden: diejenigen, die nur ein Merkmal verwenden, um das Ziel vorherzusagen, und diejenigen, die mehr als ein Merkmal für diesen Zweck verwenden. Um Ihnen ein Beispiel zu geben, betrachten wir die obige Hausaufgabe: Wenn Sie den Preis nur anhand seiner Quadratmeter vorhersagen möchten, geraten Sie in die erste Situation (ein Merkmal); Wenn Sie den Preis basierend auf seinen Quadratmetern, seiner Position und der Lebensfähigkeit der Umgebung vorhersagen möchten, werden Sie in die zweite Situation geraten (mehrere Merkmale, in diesem Fall drei).,
Im ersten Szenario ist der Algorithmus, den Sie wahrscheinlich verwenden, die einfache lineare Regression, über die wir in diesem Artikel sprechen werden. Auf der anderen Seite verwenden Sie wahrscheinlich eine multiple lineare Regression, wenn Sie mehreren Funktionen gegenüberstehen, die die Zielvariable erklären können.,
Einfache lineare Regression ist ein statistisches Modell, das in ML-Regressionsaufgaben weit verbreitet ist und auf der Idee basiert, dass die Beziehung zwischen zwei Variablen durch die folgende Formel erklärt werden kann:
Wobei ei der Fehlerterm und α, β die wahren (aber unbeobachteten) Parameter der Regression sind., Der Parameter β stellt die Variation der abhängigen Variablen dar, wenn die unabhängige Variable eine einheitliche Variation aufweist: Wenn mein Parameter gleich 0,75 ist, wenn mein x um 1 zunimmt, erhöht sich meine abhängige Variable um 0,75. Andererseits stellt der Parameter α den Wert unserer abhängigen Variablen dar, wenn die unabhängige gleich Null ist.,
Visualisieren wir es grafisch: