Kurs
Die OLS-Regression (gewöhnliche Kleinstquadrate) ist es auf jeden Fall wert, gelernt zu werden, denn sie ist ein wichtiger Teil der Statistik und des maschinellen Lernens. Sie wird verwendet, um Ergebnisse vorherzusagen oder Beziehungen zwischen Variablen zu analysieren, und die Anwendungen dieser beiden Anwendungen reichen von Hypothesentests bis hin zu Prognosen.
In diesem Artikel werde ich dir helfen, die Grundlagen der OLS-Regression, ihre Anwendungen und Annahmen zu verstehen und wie sie in Excel, R und Python implementiert werden kann. Es gibt viel zu lernen. Wenn du fertig bist, solltest du unsere Regressionskurse wie Einführung in die Regression in Python und Einführung in die Regression in R besuchen und unsere Tutorials wie Lineare Regression in Excel durchlesen.
Was ist die OLS-Regression?
Die OLS-Regression schätzt die Beziehung zwischen einer oder mehreren unabhängigen Variablen (Prädiktoren) und einer abhängigen Variable (Antwort). Dies geschieht durch die Anpassung einer linearen Gleichung an die beobachteten Daten. So sieht diese Gleichung aus:

Hier:
- y ist die abhängige Variable.
- x1, x2,..., sind unabhängige Variablen.
- β0 ist der Schnittpunkt.
- β1, β2, …, sind die Koeffizienten.
- ϵ steht für den Fehlerterm.
In der obigen Gleichung zeige ich mehrere β-Terme , wie β1 und β2. Aber nur um das klarzustellen, die Regressionsgleichung könnte neben β0 nur einen β-Term enthalten, in diesem Fall würden wir sie einfache lineare Regression nennen. Bei zwei oder mehr Prädiktoren, wie β1 und β2 , sprechen wir von einer multiplen linearen Regression. Beide würden als OLS-Regression gelten, wenn ein gewöhnlicher Kleinstquadratschätzer verwendet wird.
Was ist das OLS-Minimierungsproblem?
Der Kern der OLS-Regression ist eine Optimierungsaufgabe: die Linie (oder Hyperebene in höheren Dimensionen) zu finden, die am besten zu den Daten passt. Aber was bedeutet "beste Passform"? "Beste Anpassung" bedeutet hier die Minimierung der Summe der quadrierten Residuen.
Ich möchte versuchen, das Minimierungsproblem zu erklären und dabei auch die Idee der Residuen erläutern.
- Residuale erklärt: Residuen sind die Differenzen zwischen den tatsächlich beobachteten Werten und den durch das Regressionsmodell vorhergesagten Werten. Für jeden Datenpunkt sagt uns der Restwert, wie weit wir mit unserer Vorhersage daneben lagen.
- Warum die Residuen quadrieren? Indem wir jeden Rest quadrieren, stellen wir sicher, dass sich positive und negative Differenzen nicht gegenseitig aufheben. Bei der Quadrierung werden auch größere Fehler stärker gewichtet, was bedeutet, dass das Modell der Reduzierung größerer Fehler Vorrang gibt.
Durch die Minimierung der Summe der quadrierten Residuen wird die Regressionslinie zu einer genauen Darstellung der Beziehung zwischen den unabhängigen und abhängigen Variablen. Indem wir die Summe der quadrierten Residuen minimieren, hat unser Modell den kleinstmöglichen Gesamtfehler in seinen Vorhersagen. Um mehr über Residuen und Regressionszerlegung zu erfahren, lies unser Tutorial Summenquadrate verstehen: Ein Leitfaden für SST, SSR und SSE.
Was ist der gewöhnliche Kleinste-Quadrate-Schätzer?
Im Rahmen der Regression werden Schätzer verwendet, um die Koeffizienten zu berechnen, die die Beziehung zwischen unabhängigen Variablen und der abhängigen Variable beschreiben. Die gewöhnliche Kleinstquadrate-Schätzung (OLS) ist eine solche Methode. Sie findet die Koeffizientenwerte, die die Summe der quadrierten Differenzen zwischen den beobachteten Werten und den vom Modell vorhergesagten Werten minimieren.
Ich erwähne das nur, damit die Begriffe klar sind. Die Regression kann mit anderen Schätzern durchgeführt werden, die je nach Daten und Analysezielen unterschiedliche Vorteile bieten. Einige Schätzer sind zum Beispiel robuster gegenüber Ausreißern, während andere durch Regularisierung der Modellparameter eine Überanpassung verhindern.
Wie werden die OLS-Regressionsparameter geschätzt?
Um die Koeffizienten zu bestimmen, die am besten zum Regressionsmodell passen, wendet der OLS-Schätzer mathematische Verfahren an, um die Summe der quadrierten Residuen zu minimieren. Eine mögliche Methode ist die Normalgleichung, die eine direkte Lösung bietet, indem sie ein System von Gleichungen auf der Grundlage der Daten aufstellt und die Koeffizienten löst, die die kleinstmögliche Summe der quadratischen Differenzen zwischen den beobachteten und den vorhergesagten Werten ergeben.
Das Lösen der Normalgleichung kann jedoch rechenintensiv werden, besonders bei großen Datensätzen. Um dies zu vermeiden, wird oft eine andere Technik namens QR-Zerlegung verwendet. Die QR-Zerlegung zerlegt die Matrix der unabhängigen Variablen in zwei einfachere Matrizen: eine orthogonale Matrix (Q) und eine obere Dreiecksmatrix (R). Diese Vereinfachung macht die Berechnungen effizienter und verbessert auch die numerische Stabilität.
Wann wird die OLS-Regression verwendet?
Wie entscheiden wir uns für die OLS-Regression? Um diese Entscheidung zu treffen, müssen wir sowohl die Merkmale unseres Datensatzes bewerten als auch das spezifische Problem definieren, das wir zu lösen versuchen.
Annahmen der OLS-Regression
Bevor wir die OLS-Regression anwenden, sollten wir sicherstellen, dass unsere Daten die folgenden Annahmen erfüllen, damit wir zuverlässige Ergebnisse erhalten:
- Linearität: Die Beziehung zwischen unabhängigen und abhängigen Variablen muss linear sein.
- Unabhängigkeit von Fehlern: Die Residuen sollten nicht miteinander korreliert sein.
- Homoskedastizität: Die Residuen sollten eine konstante Varianz über alle Niveaus der unabhängigen Variablen aufweisen.
- Normalität der Fehler: Die Residuen sollten normal verteilt sein.
Schwerwiegende Verstöße gegen diese Annahmen können zu verzerrten Schätzungen oder unzuverlässigen Vorhersagen führen. Deshalb müssen wir wirklich alle potenziellen Probleme bewerten und angehen, bevor wir weitermachen.
Anwendungen der OLS-Regression
Wenn die Annahmen erfüllt sind, kann die OLS-Regression für verschiedene Zwecke verwendet werden:
- Prädiktive Modellierung: Prognosen zu Ergebnissen wie Absatz, Umsatz oder Trends.
- Beziehungsanalyse: Den Einfluss von unabhängigen Variablen auf eine abhängige Variable verstehen.
- Hypothesentests: Beurteilung, ob bestimmte Prädiktoren einen signifikanten Einfluss auf die Ergebnisvariable haben.
OLS-Regression in R, Python und Excel
Schauen wir uns nun an, wie man eine OLS-Regression in R, Python und Excel durchführt.
OLS-Regression in R
R bietet die Funktion lm() für die OLS-Regression. Hier ist ein Beispiel:
# Let's create sample data
predictor_variable <- c(1, 2, 3, 4, 5)
response_variable <- c(2, 4, 5, 4, 5)
# We now fit the OLS regression model using the lm() function from base R
ols_regression_model <- lm(response_variable ~ predictor_variable)
# OLS regression model summary
summary(ols_regression_model)
Beachte, dass wir keine zusätzlichen Pakete importieren müssen, um eine OLS-Regression in R durchzuführen.
OLS-Regression in Python
Python bietet Bibliotheken wie statsmodels und scikit-learn für die OLS-Regression. Versuchen wir ein Beispiel mit statsmodels:
import statsmodels.api as sm
# We can create some sample data
ols_regression_predictor = [1, 2, 3, 4, 5]
ols_regression_response = [2, 4, 5, 4, 5]
# Adding a constant for the intercept
ols_regression_predictor = sm.add_constant(ols_regression_predictor)
# We now fit our OLS regression model
ols_regression_model = sm.OLS(ols_regression_response, ols_regression_predictor).fit()
# Summary of our OLS regression
print(ols_regression_model.summary())
OLS-Regression in Excel
Excel bietet mit seinen integrierten Tools auch eine Möglichkeit, eine OLS-Regression durchzuführen. Folge einfach diesen Schritten:
Bereite deine Daten vor
Gliedere deine Daten in zwei Spalten: eine für die unabhängige(n) und eine für die abhängige(n) Variable(n). Vergewissere dich, dass es in deinem Datensatz keine leeren Zellen gibt.
Aktiviere das Datenanalyse-ToolPak
Gehe zu Datei > Optionen > Add-Ins. Wählen Sie im Feld Verwalten Excel Add-insund klicke dann auf Gehe zu. Markiere das Kästchen für Analyse ToolPak und klicke OK.
Führe die Regressionsanalyse durch
Navigieren Sie zu Daten > Datenanalyse und wählen Sie Regression aus der Liste der Optionen aus. Klicke auf OK.
Im Dialogfeld Regression:
- Stellen Sie den Eingabe Y-Bereich auf die Spalte deiner abhängigen Variable.
- Stellen Sie den Eingabe X Bereich auf deine unabhängige(n) Variable(n).
- Prüfe Beschriftungen wenn dein Eingabebereich Spaltenüberschriften enthält.
- Wähle einen Ausgabebereich oder ein neues Arbeitsblatt für die Ergebnisse.
Wie man OLS-Regressionsmodelle auswertet
Wir haben jetzt ein OLS-Regressionsmodell erstellt. Der nächste Schritt ist die Überprüfung der Wirksamkeit anhand von Modelldiagnosen und Modellstatistiken.
Diagnostische Plots
Wir können ein OLS-Regressionsmodell mit visuellen Hilfsmitteln bewerten, um die Modellannahmen und die Anpassungsqualität zu beurteilen. Zu den Optionen gehören einesiduals vs. fitted values Plot, der nach Mustern sucht, die auf Nichtlinearität oder Heteroskedastizitäthinweisen könnten , oder das Q-Q-Diagrammdie untersucht, ob die Residuen einer Verteilung wie der Normalverteilung folgen.
Modellstatistiken
Wir können unser Modell auch mit statistischen Metriken auswerten, die Aufschluss über die Leistung des Modells und die Signifikanz der Prädiktoren geben. Zu den gängigen Modellstatistiken gehören R -Quadrat und bereinigtes R-Quadratdieden Anteil der durch das Modell erklärten Varianz messen. Wir können uns auch die F-Statistiken und p-Werte ansehen, die die Gesamtsignifikanz des Modells und der einzelnen Prädiktoren testen.
Arbeitsablauf trainieren/prüfen
Schließlich sollten wir noch erwähnen, dass Datenanalysten auch gerne einem strukturierten Prozess folgen, um die Vorhersagefähigkeit eines Modells zu überprüfen. Dazu gehört die Aufteilung der Daten in eine Trainings- und eine Testgruppe, ein Trainingsprozess zur Anpassung des Modells und ein Testprozess, um die Leistung des Modells anhand ungesehener Testdaten zu bewerten. Dieser Prozess kann auch Kreuzvalidierungsschritte wie die k-fache Kreuzvalidierung beinhalten.
Tiefere Einblicke in die OLS-Regression
Nachdem wir nun die Grundlagen der OLS-Regression kennengelernt haben, wollen wir nun einige fortgeschrittenere Konzepte untersuchen.
OLS-Regression und Maximum-Likelihood-Schätzung
Die Maximum-Likelihood-Schätzung (MLE) ist ein weiteres Konzept, über das neben der OLS-Regression gesprochen wird, und das aus gutem Grund. Wir haben bisher darüber gesprochen, wie OLS die Summe der quadrierten Residuen minimiert, um Koeffizienten zu schätzen. Lass uns jetzt einen Schritt zurückgehen und über die MLE sprechen.
MLE maximiert die Wahrscheinlichkeit, die gegebenen Daten nach unserem Modell zu beobachten. Sie funktioniert, indem sie eine bestimmte Wahrscheinlichkeitsverteilung für den Fehlerterm annimmt. Diese Wahrscheinlichkeitsverteilung ist normalerweise eine Normal- oder Gaußverteilung. Mithilfe unserer Wahrscheinlichkeitsverteilung finden wir Parameterwerte, die die beobachteten Daten am wahrscheinlichsten machen.
Der Grund, warum ich jetzt die Maximum-Likelihood-Schätzung anspreche, ist, dass der MLE-Ansatz im Kontext der OLS-Regression zu denselben Koeffizientenschätzungen führt wie die Minimierung der Summe der Fehlerquadrate, vorausgesetzt, die Fehler sind normal verteilt.
Interpretation der OLS-Regression als gewichteter Durchschnitt
Eine weitere faszinierende Perspektive auf die OLS-Regression ist ihre Interpretation als gewichteter Durchschnitt. Prof. Andrew Gelman erörtert die Idee, dass die Koeffizienten in einer OLS-Regression als gewichteter Durchschnitt der beobachteten Datenpunkte betrachtet werden können, wobei die Gewichte durch die Varianz der Prädiktoren und die Struktur des Modells bestimmt werden.
Diese Sichtweise gibt Aufschluss darüber, wie der Regressionsprozess funktioniert und warum er sich so verhält, wie er es tut, denn bei der OLS-Regression werden in Wirklichkeit die Beobachtungen stärker gewichtet, die eine geringere Varianz aufweisen oder näher an den Vorhersagen des Modells liegen. Aufkannst du dir auch unsere DataFramed-Podcast-Episode " Wahlprognosen und Umfragen" anhören, in der Professor Gelman über den Einsatz von Regression bei Wahlumfragen spricht.
OLS-Regression vs. Ähnliche Regressionsmethoden
Einige andere Regressionsmethoden haben Namen, die ähnlich klingen, aber anderen Zwecken dienen oder auf anderen Annahmen beruhen. Schauen wir uns ein paar ähnlich klingende Beispiele an:
OLS vs. gewichtete kleinste Quadrate (WLS)
WLS ist eine Erweiterung von OLS, bei der jedem Datenpunkt auf der Grundlage der Varianz seiner Beobachtungen unterschiedliche Gewichte zugewiesen werden. WLS ist besonders nützlich, wenn die Annahme einer konstanten Varianz der Residuen verletzt wird. Da die Beobachtungen umgekehrt zu ihrer Varianz gewichtet werden, liefert WLS bei heteroskedastischen Daten zuverlässigere Schätzungen.
OLS vs. PartielleKleinste Quadrate (PLS) Regression
PLS kombiniert Merkmale der Hauptkomponentenanalyse und der multiplen Regression, indem es latente Variablen extrahiert, die die maximale Kovarianz zwischen den Prädiktoren und der Antwortvariablen erfassen. PLS ist vorteilhaft, wenn Multikollinearität vorliegt oder wenn die Anzahl der Prädiktoren die Anzahl der Beobachtungen übersteigt. Sie reduziert die Dimensionalität und maximiert gleichzeitig die Vorhersagekraft, was OLS von Natur aus nicht leisten kann.
OLS vs. generalisierte kleinste Quadrate (GLS)
Ähnlich wie WLS verallgemeinert GLS OLS, indem es eine korrelierte und/oder nicht konstante Varianz der Residuen zulässt. GLS passt den Schätzprozess an, um Verletzungen der OLS-Annahmen in Bezug auf die Residuen zu berücksichtigen und liefert in solchen Szenarien effizientere und unverzerrte Schätzungen.
OLS vs. Totale kleinste Quadrate (TLS)
Die TLS wird auch als orthogonale Regression bezeichnet und minimiert die senkrechten Abstände zwischen den Datenpunkten und der Regressionsgeraden, im Gegensatz zu den vertikalen Abständen, die bei der OLS minimiert werden. TLS ist nützlich, wenn sowohl die unabhängigen als auch die abhängigen Variablen Fehler aufweisen, während OLS davon ausgeht, dass nur die abhängige Variable Messfehler aufweist.
Alternativen zur OLS-Regression
Wenn die Beziehung zwischen den Variablen komplex oder nichtlinear ist, bieten nichtparametrische Regressionsmethoden flexible Alternativen zu OLS, indem sie es den Daten ermöglichen, die Form der Regressionsfunktion zu bestimmen. Alle vorherigen Beispiele (die "ähnlich klingenden") gehören zur Kategorie der parametrischen Modelle. Aber nicht-parametrische Modelle können auch verwendet werden, wenn du Muster ohne die Einschränkungen parametrischer Annahmen modellieren willst.
| Methode | Beschreibung | Vorteile | Allgemeine Anwendungsfälle |
|---|---|---|---|
| Kernel-Regression | Verwendet gewichtete Mittelwerte mit einem Kernel, um Daten zu glätten. | Erfasst nichtlineare Beziehungen Flexible Glättung |
Explorative Analyse Unbekannte Variablenbeziehungen |
| Lokale Regression | Passt lokale Polynome an Teilmengen von Daten für eine glatte Kurve an. | Umgang mit komplexen Mustern Adaptive Glättung |
Trendvisualisierung Glättung von Streudiagrammen |
| Regressionsbäume | Teilt die Daten in Zweige auf, um einfache Modelle in jedem Segment anzupassen. | Einfach zu interpretieren Behandelt Interaktionen |
Segmentierung von Daten Identifizierung verschiedener Datenregime |
| Spline-Regression | Verwendet stückweise Polynome mit Stetigkeit an Knoten, um Daten zu modellieren. | Modelle glätten nichtlineare Trends Flexible Anpassung |
Zeitreihen Wachstumskurven |
Schlussgedanken
Die OLS-Regression ist ein grundlegendes Instrument, um Datenbeziehungen zu verstehen und Vorhersagen zu treffen. Wenn du OLS beherrschst, schaffst du eine solide Grundlage, um fortgeschrittene Modelle und Techniken zu erforschen. Entdecke die DataCamp-Kurse zu Regression in R und Python, um deine Fähigkeiten zu erweitern: Einführung in die Regression mit statsmodels in Python und Einführung in die Regression in R). Ziehe auch unseren sehr beliebten Lernpfad "Machine Learning Scientist in Python " in Betracht.
Werde ein ML-Wissenschaftler
