Mehr

Wie berechnet und vergleicht man den RMSE zwischen zwei DEMs?

Wie berechnet und vergleicht man den RMSE zwischen zwei DEMs?


Ich mache ein Projekt, das auf der Verwendung von Lidar-Punktwolkendaten basiert, und habe Zugriff auf ein DEM, das ganz Schweden abdeckt. Mein Ziel ist es jedoch, mehrere DEMs zu erstellen, die einen kleinen Bereich mit verschiedenen Interpolationsmethoden abdecken. Dazu arbeite ich mit der LAS-Dataset-Toolbox. Wenn das erledigt ist, möchte ich meine selbst produzierten DEMs mit den DEMs vergleichen, die ganz Schweden abdecken und auf RMSE-Fehler prüfen.

Ich bin ziemlich ahnungslos, wie ich das lösen soll, da ich kein Mathematiker bin und neu in der Arbeit mit Lidar bin.

Dafür verwende ich ArcGIS.


Der Root Mean Square Error (RMSE) ist einer dieser seltenen Indizes, der perfekt benannt ist, da der Name Ihnen tatsächlich sagt, wie man ihn berechnet. Zuerst die beiden DEMs unterscheiden ('Fehler' oder genauer in diesem Fall die Abweichung). Dann quadrieren Sie die Differenzen. Diese ersten beiden Schritte können mit einem einzigen Ausdruck im Raster-Rechner berechnet werden. Berechnen Sie als Nächstes den Mittelwert Ihrer quadrierten Abweichungen für das Bild als Ganzes. Dazu können Sie die Statistiken berechnen Werkzeug, obwohl es wahrscheinlich mehrere gültige Möglichkeiten gibt, den Durchschnitt eines Rasters in ArcGIS zu ermitteln. Ziehen Sie schließlich die Quadratwurzel Ihrer mittleren quadratischen Abweichung. Das ist es. Dadurch erhalten Sie den RMSD der beiden Raster. Viel Glück.


Vergleich von RMSE mit Modell

Ich bewerte die Genauigkeit der Vorhersage meines Modells mit dem RMSE für einen neuen Datensatz. Nun gibt der RMSE an sich keinen Hinweis darauf, ob es sich um ein gutes Modell handelt, da es keinen Schwellenwert gibt, der sagt, dass es „gut“ ist. Meine Frage ist, wäre es sinnvoll, den RMSE für ein Nullmodell nur mit dem Mittelwert als Prädiktor zu berechnen und diesen mit dem RMSE meines Modells zu vergleichen? Oder sollte ich den RMSE des Modells der „Zug“-Daten mit dem RMSE der „Test“-Daten vergleichen?

Das Modell, das ich derzeit verwende, ist das beste mit all meinen verfügbaren Prädiktoren basierend auf BIC-Werten, aber ich versuche herauszufinden, wie gut das Modell tatsächlich abschneidet. Ich habe auch die adj berechnet. R-Quadrat, der besagt, dass 20,7% der Varianz durch mein Modell erklärt werden, aber ich bezweifle, dass dies eine gute Genauigkeitsmessung ist.


3 Antworten 3

Nehmen wir an, unsere Antworten sind $y_1, dots, y_n$ und unsere vorhergesagten Werte sind $hat y_1, dots, hat y_n$.

Die Stichprobenvarianz (der Einfachheit halber wird $n$ anstelle von $n-1$ verwendet) ist $frac<1> Summe_^n (y_i - ar y)^2$ während der MSE $frac<1> . ist Summe_^n (y_i - hat y_i)^2$. Somit gibt die Stichprobenvarianz an, wie stark die Antworten um den Mittelwert herum variieren, während der MSE angibt, wie stark die Antworten um unsere Vorhersagen herum variieren. Wenn wir uns den Gesamtmittelwert $ar y$ als den einfachsten Prädiktor vorstellen, den wir jemals in Betracht ziehen würden, dann können wir durch den Vergleich des MSE mit der Stichprobenvarianz der Antworten sehen, wie viel mehr Variation wir mit unserem Modell erklärt haben . Genau das macht der $R^2$-Wert bei der linearen Regression.

Betrachten Sie das folgende Bild: Die Stichprobenvarianz von $y_i$ ist die Variabilität um die horizontale Linie. Wenn wir alle Daten auf die $Y$-Achse projizieren, können wir dies sehen. Der MSE ist der mittlere quadratische Abstand zur Regressionsgeraden, d. h. die Variabilität um die Regressionsgeraden (d. h. das $hat y_i$). Die durch die Stichprobenvarianz gemessene Variabilität ist also der gemittelte quadrierte Abstand zur horizontalen Linie, der, wie wir sehen können, wesentlich größer ist als der durchschnittliche quadrierte Abstand zur Regressionsgeraden.

In Ermangelung besserer Informationen kann der Mittelwert der Zielvariablen als einfacher Schätzwert für die Werte der Zielvariablen betrachtet werden, sei es beim Versuch, die vorhandenen Daten zu modellieren oder zukünftige Werte vorherzusagen. Diese einfache Schätzung der Zielvariablen (d. h. alle vorhergesagten Werte sind gleich dem Mittelwert der Zielvariablen) wird um einen gewissen Fehler abweichen. Eine Standardmethode zur Messung des durchschnittlichen Fehlers ist die Standardabweichung (SD), $ sqrt Summe_^n (y_i - ar y)^2>$ , da der SD die schöne Eigenschaft hat, eine glockenförmige (Gaußsche) Verteilung anzupassen, wenn die Zielvariable normalverteilt ist. Somit kann der SD als der Fehlerbetrag angesehen werden, der natürlicherweise bei den Schätzungen der Zielvariablen auftritt. Dies macht es zum Maßstab, den jedes Modell zu schlagen versuchen muss.

Es gibt verschiedene Möglichkeiten, den Fehler einer Modellschätzung unter ihnen zu messen, die Root Mean Squared Error (RMSE) die du erwähnt hast, $ sqrt Summe_^n (y_i - hat y_i)^2>$ , ist einer der beliebtesten. Es ist konzeptionell dem SD ziemlich ähnlich: Anstatt zu messen, wie weit ein tatsächlicher Wert vom Mittelwert entfernt ist, verwendet es im Wesentlichen die gleiche Formel, um zu messen, wie weit ein tatsächlicher Wert von der Vorhersage des Modells für diesen Wert entfernt ist. Ein gutes Modell sollte im Durchschnitt bessere Vorhersagen haben als die naive Schätzung des Mittelwerts für alle Vorhersagen. Somit sollte das Variationsmaß (RMSE) die Zufälligkeit besser reduzieren als die SD.

Dieses Argument gilt für andere Fehlermaße, nicht nur für den RMSE, aber der RMSE ist für den direkten Vergleich mit dem SD besonders attraktiv, da ihre mathematischen Formeln analog sind.

Jemand hat mich offline nach einem Zitat gefragt, das die Idee unterstützt, dass der SD ein Benchmark für den RMSE ist. Ich persönlich habe dieses Prinzip zuerst von Shmueli et al. 2016. Entschuldigung, aber ich habe das Buch nicht zur Hand, daher kann ich keine Seitenzahl angeben.


So berechnen Sie die "Vergleich"-Funktion in Matlab

Ich studiere Root-Mean-Square Error (RMSE) und Normalized Root-Mean-Square Error (NRMSE).

Warum unterscheidet sich der NRMSE-Wert zwischen NRMSE manuell von Wikipedia und NRMSE durch Vergleichscode von MATLAB?

Könnten Sie mir beibringen, wie man die Vergleichsfunktion mathematisch berechnet?

Zum Beispiel habe ich wie unten gemacht. Die Methode von Wikipedia:

Die Vergleichsfunktion von MATLAB:


Wie funktioniert jeder Schritt von RMSE:

Wenn Sie eine Zahl von einer anderen subtrahieren, erhalten Sie den Abstand zwischen ihnen.

Wenn Sie eine beliebige Zahl mit sich selbst multiplizieren, ist das Ergebnis immer positiv, da negativ mal negativ positiv ist:

Addieren Sie sie alle, aber warten Sie, dann hätte ein Array mit vielen Elementen einen größeren Fehler als ein kleines Array, also mitteln Sie sie durch die Anzahl der Elemente.

Aber warte, wir haben sie alle früher quadriert, um sie positiv zu erzwingen. Machen Sie den Schaden mit einer Quadratwurzel rückgängig!

Damit bleibt Ihnen eine einzelne Zahl, die im Durchschnitt den Abstand zwischen jedem Wert von list1 und dem entsprechenden Elementwert von list2 darstellt.

Wenn der RMSE-Wert im Laufe der Zeit sinkt, sind wir froh, weil die Varianz abnimmt.


Verwenden des Root Mean Squared Error (RMSE), um Modelle mit unterschiedlicher Stichprobengröße zu vergleichen

Ich verwende die k-fache Kreuzvalidierung, um verschiedene Modelle zu vergleichen.

Ich habe mein Dataset in 6 Chunks aufgeteilt und 4 zufällige Chunks als Trainingsset und die restlichen 2 als Testset verwendet.

Jetzt habe ich n-verschiedene Modelle an das Trainingsset angepasst und den RMSE sowohl für das Trainings- als auch für das Testset berechnet. Soweit ich weiß, sollte das Modell mit dem niedrigeren RMSE im Testsatz das bevorzugte sein.

Der Übersichtlichkeit halber meine ich: RMSE = sqrt( (fitted-observed)^2/ n.Beobachtungen )

Die Modelle unterscheiden sich für einige unabhängige Variablen, die unterschiedliche Mengen an NA-Werten haben (insbesondere da einige Variablen den kumulativen Effekt anderer darstellen, dass die Anzahl der NAs steigt, je mehr Variablen ich kumuliere).

Ich vergleiche also ein erstes Modell mit sagen wir n NAs mit einem zweiten mit 10n NAs. Auf diese Weise vergleiche ich Modelle, die an eine unterschiedliche Anzahl von Beobachtungen angepasst sind.

1) Ist dies ein Problem beim Vergleich des auf dem Testsatz berechneten RMSE?

Ich weiß zum Beispiel, dass, wenn ich Modelle auf dem Trainingsset vergleiche, der AIC in diesem Fall nicht aussagekräftig wäre, weniger sicher für das R-Quadrat.

2) Da ich jedes Modell 10 Mal auf 10 Trainingssätzen laufen lasse und auf 10 Testsätzen getestet habe (Erläuterungen siehe Anfang), habe ich für ein gegebenes Modell einen durchschnittlichen RMSE und seinen Standardfehler sowohl auf Trainings- als auch auf Testsätzen. Wie soll ich die Unterschiede zwischen Trainings- und Test-RMSE interpretieren?


Zwei kostengünstige kinematische globale Echtzeit-Navigationssatellitensysteme (RTK GNSSs), das Emlid „Reach RTK“ und das NavSpark „NS-HP“ wurden in Bezug auf Positionsgenauigkeit und Präzision bewertet. Die Rover-Einheiten jedes GNSSs waren auf einem Feldroboter montiert, der in sechs wiederholten Versuchen mit einer manuellen Fernbedienung entlang einer vordefinierten Teststrecke fuhr. Die Präzision der beiden Systeme wurde durch F-Test-Statistiken bewertet.

Die kombinierte Genauigkeit der beiden GNSSs wurde durch Vergleich der Positionsdaten mit einem festen bekannten Abstand zwischen den GNSS-Antennen des Roboters (472 mm) bestimmt. In drei von sechs Versuchen blieben beide GNSSs im festen Lösungsstatus und zeigten einen Root Mean Square Error (RMSE) von weniger als 50 mm, was im erwarteten Bereich lag. In zwei anderen Versuchen startete eines der GNSSs im Float-Lösungsstatus und wechselte anschließend in den Fixed-Lösungsstatus. In diesen Versuchen lag der RMSE immer noch deutlich innerhalb eines Meters, was im Zustand der Floating-Lösung zu erwarten war. In einem Versuch wurde ein falscher Status einer festen Position festgestellt, bei dem das NavSpark GNSS fälschlicherweise behauptete, dass es sich im Status einer festen Lösung befände. Dieses Problem muss in Zukunft durch Verbesserungen bei der Signalkonditionierung, Rauschen und Software und/oder durch Sensorfusion gemildert werden. Obwohl das Emlid GNSS eine überlegene Lokalisierungsleistung aufwies, da der Prozentsatz der Daten im festen Lösungsstatus 94,0 % im Vergleich zu 71,5% für das NavSpark GNSS betrug, wurden beide als vielversprechend für den Einsatz auf experimentellen Feldrobotern erachtet.


Vorhersage der Sedimentablagerungsrate in Rückstaudämmen mit maschinellen Lernverfahren und hochauflösenden DEMs

In Staudämmen angesammelte Sedimente sind ein wertvolles Maß zur Abschätzung der Bodenerosionsraten. Hier wurden erstmals geografische Informationssysteme (GIS) und drei maschinelle Lernverfahren (MARS-multivariate adaptive Regressionssplines, RF-Random Forest und SVM-Support Vector Machine) zur Vorhersage der Sedimentablagerungsrate (SR) in Staudämmen in sechs Wasserscheiden im Südwesten Spaniens. Dort 160 Trockenstein-Check-Dämme (

77,8 Staudämme km −2 ), angesammelte Sedimente während eines Zeitraums, der zwischen 11 und 23 Jahren variierte. Das SR wurde in früheren Untersuchungen mit einer topographischen Methode und einem hochauflösenden digitalen Höhenmodell (DEM) geschätzt (Durchschnitt 0,14 m 3 ha −1 Jahr −1 ). Neun umwelttopografische Parameter wurden berechnet und als Prädiktoren für die SR. Die Leistungsfähigkeit von MARS, RF und SVM wurde anhand einer fünffachen Kreuzvalidierung unter Berücksichtigung des Gesamtgebiets (ALL), der Kontrolldämme am Hang (HILL) und der Talsohlen (VALLEY) sowie der drei Einzugsgebiete (B, C und D) mit der höchsten Anzahl an Staudämmen. Die Genauigkeit der Modelle wurde anhand des relativen quadratischen Mittelwertfehlers (RRMSE) und der mittlere absolute Fehler (MAE). Die Ergebnisse zeigten, dass RF und SVM in der Lage sind, Vorhersagen zu treffen SR mit höherer und stabilerer Genauigkeit als MARS. Dies ist für die Datensätze ALL, VALLEY und D offensichtlich, wo die Vorhersagefehler von MARS zwischen 44 und 77% lagen (RRMSE) und 37 bis 62 % (MAE) höher als die von RF und SVM erreichten, aber auch für die Datensätze HILL und B, bei denen die Differenz von RRMSE und MAE lag bei 7–10 % bzw. 12–17 %.

Dies ist eine Vorschau der Abonnementinhalte, auf die Sie über Ihre Institution zugreifen können.


Bewertung der Anpassung von Regressionsmodellen

Ein gut passendes Regressionsmodell führt zu vorhergesagten Werten nahe den beobachteten Datenwerten. Das Mittelwertmodell, das den Mittelwert für jeden vorhergesagten Wert verwendet, würde im Allgemeinen verwendet werden, wenn es keine informativen Prädiktorvariablen gäbe. Die Anpassung eines vorgeschlagenen Regressionsmodells sollte daher besser sein als die Anpassung des Mittelwertmodells.

Drei Statistiken werden in der Ordinary Least Squares (OLS)-Regression verwendet, um die Modellanpassung zu bewerten: R-Quadrat, der gesamte F-Test und der Root Mean Square Error (RMSE). Alle drei basieren auf zwei Quadratsummen: Sum of Squares Total (SST) und Sum of Squares Error (SSE). SST misst, wie weit die Daten vom Mittelwert entfernt sind, und SSE misst, wie weit die Daten von den vorhergesagten Werten des Modells entfernt sind. Unterschiedliche Kombinationen dieser beiden Werte liefern unterschiedliche Informationen darüber, wie das Regressionsmodell im Vergleich zum Mittelwertmodell abschneidet.

R-Quadrat und Bereinigtes R-Quadrat

Der Unterschied zwischen SST und SSE ist die Verbesserung der Vorhersage des Regressionsmodells im Vergleich zum Mittelwertmodell. Die Division dieser Differenz durch SST ergibt R-Quadrat. Es ist die proportionale Verbesserung der Vorhersage des Regressionsmodells im Vergleich zum Mittelwertmodell. Es zeigt die Güte des Modells an.

R-Quadrat hat die nützliche Eigenschaft, dass seine Skala intuitiv ist: Sie reicht von null bis eins, wobei null anzeigt, dass das vorgeschlagene Modell die Vorhersage gegenüber dem Mittelwertmodell nicht verbessert, und eins eine perfekte Vorhersage anzeigt. Eine Verbesserung des Regressionsmodells führt zu proportionalen Erhöhungen des R-Quadrats.

Eine Falle von R-Quadrat besteht darin, dass es nur zunehmen kann, wenn dem Regressionsmodell Prädiktoren hinzugefügt werden. Dieser Anstieg ist künstlich, wenn Prädiktoren die Anpassung des Modells nicht wirklich verbessern. Um dies zu beheben, enthält eine verwandte Statistik, Angepasstes R-Quadrat, die Freiheitsgrade des Modells. Das angepasste R-Quadrat nimmt ab, wenn Prädiktoren hinzugefügt werden, wenn die Erhöhung der Modellanpassung den Verlust an Freiheitsgraden nicht ausgleicht. Ebenso steigt sie, wenn Prädiktoren hinzugefügt werden, wenn sich die Erhöhung der Modellanpassung lohnt. Das bereinigte R-Quadrat sollte immer bei Modellen mit mehr als einer Prädiktorvariablen verwendet werden. Er wird als Anteil der Gesamtvarianz interpretiert, der durch das Modell erklärt wird.

Es gibt Situationen, in denen ein hohes R-Quadrat nicht notwendig oder relevant ist. Wenn das Interesse an der Beziehung zwischen Variablen liegt und nicht an der Vorhersage, ist das R-Quadrat weniger wichtig. Ein Beispiel ist eine Studie darüber, wie sich Religiosität auf gesundheitliche Ergebnisse auswirkt. Ein gutes Ergebnis ist ein verlässlicher Zusammenhang zwischen Religiosität und Gesundheit. Niemand würde erwarten, dass die Religion einen hohen Prozentsatz der Gesundheitsunterschiede erklärt, da die Gesundheit von vielen anderen Faktoren beeinflusst wird. Auch wenn das Modell andere Variablen berücksichtigt, von denen bekannt ist, dass sie sich auf die Gesundheit auswirken, wie z. B. Einkommen und Alter, ist ein R-Quadrat im Bereich von 0,10 bis 0,15 angemessen.

Der F-Test bewertet die Nullhypothese, dass alle Regressionskoeffizienten gleich Null sind, gegenüber der Alternative, dass mindestens einer nicht ist. Eine äquivalente Nullhypothese ist, dass R-Quadrat gleich Null ist. Ein signifikanter F-Test zeigt an, dass das beobachtete R-Quadrat zuverlässig ist und kein falsches Ergebnis von Merkwürdigkeiten im Datensatz ist. Somit bestimmt der F-Test, ob die vorgeschlagene Beziehung zwischen der Antwortvariablen und dem Satz von Prädiktoren statistisch zuverlässig ist und nützlich sein kann, wenn das Forschungsziel entweder eine Vorhersage oder eine Erklärung ist.

Der RMSE ist die Quadratwurzel der Varianz der Residuen. Es zeigt die absolute Anpassung des Modells an die Daten an, wie nahe die beobachteten Datenpunkte an den vorhergesagten Werten des Modells liegen. Während R-Quadrat ein relatives Maß für die Anpassung ist, ist RMSE ein absolutes Maß für die Anpassung. Als Quadratwurzel einer Varianz kann RMSE als Standardabweichung der ungeklärten Varianz interpretiert werden und hat die nützliche Eigenschaft, in denselben Einheiten wie die Antwortvariable zu liegen. Niedrigere RMSE-Werte weisen auf eine bessere Anpassung hin. RMSE ist ein gutes Maß dafür, wie genau das Modell die Antwort vorhersagt, und es ist das wichtigste Anpassungskriterium, wenn der Hauptzweck des Modells die Vorhersage ist.

Das beste Maß für die Modellanpassung hängt von den Zielen des Forschers ab, und oft sind mehrere davon nützlich. Die oben erörterten Statistiken gelten für Regressionsmodelle, die die OLS-Schätzung verwenden. Viele Arten von Regressionsmodellen, wie gemischte Modelle, verallgemeinerte lineare Modelle und Ereignisverlaufsmodelle, verwenden jedoch die Schätzung der maximalen Wahrscheinlichkeit. Diese Statistiken sind für solche Modelle nicht verfügbar.


4 Antworten 4

Ich habe nicht gesehen, dass Pearsons $r$ als Statistik verwendet wird, um die Qualität von a . zu bestimmen Vorhersagemodell. Vielleicht meinen Sie, dass Sie dafür $R^2$ verwenden. Wenn das der Fall ist, sind die Unterschiede in Deutung zwischen RMSE und $R^2$ werden hier diskutiert. Es ist auch mein Verständnis, dass mit angepasst $R^2$ ist dem einfachen $R^2$ vorzuziehen (http://www.theanalysisfactor.com/assessing-the-fit-of-regression-models):

Eine Falle von R-Quadrat besteht darin, dass es nur zunehmen kann, wenn dem Regressionsmodell Prädiktoren hinzugefügt werden. Dieser Anstieg ist künstlich, wenn Prädiktoren die Anpassung des Modells nicht wirklich verbessern. Um dies zu beheben, enthält eine zugehörige Statistik, Adjusted R-squared, die Freiheitsgrade des Modells. Das angepasste R-Quadrat nimmt ab, wenn Prädiktoren hinzugefügt werden, wenn die Erhöhung der Modellanpassung den Verlust an Freiheitsgraden nicht ausgleicht. Ebenso steigt sie, wenn Prädiktoren hinzugefügt werden, wenn sich die Erhöhung der Modellanpassung lohnt. Das bereinigte R-Quadrat sollte immer bei Modellen mit mehr als einer Prädiktorvariablen verwendet werden. Er wird als Anteil der Gesamtvarianz interpretiert, der durch das Modell erklärt wird.

Kürzlich habe ich auch eine Empfehlung gesehen, das vorhergesagte zu verwenden Restsumme der Quadrate Statistik statt $R^2$ als Maß für Vorhersagequalität (Leistung) eines Regressionsmodells: http://www.analyticbridge.com/profiles/blogs/use-press-not-r-squared-to-judge-predictive-power-of-regression.

Außerdem bin ich mir nicht sicher, ob es sinnvoll ist, RMSE und $R^2$ im Allgemeinen zu vergleichen, da ersteres ein absolut Maß der Passform, während letzteres a . ist relativ ein (die Statistik' Waage sind anders).


Schau das Video: TACAN ODGOVOR NA NAJTEZI ZADATAK!! - Baldis Basics