Mehr

Gibt es ein Problem bei der Berechnung von falschen Mittelwerten in der Zonenstatistik?

Gibt es ein Problem bei der Berechnung von falschen Mittelwerten in der Zonenstatistik?


Ich habe versucht, das folgende Problem selbst zu lösen, jedoch ohne Erfolg. Auf der einen Seite habe ich eine Rasterdatei, die das Ergebnis des Bearbeitungswerkzeugs "Formen zu Raster" ist. Auf der anderen Seite habe ich eine Grenzvektordatei. Jetzt wollte ich das zonale Statistiktool über die Verarbeitungstoolbox verwenden. Aber das Ergebnis stimmt nicht. Der Mittelwert ist nicht das, was er sein sollte. Die Metadaten (Rasterdateieigenschaften) zeigen mir den richtigen Mittelwert. Das Verrückte ist, wenn ich das Raster wieder in eine Formdatei umwandele und diese Form dann wieder in eine Rasterdatei umwandle, funktioniert das Zonenstatistik-Tool einwandfrei.

Könnte das bitte jemand für mich überprüfen? Ich verwende QGIS 2.2. Die Dateien sind hier (EPSG 25833): Link


Hier ist das Ticket: Ticket

Hängt dieses Problem möglicherweise mit diesem Problem zusammen (Fehlerbericht)?


Durchschnittliche Dezibel

Das Dezibel (dB) ist eine logarithmische Einheit, die das Verhältnis einer physikalischen Größe (normalerweise Leistung oder Intensität) relativ zu einem spezifizierten oder implizierten Referenzpegel angibt.

Wenn ich eine physikalische Größe in Dezibel messe, was ist dann die bevorzugte Methode, um den Mittelwert der gemessenen Werte zu berechnen? Reicht es aus, sie einfach zu mitteln, oder sollte ich sie wieder in eine lineare Skala umwandeln, den Durchschnitt berechnen und wieder in Dezibel umrechnen (Beispiel)? Wann sollte ich welchen Ansatz verwenden und warum?


Ich finde eine kleine algebraische Manipulation der folgenden Art, um einen kongenialen Weg zur Lösung von Problemen wie diesem bereitzustellen – wo Sie die Kovarianzmatrix der Variablen $(B,C)$ kennen und die Varianz einer Funktion davon schätzen möchten, wie z als $B/C.$ (Dies wird oft als "Delta-Methode" bezeichnet)

Dabei ist $eta$ der Erwartungswert von $B$ und $gamma$ der von $C.$ Dies macht $(X,Y)$ zu einer Zufallsvariable mit Nullmittelwert und denselben Varianzen und Kovarianzen wie $(B,C ).$ Scheinbar ist nichts erreicht, aber diese Zerlegung ist algebraisch suggestiv, wie in

Das ist, $A$ ist proportional zu einem Verhältnis von zwei Zahlen, die beide nahe bei eins liegen können. Dies ist der Umstand, der eine näherungsweise Berechnung der Varianz von $A$ nur anhand der Kovarianzmatrix von $(B,C) erlaubt.$

Sofort diese Division durch $gamma$ zeigt die Sinnlosigkeit eines Lösungsversuchs, wenn $gammaapprox 0.$ (Siehe https://stats.stackexchange.com/a/299765/919 für Illustrationen, was schief geht, wenn eine Zufallsvariable durch eine andere geteilt wird, die eine gute Chance hat, sehr nahe an Null zu kommen.)

Angenommen, $gamma$ ist einigermaßen weit von ,$ entfernt, deutet der obige Ausdruck auch auf die Möglichkeit hin, den zweiten Bruch mit der MacLaurin-Reihe für $(1+Y/gamma)^<-1>,$ zu approximieren, was möglich ist, vorausgesetzt es ändert sich wenig, dass $|Y/gamma|ge 1$ (außerhalb des absoluten Konvergenzbereichs dieser Entwicklung) ist. Mit anderen Worten, Nehmen wir weiter an, die Verteilung von $C$ konzentriert sich zwischen $ und $2gamma.$ In diesem Fall gibt die Reihe

$egin frac<1 + X/eta> <1+Y/gamma>&= left(1 + X/eta ight)left(1 - (Y/gamma) + Oleft((Y /gamma)^2 ight) ight)&= 1 + X/eta - Y/gamma + Oleft(left(X/eta ight)(Y/gamma)^2 ight).end$

Wir können den letzten Term vernachlässigen, vorausgesetzt, die Wahrscheinlichkeit, dass $(X/eta)(Y/gamma)^2$ groß ist, ist winzig. Dies ist gleichbedeutend mit der Annahme, dass der größte Teil der Wahrscheinlichkeit von $Y$ sehr nahe $gamma$ und dass $X$ und $Y^2$ nicht zu stark korreliert sind. In diesem Fall

Sie fragen sich vielleicht, warum ich mich über die Annahmen aufrege. Sie sind wichtig. Eine Möglichkeit, sie zu überprüfen, besteht darin, die normalverteilten Variablen $B$ und $C$ in einer Simulation zu generieren: Sie liefert eine gute Schätzung der Varianz von $A$ und, sofern $A$ ungefähr normalverteilt erscheint, wird dies bestätigen die drei mutigen Annahmen, die erforderlich sind, um sich auf dieses Ergebnis zu verlassen, gelten in der Tat.

Zum Beispiel mit der Kovarianzmatrix $pmatrix<1&-0.9-0.9&1>$ und bedeutet $(eta,gamma)=(5, 10),$ ist die Approximation OK (linkes Feld):

Die Varianz dieser 100.000 simulierten Werte ist .0233,$ nahe dem Wert der Formel von .0215.$ Aber die Reduzierung von $gamma$ von $10$ auf $4,$ sieht unschuldig genug aus ( $4$ sind immer noch vier Standardabweichungen von $C $ weg von $ ) hat aufgrund der starken Korrelation von $B$ und $C,$ tiefgreifende Auswirkungen, wie im rechten Histogramm zu sehen ist. Offensichtlich hat $C$ eine kleine, aber merkliche Chance, fast ,$ zu sein und große Werte von $B/C$ (sowohl negativ als auch positiv) zu erzeugen. Dies ist ein Fall, in dem wir den Term $XY^2$ in der MacLaurin-Entwicklung nicht vernachlässigen sollten. Nun beträgt die Varianz dieser 100.000 simulierten Werte von $A$ $2,200$, aber die Formel liefert 0,301,$ viel zu klein.

Dies ist der R-Code, der die erste Zahl generiert hat. Eine kleine Änderung in der dritten Zeile erzeugt die zweite Zahl.


Gibt es ein Problem bei der Berechnung von falschen Mittelwerten in der Zonenstatistik? - Geografisches Informationssystem

Laufwerkstausch durchführen

Führen Sie die Laufwerksersetzung durch, um die virtuellen Laufwerke zu erstellen L und m.

    Laden Sie die Datei herunter q1822.zip, und speichern Sie es in M:. (Der vollständige Satz von Washington State DEMs ist auf einem Server in Geological Sciences verfügbar.)

    Wenn Sie neugierig auf die Struktur der Datei sind, öffnen Sie eine Eingabeaufforderung und verwenden Sie den Befehl


Dies zeigt, dass die Datei das Viereck von Eatonville, WA darstellt, die Datenquelle war Höhenfotografie (HAP), die am 6. August 1981 geflogen wurde. Die Zellengröße beträgt 30 m. Die großen numerischen Werte sind Kopfzeilenwerte für den XY-Ursprung des Rasters, die Drehung usw. Die kleineren Werte sind die Höhe in Metern.

    Stellen Sie die USGS DEM-Datei eingeben zum entpackten dem.

Sie haben gerade erfolgreich ein gemeinfreies digitales Höhenmodell heruntergeladen, in ArcGIS importiert und in einem nach Höhe gestreckten Farbverlauf angezeigt. Fast alle DEMs für die USA stehen zum kostenlosen Download zur Verfügung. DEMs werden in allen Aspekten der GIS-Analyse von Landschaften verwendet. Die Höhe ist eines der grundlegendsten Dinge, die wir über Landschaften wissen müssen. Außerdem sind Höhen-Datasets die Grundlage für Hang- und Aspect-Datasets und werden für die Entwicklung von Abgrenzungen von Wassereinzugsgebieten verwendet.

Abrufen und Importieren von 10 m USGS-DEMs

Harvey Greenberg betreibt einen Server in Earth & Space Sciences, der eine große Anzahl von Datensätzen für den Staat Washington verwaltet, darunter 10 Mio. DEMs (die von Ihnen gerade verwendeten sind 30 m).

    Erstellen Sie ein Verzeichnis namens 10m um die 10-Meter-DEMs in Ihrem . zu halten M: _an_2.

10m

30m

Zusammenführen benachbarter Raster ("mosaicking")

Mosaicking erzeugt ein einzelnes nahtloses Gitter und glättet auch den Übergang zwischen Gittern, indem eine Mittelungsfunktion in der Nähe des Randes durchgeführt wird.

    Laden Sie mit der gleichen Methode wie oben die Elbe, WA 30 m DEM (q1823.dem). Rufen Sie das Ausgaberaster auf Elbe.


Selbst wenn Sie einen ähnlichen Farbverlauf verwenden, können Sie immer noch die harte Kante zwischen den beiden Rastern sehen. Im Inhaltsverzeichnis des Datenrahmens können Sie auch sehen, dass dies immer noch zwei separate Raster sind.

Hier ist eine gezoomte Ansicht mit einer klassifizierten statt einer gestreckten Symbologie.

Für diese Zellen am Rand beträgt der Höhenunterschied 9 Meter.

Dieses Werkzeug "erstellt einen neuen Raster-Layer, indem das Eatonville-Raster mit dem Elbe-Raster mosaikiert wird."

Sie haben gerade zwei benachbarte digitale USGS-Höhenmodelle heruntergeladen, importiert und zusammengeführt. Wenn sich Ihr Untersuchungsgebiet über mehrere USGS-Quadsheet-Grenzen erstreckt und Sie eine Analyse mit Höhendaten durchführen müssen, müssen Sie diese zusammen mosaikieren.

    Gehen Sie zurück zum Eatonville Datenrahmen.

  1. Stellen Sie das Konturintervall auf 10 m ein.
  2. Platzieren Sie die Ausgabe als Shapefile namens Kontur_10m.

Sie haben gerade eine ganze Vektor-Konturlinienebene erstellt. Verwenden Sie diese Technik, um Höhenliniendaten zu erstellen, wenn Sie nur über verfügbare Raster-Höhendaten verfügen, aber Höhenlinien auf Ihrer Karte benötigen. Beachten Sie jedoch, dass die Höhenlinien nur so gut sind wie die Eingabedaten, die in vielen Fällen überhaupt nicht gut sind. Es gibt auch Probleme mit der Linienverallgemeinerung, die sich auf die Datenqualität auswirken können.

Berechnung von Distanzflächen und Puffern

Distanzflächen berechnen

    Erstellen Sie einen neuen Datenrahmen namens Pack Wald.

Jetzt hat jede Zelle im Ausgabegitter einen Wert für ihre Entfernung zum nächsten Strom. Dies sieht ähnlich aus wie ein Puffer mit konzentrischen Pufferzonen, aber anstelle von quantisierten Distanzzonen wird jede Zelle für ihre eigene Distanz zum nächsten Strom kodiert, anstatt einfach für "innerhalb oder außerhalb" eines Puffers mit einem bestimmten Bereich von Distanzwerten kodiert zu werden .

Sehen Sie, wie sich dies von der Pufferfunktion in der Vektorwelt unterscheidet?

Nachdem Sie nun eine Oberfläche mit Abstand zu jedem Bach haben, erstellen Sie eine Rasterebene, die die Zellen innerhalb von 500 Fuß von bestehenden Bächen darstellt.

    Von dem RaumanalytikerToolsMap Algeba, auswählen Raster-Rechner.

Um ein Maskenraster mit gültigen Zellen innerhalb einer Entfernung von 150 m zu erstellen, führen Sie ein weiteres aus Rasterberechnung Verwendung der setnull Kartenalgebrafunktion:

Dieser Ausdruck bedeutet "für jede Zelle, wenn der Wert von buf_stream_500 entspricht 0, machen Sie den Ausgabewert keine Daten, andernfalls machen Sie den Ausgabewert 1."


Dadurch wird ein neues Raster erstellt, das mit dem ursprünglichen Abstandsraster identisch ist, aber nur für Zellen innerhalb des Maskenrasters einen Wert hat. Die Maske begrenzt die räumliche Ausdehnung von Ausgabezellen.

Die andere Methode zur Begrenzung der Entfernung ist:

    Führen Sie dieselbe Entfernungsberechnung wie zuvor durch, geben Sie jedoch die Maximale Entfernung von 500 ft:

Sie haben gerade ein Distanzoberflächenraster aus einem Stream-Vektor-Layer erstellt. Diese Distanzoberflächen sind Puffern ähnlich, aber anstatt einen einfachen binären Ein- oder Auswärtswert zu haben, werden die Zellen mit der tatsächlichen Distanz der Zellenmitte zum nächsten Strom codiert. Wenn Sie eine Art von Modellierung durchführen, bei der die tatsächliche Entfernung zu einem Feature (und nicht innerhalb/außerhalb eines Puffers) wichtig ist, können Sie diese Technik verwenden. Salamander sind beispielsweise eher in der Nähe von Bachkanälen zu finden.

Berechnen von Zusammenfassungsattributen für Features mithilfe eines Raster-Layers ("Zonale Statistiken")

Zonale Statistiken werden verwendet, wenn Sie über ein Zonen-Dataset verfügen (die Quelle kann entweder ein Raster- oder ein Vektor-Dataset sein) und zusammenfassende Statistiken für ein zugrunde liegendes Raster benötigen.

    Erstellen Sie einen neuen Datenrahmen und fügen Sie die Rasterebene hinzu dem und die Polygonebene steht aus der Datei L:packgispackgis.mdb.

  1. Wählen steht polygon als die Zonendatensatz.
  2. Wählen Sie den Artikel aus SITE_INDEX als Zonenfeld. Dies gibt an, dass wir daran interessiert sind, die Stände zusammenzufassen und nach dem einzigartigen Wert des Standortindex zu analysieren.
  3. Auswählen dem als die Werte-Raster.
  4. Auswählen Bedeuten als die Diagrammstatistik.
  5. Setzen Sie die Ausgabetabelle in M:NETID.gdbZonaleSt_stands1.

Kreuztabellenbereiche

Die Bereichs-Kreuztabelle ist nützlich, um verschiedene Datasets für denselben Bereich zu vergleichen, sowie um dieselben Daten-Layer zu unterschiedlichen Zeiten zu vergleichen.

Eine Raster-Approximation des Vektorschnittpunkts

    Erstellen Sie einen neuen Datenrahmen namens XTab.

  1. Konvertieren basierend auf dem SPEZIES Feld.
  2. Platzieren Sie den Ausgabedatensatz in M:NETID.gdbstand_sp_grid.
  3. Verwenden Sie eine Zellengröße von 30 m.

  1. Die erste Eingabeschicht ist das Bodengitter
  2. Die zweite Eingabeschicht ist das Standgitter.
  3. Platzieren Sie die Ausgabetabelle in M:NETID.gdbsoil_stand_xtab.
  4. Klicken OK.

Reklassifizieren eines Raster-Gitter-Layers

Manchmal ist es sinnvoller, mit reklassifizierten Daten zu arbeiten als mit kontinuierlichen Rohdaten. Beispielsweise kann es bestimmte Höhenbereiche geben, in denen Sie unterschiedliche Vegetationstypen finden können. Um die Vegetationsverteilung zu modellieren, ist es möglicherweise besser, ein Höhenklassenraster zu verwenden als eines, das rohe kontinuierliche Höhen enthält. Das Neuklassifizieren Ihrer Daten ähnelt dem Ändern der Klassifizierung in der Legende für einen Layer, aber es wird nicht nur die Symbologie geändert, sondern ein neues Raster-Dataset mit diesen Werten erstellt.

    Schließe Eigenschaften.

Verwenden Sie die Auto-Fill-Funktion von Excel, um dies zum Kinderspiel zu machen (fragen Sie Ihren lokalen Excel-Guru oder bitten Sie den Lehrer um eine Demonstration, wenn Sie nicht wissen, wie das geht, oder schlagen Sie in der Excel-Hilfe nach). Jeder Datensatz in der Tabelle definiert den Bereich und die Ausgabewerte. Der erste Datensatz nimmt beispielsweise Eingabezellen mit Werten von 400 bis 500 und ordnet sie in der Ausgabe einem Wert von 500 zu.

Die Neuklassifizierung eines Raster-Gitter-Layers weist Gruppen von Eingabezellen neue Ausgabewerte zu. In diesem Fall haben wir ein neues Rastergitter aus dem ausgewählten Satz der Dem_int Rastergitterschicht. Die Reklassifizierung ist eine Technik, die Daten verständlicher machen kann, aber immer einen Verlust von Originalinformationen beinhaltet (die Originalwerte gehen verloren). Das andere Problem bei der Neuklassifizierung besteht darin, dass die resultierende Rastergitterattributtabelle keine beschreibenden Werte, sondern nur Klassennummern hat. Reklassifizieren ist auch eine lokale Funktion, da sie jeder Zelle unabhängig von anderen Zellen neue Zellwerte zuweist.

Berechnung von Nachbarschaftsstatistiken

Welche Teile des Waldes haben die größte topografische Komplexität? Berechnen Sie basierend auf einem 5 x 5-Zellen-Kernel, der über die gesamte Landschaft geführt wird, die Standardabweichung der Höhe innerhalb dieses 5 x 5-Zellen-Kerns, und platzieren Sie die Ausgabe jeder dieser Berechnungen in der mittleren Zelle des Ausgabegitters.

    Von dem RaumanalytikerToolsNachbarschaft, auswählen Blockstatistiken.

  1. Auswählen dem als Eingangsdatensatz
  2. Wählen Sie die Statistik aus Standardabweichung.
  3. Verwenden Sie ein Rechteck von 5 x 5 Zellen.
  4. Legen Sie die Ausgabezellengröße von 10 aus dem fest UmgebungenRasteranalyse.
    <Hinweis> Diese Datei kann nicht in der Geodatbase gespeichert werden. Speichern Sie stattdessen auf Ihrem Wechseldatenträger

Dieselbe grundlegende Technik könnte beispielsweise verwendet werden, um Landnutzungs- oder Landbedeckungstypen zu charakterisieren. Für nominale Daten wie Landnutzung oder Landbedeckung würde die Nachbarschaftsstatistik Variety eine neue Rasterschicht darstellen, in der die Ausgabezellen die Anzahl der unterschiedlichen Klassen innerhalb des Kernelbereichs darstellen.

Hier ist ein Beispiel für eine Nachbarschaftsberechnung basierend auf Standzeiten. Die Waldbestände wurden auf ein Raster basierend auf den Werten des Bestandsalters (Alter_2003) umgerechnet. Die kontrastreichsten Kanten (diejenigen mit dem größten Altersunterschied) führen zu Zellen mit einem höheren Standardabweichungswert (dargestellt in einem dunkleren Violettton). Können Sie so etwas mit den Pack Forest-Standpolygonen reproduzieren, basierend auf den Site_index-Feldwerten?


3 Antworten 3

Dieser Textauszug leidet an Mehrdeutigkeit und Unrichtigkeit.

Befassen wir uns zuerst mit letzterem. Die Unabhängigkeit zweier Zufallsvariablen $X$ und $Y$ ist nicht über eine Variable, die "keine Informationen über die erste bereitstellt" (eine bemerkenswert zweideutige Formulierung für sich!). Bei Unabhängigkeit geht es ausschließlich um Wahrscheinlichkeiten und bedeutet nichts anderes als die Wahrscheinlichkeit eines gemeinsamen Ereignisses (nämlich dass der Wert von $X$ in einer Menge von $mathcal A$ liegt und der Wert von $Y$ gleichzeitig in einer anderen liegt set $mathcal B$ ) wird allein aus den einzelnen Chancen bestimmt (nämlich durch Multiplikation).

In diesem Zusammenhang ist es naheliegend, ein Urnenmodell aufzustellen, um die Probenahme zu verstehen. Ein Extremfall dieser Situation ist ein verkürztes Schuljahr (wie viele es in letzter Zeit erlebt haben!), in dem der Schüler nur an zwei Tagen pendelt. Die Urne würde zwei Zettel enthalten, die die beiden Pendelwege darstellen. Auf jedem Zettel steht die Zeit dieser Fahrt. Eine Zufallsstichprobe der Größe eins wird durch die blinde Entnahme eines einzelnen Zettels gewonnen. Sei $X$ der Wert auf diesem Zettel: es ist eine Zufallsvariable. Sei $Y$ die Sammlung von Werten auf allen verbleibenden Belegen in der Urne (nämlich der nicht ausgewählte Pendeltag). Es ist einfach zu zeigen, dass die Zufallsvariable $(X,Y)$ ist nicht unabhängig: Tatsächlich beträgt die Korrelation zwischen $X$ und $Y$ $-1$ und alle Variablen mit einer Korrelation ungleich null sind nicht unabhängig.

Wenn Sie Stichproben der Größe $1$ konzeptionell anstößig finden, erweitern Sie dieses Beispiel auf ein Schuljahr mit drei Pendlertagen und betrachten Sie eine Zufallsstichprobe (ohne Ersatz) der Größe $2.$ Diese Stichprobe besteht aus der Entnahme von zwei Tickets – der Reihe nach – ohne Ersatz. Sei $X_1$ der Wert auf dem ersten Ticket und $X_2$ der Wert auf dem zweiten. Die Korrelation der Zufallsvariablen $(X_1,X_2)$ ist $-1/2,$ wieder ungleich Null: diese beiden Pendelzeiten sind nicht unabhängig. (Frage zur Kovarianz für Stichproben ohne Ersetzung erklärt, wie diese Kovarianz berechnet wird.)

Es ist möglich, dass die Autoren ein Modell im Sinn hatten, bei dem die Urne mit Unmengen von Tickets gefüllt ist, was eine gewisse Verteilung der "hypothetischen" Pendelzeiten widerspiegelt. Wenn dies der Fall ist, verhalten sich die Stichprobenwerte praktisch so, als ob sie unabhängig wären. Aber was wäre die konzeptionelle Grundlage für die Konstruktion eines solchen Modells?

Die Autoren könnten auch (implizit) an die Idee appelliert haben, dass, wenn sich eine "große" Anzahl von Tickets in der Urne befindet und "relativ wenige" für die Stichprobe abgezogen werden, die Werte auf den Stichprobentickets sind CA unabhängig. Aber das klingt einfach zu qualitativ und glitschig, um jedem Publikum als anständige Erklärung zu dienen.

Je mehr wir über diese Situation nachdenken, desto mehr dringt die Realität ein. Selbst wenn ein Schuljahr beispielsweise volle 180 (oder so) Tage umfasst, warum sollten wir dann annehmen, dass die während der Wintermonate erfassten Pendelzeiten keine Informationen über andere Pendelzeiten in der Nähe liefern? In Regionen mit starkem Winterwetter würde das niemand glauben. "Wie ich sehe, hast du gestern zwei Stunden gebraucht, um zur Schule zu kommen. Da draußen muss viel Schnee liegen. Ich wette, deine Fahrt in der nächsten Woche wird extra lang."

Wir haben bereits einige Unklarheiten darüber ausgeräumt, was mit "keine Informationen" gemeint ist und welches Modell verwendet wird. Es gibt andere Unklarheiten. Sollen wir zum Zwecke der Bewertung der Unabhängigkeit der Werte in der Stichprobe annehmen – oder sollten wir nicht – den vollständigen Inhalt der Urne untersuchen? Wenn eine Pendelzeit über keine andere Pendelzeit in der Stichprobe "liefert", wie viel weniger Informationen muss sie dann über nicht erfasste Pendelzeiten liefern! Wie könnte man dann aus den Abtastwerten überhaupt Rückschlüsse auf die Pendelzeiten des Jahres ziehen?

Auch wenn es schmerzhaft oder übertrieben technisch erscheinen mag, die nur Weise, die Unabhängigkeit von Zufallsvariablen zu demonstrieren, muss sich auf ihre probabilistische Definition berufen. Dies erfordert eine klare Angabe eines Wahrscheinlichkeitsmodells und den Nachweis, dass die Wahrscheinlichkeiten in diesem Modell dem für die Unabhängigkeit charakteristischen Produktgesetz gehorchen. Alles andere ist nur Handwinken und droht den nachdenklichen Schüler zu verwirren.


Ein Regressionsmodell wird häufig zur Extrapolation verwendet, d. h. zur Vorhersage der Reaktion auf eine Eingabe, die außerhalb des Wertebereichs der Prädiktorvariablen liegt, die zur Anpassung des Modells verwendet wird. Die mit der Extrapolation verbundene Gefahr wird in der folgenden Abbildung dargestellt.

Das Regressionsmodell ist „konstruktionsbedingt“ ein Interpolationsmodell und sollte nicht zur Extrapolation verwendet werden, es sei denn das ist richtig begründet.

Mit den Datenpunkten, die Cueball (der Mann mit dem Stock) hat, hat er hochgerechnet, dass die Frau bis Ende nächsten Monats "vier Dutzend" Ehemänner haben wird, und diese Hochrechnung verwendet, um zu dem Schluss zu kommen, die Hochzeitstorte in großen Mengen zu kaufen.

Bearbeiten 3: Für diejenigen unter Ihnen, die sagen "er hat nicht genug Datenpunkte", hier ist ein weiterer xkcd-Comic:

Hier wird die Verwendung des Wortes "nachhaltig" im Zeitverlauf in einem Semi-Log-Plot dargestellt, und durch Extrapolation der Datenpunkte erhalten wir eine unvernünftige Schätzung, wie oft das Wort "nachhaltig" in Zukunft vorkommen wird.

Bearbeiten 2: Für diejenigen unter Ihnen, die sagen "Sie brauchen auch alle vergangenen Datenpunkte", noch ein xkcd-Comic:

Hier haben wir alle Datenpunkte der Vergangenheit, aber wir können die Auflösung von Google Earth nicht genau vorhersagen. Beachten Sie, dass dies ebenfalls ein halblogarithmisches Diagramm ist.

Bearbeiten: Manchmal sind selbst die stärksten Korrelationen (in diesem Fall r=.9979) schlichtweg falsch.

Wenn Sie ohne andere unterstützende Beweise extrapolieren, bedeutet eine Verletzung der Korrelation keine weitere große Sünde in der Welt der Statistik.

Wenn Sie X mit Y extrapolieren, müssen Sie jedoch sicherstellen, dass Sie kann X genau (ausreichend, um Ihre Anforderungen zu erfüllen) vorhersagen mit nur Y. Fast immer gibt es mehrere Faktoren als Auswirkung X.

Ich möchte einen Link zu einer anderen Antwort teilen, die es mit den Worten von Nassim Nicholas Taleb erklärt.

"Vorhersage ist sehr schwierig, besonders wenn es um die Zukunft geht". Das Zitat wird in irgendeiner Form vielen Menschen zugeschrieben. Ich beschränke im Folgenden die "Extrapolation" auf "Vorhersage außerhalb des bekannten Bereichs" und in einer eindimensionalen Umgebung die Extrapolation von einer bekannten Vergangenheit in eine unbekannte Zukunft.

Was ist also falsch an der Extrapolation? Zuerst, es ist nicht einfach die vergangenheit zu modellieren. Zweite, Es ist schwer zu sagen, ob ein Modell aus der Vergangenheit für die Zukunft verwendet werden kann. Hinter beiden Behauptungen verbergen sich tiefe Fragen nach Kausalität oder Ergodizität, der Hinlänglichkeit erklärender Variablen usw., die ziemlich fallabhängig sind. Falsch ist, dass es ohne viele zusätzliche Informationen schwierig ist, ein einzelnes Extrapolationsschema auszuwählen, das in verschiedenen Kontexten gut funktioniert.

Diese generische Diskrepanz wird im unten gezeigten Datensatz des Anscombe-Quartetts deutlich veranschaulicht. Auch die lineare Regression ist (außerhalb des $x$ -Koordinatenbereichs) eine Extrapolation. Dieselbe Linie regressiert vier Punktesätze mit denselben Standardstatistiken. Die zugrunde liegenden Modelle sind jedoch ganz unterschiedlich: Das erste ist ziemlich Standard. Der zweite ist ein parametrischer Modellfehler (ein Polynom zweiten oder dritten Grades könnte besser geeignet sein), der dritte zeigt eine perfekte Anpassung bis auf einen Wert (Ausreißer?), der vierte ein Mangel an glatten Beziehungen (Hysterese?).

Prognosen können jedoch in gewissem Umfang korrigiert werden. Neben anderen Antworten können ein paar Zutaten bei der praktischen Extrapolation helfen:

  1. Sie können die Proben wiegen entsprechend ihrer Entfernung (Index $n$ ) zu der Stelle $p$, an der Sie extrapolieren möchten. Verwenden Sie beispielsweise eine ansteigende Funktion $f_p(n)$ (mit $pge n$ ), wie exponentielle Gewichtung oder Glättung, oder gleitende Fenster von Stichproben, um älteren Werten weniger Bedeutung zu geben.
  2. Sie können mehrere Extrapolationsmodelle verwenden und diese kombinieren oder wählen Sie die besten aus (Combining Forecasts, J. Scott Armstrong, 2001). In letzter Zeit gab es eine Reihe von Arbeiten zu ihrer optimalen Kombination (bei Bedarf kann ich Referenzen angeben).

Kürzlich war ich an einem Projekt zur Extrapolation von Werten für die Kommunikation von Simulations-Subsystemen in einer Echtzeitumgebung beteiligt. Das Dogma in diesem Bereich war, dass Extrapolation Instabilität verursachen kann. Wir haben tatsächlich festgestellt, dass die Kombination der beiden oben genannten Zutaten sehr effizient war, ohne merkliche Instabilität (noch ohne einen formalen Beweis: CHOPtrey: Contextual Online Polynomial Extrapolation for Enhanced Multi-Core Co-Simulation of Complex Systems, Simulation, 2017). Und die Extrapolation funktionierte mit einfachen Polynomen, mit sehr geringem Rechenaufwand, die meisten Operationen wurden vorher berechnet und in Nachschlagetabellen gespeichert.

Da die Extrapolation schließlich lustige Zeichnungen nahelegt, ist das Folgende der Rückwärtseffekt der linearen Regression:


So lesen Sie Statistiken mit Entfernung

Eine erste gute Sache wäre natürlich, vor einer ehrlichen Umfrage/Experiment/Forschung zu stehen – wählen Sie diejenige aus, die Sie unter Ihren Augen haben –, die die richtigen Techniken der Sammlung und Interpretation von Daten angewendet hat. Aber Sie können es nicht wissen, bis Sie sich selbst ein paar Fragen stellen und die Ergebnisse analysieren, die Sie in Ihren Händen haben.

Wie der Unternehmer und ehemalige Berater Mark Suster in einem Artikel rät, sollten Sie sich fragen, wer diese Analyse primär recherchiert hat. Unabhängige universitäre Studiengruppe, labornahes Forschungsteam, Beratungsunternehmen? Daraus ergibt sich natürlich die Frage: Wer hat sie bezahlt? Da niemand umsonst arbeitet, ist es immer interessant zu wissen, wer die Forschung fördert. Ebenso, was sind die Motive hinter der Forschung? Was versuchten die Wissenschaftler oder Statistiker herauszufinden? Schließlich, wie groß war das Sample-Set und wer war daran beteiligt? Wie inklusiv war es?

Dies sind wichtige Fragen, die es zu bedenken und zu beantworten gilt, bevor verzerrte oder verzerrte Ergebnisse überall verbreitet werden – obwohl dies aufgrund der Verstärkung ständig vorkommt. Ein typisches Beispiel für Amplifikation ist häufig bei Zeitungen und Journalisten, die ein Stück Daten in Schlagzeilen umwandeln müssen – also oft aus dem ursprünglichen Kontext heraus. Niemand kauft eine Zeitschrift, in der steht, dass nächstes Jahr auf dem XYZ-Markt dasselbe passieren wird wie in diesem Jahr – obwohl es wahr ist. Redakteure, Kunden und Leute wollen etwas Neues, nicht etwas, das sie kennen. Deshalb haben wir oft ein Verstärkungsphänomen, das widerhallt und mehr, als es sollte.


Es gibt einen Fehler in der Antwort von Jason R, der in Knuths "Art of Computer Programming" Bd. 2. Das Problem tritt auf, wenn Sie eine Standardabweichung haben, die ein kleiner Bruchteil des Mittelwerts ist: Die Berechnung von E(x^2) - (E(x)^2) leidet unter einer starken Empfindlichkeit gegenüber Gleitkomma-Rundungsfehlern.

Sie können dies sogar selbst in einem Python-Skript versuchen:

Ich erhalte -128,0 als Antwort, was eindeutig nicht rechnerisch gültig ist, da die Mathematik vorhersagt, dass das Ergebnis nicht negativ sein sollte.

Knuth zitiert einen Ansatz (ich erinnere mich nicht an den Namen des Erfinders) zur Berechnung des laufenden Mittelwerts und der Standardabweichung, der in etwa so lautet:

und nach jedem Schritt ist der Wert von m der Mittelwert, und die Standardabweichung kann als sqrt(S/n) oder sqrt(S/n-1) berechnet werden, je nachdem, was Ihre bevorzugte Definition der Standardabweichung ist.

Die Gleichung, die ich oben schreibe, unterscheidet sich geringfügig von der in Knuth, ist aber rechnerisch äquivalent.

Wenn ich noch ein paar Minuten Zeit habe, kodiere ich die obige Formel in Python und zeige, dass Sie eine nicht negative Antwort erhalten (die hoffentlich nahe am richtigen Wert liegt).

Sie werden feststellen, dass es immer noch einige Rundungsfehler gibt, aber es ist nicht schlecht, während naive_stats nur kotzt.

Bearbeiten: Habe gerade Belisarius 'Kommentar gesehen, in dem Wikipedia zitiert wird, in dem der Knuth-Algorithmus erwähnt wird.

Was wäre der ideale Weg, um den Mittelwert und die Standardabweichung eines Signals für eine Echtzeitanwendung zu ermitteln? Ich möchte in der Lage sein, einen Controller auszulösen, wenn ein Signal für eine bestimmte Zeit mehr als 3 Standardabweichungen vom Mittelwert entfernt war.

Der richtige Ansatz in solchen Situationen besteht normalerweise darin, einen exponentiell gewichteten laufenden Durchschnitt und eine Standardabweichung zu berechnen. Im exponentiell gewichteten Durchschnitt sind die Schätzungen des Mittelwerts und der Varianz in Bezug auf die neueste Stichprobe verzerrt, wodurch Sie Schätzungen des Mittelwerts und der Varianz erhalten in den letzten $ au$ Sekunden, was wahrscheinlich das ist, was Sie wollen, und nicht das übliche arithmetische Mittel über alle jemals gesehenen Samples.

Im Frequenzbereich ist ein "exponentiell gewichteter laufender Durchschnitt" einfach ein echter Pol. Es ist einfach im Zeitbereich zu implementieren.

Implementierung im Zeitbereich

Mittel und Mittelwert seien die aktuellen Schätzungen des Mittelwerts und des Mittelwerts des Quadrats des Signals. Aktualisieren Sie diese Schätzungen in jedem Zyklus mit der neuen Stichprobe x :

Hier ist < a < 1$ eine Konstante, die die effektive Länge des laufenden Durchschnitts bestimmt. Wie man $a$ auswählt, wird weiter unten unter "Analyse" beschrieben.

Was oben als zwingendes Programm ausgedrückt ist, lässt sich auch als Signalflussdiagramm darstellen:

Der obige Algorithmus berechnet $y_i = a x_i + (1-a) y_$ wobei $x_i$ die Eingabe bei Stichprobe $i$ und $y_i$ die Ausgabe (d. h. Schätzung des Mittelwerts) ist. Dies ist ein einfacher, einpoliger IIR-Filter. Mit der $z$-Transformation finden wir die Übertragungsfunktion $H(z) = frac<1-(1-a)z^<-1>>$.

Kondensiert man die IIR-Filter in eigene Blöcke, sieht das Diagramm nun so aus:

Um in das stetige Gebiet zu gelangen, machen wir die Substitution $z = e^$ wobei $T$ die Abtastzeit und $f_s = 1/T$ die Abtastrate ist. Durch Lösen von $1-(1-a)e^<-sT>=0$ finden wir, dass das stetige System einen Pol bei $s = frac<1> . hat log (1-a)$.


Berechnung der Standardabweichung

Also mache ich ein paar Hausaufgaben und habe wirklich Probleme, herauszufinden, wie man die Standardabweichung berechnet. Nach meinem Verständnis benötigen Sie die Abweichung, um sie zu erhalten, aber anscheinend mache ich etwas falsch, da ich immer wieder falsche Antworten bekomme.

Das Problem lautet wie folgt:

Beim Parken eines Autos auf einem Parkplatz in der Innenstadt zahlen die Fahrer nach der Anzahl der Stunden oder einem Bruchteil davon. Die Wahrscheinlichkeitsverteilung der Anzahl der geparkten Autos wurde wie folgt geschätzt:

$egin <|c|c|c|c|c|c|c|c|c|>hline x &. 1 &. 2 &. 3 &. 4 &. 5 &. 6 &. 7 & & 0,131 & 0,113 & 0,095 & 0,067 & 0,029 & 0,023 & 0,337 hline end$

Finden:

A. Mittel

B. Standardabweichung =

Die Parkgebühren betragen 4,75 Dollar pro Stunde. Berechnen Sie den Mittelwert und die Standardabweichung des Umsatzes, den jedes Auto generiert.

A. Mittelwert =

B. Standardabweichung =

Jetzt habe ich den Mittelwert (4,552) für Teil 1 berechnet, bin mir aber nicht sicher, wie ich die Standardabweichung erhalten soll. Ich verstehe, dass Sie den Mittelwert verwenden, um die Varianz zu ermitteln und die Quadratwurzel daraus zu ziehen, aber ich scheint die falsche Antwort zu bekommen (11.49) - könnte mir jemand helfen herauszufinden, was ich falsch mache?


Update 12.04.2014

Dies ist eine Frage der Schätzung innerhalb eines linearen Mixed-Effects-Modells. Das Problem besteht darin, dass die Varianz des Gesamtmittels eine gewichtete Summe zweier Varianzkomponenten ist, die separat geschätzt werden müssen (über eine ANOVA der Daten). Die Schätzungen haben unterschiedliche Freiheitsgrade. Obwohl man versuchen kann, ein Konfidenzintervall für den Mittelwert unter Verwendung der üblichen Formeln für kleine Stichproben (Student t) zu konstruieren, ist es daher unwahrscheinlich, dass seine nominale Abdeckung erreicht wird, da die Abweichungen vom Mittelwert nicht genau einer Student-t-Verteilung folgen.

Ein kürzlich erschienener (2010) Artikel von Eva Jarosova, Schätzung mit dem linearen Mixed-Effects-Modell, diskutiert dieses Thema. (Seit 2015 scheint es nicht mehr im Web verfügbar zu sein.) Im Kontext eines "kleinen" Datensatzes (trotzdem etwa dreimal so groß wie dieser) verwendet sie Simulation, um zwei ungefähre CI-Berechnungen (das Well -bekannte Satterthwaite-Approximation und das "Kenward-Roger-Verfahren"). Ihre Schlussfolgerungen umfassen

Simulationsstudien haben gezeigt, dass die Qualität der Schätzung von Kovarianzparametern und folglich die Anpassung von Konfidenzintervallen in kleinen Stichproben ziemlich schlecht sein kann. Eine schlechte Schätzung kann nicht nur das wahre Vertrauensniveau herkömmlicher Intervalle beeinflussen, sondern auch die Anpassung unmöglich machen. Es ist offensichtlich, dass sich sogar für ausgeglichene Daten drei Arten von Intervallen [konventionell, Satterthwaite, K-R] erheblich unterscheiden können. Wenn ein auffälliger Unterschied zwischen den konventionellen und den angepassten Intervallen beobachtet wird, sollten die Standardfehler der Kovarianzparameterschätzungen überprüft werden. Andererseits, wenn die Unterschiede zwischen den [drei] Arten von Intervallen klein sind, scheint die Anpassung unnötig zu sein.

Zusamenfassend, ein guter Ansatz scheint zu sein

Berechnen Sie ein konventionelles CI, indem Sie die Schätzungen der Varianzkomponenten verwenden und so tun, als ob eine t-Verteilung gilt.

Berechnen Sie auch mindestens eines der angepassten CIs.

Wenn die Berechnungen "nahe" sind, akzeptieren Sie das herkömmliche CI. Andernfalls melden Sie, dass nicht genügend Daten vorhanden sind, um ein zuverlässiges CI zu erstellen.


Schau das Video: QGIS Sampling raster information to polygons