Mehr

Mit PostGIS feststellen, ob zwei geometrische Figuren ungefähr gleich sind?

Mit PostGIS feststellen, ob zwei geometrische Figuren ungefähr gleich sind?


Ich würde gerne wissen, wie man feststellen kann, ob zwei geometrische Figuren (the_geom) ungefähr gleich sind.

Ich arbeite übrigens mit Python, PostgreSQL und Postgis

Ich habe folgende Geometrien:

0101000020110F0000FE546AD2413E5EC16D56617C93C74FC1

0101000020110F00009D7E6384413E5EC10185DD7F93C74FC1

Wenn ich beide Figuren auf der Karte sehe, ist die Abweichung nicht wahrnehmbar.

Irgendeine Idee?


Vielleicht möchten Sie HausdorffDistance ausprobieren. Geeignet für diese Art von Frage.

SELECT ST_HausdorffDistance('0101000020110F0000FE546AD2413E5EC16D56617C93C74FC1'::Geometrie, '0101000020110F00009D7E6384413E5EC10185DD7F93C74FC1'::Geometrie);

Ausführlich hier:

http://postgis.net/docs/ST_HausdorffDistance.html

Und wie unter /wiki/Hausdorff_distance erklärt:

Informell liegen zwei Mengen in der Hausdorff-Distanz nahe, wenn jeder Punkt einer der Mengen nahe an einem Punkt der anderen Menge liegt. Die Hausdorff-Distanz ist die längste Distanz, die ein Gegner zurücklegen kann, der einen Punkt in einem der beiden Sets wählt, von wo aus man dann zum anderen Set reisen muss. Mit anderen Worten, es ist die größte aller Entfernungen von einem Punkt in einer Menge zum nächsten Punkt in der anderen Menge.


PostGIS rekursive Schnittmenge zwischen Polygonen

Ich versuche, einen rekursiven Schnittpunkt zwischen allen Polygonen in einer räumlichen Tabelle durchzuführen und die resultierenden (Multi-)Polygone und die Informationen zu jedem Schnittpunkt für jeden von ihnen zu erhalten.

Ein Bild (nicht wirklich maßstabsgetreu), um es zu erklären:

Nehmen wir an, es gibt A-, B-, C-Quadrate in einer Tabelle. Ich möchte A-, B-, C-, A+B-, A+C-, B+C-, A+B+C-Polygone in der Ausgabe haben und ich muss wissen, dass A+B der Schnittpunkt von A und B ist und bald.

Bisher habe ich eine Abfrage, die die Schnittpunkte durchführt, aber den Schnittteil der ursprünglichen Polygone nicht "abschneidet". Beispielsweise:

Ein Bild des Ergebnisses bekomme ich jetzt für die A- und A+C-Polygone:

Hier ist ein Testskript, das die Quadrate in den Bildern als Daten verwendet. Wenn man sich die Bereichsspalte ansieht, ist klar, dass einige rekursive ST_Difference fehlen, ich kann nur nicht herausfinden, wie. Jede Idee ist willkommen.

Die Fensterfunktion ist in diesem speziellen Beispiel natürlich nicht unbedingt erforderlich, aber dieser Code ist eine vereinfachte Version meines realen Falls, der nebenbei noch ein paar Dinge erledigt.


Mit PostGIS feststellen, ob zwei geometrische Figuren ungefähr gleich sind? - Geografisches Informationssystem

Ein wichtiger Vorgang bei der räumlichen Analyse besteht darin, Daten aus verschiedenen Quellen effektiv zu kombinieren. Zusammenführung ist der Prozess des Kombinierens von „zwei digitalen Kartendateien, um eine dritte Kartendatei zu erzeugen, die besser ist als jede der Komponentenquellkarten“ (Ruiz et al., 2011). Die Datensätze in der Zusammenführung haben in der Regel bestimmte gemeinsame Merkmale, die dieselben Objekte in der Realität darstellen, die abgeglichen und zusammengeführt werden müssen.

Die Zusammenführung ist bei räumlichen Analysen wichtig, da unterschiedliche Agenturen und Anbieter mit jeweils unterschiedlichen Rollen und Aufgaben häufig räumliche Daten für denselben Objekttyp erstellen. Ein typisches Zusammenlegungsproblem ist die Zusammenlegung von Verkehrsnetzen. Aufgrund der Bedeutung von Straßen als Bewegungskorridore und gemeinsames Referenzsystem stellen viele Behörden und Organisationen Verkehrsnetzdaten zur Verfügung. Öffentliche Behörden (wie US Census und USGS) unterhalten bekannte Straßendatenbanken wie die TIGER/Line. Private Anbieter (wie TeleAtlas und Navteq) produzieren hochwertige Netzwerkdatensätze für Navigationszwecke. Durch die Weiterentwicklung der Sensortechnologie und die Open-Data-Bewegung sind immer mehr Straßennetzdaten (neben anderen Datentypen) als Volunteered Geographic Information (VGI) der Öffentlichkeit zugänglich (Goodchild, 2007). Ein Verkehrsplaner muss aus diesen Datenquellen in seinen Analysen oft alle möglichen Informationen über Verkehrsinfrastruktur und sozioökonomische Merkmale der Bevölkerung zusammenführen.

Genau wie die Digitalisierung und andere Datenaufbereitungsprozesse kann die Zusammenführung ein arbeitsintensiver Vorgang sein. Aufgrund des Volumens und der Komplexität der Funktionen in den Datensätzen kann die Zusammenführung teuer und zeitaufwändig sein. Im Vergleich dazu versuchen automatisierte Zusammenführungsmethoden, entsprechende Merkmale abzugleichen und automatisch zusammenzuführen. Die systematischen Zusammenführungsmethoden reichen von einfachen Methoden, die standardmäßige GIS-Operationen wie Puffer- und Überlagerungsanalysen verwenden, bis hin zu komplexeren Methoden, die die Ähnlichkeit zwischen Feature-Paaren messen und Features im Hinblick auf räumlichen Kontext und Beziehungen abgleichen. Ein vollautomatisierter Feature-Matching und -Zusammenführung ist jedoch derzeit noch schwierig. Beispielsweise funktionieren grundlegende GIS-Operationen wie Puffer- und Überlagerungsanalysen nicht gut, wenn eine räumliche Verschiebung von Features vorhanden ist, die in heterogenen Daten üblich sind. Abbildung 1 (Lei & Lei, 2019) zeigt ein Beispiel für räumliche Verschiebung unter Verwendung verschiedener Straßendatensätze für Santa Barbara, CA (von Open Street Map, TIGER/Line bzw. TeleAtlas).

Abbildung 1. Räumliche Verschiebung zwischen verschiedenen Straßendatensätzen (Santa Barbara, CA).

Anders als die manuelle Zusammenführung verwenden computergestützte Zusammenführungsverfahren normalerweise bestimmte Beziehungen zwischen Kandidatenmerkmalen aus zwei Datensätzen, um potenzielle Übereinstimmungen zu finden. Eine wichtige Charakterisierung der Übereinstimmungsbeziehung zwischen Merkmalen ist die „Kardinalität“ von Beziehungen zwischen Entitäten aus der relationalen Datenbanktheorie. Die Kardinalität der Relation ist die Häufigkeit, mit der Entitäten aus einem Datensatz mit den Entitäten im anderen Datensatz verknüpft werden können. Es gibt drei Fälle von Kardinalität von Beziehungen. Der erste (und einfachste) Fall ist die Eins-zu-Eins-Übereinstimmungsbeziehung in Abbildung 2a. Diese Kardinalität stellt Fälle dar, in denen zwei korrespondierende Merkmale dem gleichen Objekt in der Realität entsprechen.

Abbildung 2. Kardinalität der Übereinstimmung für Datensatz 1 (grün) und Datensatz 2 (rot).

Der zweite Fall ist die Eins-zu-Viele-(1:m)-Übereinstimmungsbeziehung. Dieser Fall weist darauf hin, dass eine Gruppe von Features in einem Dataset, wenn sie kombiniert wird, dasselbe Objekt darstellt wie ein Feature im anderen Dataset. Dies kann z. B. passieren, wenn ein Satz kürzerer Straßensegmente einer Straße entspricht, die im anderen Datensatz als einzelne Linie dargestellt ist (Abbildung 2b) oder wenn eine Straße in einem Datensatz als eine Linie, aber zwei parallele Linien (für die beiden Richtungen der Straße) in die andere. Der dritte Fall von Kardinalität ist das Viele-zu-Viele-Matching. Dazu gehören bidirektionale Eins-zu-Viele-Beziehungen, bei denen eine Eins-zu-Viele-Korrespondenz sowohl von Datensatz 1 zu Datensatz 2 als auch in umgekehrter Richtung von Datensatz 2 zu Datensatz 1 besteht Fall umfasst auch kompliziertere Zuordnungen (Abbildung 2d), bei denen kein Merkmal einzeln einer Gruppe von Merkmalen im anderen Datensatz entspricht. Features aus den beiden Datasets können in der Realität nur dasselbe Objekt darstellen, nachdem jeweils einzelne Features in jedem Dataset gruppiert wurden. Einige Zusammenführungsalgorithmen können nur die einfachsten Eins-zu-Eins-Zusammenführungsprobleme behandeln, während andere die komplexeren Eins-zu-Viele- und Viele-zu-Viele-Probleme handhaben können.

Abhängig vom geometrischen Typ der Datensätze wurden unterschiedliche Methoden entwickelt, um Punktmerkmale (zB Gazetten und Points of Interest [7]), Linien (zB Verkehrsnetze [8]) und Polygone (zB Gebäudegrundrisse, Parzellen, Zählgebiete [ 6]) bzw.

Um die Beziehungen zwischen Merkmalen zu bestimmen, berechnen Zusammenführungsverfahren typischerweise bestimmte Metriken der Ähnlichkeit oder Unähnlichkeit (Entfernung) zwischen möglicherweise verwandten Merkmalen. Die Metriken können auf der Geometrie, den Attributen (z. B. [7]) und topologischen Beziehungen der beteiligten Features basieren. Ähnlichkeit in der Geometrie ist eine weit verbreitete Metrik, die die Längen, Formen und Ausrichtungen zweier Features vergleicht. Eine allgemeine Methode zur Berechnung der geometrischen Differenz zwischen zwei Merkmalen ist die Hausdorff-Distanz. Abbildung 3 zeigt die Berechnung der Hausdorff-Distanz. Für die Merkmale A und B ist die gerichtete Hausdorff-Distanz von A nach B definiert als:

wobei die Distanz von einem Punkt pA zur Punktmenge B ist. Die gerichtete Hausdorff-Distanz ist gleich der maximalen Abweichung der Punkte von Merkmal A von Merkmal B. Beachten Sie, dass die ungefähre Hausdorff-Distanz in der Praxis oft nur anhand der Eckpunkte von . berechnet wird Merkmal A (anstelle aller Punkte von A), um Rechenzeit zu sparen (Abbildung 3b). In Abbildung 3 betragen die gerichteten Hausdorff-Abstände von A nach B (Abbildung 3b) und von B nach A (Abbildung 3c) 40 bzw. 57. Der Hausdorff-Abstand zwischen A und B ist 57, der größere der beiden gerichteten Hausdorff-Abstände. Wenn A mit B oder einem Teil von B zusammenfällt, offensichtlich . Der Hausdorff-Abstand ist als das Maximum von und definiert. Er ist nur dann null, wenn die Features A und B in der Geometrie gleich sind. Es gibt andere Distanzmetriken zum Messen geometrischer Unterschiede.

Abbildung 3. Gerichtete Hausdorff-Distanzen zwischen einem Merkmalspaar aus zwei Datensätzen.

Bei attributbasierten Metriken werden zwei Features mit gemeinsamen Attributen wie Straßennamen verglichen. Dies kann beispielsweise unter Verwendung von String-Abständen wie der Hamming-Distanz oder der Levenshtein-Distanz erreicht werden. Topologische Metriken vergleichen zwei Features basierend auf Eigenschaften wie der Anzahl der Kanten, die in einen Knoten eintreten.

Der Zusammenführungsprozess besteht typischerweise aus zwei Hauptschritten: 1) Merkmalsabgleich und 2) Merkmalszusammenführung. Außerdem erfordern einige Zusammenführungsprozeduren einen Vorverarbeitungsschritt, z. B. um die Position von Merkmalen anzupassen, und einen Nachverarbeitungsschritt, z. um computergenerierte Spielergebnisse zu überprüfen und zu korrigieren (und ggf. die Zusammenführung erneut durchzuführen).

4.1. Funktionsabgleich

Bei einer gegebenen Metrik der Distanz (oder Unähnlichkeit) zwischen Merkmalen (Abschnitt 3) besteht eine einfache Strategie der Zusammenführung darin, Merkmale zu finden, die am nächsten sind. Die k-Closest Pairs-Abfragen (KCPQ) suchen nach k-Paaren von Merkmalen, deren Abstände am kleinsten sind [1]. Eine solche Strategie kann jedoch leicht durch die räumliche Verschiebung von Merkmalen gestört werden. In den Beispielen in Abbildung 1 und dem Titelbild ist zu sehen, dass KCPQ einige entsprechende Merkmale richtig zuordnen kann, während andere Merkmale falsch zugeordnet werden, wenn diese Merkmale zufällig nahe beieinander liegen, aber in Wirklichkeit nicht dasselbe Objekt darstellen.

Ein weiteres häufig verwendetes Zusammenführungsverfahren basiert auf der Pufferanalyse und der Überlagerungsanalyse. Zum Beispiel misst die einfache Puffermethode [3] die Ähnlichkeit zweier Merkmale als den Prozentsatz eines Merkmals, das in den Puffer des anderen fällt. Ähnlich wie bei der entfernungsbasierten KCPQ erfordern die Puffermethoden, dass die Daten vor der Zusammenführung gut ausgerichtet sind.

Das bekannte „Rubber-Sheeting“-Verfahren wurde in den 1980er Jahren entwickelt, um ungleichmäßig verteilte Ortungsfehler zu behandeln. Es war eine der frühesten systematischen Zusammenführungsmethoden, die von US Census [9, 11] entwickelt wurde, um USGS-Daten zusammenzuführen. Die Methode wählt einen Satz von Gegenpunkten als „Anker“ aus, um zwei Datensätze so zu verknüpfen, dass jeder dreieckige Bereich zwischen den Ankerpunkten eine ähnliche räumliche Verschiebung aufweisen sollte. Das Rubber-Sheet-Verfahren wendet dann in jedem Bereich eine affine Transformation an, um die räumliche Verschiebung zu entfernen, so dass ein einfacheres Verfahren wie das Pufferverfahren angewendet werden kann. Die Rubber-Sheet-Methode wurde von Forschern erweitert und wird auch heute noch in vielen GIS-Zusammenführungswerkzeugen verwendet. Im Allgemeinen ist das Verfahren halbautomatisch, was bei der Auswahl von Ankerpunkten in dem Bereich immer noch erhebliche menschliche Eingriffe erfordern kann.

4.2. Funktionszusammenführung

Sobald die Übereinstimmungsbeziehung zwischen Merkmalen richtig hergestellt ist, können die Informationen von entsprechenden Merkmalen nach vordefinierten Regeln zusammengeführt werden. Dazu gehört das Zusammenführen von Attributinformationen und Geometrie. Wenn die Übereinstimmungsbeziehung eins zu eins ist, kann man Attributinformationen kombinieren, indem man die Attribute eines Merkmals in sein entsprechendes Merkmal kopiert. Wenn die Match-Relation eins-zu-viele oder viele-zu-viele ist, muss ein Attribut geteilt und/oder kombiniert und dann auf das entsprechende Merkmal übertragen werden. Die Regel für die Übertragung hängt von der Art des Attributs ab. Intensive Attribute wie die Bevölkerungsdichte können direkt übertragen werden, während umfangreiche Attribute wie die Bevölkerungszahl vor der Übertragung geteilt werden müssen.

Es gibt auch verschiedene Möglichkeiten, Geometrien zusammenzuführen. Wenn ein Datensatz eine durchweg höhere räumliche Genauigkeit aufweist, kann man seine Geometrien verwenden und die Geometrien des anderen Datensatzes verwerfen. Wenn zwei Datensätze eine ähnliche Genauigkeit aufweisen, kann man eine „durchschnittliche“ Geometrie zwischen zwei Geometrien eines Paares korrespondierender Merkmale berechnen. Nach dem Merkmalsabgleich und der Merkmalszusammenführung muss man möglicherweise die Genauigkeit und Qualität des zusammengeführten Produkts bewerten, indem man es mit einer kleinen Menge von Zusammenführungsergebnissen vergleicht, die von menschlichen Experten durchgeführt wurden (d. h. Ground Truth).

Die Zusammenführung steht in engem Zusammenhang mit Datenbankoperationen wie der räumlichen Verknüpfung. Beide beinhalten das Kombinieren von Informationen in Eingabedatensätzen. Es gibt jedoch Unterschiede zwischen den beiden Verfahren. Zunächst ist die räumliche Verbindung eine „lokale“ Operation, die auf der Auswahl einzelner Merkmalspaare basiert, die eine räumliche Bedingung erfüllen. Es wird oft in zwei Stufen durchgeführt [4]: ​​1) einer Filterstufe, in der potenziell verwandte Objekte basierend auf Indizes und umgrenzenden Rechtecken ausgewählt werden, und 2) einer Verfeinerungsstufe, die Kandidatenpaare unter Verwendung der vollständigen Join-Bedingung überprüft. Im Vergleich dazu kann die Zusammenführung einen größeren und komplexeren räumlichen Kontext berücksichtigen und benachbarte Merkmale berücksichtigen, z. wenn topologiebasierte Kriterien verwendet werden. Zweitens kann die Zusammenführung das Transformieren und Zusammenführen der Geometrien des Eingabe-Features beinhalten, was normalerweise während einer räumlichen Verbindung nicht durchgeführt wird.

Die Zusammenführung von Geodaten hängt auch mit dem Konzept der Datenfusion zusammen. Im weiteren Sinne werden die beiden Begriffe manchmal synonym verwendet, aber Datenfusion wird traditionell häufiger in der Fernerkundung gesehen [10].

Ahmadi, E., &. Nascimento, M.A. (2016). K-nächste Paare Abfragen in Straßennetzen. 17. IEEE International Conference on Mobile Data Management (MDM). DOI: 10.1109/MDM.2016.44

Goodchild, M. F. (2007). Bürger als Sensoren: Die Welt der freiwilligen Geographie. GeoJournal, 69(4), 211-221. DOI: 10.1007/s10708-007-9111-y

Goodchild, M.F., & Hunter, G.J. (1997). Ein einfaches Maß für die Positionsgenauigkeit für lineare Merkmale. International Journal of Geographical Information Science, 11(3), 299-306. DOI: 10.1080/136588197242419

Jacox, E.H., Samet, H. (2007). Räumliche Verbindungstechniken. ACM-Transaktionen auf Datenbanksystemen (TODS), 32(1), 7. DOI: 10.1145/1206049.1206056

Lei, T.L., &Lei, Z. (2019). Optimaler räumlicher Datenabgleich für die Zusammenführung: Ein netzwerkflussbasierter Ansatz. Transaktionen in GIS. Im Druck.

Masuyama, A. (2006). Methoden zum Erkennen scheinbarer Unterschiede zwischen räumlichen Tessellationen zu verschiedenen Zeitpunkten. Internationale Zeitschrift für Geographische Informationswissenschaft, 20(6), 633-648. DOI: 10.1080/13658810600661300

McKenzie, G., Janowicz, K., &. Adams, B. (2014). Eine gewichtete Multiattributmethode zum Abgleichen von benutzergenerierten Sonderzielen. Kartographie und Geographische Informationswissenschaft, 41(2), 125-137. DOI: 10.1080/15230406.2014.880327

Pendyala, R.M. (2002). Entwicklung von GIS-basierten Zusammenführungswerkzeugen für die Datenintegration und den Abgleich.

Rosen, B., & Saalfeld, A. (1985). Übereinstimmungskriterien für die automatische Ausrichtung. Proceedings of 7th International Symposium on Computer-assisted Cartography (Auto-Carto 7).

Ruiz, J. J., Ariza, F. J., Urena, M. A., & Blázquez, E. B. (2011). Digitale Kartenzusammenführung: eine Überprüfung des Prozesses und ein Vorschlag zur Klassifizierung. Internationale Zeitschrift für Geographische Informationswissenschaft, 25(9), 1439-1466. DOI: 10.1080/13658816.200.519707

Saalfeld, A. (1988). Automatisierte Kartenzusammenstellung durch Zusammenführen. Internationale Zeitschrift für geografisches Informationssystem, 2(3), 217-228.

  • Definieren Sie das Konzept der Verschmelzung und welche Art von Kontext es verwendet.
  • Beschreiben Sie die grundlegenden Arten von Verschmelzungsproblemen.
  • Verstehen Sie die Kardinalität der Übereinstimmungsbeziehung.
  • Verstehen Sie die verschiedenen Kriterien, die zum Zusammenführen von Geodaten verwendet werden.
  • Implementieren Sie einen grundlegenden Zusammenführungsoperator mit Pufferanalyse und Overlay-Operation.
  • Erklären Sie den Unterschied zwischen manueller und automatischer Zusammenführung.
  • Vergleichen Sie die Zusammenführung mit Spatial Join, Image Fusion und anderen verwandten Operationen für die Datenintegration.
  1. Was ist Verschmelzung? Geben Sie ein Beispiel für eine GIS-Anwendung, die eine Zusammenführung erfordern würde.
  2. Was sind die Vor- und Nachteile der automatisierten Zusammenführung gegenüber der manuellen Zusammenführung?
  3. Rufen Sie zwei Straßennetz-Datasets aus verschiedenen Quellen ab und versuchen Sie, eine SQL-Anweisung zu schreiben, um die entsprechenden Straßen mithilfe von Straßennamen zu verbinden.
  4. Schreiben Sie eine SQL-Anweisung (oder eine GUI-Schnittstelle eines GIS-Pakets), um die entsprechenden Straßenmerkmale basierend auf Puffer- und Überlagerungsanalysen abzugleichen.
  5. Listen Sie die verschiedenen Kriterien auf, die verwendet werden können, um die entsprechenden Funktionen zuzuordnen.
  6. Was sind entsprechende Funktionen? Was ist die Kardinalität der Match-Relation?
  7. Was sind die Unterschiede zwischen Zusammenführung und räumlicher Verbindung?

Obe, R.O., & Hsu, L.S. (2015). PostGIS im Einsatz (2. Aufl.). Manning Publications Co.


Smartphones schlau machen: neue Preisindizes und die Aufteilung der Ausgaben zwischen Geräten und Dienstplänen in den persönlichen Verbrauchsausgaben

Ana Aizcorbe, . Daniel E. Sichel , in Messung von Wirtschaftswachstum und Produktivität , 2020

17.3.1 Matched-Model-Indizes

Wir schätzen sowohl Matched-Model- als auch hedonische Preisindizes, um Qualitätsänderungen zu kontrollieren, obwohl wir hedonische Indizes betonen. Der Matched-Model-Ansatz, die gebräuchlichste Methode, die von statistischen Ämtern verwendet wird, beruht in seiner grundlegendsten Formulierung auf Preisänderungen im Laufe der Zeit für bestimmte Modelle des fraglichen Gutes und hält die Qualität durch Konstruktion konstant, wenn die Modelle ausreichend detailliert spezifiziert werden. Bei diesem Ansatz wird ein Durchschnitt der Preisänderungen für bestimmte Modelle verwendet, anstatt die Änderung des Preisdurchschnitts zwischen den Modellen zu berechnen. Obwohl der Matched-Model-Ansatz die Auswirkungen von Qualitätsänderungen auf die Preise idealerweise ausblendet, kann diese Technik in Fällen, die durch häufigen Modelleintritt und -austritt gekennzeichnet sind, aus zwei Gründen versagen. Erstens ist in der Eintrittsperiode keine Preisänderung gegenüber der Vorperiode verfügbar und natürlich auch keine Preisänderung in der Periode nach dem Ausstieg des Modells. Zweitens, wenn neue Modelle im Verhältnis zur Qualität einen niedrigeren Preis haben als etablierte Modelle und den Preis etablierter Modelle nicht nach unten drücken – d. h. das Gesetz des einen (qualitätsbereinigten) Preises gilt nicht –, bevor das ältere Modell den Markt verlässt, die durch das neue Modell dargestellte Qualitätsverbesserung spiegelt sich möglicherweise nicht im Index wider. Beide Themen beschäftigen den Markt für Mobiltelefone.

Für Matched-Model-Indizes betrachten wir zunächst einen Index, der als ungewichtetes geometrisches Mittel von Preisänderungen konstruiert ist, bekannt als die Jevons-Formel. Wir beginnen mit ungewichteten Indizes, da statistische Ämter normalerweise nicht in jeder Periode Gewichtungen auf Modellebene erheben. 14 Darüber hinaus verfügen Forscher, die hedonische Indizes schätzen, häufig nicht über Gewichtungen auf Modellebene.

Ein solcher Mangel an Gewichtung wirft zwei Probleme auf. Erstens stellen einige Modelle zweifellos einen größeren Marktanteil als andere – ein besonderes Problem im Mobiltelefonmarkt, wo eine Handvoll Apple-Modelle einen überproportionalen Marktanteil ausmachen. Zweitens ändert sich die relative Bedeutung von Modellen im Laufe der Zeit. Die Bedeutung des Themas fester Gewichtungen in Preisindizes war Gegenstand umfangreicher Untersuchungen. Im Allgemeinen ist es der bevorzugte Ansatz, zuzulassen, dass sich Gewichte im Laufe der Zeit entwickeln, da der Index die Reaktion der Verbraucher auf relative Preise und die modellübergreifende Substitution widerspiegeln kann, wie in Diewert (1998) erörtert. Unser zweiter Matched-Model-Index adressiert dieses Problem. Wir berechnen einen Index, bei dem die modellspezifischen Preisänderungen mit dem Durchschnitt ihres Umsatzanteils in den beiden zur Berechnung der Preisänderung verwendeten Zeiträumen gewichtet werden (bekannt als Tornqvist-Formel). fünfzehn


Berechnen Sie die Entfernung zwischen Postleitzahlen&hellip UND Benutzern.

Ich habe im Jahr 2000 oder so eine Dating-Site erstellt (die schon lange nicht mehr existiert), und eine der Herausforderungen bestand darin, die Entfernung zwischen den Benutzern zu berechnen, damit wir Ihre "Matches" in einem Radius von X Meilen präsentieren können. Um nur das Problem zu formulieren, gegeben das folgende Datenbankschema (ungefähr):

BENUTZERTABELLE UserId Benutzername Postleitzahl

PLZ-TABELLE PLZ Breitengrad Längengrad

Mit USER und ZIPCODE werden auf USER.ZipCode = ZIPCODE.ZipCode verbunden.

Welchen Ansatz würden Sie wählen, um die folgende Frage zu beantworten: Welche anderen Benutzer leben in Postleitzahlen, die innerhalb von X Meilen von der Postleitzahl eines bestimmten Benutzers liegen.

Wir haben die Volkszählungsdaten von 2000 verwendet, die Tabellen für Postleitzahlen und deren ungefähre Breite und Länge enthalten.

Wir haben auch die Haversine-Formel verwendet, um Entfernungen zwischen zwei beliebigen Punkten auf einer Kugel zu berechnen. ziemlich einfache Mathematik wirklich.

Zumindest für uns als 19-jährige College-Studenten stellte sich die Frage, wie man Entfernungen von allen Mitgliedern zu allen anderen Mitgliedern effizient berechnen und / speichern kann. Ein Ansatz (der von uns verwendete) wäre, alle Daten zu importieren und die Entfernung VON jeder Postleitzahl ZU jeder anderen Postleitzahl zu berechnen. Dann würden Sie die Ergebnisse speichern und indizieren. Etwas wie:

Das Problem ist natürlich, dass die ZipDistance-Tabelle viele Zeilen enthalten wird. Es ist nicht ganz unpraktisch, aber es ist wirklich groß. Außerdem erfordert es eine komplette Vorarbeit am gesamten Datensatz, die auch nicht unüberschaubar, aber nicht unbedingt wünschenswert ist.

Wie auch immer, ich habe mich gefragt, welchen Ansatz einige von euch Gurus bei so etwas wählen könnten. Außerdem denke ich, dass dies ein häufiges Problem ist, mit dem sich Programmierer von Zeit zu Zeit auseinandersetzen müssen, insbesondere wenn Sie Probleme betrachten, die nur algorithmisch ähnlich sind. Ich bin an einer gründlichen Lösung interessiert, die mindestens HINWEISE zu allen Teilen enthält, um dies wirklich schnell und effizient zu beenden. Vielen Dank!


Ein arithmetisches Mittel ist die Summe einer Reihe von Zahlen geteilt durch die Anzahl dieser Zahlenreihe.

Wenn Sie aufgefordert würden, den (arithmetischen) Klassendurchschnitt der Testergebnisse zu ermitteln, würden Sie einfach alle Testergebnisse der Schüler addieren und diese Summe dann durch die Anzahl der Schüler teilen. Wenn beispielsweise fünf Schüler eine Prüfung ablegen und ihre Punktzahlen 60 %, 70 %, 80 %, 90 % und 100 % betragen, beträgt der Durchschnitt der arithmetischen Klasse 80 %.

Dies würde berechnet als:

Der Grund, warum wir einen arithmetischen Durchschnitt für Testergebnisse verwenden, ist, dass jede Bewertung ein unabhängiges Ereignis ist. Wenn ein Schüler bei der Prüfung schlecht abschneidet, werden die Chancen des nächsten Schülers, bei der Prüfung schlecht (oder gut) abzuschneiden, nicht beeinträchtigt.

In der Finanzwelt ist das arithmetische Mittel in der Regel keine geeignete Methode zur Berechnung eines Durchschnitts. Betrachten Sie zum Beispiel Anlagerenditen. Angenommen, Sie haben Ihre Ersparnisse fünf Jahre lang an den Finanzmärkten angelegt. Wenn Ihre Portfoliorenditen jedes Jahr 90 %, 10 %, 20 %, 30 % und -90 % betragen würden, wie hoch wäre Ihre durchschnittliche Rendite in diesem Zeitraum?

Mit dem arithmetischen Durchschnitt würde die durchschnittliche Rendite 12% betragen, was auf den ersten Blick beeindruckend erscheint – aber nicht ganz genau ist. Denn wenn es um jährliche Anlagerenditen geht, sind die Zahlen nicht unabhängig voneinander. Wenn Sie in einem bestimmten Jahr einen erheblichen Geldbetrag verlieren, haben Sie in den folgenden Jahren viel weniger Kapital, um zu investieren und Renditen zu erwirtschaften.

Wir müssen den geometrischen Durchschnitt Ihrer Anlagerenditen berechnen, um eine genaue Messung Ihrer tatsächlichen durchschnittlichen Jahresrendite über den Fünfjahreszeitraum zu erhalten.


3 Antworten 3

Die allgemeine Formel für eine Dekade aller Exx-Widerstandsreihen (xx = 3*2^m, für m = 0 bis 6)

10^(n/xx) für n von 0 bis xx-1

bedeutet ungefähr gleich und nicht einmal immer richtig gerundet! Die allgemeine Absicht war, alle Widerstände in eine schöne geometrische Reihe zu bringen und dann die Zahlen auf eine schöne, niedrige Anzahl signifikanter Stellen einzustellen und aufeinanderfolgende Reihen als Unter- / Obermengen voneinander zu haben, um die Lagerlogistik zu verbessern. Leider bedeutet dies, dass die resultierenden Zahlen ziemlich ungleich verteilt sein können. Der (für mich) irritierendste Ort, an dem dies passiert, ist in der E24-Serie, wo ein Teil der Sequenz 1.3, 1.5, 1.6, 1.8 läuft.

Je feiner die Serie wird, desto höher ist die Anzahl der signifikanten Ziffern, was bedeutet, dass nicht alle Serien unter/über der nächsten sind.

E3, E6, E12 sind alles Teilmengen von E24, die zwei signifikante Zahlen verwenden. E48 und E96 sind Teilmengen von E192, die drei verwenden.

Während feinere Serien tendenziell kleinere Toleranzen haben, ist die Toleranz wirklich eine wirtschaftliche Sache, Sie zahlen so viel, wie Sie benötigen.


Dies erläutert den aufschlussreichen Hinweis in einem Kommentar von @ttnphns.

Aneinandergrenzende nahezu korrelierte Variablen erhöhen den Beitrag ihres gemeinsamen zugrunde liegenden Faktors zum PCA. Wir können dies geometrisch sehen. Betrachten Sie diese Daten in der XY-Ebene, dargestellt als Punktwolke:

Es gibt wenig Korrelation, ungefähr gleiche Kovarianz und die Daten sind zentriert: PCA (egal wie durchgeführt) würde zwei ungefähr gleiche Komponenten melden.

Lassen Sie uns nun eine dritte Variable $Z$ gleich $Y$ plus einen kleinen Zufallsfehler hinzufügen. Die Korrelationsmatrix von $(X,Y,Z)$ zeigt dies mit den kleinen nicht-diagonalen Koeffizienten außer zwischen der zweiten und dritten Zeile und Spalte ($Y$ und $Z$):

$left( egin 1. &. -0.0344018 &. -0.046076 -0.0344018 &. 1. &. 0.941829 -0.046076 &. 0.941829 &. 1. end ight)$

Geometrisch haben wir alle ursprünglichen Punkte fast vertikal verschoben und das vorherige Bild direkt aus der Seitenebene herausgehoben. Diese Pseudo-3D-Punktwolke versucht, das Anheben mit einer seitlichen perspektivischen Ansicht darzustellen (basierend auf einem anderen Datensatz, wenn auch auf die gleiche Weise wie zuvor generiert):

Die Punkte liegen ursprünglich in der blauen Ebene und werden zu den roten Punkten angehoben. Die ursprüngliche $Y$-Achse zeigt nach rechts. Die resultierende Verkippung dehnt die Punkte auch entlang der YZ-Richtungen aus, damit Verdoppelung ihren Beitrag zur Varianz. Folglich würde eine PCA dieser neuen Daten immer noch zwei Hauptkomponenten identifizieren, aber jetzt weist eine von ihnen die doppelte Varianz der anderen auf.

Diese geometrische Erwartung wird durch einige Simulationen in R bestätigt. Zu diesem Zweck wiederholte ich das "Lifting"-Verfahren, indem ich ein zweites, drittes, viertes und fünftes Mal nahezu kollineare Kopien der zweiten Variablen erstellte und sie $X_2$ bis $X_5$ benennte. Hier ist eine Streudiagrammmatrix, die zeigt, wie die letzten vier Variablen gut korreliert sind:

Die PCA wird mit Korrelationen durchgeführt (obwohl es für diese Daten nicht wirklich wichtig ist), mit den ersten zwei Variablen, dann drei, . und schließlich fünf. Ich zeige die Ergebnisse mit Diagrammen der Beiträge der Hauptkomponenten zur Gesamtvarianz.

Anfänglich sind die Beiträge bei zwei fast unkorrelierten Variablen fast gleich (obere linke Ecke). Nach dem Hinzufügen einer mit der zweiten korrelierten Variablen - genau wie in der geometrischen Darstellung - gibt es nur noch zwei Hauptkomponenten, eine jetzt doppelt so groß wie die andere. (Eine dritte Komponente spiegelt das Fehlen einer perfekten Korrelation wider, sie misst die „Dicke“ der pfannkuchenartigen Wolke im 3D-Scatterplot.) Nachdem eine weitere korrelierte Variable ($X_4$) hinzugefügt wurde, beträgt die erste Komponente jetzt etwa drei Viertel der insgesamt nachdem ein Fünftel hinzugefügt wurde, macht die erste Komponente fast vier Fünftel der Gesamtsumme aus. In allen vier Fällen würden Komponenten nach der zweiten von den meisten PCA-Diagnoseverfahren wahrscheinlich als belanglos angesehen. Im letzten Fall ist es möglich, dass einige Verfahren zu dem Schluss kommen, dass es nur gibt einer Hauptbestandteil, der eine Überlegung wert ist.

Das können wir jetzt sehen Es kann sinnvoll sein, Variablen zu verwerfen, von denen angenommen wird, dass sie den gleichen zugrunde liegenden (aber "latenten") Aspekt einer Sammlung von Variablen messen, da die Einbeziehung der nahezu redundanten Variablen dazu führen kann, dass die PCA ihren Beitrag überbetont. Da ist nichts mathematisch richtig (oder falsch) über ein solches Verfahren ist es eine Ermessensentscheidung basierend auf den analytischen Zielen und der Kenntnis der Daten. Aber das sollte klar sein Das Zurücklassen von Variablen, von denen bekannt ist, dass sie stark mit anderen korrelieren, kann einen erheblichen Einfluss auf die PCA-Ergebnisse haben.

ich werde weiter veranschaulichen der gleiche Prozess und die gleiche Idee wie bei @whuber, aber mit den Ladediagrammen, - weil Ladevorgänge die Essenz der PCA-Ergebnisse sind.

Hier sind drei 3 Analysen. Im ersten haben wir zwei Variablen, $X_1$ und $X_2$ (in diesem Beispiel korrelieren sie nicht). Im zweiten haben wir $X_3$ hinzugefügt, was fast eine Kopie von $X_2$ ist und daher stark damit korreliert. Im dritten haben wir noch 2 weitere "Kopien" davon hinzugefügt: $X_4$ und $X_5$.

Die Auftragungen der Ladungen der ersten 2 Hauptkomponenten gehen dann. Rote Spitzen in den Diagrammen zeigen Korrelationen zwischen den Variablen an, so dass in dem Bündel mehrerer Spitzen ein Cluster eng korrelierter Variablen gefunden wird. Die Komponenten sind die grauen Linien. Die relative "Stärke" einer Komponente (sein relativer Eigenwertbetrag) wird durch das Gewicht der Linie angegeben.

Zwei Auswirkungen des Hinzufügens der "Kopien" können beobachtet werden:

  1. Komponente 1 wird immer stärker und Komponente 2 immer schwächer.
  2. Änderung der Ausrichtung der Komponenten: Zuerst lag Komponente 1 in der Mitte zwischen $X_1$ und $X_2$, da wir $X_3$ zu $X_2$ hinzugefügt haben. Komponente 1 hat sich sofort neu ausgerichtet, um dem entstehenden Haufen von Variablen zu folgen, und Sie können Seien Sie sicher, dass, nachdem wir dem Bündel noch zwei weitere Variablen hinzugefügt haben, die Verbindung von Komponente 1 zu diesem Bündel eng korrelierter Variablen unbestreitbarer wurde.

Ich werde die Moral nicht wieder aufnehmen, weil @whuber es bereits getan hat.

Zusatz. Unten sind einige Bilder als Antwort auf die Kommentare von @whuber. Es geht um die Unterscheidung zwischen „Variabler Raum“ und „Subjektraum“ und wie sich Komponenten hier und da orientieren. Drei bivariate PCAs werden präsentiert: erste Reihe analysiert $r=0$, zweite Reihe analysiert $r=0,62$ und dritte Reihe $r=0,77$. Die linke Spalte enthält Streudiagramme (mit standardisierten Daten) und die rechte Spalte enthält Ladediagramme.

Auf einem Streudiagramm wird die Korrelation zwischen $X_1$ und $X_2$ als Oblongität der Wolke gerendert. Der Winkel (sein Kosinus) zwischen einer Komponentenlinie und einer variablen Linie ist der entsprechende Eigenvektor Element. Eigenvektoren sind in allen drei Analysen identisch (also die Winkel in allen 3 Graphen gleich). [Aber es stimmt, dass mit $r=0$ genau, Eigenvektoren (und damit die Winkel) sind theoretisch willkürlich, weil die Wolke perfekt "rund" ist, jedes Paar orthogonaler Linien, die durch den Ursprung kommen, könnte als die beiden Komponenten dienen, - sogar $X_1$ und $X_2$ Linien selbst könnten gewählt werden als die Komponenten.] Die Koordinaten der Datenpunkte (200 Probanden) auf einer Komponente sind Komponentenbewertungen, und ihre Summe der Quadrate geteilt durch 200-1 ist die ' der Komponente Eigenwert.

Auf einem Ladeplot sind die Punkte (Vektoren) Variablen, die den Raum verteilen, der zweidimensional ist (weil wir 2 Punkte + Ursprung haben), aber tatsächlich ein reduzierter 200-dimensionaler (Anzahl der Subjekte) "Subjektraum" ist. Hier beträgt der Winkel (Cosinus) zwischen den roten Vektoren $r$. Die Vektoren haben die gleiche Einheitslänge, da die Daten standardisiert wurden. The first component is such a dimension axis in this space which rushes towards the overal accumulation of the points in case of just 2 variables it is always the bisector between $X_1$ and $X_2$ (but adding a 3rd variable can deflect it anyhow). The angle (cosine) between a variable vector and a component line is the correlation between them, and because the vectors are unit lenght and the components are orthogonal, this is nothing else than the coordinates, the loading. Sum of squared loadings onto the component is its eigenvalue (the component just orients itself in this subject space so as to maximize it)

Addition2. Im Addition above I was speaking about "variable space" and "subject space" as if they are incompatible together like water and oil. I had to reconsider it and may say that - at least when we speak about PCA - both spaces are isomorphic in the end, and by that virtue we can correctly display all the PCA details - data points, variable axes, component axes, variables as points, - on a single undistorted biplot.

Below are the scatterplot (variable space) and the loading plot (component space, which is subject space by its genetic origin). Everything that could be shown on the one, could also be shown on the other. The pictures are identical, only rotated by 45 degrees (and reflected, in this particular case) relative each other. That was a PCA of variables v1 and v2 (standardized, thus it was r that was analyzed). Black lines on the pictures are the variables as axes green/yellow lines are the components as axes blue points are the data cloud (subjects) red points are the variables displayed as points (vectors).


This article has earned Open Data and Open Materials badges. Data and materials are available at https://doi.org/10.5061/drvad.r7sqv9sb6

Data on Baltic sea are publicly available under http://ices.dk/data/Documents/ENV/, (ICES CEIM), Data on the global ecosystems are available under https://dataportal.lifewatchitaly.eu/data, (LifeWatch ERIC). The original and compiled datasets are also available on DataDryad.org under https://doi.org/10.5061/dryad.r7sqv9sb6.

Please note: The publisher is not responsible for the content or functionality of any supporting information supplied by the authors. Any queries (other than missing content) should be directed to the corresponding author for the article.


Schau das Video: Learn German and English free - A1 Lesson 7 - Geometrische Formen - Vocabulary