Mehr

Krümmungsberechnung für verschiedene Maßstäbe

Krümmungsberechnung für verschiedene Maßstäbe


Ich möchte die Geländekrümmung, also die 2. Ableitung eines DEM, auf verschiedenen Skalen beurteilen.

Der gebräuchlichste Ansatz zur Krümmung scheint der von Zevenberg (1987) vorgeschlagene zu sein, bei dem ein Polynom vierter Ordnung an ein 3x3-Fenster um jede Gitterzelle angepasst wird, wie es z.B. in ArcGis. Das Schöne daran ist, dass die ungerichtete Krümmung als Faltung des DEM mit dem Kernel berechnet werden kann

0,0 0,5 0,0 k = 0,5 -2,0 0,5 * 1/s^2 0,0 0,5 0,0

mit s die Zellengröße. Ich möchte die Krümmung jedoch auch auf größeren Maßstäben ableiten, damit das Ergebnis weniger von kleinen Geländemerkmalen beeinflusst wird.

Ich sehe zwei unmittelbare Möglichkeiten, dies zu tun:

  1. Glätten oder skalieren Sie das zugrunde liegende DEM und verwenden Sie denselben Kernel wieder, oder
  2. einen größeren Kernel zu verwenden.

Für mich fühlt sich (1) ziemlich zerlumpt an und für (2) bin ich mir nicht sicher, welche Art von Kernel ich verwenden soll.

Irgendwelche Vorschläge, um mich auf den richtigen Weg zu bringen? Oder ist es eher ein Problem der Definition einer "größeren Krümmung"?


Dies ist eine wunderbare Frage. Ich stimme Ihnen zu, dass Option 1 suboptimal ist, da sie die Höhen des DEM ändert. Anstatt nur den Skalierungseffekt zu betrachten, vergleichen Sie auch die Auswirkungen unterschiedlicher Rauheit. Bei Option 2 gibt es keine besonders offensichtliche Möglichkeit, den Kernel einzurichten, und Sie müssen möglicherweise ebene Oberflächen an aus der Ferne abgetastete Höhen anpassen, was implizit im Zevenberg-Algorithmus geschieht. Aber ich denke, Sie übersehen einen der attraktivsten Ansätze: Abtasten Sie Ihr DEM auf eine gröbere Auflösung und verwenden Sie dann den Standardkrümmungskernel auf dem gröberen DEM. Das Resampling der Rasterauflösung ist einer der am häufigsten verwendeten Ansätze zur Behandlung von Skalierungsproblemen bei Raster-Datasets. Abhängig vom Skalenunterschied würde ich in diesem Fall wahrscheinlich das Resampling des nächsten Nachbarn verwenden. Andernfalls führt das bilineare oder kubische Faltungs-Resampling zu einer leichten Glättung der Oberfläche auf die gleiche Weise wie ein Tiefpassfilter (Option 1), wenn auch wahrscheinlich in geringerem Maße.


Kapitel 9 Koordinatensysteme

Implizit mit allen GIS-Daten ist ein räumliches Bezugssystem. Es kann aus einem einfachen willkürlichen Bezugssystem bestehen, wie einem 10 mx 10 m großen Stichprobenraster in einem Waldstück oder den Begrenzungen eines Fußballfeldes oder es kann aus einem geographischen Bezugssystem bestehen, dh einem, auf das die räumlichen Merkmale abgebildet werden ein erdbasiertes Referenzsystem. Der Schwerpunkt dieses Themas liegt auf Erdbezugssystemen, die auf einem Geographischen Koordinatensystem (GCS) oder einem Projektkoordinatensystem (PCS) basieren können.


Hintergrund und Zusammenfassung

Räumliche Heterogenität ist ein wichtiger Treiber der Umweltkomplexität in einer Region und beeinflusst die subregionale Variation von (i) abiotischen Faktoren wie Mikro-/Makroklima, Bodenzusammensetzung, dynamischen Prozessen der hydrologischen Systeme und (ii) biotischen Faktoren wie Arten Reichtum und Struktur, Populationskomplexität, Tierbewegungen 1 . Die Topographie, gemessen an der Höhe und ihren abgeleiteten Variablen (z. B. Neigung und Ausrichtung), ist der Schlüssel zur Charakterisierung der räumlichen Heterogenität und der abiotischen Umgebung in einem bestimmten Gebiet und treibt anschließend hydrologische, geomorphologische und biologische Prozesse voran 1,2 . Die Höhenlage weist beispielsweise zahlreiche Abhängigkeiten in Bezug auf topografische Komplexität, Mikro-/Makroklima oder Landbedeckung auf und kann verwendet werden, um Biodiversitätsmuster auf der ganzen Welt zu bewerten, indem Artenvorkommen mit Umweltfaktoren in Verbindung gebracht werden 3,4 . Neben der Verwendung der „rohen“ Höhe aus einem digitalen Höhenmodell (DEM) kann eine Vielzahl topografischer Metriken aus dem DEM extrahiert werden, um den physischen geografischen Kontext und die Landschaftseigenschaften einer Studienregion besser zu verstehen 3,5 . So spielen Hang- und Geländekrümmungen (definiert als Maß für die Konkavität und Konvexität oder Konvergenz und Divergenz) eine wichtige Rolle bei einzugsgebietsbezogenen hydrologischen Reaktionen, die die Fließrichtung, die Wasserabflussgeschwindigkeit, die Wasseransammlung, die Bodenerosion und die Bodenfeuchtigkeit bestimmen 6. In ähnlicher Weise beeinflusst die topografische Variation stark die Akkumulation und Heterogenität der Gebirgs-/Alpenschneebedeckung 7 und der Erdrutschbildung 8 . All diese Faktoren regulieren die Wasserverfügbarkeit im Boden und beeinflussen somit direkt die Vegetationsfeuchte, was ein wichtiges Element für die Waldbrandrisikomodellierung darstellt 9 . Spezifische Geländeattribute können auch wichtige Bedingungen bieten, die die Bewegungen und Wanderungen mobiler Arten wie Vögel erleichtern 10,11 . Darüber hinaus können Geländemerkmale wichtige Refugien für Arten unter dem Klimawandel darstellen 12 , eine Funktion, die wahrscheinlich mit der räumlichen Körnung variiert.

Traditionell wurden DEMs aus Luftaufnahmen mit Stereoskopie oder Bodenvermessungen abgeleitet. In den letzten Jahrzehnten haben Fortschritte in der Fernerkundungstechnologie zur Verfügbarkeit von DEM-Produkten mit unterschiedlichen räumlichen Körnungen beigetragen. Diese Produkte bieten gerasterte Informationen über die Höhe der Landoberfläche, wobei feine räumliche DGMs (<10 m) von Lasersensoren (z m) werden von optischen Sensoren (zB Advanced Spaceborne Thermal Emission and Reflection Radiometer – ASTER) und Radarsensoren (Shuttle Radar Topography Mission – SRTM) 13 erhalten. Neben einer globalen Abdeckung bei groben räumlichen Körnern stehen auch nationale und regionale DHMs bei feinen Körnern zur Verfügung, wie ArcticDEM (2 m), TanDEM-X (12 m), 3DEP (1 m), CDEM (25 m), AW3D (5m). Dennoch sind diese DEMs nicht vollständig kalibriert und ihre lokale Erweiterung erlaubt keine globale Implementierung.

Umwelt- und biologische Prozesse hängen stark von der räumlichen Körnung der Eingangsgrößen 14,15 ab. Um beispielsweise das Auftreten von Arten mit Hilfe von Artenverteilungsmodellen erfolgreich vorherzusagen, muss die räumliche Körnung der Umweltvariablen mit der Stichprobengröße und der Genauigkeit der Geodaten, dem Umfang der Artendaten, der Bewegung und dem Verbreitungsgebiet usw. übereinstimmen und übereinstimmen Prädiktoren auf z. B. 50–100 km können erforderlich sein, um grobe Atlasdaten, Expertenentfernungsinformationen oder Punktaufzeichnungen mit einer hohen räumlichen Unsicherheit abzugleichen 16,17.

Eine Vielzahl von DEMs, die im Rahmen verschiedener Projekte erarbeitet wurden, sind derzeit verfügbar und gruppiert/aufgelistet unter http://worldgrids.org/doku.php/wiki:dem_sources. Die Berechnung und Aggregation von von der Höhe abgeleiteten Variablen über räumliche Körner hinweg erfolgt jedoch in der Regel von Fall zu Fall. Daher fehlt ein kohärenter und standardisierter Rahmen, um bereichsweite, räumlich ausgerichtete und gebrauchsfertige topografische Variablen bei verschiedenen räumlichen Körnern zu erhalten. Derzeit verfügbare DEMs haben möglicherweise nicht die für viele Anwendungen erforderliche Qualität. Zum Beispiel enthält ASTER GDEM Artefakte und Ausreißer (d. h. abrupter Anstieg – „Bumps/Bumps“-Abfall – „Pits“), die eine Nachbearbeitung erfordern, um Fehler oder Offsets unter Verwendung zusätzlicher Quellen (d. h. SRTM- oder ICESat-Laseraltimetrie) zu beseitigen 18 . Diese Anomalien können auf lokaler Ebene große Höhenfehler erzeugen und die Verwendung von ASTER GDEM für bestimmte Anwendungen behindern. Hydrologische Anwendungen zum Beispiel erfordern qualitativ hochwertige standardisierte Eingaben, um Wassereinzugsgebietseigenschaften abzuleiten, die wiederum verwendet werden, um Wasserflüsse und -qualität zu verfolgen. In ähnlicher Weise stützen sich die Abgrenzung von Wassereinzugsgebieten, die Entwässerungsscheide und das Kanalnetz zunehmend auf digitale Daten aus DEMs und abgeleiteten Topographie-Metriken statt auf manuelle oder visuelle Interpretationen aus Fotografien oder Bodendaten. Da die Topografie außerdem einer der Haupttreiber für lokale Temperatur- und Niederschlagsmuster ist, sind topografische Schichten (insbesondere Höhe und Lage) wichtige Inputfaktoren für viele Klimaschichten (z. B. WorldClim http://www.worldclim.org/). Fehler oder Ungenauigkeiten in den Eingaben können sich in den Analysen und abgeleiteten Datensätzen ausbreiten. Die Zusammenstellung leicht verfügbarer Daten von hoher Qualität ist daher in vielen Bereichen nützlich. Von besonderer Relevanz für viele Anwendungen ist eine globale Abdeckung und Vergleichbarkeit zwischen verschiedenen Regionen. Dies wird durch Bewertungsverfahren wie die der Zwischenstaatlichen Plattform für Biodiversität und Ökosystemdienstleistungen (IPBES) 19 unterstrichen, bei denen die globale Verfügbarkeit und Vergleichbarkeit von Daten entscheidend ist. Die Modellierung von Artenverteilungen weltweit, wie sie in Projekten wie Map of Life (https://www.mol.org 20 ) angestrebt wird, erfordert eine Fülle von globalen Umweltinformationen, die bisher nur teilweise in Bezug auf Terrain.

Um den Mangel an leicht verfügbaren topografischen Variablen auf globaler Ebene zu beheben, haben wir eine Reihe von höhenabgeleiteten topografischen Variablen basierend auf dem Datensatz 21 der 250 m Global Multi-Resolution Terrain Elevation Data 2010 (im Folgenden „GMTED“) berechnet. Zum Vergleich haben wir auch die relevantesten Variablen mit dem weit verbreiteten 90 m Shuttle Radar Topographic Mission 22,23 void gefüllten Datensatz SRTM4.1dev 24,25 (im Folgenden „SRTM“) berechnet. Wir haben jede Metrik zu gröberen räumlichen Körnern (1, 5, 10, 50, 100 km) neu abgetastet (d. h. aggregiert), indem wir mehrere räumliche Aggregationsansätze verwendet haben, um die globale topografische Heterogenität zu charakterisieren (siehe Sitzung Aggregated topografische Variablen).

Insgesamt haben wir 15 kontinuierliche Variablen berechnet, die die Form des Reliefs charakterisieren (Höhe, Neigung, Aspekt Sinus/Cosinus, Osten, Norden, Rauheit, Geländerauheitsindex, topografischer Positionsindex, Vektorrauheitsmaß, Profil/tangentiale Krümmung, erste/ partielle Ableitung zweiter Ordnung) und 1 kategoriale Variable, die zehn große Landformklassen beschreibt. Die Variablen (Data Citation 1) können als Eingabedaten in verschiedenen Umweltmodellen und -analysen verwendet werden, und wir stellen den Code zur Verfügung, um benutzerdefinierte Variablen (z. B. Variationskoeffizient, Reichweite) für benutzerdefinierte räumliche Körner zu berechnen. Die neu entwickelten Schichten eignen sich für großflächige Umweltanalysen und stehen zum Download unter Data Citation 1 und zum Download und zur Visualisierung unter http://www.earthenv.org/topography bereit.


Literaturische Rezension

Es gibt zwar eine wachsende Menge an Literatur über den Einsatz von GIS für die Malariaforschung und -kontrolle, jedoch wurde der Stand der Technik nicht überprüft. Es gab jedoch kürzlich eine Übersicht [4] über die Rolle von GIS beim Umgang mit Gesundheitsproblemen in Afrika, aber die hier vorgelegte Übersicht unterscheidet sich in mindestens dreierlei Hinsicht. Erstens konzentriert es sich enger auf die Verwendung von GIS für das Management und das Verständnis eines Gesundheitsproblems – Malaria. Zweitens konzentriert es sich im weiteren Sinne auf die weltweite Nutzung von GIS – nicht nur in einem Teil der Welt. Drittens bietet es eine ausgewogenere Übersicht, indem es sowohl das Potenzial als auch die Grenzen der Verwendung von GIS zum Verständnis und zur Kontrolle von Malaria untersucht. Die Literaturübersicht wird versuchen, vier Fragen in Bezug auf den Einsatz von GIS speziell für die Malariaforschung und -bekämpfung zu beantworten:

Welche Software wird verwendet?

Wie wird GIS derzeit in der Malariaforschung und -bekämpfung eingesetzt?

Um diese Frage zu beantworten, wurde die GIS/Malaria-Literatur wie unten beschrieben in fünf Kategorien unterteilt.

Kartierung von Malaria-Inzidenz/Prävalenz [5, 6]

Dies ist die grundlegendste Anwendung und beinhaltet die Kartierung der Inzidenz/Prävalenz von Malaria in einem bestimmten geografischen Gebiet. Der Fokus liegt auf der Untersuchung vergangener Trends sowie der aktuellen Situation und beinhaltet typischerweise keine statistische Analyse mit der möglichen Ausnahme einer Korrelation der Malaria-Inzidenz/Prävalenz mit der Bevölkerung, um Risikopopulationen zu berechnen [5, 41]. Das Ziel dieser Studien ist es, zu sehen, ob offensichtliche Muster existieren.

Kartierung der Beziehungen zwischen Malaria-Inzidenz/Prävalenz und anderen potenziell verwandten Variablen [7–9]

Der Zeitrahmen richtet sich nach wie vor auf vergangene Trends und die aktuelle Situation. Das Ziel dieser Studien ist es, herauszufinden, ob zwischen der Inzidenz/Prävalenz von Malaria und einer Vielzahl anderer Variablen, einschließlich: Temperatur, Niederschlag usw., Zusammenhänge bestehen. [10–12] Landnutzung/Landbedeckung Höhe Demografie (Alter und Geschlecht) Bevölkerungsbewegung [13] Klimawandel [12, 14–16] Brutstätten [17, 18] und Bekämpfungsprogramme [8, 19–22]. In den meisten Fällen beinhalten diese Studien Tests, um festzustellen, ob statistische Zusammenhänge bestehen.

Einsatz innovativer Methoden der Datenerhebung [11, 22–37]

Da die Datenerfassung eine der Haupteinschränkungen bei der Verwendung von GIS ist, sind innovative Methoden der Datenerfassung für den Erfolg von GIS von entscheidender Bedeutung. Diese Literatur beschäftigt sich zum größten Teil mit Fernerkundung in Form von Luftaufnahmen und Satellitenbildern.

Modellierung des Malariarisikos [5, 38–41]

Diese Literatur ist zukunftsorientiert und konzentriert sich auf die Vorhersage von Malariarisikogebieten. Risikomodelle verwenden in der Regel viele der oben diskutierten Variablen – der Unterschied besteht darin, dass statistische Beziehungen zwischen Malaria-Inzidenz/Prävalenz (der abhängigen Variable) und einer Reihe unabhängiger Variablen hergestellt werden, um zukünftige Malariafälle vorherzusagen.

Allgemeine Kommentare und Übersichten zum Einsatz von GIS in der Malariakontrolle und -forschung [3, 4, 42–53]

Diese Literatur hat größtenteils Übersichtscharakter und beinhaltet keine Diskussion einer bestimmten Forschungsstudie.

Welche GIS-Software wird verwendet?

Die begutachtete Literatur ist wahrscheinlich nicht der beste Ort, um sich ein Bild von der Art der GIS-Software zu machen, die von denen verwendet wird, die sich mit Malariaforschung und -kontrolle befassen. Dies liegt daran, dass die von Malariaforschern verwendete Software in der Regel eine andere ist als die von Ärzten des öffentlichen Gesundheitswesens. Im Folgenden werden eine Reihe von Gründen dafür genannt. Daher basiert diese Diskussion auf Informationen, die in erster Linie von Websites stammen, und auf Kommunikationen mit Personen, die im öffentlichen Gesundheitswesen in Indonesien tätig sind.

ArcView/ArcGIS und verschiedene Erweiterungen

Diese Software wird von ESRI, Inc. hergestellt und repräsentiert einen der Standards in der Branche. Diese Software wird häufig von Forschern und in geringerem Maße von Praktikern verwendet. Es gibt andere Unternehmen, die Erweiterungen für dieses Paket anbieten, wie z. B. die EpiAnalyst-Erweiterung für ArcView. Diese Produkte verfügen über umfangreiche Fähigkeiten, erfordern jedoch steile Lernkurven und ihre Kosten übersteigen im Allgemeinen die Möglichkeiten der Gesundheitsbehörden.

Karteninfo

Dies ist ein kommerzielles GIS-Paket, das von MapInfo entwickelt wurde. Dies ist ein weiteres beliebtes kommerzielles GIS-Produkt, das jedoch nicht über so viele Funktionen verfügt wie einige der ESRI-Produkte.

EpiInfo/EpiMap

Diese Software wurde von den US-amerikanischen Centers for Disease Control entwickelt. Es ist frei verfügbar und soll Fachleuten des öffentlichen Gesundheitswesens dabei helfen, Fragebögen zu entwickeln, den Dateneingabeprozess anzupassen und Daten zu analysieren und zu kartieren.

HealthMapper

Diese Software wurde gemeinsam von der Weltgesundheitsorganisation und UNICEF als Reaktion auf Probleme entwickelt, die von Praktikern bei den meisten kommerziellen GIS-Paketen festgestellt wurden. Zu diesen Problemen gehören in erster Linie: Schwierigkeiten beim Erlernen der Software, die hohen Kosten für Software und Schulung und das Fehlen von maßgeschneiderten Funktionen zur Analyse von Malaria. HealthMapper steht den Gesundheitsämtern kostenlos zur Verfügung. Während die Nutzung der Software in einigen Ländern (überwiegend in Afrika) weit verbreitet ist, ist sie in anderen relativ unbekannt. In Indonesien wurde die Software noch nicht eingeführt.

Wo wird GIS für die Malariaforschung und -kontrolle eingesetzt?

Aus der Literatur geht hervor, dass GIS am häufigsten in Afrika südlich der Sahara verwendet wird, was angesichts der hohen Malariaraten in Afrika nicht unerwartet ist. In Indien und Sri Lanka gibt es eine gewisse Verwendung, in Südostasien jedoch sehr wenig. Diese Literaturübersicht stellt jedoch keine unvoreingenommene Analyse dar, da sie nur die in englischsprachigen Zeitschriften veröffentlichte Literatur umfasst. Aufgrund unserer Erfahrungen in Indonesien vermuten wir, dass GIS in allen malariagefährdeten Ländern der Welt verwendet wird, aber die Forschung wird nicht in englischsprachigen Zeitschriften veröffentlicht und ist daher nicht in dieser Übersicht enthalten.

Welche Einschränkungen gibt es bei der Verwendung von GIS für die Malariaforschung und -kontrolle?

Ein Großteil der Literatur auf diesem Gebiet befasst sich mit dem Versprechen oder Potenzial von GIS und nicht mit seinen Problemen und/oder Einschränkungen. Wie Edralin [52] wichtig hervorhebt, sind Forschungsstudien nicht repräsentativ für typische Feldsituationen – sie neigen dazu, die Schwierigkeiten herunterzuspielen. Die in der Literatur festgestellten Einschränkungen wurden zusammengestellt und in eine Reihe von Kategorien eingeteilt, wie unten gezeigt. Die Kategorien sind danach geordnet, wie häufig die Einschränkung/das Problem/das Problem in der Literatur erwähnt wurde. Es sollte auch beachtet werden, dass sich einige der Referenzen auf GIS im Allgemeinen, insbesondere in Entwicklungsländern, konzentrieren, die meisten jedoch speziell auf die Verwendung von GIS für die Malariaforschung und -bekämpfung abzielen. Es ist wichtig, die Daten der Literatur zu beachten. Tanser und LeSueur [4] argumentieren, dass einige der GIS-Probleme, die Yeh [54], Edralin [52] und Fox [51] in den frühen 1990er Jahren bemerkten, insbesondere im Umgang mit Computerhardwareproblemen, heute weniger problematisch sind.

Mangel an qualifiziertem Personal [4, 16, 51, 52, 54, 55]

Dieses Thema wurde in der Literatur am häufigsten genannt. Die Tatsache, dass es sich bei GIS um eine relativ neue Technologie handelt, bedeutet, dass Mitarbeiter mit GIS-Ausbildung und -Fähigkeiten sehr gefragt sind und die Budgets der meisten Gesundheitsämter übersteigen.

Datenbeschränkungen [4, 32, 52, 54, 56]

Dies ist ein Problem, mit dem GIS-Benutzer sowohl in Industrie- als auch in Entwicklungsländern seit Jahrzehnten konfrontiert sind. Das Geld zu finden, um neue Daten zu sammeln und Papierkarten und Daten in ein digitales Format umzuwandeln, ist nach wie vor ein Problem. In vielen Fällen existieren digitale Daten, aber es gibt Fragen der Vertraulichkeit, der nationalen Sicherheit usw., die ihre Verwendung durch Malaria- und Gesundheitsbehörden verhindert haben. Als Reaktion auf diese Einschränkung hat das MARA-Projekt [5] einen Malaria-Datensatz für ganz Afrika erstellt und auf CD-ROM verteilt.

Finanzielle Auswirkungen von Hard- und Software [44, 51, 54, 55]

Wie Tanser und Le Sueur [4] argumentieren, sind diese Probleme in den letzten zehn Jahren weniger problematisch geworden. Hardware und Software sind billiger geworden und heute funktioniert die meiste GIS-Software ausreichend auf einem Standard-Desktop-Computer.

Entscheidungsträger verstehen seine Anwendung nicht [4, 51, 52, 54]

GIS-Benutzer haben beim Verkauf ihrer Anwendungen an Entscheidungsträger keine sehr gute Arbeit geleistet. Der Fokus des Verkaufs verfängt sich eher im Fachjargon und nicht darauf, dass ein GIS schnell Karten erstellen kann und dass Karten viel leichter zu verstehen sind als Tabellen. Da viele nicht verstehen, was GIS tut und was es tun könnte, ist es weiterhin ein Problem, finanzielle Unterstützung zu erhalten. Dieses Problem wurde in den frühen Tagen von GIS erkannt und ist bis heute ein Problem.

Skala nicht verstanden/Fehlinterpretation der Ergebnisse [4, 32, 55]

Dieses Problem hängt mit der fehlenden Ausbildung zusammen. Während es im Allgemeinen möglich ist, Schulungsquellen für GIS zu finden, ist es für die meisten Personen weitaus schwieriger, wenn nicht unmöglich, Schulungen zur Verwendung von GIS zum Verständnis von Malaria zu finden.

Fehlende Software zur Durchführung der räumlichen Analyse [32, 54, 57]

Dies ist ein neueres Problem, das sich mit dem Problem beschäftigt, dass die meisten GIS-Software räumliche Statistiken nicht angemessen handhabt. Tatsächlich befindet sich die Disziplin der Raumstatistik noch in einem frühen Entwicklungsstadium und wird von den meisten Benutzern nicht gut verstanden.

Mangelnde Software/von Außenstehenden kontrolliert [4, 44]

Die am häufigsten verwendete GIS-Software stammt typischerweise aus den USA oder Europa. Dies führt in einigen Fällen zu Problemen beim Erhalt von Kopien der Software sowie beim Erhalt von Support für die Software, insbesondere wenn das Problem nicht per Telefon oder E-Mail gelöst werden kann.

Über Dominanz von GIS-Technokraten [54]

Yeh [54] argumentiert, dass viele GIS-Anwendungen von Mitarbeitern entwickelt werden, die in Informatik und Kartografie ausgebildet sind und mehr an der GIS-Forschung als an der Entwicklung praktischer GIS-Anwendungen interessiert sind.

Diese Liste von Problemen und Einschränkungen bei der Verwendung von GIS soll nicht von der Verwendung von GIS für die Malariaforschung und -bekämpfung abhalten. Die Liste wird bereitgestellt, um die Aufmerksamkeit und Bemühungen auf die Überwindung dieser Probleme zu lenken.

Auch wenn potenzielle Benutzer mit einigen dieser Probleme konfrontiert sind, bedeutet dies nicht, dass sie kein GIS verwenden sollten. Es gibt Möglichkeiten, wie GIS in der Malariaforschung und -kontrolle nützlich sein kann, und wie Sweeney [44] vorschlägt, sollten GIS-Anwendungen der verfügbaren Infrastruktur entsprechen.


1 Antwort 1

Der Gradientenabstieg verwendet eine feste Lernrate für alle $ heta

9 Antworten 9

Der Gradientenabstieg maximiert eine Funktion unter Verwendung der Kenntnis ihrer Ableitung. Das Newton-Verfahren, ein Wurzelsuchalgorithmus, maximiert eine Funktion unter Verwendung der Kenntnis ihrer zweiten Ableitung. Das kann schneller gehen, wenn die zweite Ableitung bekannt und leicht zu berechnen ist (der Newton-Raphson-Algorithmus wird in der logistischen Regression verwendet). Der analytische Ausdruck für die zweite Ableitung ist jedoch oft kompliziert oder schwer zu handhaben und erfordert viel Rechenaufwand. Numerische Methoden zur Berechnung der zweiten Ableitung erfordern ebenfalls viel Rechenaufwand – wenn $N$-Werte zur Berechnung der ersten Ableitung benötigt werden, sind $N^2$ für die zweite Ableitung erforderlich.

ähnliche UKF) oder DFO-SQP-Methoden (z. B. BOBYQA). "Optimalität" ist eine knifflige Frage, würde ich sagen. für ein ML-Problem, im Gegensatz zu einem Konstruktions-Optimierungsproblem, kann die Zuverlässigkeit/Informativität eines "lokalen Hessen" zweifelhaft sein. Vielleicht ist nicht-lokaler DFO-SQP

"stochastischer Newton"? (z.B. "online") $endgroup$ &ndash GeoMatt22 29. Dez. 16 um 5:26

Mehr Leute sollte verwenden Sie die Methode von Newton im maschinellen Lernen*. Ich sage dies als jemand mit einem Hintergrund in numerischer Optimierung, der sich in den letzten Jahren mit maschinellem Lernen beschäftigt hat.

Die Nachteile der Antworten hier (und sogar in der Literatur) sind kein Problem, wenn Sie die Newton-Methode richtig anwenden. Darüber hinaus verlangsamen die Nachteile, die von Bedeutung sind, auch den Gradientenabstieg um den gleichen Betrag oder mehr, jedoch durch weniger offensichtliche Mechanismen.

Die Verwendung von Liniensuche mit den Wolfe-Bedingungen oder Verwendung von oder Vertrauensbereichen verhindert eine Konvergenz zu Sattelpunkten. Eine geeignete Gradientenabstiegsimplementierung sollte dies auch tun. Das Papier, auf das in der Antwort von Cam.Davidson.Pilon verwiesen wird, weist auf Probleme mit der "Newton-Methode" in Gegenwart von Sattelpunkten hin, aber die von ihnen befürwortete Lösung ist auch eine Newton-Methode.

Wenn Sie die Newton-Methode verwenden, müssen Sie nicht das gesamte (dichte) Hessian konstruieren, Sie können die Umkehrung des Hessian auf einen Vektor mit iterativen Methoden anwenden, die nur Matrix-Vektor-Produkte verwenden (z. B. Krylov-Methoden wie konjugierter Gradient). Siehe zum Beispiel die Trust-Region-Methode von CG-Steihaug.

Sie können hessische Matrix-Vektor-Produkte effizient berechnen, indem Sie zwei adjungierte Gleichungen höherer Ordnung der gleichen Form wie die adjungierte Gleichung lösen, die bereits zur Berechnung des Gradienten verwendet wird (z. B. die Arbeit von zwei Backpropagation-Schritten beim neuronalen Netztraining).

Schlechte Konditionierung verlangsamt die Konvergenz von iterativen linearen Lösern, verlangsamt aber auch den Gradientenabstieg gleichermaßen oder schlechter. Die Verwendung der Newton-Methode anstelle des Gradientenabstiegs verschiebt die Schwierigkeit von der nichtlinearen Optimierungsstufe (in der nicht viel getan werden kann, um die Situation zu verbessern) auf die lineare Algebra-Stufe (wo wir sie mit dem gesamten Arsenal numerischer Vorkonditionierungstechniken der linearen Algebra angreifen können).

Außerdem verschiebt sich die Berechnung von "vielen, vielen billigen Schritten" zu "einigen kostspieligen Schritten", was mehr Möglichkeiten für Parallelität auf der Ebene der Unterschritte (lineare Algebra) eröffnet.

Für Hintergrundinformationen zu diesen Konzepten empfehle ich das Buch "Numerical Optimization" von Nocedal und Wright.

*Natürlich hilft Ihnen Newtons Methode nicht bei L1 oder anderen ähnlichen Compressed Sensing/Spasity-fördernden Penalty-Funktionen, da ihnen die erforderliche Glätte fehlt.

Eine Kombination aus zwei Gründen:

  • Die Newton-Methode, die Sattelpunkte anzieht, ist beim maschinellen Lernen üblich, oder tatsächlich bei jeder multivariablen Optimierung.

Betrachten Sie die Funktion $f=x^2-y^2$

Wenn Sie die multivariate Newton-Methode anwenden, erhalten Sie Folgendes. $mathbf_ = mathbf_n - [mathbff(mathbf_n)]^ <-1> abla f(mathbf_n)$

Holen Sie sich den Farbverlauf: $ abla f=egin 2x [2.2ex] -2y end$

Sie sehen also, wie die Newton-Methode Sie zum Sattelpunkt bei $x=0,y=0$ geführt hat.

Im Gegensatz dazu führt die Gradientenabstiegsmethode nicht zum Sattelpunkt. Der Gradient ist am Sattelpunkt null, aber ein winziger Schritt nach außen würde die Optimierung wegziehen, wie Sie am obigen Gradienten sehen können - sein Gradient auf der y-Variablen ist negativ.

Das habe ich vor kurzem selbst gelernt - das Problem ist die Verbreitung von Sattelpunkten im hochdimensionalen Raum, auf die Newton-Methoden konvergieren wollen. Siehe diesen Artikel: Identifizieren und Angreifen des Sattelpunktproblems bei der hochdimensionalen nichtkonvexen Optimierung.

Tatsächlich nimmt das Verhältnis der Anzahl der Sattelpunkte zu den lokalen Minima exponentiell mit der Dimensionalität N zu.

Während die Gradientenabstiegsdynamik von einem Sattelpunkt abgestoßen wird, um den Fehler zu verringern, indem den Richtungen negativer Krümmung gefolgt wird, . die Newton-Methode behandelt Sattelpunkte nicht angemessen, wie unten argumentiert, Sattelpunkte werden stattdessen unter der Newton-Dynamik attraktiv.

Sie haben zwei Fragen gestellt: Warum verwenden nicht mehr Menschen die Newton-Methode und warum verwenden so viele Menschen den stochastischen Gradientenabstieg? Auf diese Fragen gibt es unterschiedliche Antworten, da es viele Algorithmen gibt, die den Rechenaufwand des Newton-Verfahrens verringern, aber oft besser funktionieren als SGD.

Erstens: Die Newton-Methode dauert pro Iteration lange und ist speicherintensiv. Wie jwimberley betont, erfordert die Newton-Methode die Berechnung der zweiten Ableitung $H$, die $O(N^2)$ ist, wobei $N$ die Anzahl der Features ist, während die Berechnung des Gradienten $g$ nur $ . ist O(N)$. Aber der nächste Schritt ist $H^ <-1>g$, was $O(N^3)$ zu berechnen ist. Während die Berechnung des Hessischen also teuer ist, ist es oft noch schlimmer, ihn zu invertieren oder die kleinsten Quadrate zu lösen. (Wenn Sie spärliche Features haben, sehen die Asymptotiken besser aus, aber andere Methoden funktionieren auch besser, so dass Sparsity Newton nicht macht verhältnismäßig ansprechender.)

Zweitens werden viele Methoden, nicht nur der Gradientenabstieg, häufiger als Newton verwendet. Sie sind oft Knockoffs der Newton-Methode in dem Sinne, dass sie einen Newton-Schritt mit geringeren Rechenkosten pro Schritt annähern, aber mehr Iterationen benötigen, um zu konvergieren. Einige Beispiele:

Wegen der Kosten der Hessischen Invertierung nähern sich Quasi-Newton-Methoden wie BFGS invers Hessisch, $H^<-1>$, indem Sie sich ansehen, wie sich der Farbverlauf in den letzten Schritten verändert hat.

BFGS ist in hochdimensionalen Einstellungen immer noch sehr speicherintensiv, da es das Speichern des gesamten ungefähren inversen Hessischen $O(N^2)$ erfordert. BFGS mit begrenztem Speicher (L-BFGS) berechnet die Richtung des nächsten Schritts als ungefähres inverses Hessian mal den Gradienten, aber es erfordert nur das Speichern der letzten mehreren Gradientenaktualisierungen, es speichert nicht explizit das ungefähre inverse Hessian.

Wenn Sie sich überhaupt nicht mit der Approximation zweiter Ableitungen befassen möchten, ist der Gradientenabstieg attraktiv, da er nur Informationen erster Ordnung verwendet. Der Gradientenabstieg nähert sich implizit dem inversen Hessischen an, da die Lernrate die Identitätsmatrix multipliziert. Ich persönlich verwende selten Gradientenabstieg: L-BFGS ist genauso einfach zu implementieren, da es nur die Angabe der Zielfunktion und des Gradienten erfordert, hat es eine bessere inverse hessische Näherung als Gradientenabstieg und da Gradientenabstieg eine Abstimmung der Lernrate erfordert.

Manchmal haben Sie eine sehr große Anzahl von Beobachtungen (Datenpunkten), aber Sie könnten fast genauso gut aus einer kleineren Anzahl von Beobachtungen lernen. Wenn dies der Fall ist, können Sie "Batch-Methoden" wie den stochastischen Gradientenabstieg verwenden, die unter Verwendung von Teilmengen der Beobachtungen durchlaufen.


Morphometrische Charakterisierung der Landschaftsform aus DEMs

Wir beschreiben eine Methode zur morphometrischen Charakterisierung von Landschaftsformen aus digitalen Höhenmodellen (DEMs). Das Verfahren wird zuerst implementiert, indem jeder Ort in morphometrische Klassen basierend auf der mathematischen Form einer lokal angepassten quadratischen Fläche und ihrer Positionsbeziehung mit dem Analysefenster klassifiziert wird. Einskalige Fuzzy-Terrain-Indizes für Peakness, Pitness, Passness, Ridgeness und Valleyness werden dann basierend auf der Entfernung des Analyseortes von den Idealfällen berechnet. Diese können dann zu mehrskaligen Geländeindizes kombiniert werden, um Geländeinformationen über verschiedene Betriebsmaßstäbe hinweg zusammenzufassen. Der Algorithmus hat vier Eigenschaften: (1) die Idealfälle unterschiedlicher geomorphometrischer Merkmale sind einfach und klar definiert (2) die Ausgabe ist räumlich kontinuierlich, um die inhärente Unschärfe geomorphometrischer Merkmale widerzuspiegeln (3) die Ausgabe lässt sich leicht zu einer Multiskala kombinieren Index über eine Reihe von Betriebsskalen und (4) die allgemeinen morphometrischen Standardparameter werden als Ableitungen erster und zweiter Ordnung der quadratischen Fläche quantifiziert. Ein zusätzlicher Vorteil der quadratischen Fläche ist die Ableitung der R 2 Anpassungsgüte-Statistik, mit der sowohl die Zuverlässigkeit der Ergebnisse als auch die Komplexität des Geländes beurteilt werden können. Eine Anwendung der Methode mit einem Test-DEM zeigt, dass die ein- und mehrskaligen Geländeindizes bei der Charakterisierung der verschiedenen geomorphometrischen Merkmale gut abschneiden.

Danksagung

Kommentare von Chefredakteur Prof. Brian Lees und den anonymen Gutachtern halfen sehr, das Manuskript zu verbessern. Diese Forschung wird durch einen Endeavour Asia Award des australischen Ministeriums für Bildung, Beschäftigung und Arbeitsbeziehungen unterstützt und teilweise durch das National High Technology Development 863 Program of China (Grant No. 2007AA12Z216) und die National Natural Science Foundation of China (Grant 40701134).


Gerichtetes Bohren und Erdkrümmung

Dieses Papier bietet einen Überblick über aktuelle Praktiken zur Berechnung der Platzierung von Richtbohren im Lichte moderner Anwendungen mit erweiterter Reichweite. Die Überprüfung hebt das Potenzial für grobe Fehler bei der Anwendung geodätischer Referenzinformationen und Fehler in der Berechnungsmethode hervor. Beide Fehlerarten werden theoretisch quantifiziert und an einem realen Beispiel veranschaulicht. Die Autoren nutzen etablierte Berechnungsmethoden der Landvermessung, um eine überarbeitete Best Practice für das Richtbohren zu entwickeln. Zur Beseitigung grober Fehler schreiben sie ein erhöhtes Bewusstsein und einen disziplinierteren Umgang mit Positionsdaten vor.

Bei der Berechnung der Bohrlochposition berücksichtigen Richtungsbohrer derzeit die Erdkrümmung nicht. Tatsächlich wird die Bohrung nach einem "Flat Earth"-Modell geplant und gebohrt. Die der Flat Earth-Annahme innewohnenden Fehler wurden bis vor kurzem zu Recht als unbedeutend ignoriert. Das Aufkommen längerer Bohrlöcher, die auf kleinere Ziele abzielen, hat jedoch zu dieser detaillierteren Analyse geführt. Die Analyse zeigt, dass die Fehler nicht mehr als unbedeutend angenommen werden können. Dies deutet darauf hin, dass Ölgesellschaften in Zukunft verlangen werden, dass die Richtbohrsoftware, die für Anwendungen mit erweiterter Reichweite verwendet wird, genauere Berechnungen der Bohrlochpositionierung enthält.

In defining the form of these calculations, a balance must be struck between computational complexity and real requirements. That said, the ubiquity of computers at all stages of the drilling process has virtually eliminated the need for calculations ever to be performed by hand.

Geodesy is the name given to the study of the size and shape of the Earth. The branch of land surveying which properly takes account of this shape is known as geodetic surveying. To accurately describe the effects of Earth curvature on well positioning, it is necessary to use some geodetic terminology. The standard textbook, which contains full definitions of all the terms which follow, is by Bomford. 1

The surface that is every where perpendicular to the direction of gravity (an "equipotential surface") and that on average coincides with mean sea level in the oceans is called the Geoid.

The geoid is much smoother than the physical surface of the Earth, but is still too irregular to be used as a reference for spatial coordinates. As an alternative, we use the geometrical shape which most closely approximates the shape of the Earth—an Ellipsoid, which in this context is an ellipse rotated about its minor axis. Der Begriff spheroid is sometimes used in place of ellipsoid.

To be useful as a coordinate reference, a relationship between the position of the ellipsoid and the solid Earth must be defined. Although sometimes used to refer to just this relationship, the term geodetic datum is more correctly used to include the definition of the ellipsoid as well. When combined with an axes definition, a geodetic datum defines a three-dimensional (3D) geographic coordinate system, the dimensions being (geodetic) Breite und Längengrad und ellipsoidal height (height above the ellipsoid).

It is possible to define a geodetic datum which approximates the shape of the Earth over the entire globe. WGS 84, used by the Global Positioning System (GPS), is an example. In practice, most geodetic datums used for mapping have been defined to give a more precise fit over a restricted geographical area. As an example, coordinates of points in the North Sea are conventionally quoted with respect to European Datum 1950 (ED50), which incorporates the International 1924 ellipsoid. The proliferation of such regional datums over time has meant that their areas of application frequently overlap. The same set of latitude and longitude coordinates, referenced to different geodetic datums, will refer to different points on the Earth. The coordinates alone, contrary to common belief, do not adequately define a particular location.

Lines of constant latitude and longitude are called parallels und meridians, beziehungsweise. These lines are curved in three dimensions, but may be represented on a plane by means of a Projektion. The rectangular coordinate system on the plane is called a Netz.

It is impossible to devise a projection which represents all true directions and distances correctly on the plane. However, it is possible to control this distortion so that the shapes of small areas are preserved. Projections with this property are called orthomorphic or conformal, and include the Transverse Mercator Projection and most others used for oilfield mapping.

For any orthomorphic projection, the amount of distortion to directions at a point on the grid is defined by grid convergence, the angle clockwise between the meridian passing through the point (i.e., true north) and grid north. Likewise, the amount of distortion to scale at a point is defined by the point scale factor. (Not to be confused with the scale factor at the natural origin, which is a fixed parameter used in the definition of many projections. For UTM zones, its value is 0.9996). The point scale factor changes with geographical position, which results in distances calculated from grid coordinates differing from distances measured on (or through) the ground. In this paper, we shall call the ratio of map grid distance to true distance the grid scale factor. Since the arc length of a degree of latitude or longitude decreases with increasing depth, the grid scale factor (Fig. 1) must increase to compensate.

The grid azimuth from A to B equals the true azimuth from A to B minus the grid convergence.

The grid distance from A to B equals the true distance from A to B multiplied by the grid scale factor.

Since grid convergence varies from place to place, the first of these rules is only an approximation—the error will increase as the distance between EIN und V grows. The second rule is always valid by our definition of grid scale factor.

Horizontal position being defined by ellipsoidal coordinates (latitude and longitude), it seems natural to define vertical position by height above the ellipsoid. This is not done in practice, the main reason being that the surface of the ellipsoid offers no physical reference point for measurement.

The geoid (roughly speaking, mean sea level) is a much more convenient surface to use as a height reference. Surveyors working on land can measure the difference in height above the geoid at two locations by spirit leveling. The reference level used as a zero datum is defined by mean sea level at a selected coastal location, or an average value of mean sea level at several locations, over a specified period of time. Elevations on land should include a reference to this vertical datum. In the U.S., it is termed the North American Vertical Datum of 1988 (NAVD88), which also covers southern Canada. In Britain it is Ordnance Datum Newlyn (ODN).

Surveyors working offshore can measure elevations relative to sea level directly and, by reference to tidal predictions, correct these to mean sea level.


4 Answers 4

We call these rotations (oder modes) of a scale. We can rotate any scale such that any member of that scale can be a tonic.

The most common rotations are the seven diatonic church modes (see also this question), where we rotate the major scale to begin on each of its seven pitches.

But you can rotate every scale out there, and there's likely a name for it. Rotating the harmonic minor scale to begin on the fifth scale degree, for instance, creates the Phrygian dominant scale, something very common in Klezmer music.

There are seven of them. They're called modes. They use exactly the same notes as the 'standard major scale', but are rooted on each of the scale notes. And, there are many tunes which use them.

Let's take C major. CDEFGAB. As it stands, it's the C major scale. But if we reconfigure that abd go from , say D to D, it beecomes D Dorian. the root is now D, and the sound is minor. The scale now is DEFGABCD.

That same idea carries through with each 'root note'.

You have a lot of questions in your “question“ so I will try and hit on them in order.

So let's say in a song I'm using the notes of a certain scale. However, the note that feels like coming home to and I often start a melody with, is another note than the root key of the scale I'm using. Could you say I'm using an inverted version of that scale? Is there any other name for it? Or doesn't it really matter and I'm still using the same scale?

OK, 3 at a time, here goes: If your home key or tonality is the root of the particular major scale then you are playing just that scale and not an inverted scale. There is no rule stating that melodies have to originate or end on any specific note within a scale. If you are in C major and playing E to E you are still using a C major scale.

There is a name for what you are more or less describing, explore “modes”, which is the process of creating 7 different scales from one scale, say a C major scale, by using the 7 different starting notes, i.e. D to D, E to E, etc. In each of these cases though the starting note becomes the new tonality. There are MANY answered questions about modes on this site or you can do an independent search about them.

If that is the case, wouldn't that mean that C Major and A Minor are not two different scales with the same set of notes, but actually the same scale which just has two different names?

C major and A minor are two different scales which contain the exact same notes BUT they have different root notes and are also constructed very differently.

An example: For now, let's just assume C Major wouldn't exist as a named scale.

As for your example, C would be the 3rd inversion of the Am scale, not the 2nd (B is the second) if they were called inversions but this is really about what I mentioned before, “modes”. Actually the A minor scale (Aeolian mode) is built on the 6th degree of the C major scale (Ionian mode) Explore modes and I think you will see things more clearly. Here’s a wiki article to get you started:


Three ways of visualizing a graph on a map

When visualizing a network with nodes that refer to a geographic place, it is often useful to put these nodes on a map and draw the connections (edges) between them. By this, we can directly see the geographic distribution of nodes and their connections in our network. This is different to a traditional network plot, where the placement of the nodes depends on the layout algorithm that is used (which may for example form clusters of strongly interconnected nodes).

In this blog post, I’ll present three ways of visualizing network graphs on a map using R with the packages igraph, ggplot2 and optionally ggraph. Several properties of our graph should be visualized along with the positions on the map and the connections between them. Specifically, the size of a node on the map should reflect its degree, the width of an edge between two nodes should represent the weight (strength) of this connection (since we can’t use proximity to illustrate the strength of a connection when we place the nodes on a map), and the color of an edge should illustrate the type of connection (some categorical variable, e.g. a type of treaty between two international partners).

Vorbereitung

We’ll need to load the following libraries first:

Now, let’s load some example nodes. I’ve picked some random countries with their geo-coordinates:

So we now have 15 countries, each with an ID, geo-coordinates ( lon and lat ) and a name. These are our graph nodes. We’ll now create some random connections ( edges ) between our nodes:

Each of these edges defines a connection via the node IDs in the from and to columns and additionally we generated random connection categories and weights . Such properties are often used in graph analysis and will later be visualized too.

Our nodes and edges fully describe a graph so we can now generate a graph structure g with the igraph library. This is especially necessary for fast calculation of the degree or other properties of each node later.

We now create some data structures that will be needed for all the plots that we will generate. At first, we create a data frame for plotting the edges. This data frame will be the same like the edges data frame but with four additional columns that define the start and end points for each edge ( x , y and xend , yend ):

Let’s give each node a weight and use the degree metric for this. This will be reflected by the node sizes on the map later.

Now we define a common ggplot2 theme that is suitable for displaying maps (sans axes and grids):

Not only the theme will be the same for all plots, but they will also share the same world map as “background” (using map_data('world') ) and the same fixed ratio coordinate system that also specifies the limits of the longitude and latitude coordinates.

Plot 1: Pure ggplot2

Let’s start simple by using ggplot2. We’ll need three geometric objects (geoms) additional to the country polygons from the world map ( country_shapes ): Nodes can be drawn as points using geom_point and their labels with geom_text edges between nodes can be realized as curves using geom_curve . Für jedes geom we need to define aesthetic mappings that “describe how variables in the data are mapped to visual properties” in the plot. For the nodes we map the geo-coordinates to the x und ja positions in the plot and make the node size dependent on its weight ( aes(x = lon, y = lat, size = weight) ). For the edges, we pass our edges_for_plot data frame and use the x , y and xend , yend as start and end points of the curves. Additionally, we make each edge’s color dependent on its category , and its “size” (which refers to its line width) dependent on the edges’ weights (we will see that the latter will fail). Note that the order of the geoms is important as it defines which object is drawn first and can be occluded by an object that is drawn later in the next geom layer. Hence we draw the edges first and then the node points and finally the labels on top:

A warning will be displayed in the console saying “Scale for ‘size’ is already present. Adding another scale for ‘size’, which will replace the existing scale.”. This is because we used the “size” aesthetic and its scale twice, once for the node size and once for the line width of the curves. Unfortunately you cannot use two different scales for the same aesthetic even when they’re used for different geoms (here: “size” for both node size and the edges’ line widths). There is also no alternative to “size” I know of for controlling a line’s width in ggplot2.

With ggplot2, we’re left of with deciding which geom’s size we want to scale. Here, I go for a static node size and a dynamic line width for the edges:

Plot 2: ggplot2 + ggraph

Luckily, there is an extension to ggplot2 called ggraph with geoms and aesthetics added specifically for plotting network graphs. This allows us to use separate scales for the nodes and edges. By default, ggraph will place the nodes according to a layout algorithm that you can specify. However, we can also define our own custom layout using the geo-coordinates as node positions:

We pass the layout lay and use ggraph’s geoms geom_edge_arc and geom_node_point for plotting:

The edges’ widths can be controlled with the edge_width aesthetic and its scale functions scale_edge_width_* . The nodes’ sizes are controlled with size as before. Another nice feature is that geom_node_text has an option to distribute node labels with repel = TRUE so that they do not occlude each other that much.

Note that the plot’s edges are differently drawn than with the ggplot2 graphics before. The connections are still the same only the placement is different due to different layout algorithms that are used by ggraph. For example, the turquoise edge line between Canada and Japan has moved from the very north to south across the center of Africa.

Plot 3: the hacky way (overlay several ggplot2 “plot grobs”)

I do not want to withhold another option which may be considered a dirty hack: You can overlay several separately created plots (with transparent background) by annotating them as “grobs” (short for “graphical objects”). This is probably not how grob annotations should be used, but anyway it can come in handy when you really need to overcome the aesthetics limitation of ggplot2 described above in plot 1.

As explained, we will produce separate plots and “stack” them. The first plot will be the “background” which displays the world map as before. The second plot will be an overlay that only displays the edges. Finally, a third overlay shows only the points for the nodes and their labels. With this setup, we can control the edges’ line widths and the nodes’ point sizes separately because they are generated in separate plots.

The two overlays need to have a transparent background so we define it with a theme:

The base or “background” plot is easy to make and only shows the map:

Now we create the first overlay with the edges whose line width is scaled according to the edges’ weights:

The second overlay shows the node points and their labels:

Finally we combine the overlays using grob annotations. Note that proper positioning of the grobs can be tedious. I found that using ymin works quite well but manual tweaking of the parameter seems necessary.

As explained before, this is a hacky solution and should be used with care. Still it is useful also in other circumstances. For example when you need to use different scales for point sizes and line widths in line graphs or need to use different color scales in a single plot this way might be an option to consider.

All in all, network graphs displayed on maps can be useful to show connections between the nodes in your graph on a geographic scale. A downside is that it can look quite cluttered when you have many geographically close points and many overlapping connections. It can be useful then to show only certain details of a map or add some jitter to the edges’ anchor points.