Mehr

5.4: Datenqualität - Geowissenschaften

5.4: Datenqualität - Geowissenschaften


Lernziele

  • Ziel dieses Abschnitts ist es, die unterschiedlichen Fehlerarten von Geodatensätzen zu ermitteln.

Nicht alle Geodaten werden gleichermaßen erstellt. Die Datenqualität bezieht sich auf die Fähigkeit eines bestimmten Datensatzes, das Ziel zu erfüllen, für das er erstellt wurde. Angesichts der enormen Mengen an Geodaten, die erstellt und der kartographischen Gemeinschaft zur Verfügung gestellt werden, müssen die einzelnen Benutzer von Geoinformationssystemen (GIS) darauf achten, dass die für ihr Projekt verwendeten Daten für die jeweilige Aufgabe geeignet sind.

Zwei Hauptattribute charakterisieren die Datenqualität. Richtigkeit beschreibt, wie nah eine Messung an ihrem tatsächlichen Wert liegt und wird oft als Wahrscheinlichkeit ausgedrückt (z. B. befinden sich 80 Prozent aller Punkte innerhalb von +/- 5 Metern um ihre wahre Position). Präzision bezieht sich auf die Varianz eines Wertes bei wiederholten Messungen. Eine Uhr kann auf 1/1000 korrekt seindas einer Sekunde (genau), kann aber 30 Minuten langsam sein (nicht genau). Wie Sie in Abbildung 5.12 „Genauigkeit und Präzision“ sehen können, sind die blauen Pfeile sowohl präzise als auch genau, während die roten Pfeile präzise, ​​aber ungenau sind.

Abbildung 5.12 Genauigkeit und Präzision

Wenn die Genauigkeits- und/oder Genauigkeitsanforderungen bei der Datenerfassung und -erstellung nicht erfüllt werden, können verschiedene Fehlerarten auftreten. Positionsgenauigkeit ist die Wahrscheinlichkeit, dass ein Feature innerhalb von +/- Einheiten entweder seiner wahren Position auf der Erde (absolute Positionsgenauigkeit) oder seiner Position in Bezug auf andere kartierte Features (relative Positionsgenauigkeit) liegt. Zum Beispiel könnte man sagen, dass ein bestimmter Kartierungsaufwand dazu führen kann, dass 95 Prozent der Bäume innerhalb von +/– 5 Fuß für ihre wahre Position (absolut) kartiert werden oder 95 Prozent der Bäume innerhalb von +/– 5 Fuß kartiert werden ihrer Position, wie sie auf einem digitalen Ortho-Viertelviereck (relativ) beobachtet wurde.

Wenn man über absolute Positionsfehler spricht, stellt sich jedoch die Frage, was genau der wahre Standort eines Objekts ist? Wie in Abbildung 5.13 „Beziehung zwischen Positionsfehler und Maßstab“ besprochen. Ebenso darf die vertikale Genauigkeit von nicht mehr als 10 % der Höhen auf einer Höhenlinienkarte einen Fehler von mehr als der Hälfte des Höhenlinienintervalls aufweisen. Jede Karte, die diesen horizontalen und vertikalen Genauigkeitsstandards nicht entspricht, wird für die Veröffentlichung als nicht akzeptabel erachtet.

Abbildung 5.13 Beziehung zwischen Positionsfehler und Maßstab

Positionsfehler entstehen durch mehrere Quellen. Der Prozess der Digitalisierung von Papierkarten führt häufig zu solchen Ungenauigkeiten. Beim Registrieren der Karte auf der Digitalisierungstafel können Fehler auftreten. Eine Papierkarte kann im Laufe der Zeit schrumpfen, strecken oder reißen, wodurch sich die Abmessungen der Szene ändern. Eingabefehler, die aus hastig digitalisierten Punkten entstehen, sind häufig. Schließlich kann das Konvertieren zwischen Koordinatensystemen und das Transformieren zwischen Datenpunkten auch zu Fehlern im Datensatz führen.

Der quadratische Mittelwert (RMS) wird häufig verwendet, um den Grad der Ungenauigkeit in einer digitalisierten Karte zu bewerten. Diese Statistik misst die Abweichung zwischen den tatsächlichen (wahren) und geschätzten (digitalisierten) Positionen der Passpunkte. Abbildung 5.14 "Potenzieller Digitalisierungsfehler" veranschaulicht die Ungenauigkeiten von Linien, die Bodenarten darstellen, die sich aus Fehlern bei der Eingabe von Passpunktpositionen ergeben. Durch Anwendung einer RMS-Fehlerberechnung auf den Datensatz könnte man die Genauigkeit der digitalisierten Karte und damit ihre Eignung für die Aufnahme in eine bestimmte Studie bestimmen.

Abbildung 5.14 Potenzieller Digitalisierungsfehler

Positionsfehler können auch auftreten, wenn zu kartierende Merkmale von Natur aus vage sind. Nehmen Sie das Beispiel eines Feuchtgebietes (Abbildung 5.15 „Definition einer Feuchtgebietsgrenze“). Was definiert eine Feuchtgebietsgrenze? Feuchtgebiete werden durch eine Kombination von hydrologischen, vegetativen und edaphischen Faktoren bestimmt. Obwohl das US Army Corps of Engineers derzeit dafür verantwortlich ist, die Grenzen von Feuchtgebieten im ganzen Land zu definieren, ist diese Aufgabe nicht so einfach, wie es scheinen mag. Insbesondere regionale Unterschiede in den Merkmalen eines Feuchtgebiets machen die Abgrenzung dieser Merkmale besonders schwierig. Beispielsweise ist die Definition einer Feuchtgebietsgrenze für die Fluss-Feuchtgebiete im Osten der Vereinigten Staaten, wo Wasser reichlich vorhanden ist, oft nutzlos, wenn ähnliche Arten von Feuchtgebieten in der Wüste im Südwesten der Vereinigten Staaten abgegrenzt werden. Tatsächlich kann die Komplexität und Verwirrung, die mit der Vorstellung davon verbunden sind, was ein „Feuchtgebiet“ ist, zu Schwierigkeiten bei der Definition des Merkmals im Feld führen, was in der Folge zu Positionsgenauigkeitsfehlern in der GIS-Datenbank führt.

Abbildung 5.15 Definieren einer Feuchtgebietsgrenze

Neben der Positionsgenauigkeit, Attributgenauigkeit ist eine häufige Fehlerquelle in einem GIS. Attributfehler können auftreten, wenn im Attributfeld ein falscher Wert aufgezeichnet wird oder wenn einem Feld ein Wert fehlt. Falsch geschriebene Wörter und andere Tippfehler sind ebenfalls üblich. Ebenso tritt eine häufige Ungenauigkeit auf, wenn Entwickler „0“ in ein Attributfeld eingeben, obwohl der Wert tatsächlich „null“ ist. Dies ist bei Zähldaten üblich, bei denen „0“ Nullbefunde darstellen würde, während „Null“ ein Gebietsschema darstellt, in dem keine Datensammlung durchgeführt wurde. Bei kategorialen Werten treten gelegentlich Ungenauigkeiten auf, wenn Attribute falsch gekennzeichnet sind. Beispielsweise kann eine Landnutzungs-/Landbedeckungskarte ein Polygon als „landwirtschaftlich“ auflisten, obwohl es sich tatsächlich um „Wohngebiet“ handelt. Dies gilt insbesondere dann, wenn der Datensatz veraltet ist, was uns zu unserer nächsten Fehlerquelle führt.

Zeitliche Genauigkeit adressiert das Alter oder die Aktualität eines Datensatzes. Kein Datensatz ist jemals vollständig aktuell. In der Zeit, die für die Erstellung des Datensatzes benötigt wird, ist dieser bereits veraltet. Unabhängig davon sind bei der Verwendung eines Datensatzes mehrere Daten zu beachten. Diese Daten sollten in den Metadaten zu finden sein. Das Veröffentlichungsdatum gibt Auskunft darüber, wann der Datensatz erstellt und/oder freigegeben wurde. Das Feld Datum bezieht sich auf Datum und Uhrzeit der Datenerhebung. Wenn der Datensatz eine zukünftige Vorhersage enthält, sollte es auch einen Vorhersagezeitraum und/oder ein Datum geben. Um die zeitliche Genauigkeit zu gewährleisten, werden viele Datensätze einer regelmäßigen Datenaktualisierung unterzogen. Das California Department of Fish and Game aktualisiert beispielsweise seine sensiblen Artendatenbanken fast monatlich, da ständig neue Erkenntnisse gewonnen werden. Es ist wichtig sicherzustellen, dass Sie als Endbenutzer stets die aktuellsten Daten für Ihre GIS-Anwendung verwenden.

Der vierte Genauigkeitstyp in einem GIS ist logische Konsistenz. Die logische Konsistenz setzt voraus, dass die Daten topologisch korrekt sind. Fällt beispielsweise ein Bachsegment eines Linien-Shapefiles in das Überschwemmungsgebiet des entsprechenden Polygon-Shapefiles? Verbinden sich Straßen an Knotenpunkten? Zeigen in einem Netzwerk alle Verbindungen und Flüsse in die richtige Richtung? In Bezug auf die letzte Frage hat der Autor kürzlich eine unbenannte Smartphone-Anwendung verwendet, um eine belebte Stadtstraße zu navigieren, und wurde zweimal aufgefordert, in Einbahnstraßen in die falsche Richtung abzubiegen. Seien Sie also vorsichtig, Fehler in der logischen Konsistenz können zu Verkehrsverstößen oder Schlimmerem führen!

Die letzte Art der Genauigkeit ist Datenvollständigkeit. Um genaue Kartierungsergebnisse zu gewährleisten, ist eine umfassende Aufnahme aller Features in die GIS-Datenbank erforderlich. Einfach ausgedrückt müssen alle Daten vorhanden sein, damit ein Datensatz korrekt ist. Sind alle Landkreise des Bundeslandes vertreten? Sind alle Bachabschnitte im Flussnetz enthalten? Ist jeder Convenience Store in der Datenbank aufgeführt? Sind nur bestimmte Arten von Convenience Stores in der Datenbank aufgeführt? Tatsächlich führen unvollständige Daten unweigerlich zu einer unvollständigen oder unzureichenden Analyse.

Die zentralen Thesen

  • Alle Geodaten enthalten Fehler.
  • Die Genauigkeit gibt an, wie nahe eine Messung ihrem tatsächlichen Wert liegt, während sich die Präzision auf die Abweichung eines Wertes bei wiederholten Messungen bezieht.
  • Die fünf Fehlertypen in einem Geodatensatz beziehen sich auf Positionsgenauigkeit, Attributgenauigkeit, zeitliche Genauigkeit, logische Konsistenz und Datenvollständigkeit.

ÜBUNGEN

  1. Was sind die fünf Arten von Genauigkeits-/Präzisionsfehlern, die mit geografischen Informationen verbunden sind? Geben Sie für jede Fehlerart ein Beispiel an.
  2. Besprechen Sie anhand der Beschreibung der Positionsgenauigkeit von Feuchtgebietsgrenzen ein Kartenmerkmal, dessen Grenzen von Natur aus vage und schwer zu kartieren sind.

Schau das Video: Geowissenschaften - PossibiliME - Dein Wegweiser zum Studium