Mehr

Sind spezielle Interpolationstechniken für Wetterdaten erforderlich?

Sind spezielle Interpolationstechniken für Wetterdaten erforderlich?


Ich habe eine Reihe von Wetterbeobachtungen von der lokalen Wetterbehörde heruntergeladen - sie umfasst etwa 1.000 Punkte, die ungleichmäßig über Australien verteilt sind, mit einer größeren Dichte von Punkten in der Nähe von besiedelten Gebieten.

Ich bin daran interessiert, Durchschnittstemperaturen und monatliche Niederschläge (getrennt) als glatte Oberflächen anzuzeigen, daher habe ich die Kriging-Funktion in Spatial Analyst (mit den Standardwerten) verwendet, um dieses Raster zu berechnen:

[bearbeiten]

Die Raster werden nur zu Visualisierungszwecken verwendet. In einer Webkarte werde ich die Gitter anzeigen, um den Kontext zu geben, aber nur die tatsächlichen Wetterstationen identifizieren, in diesem Fall zeige ich die ursprünglichen Werte an. Ich denke, dies bedeutet, dass die Genauigkeit der Raster nicht von größter Bedeutung ist.

Meine Fragen:

  • Welche Parameter des Kriging-Tools muss ich verstehen, um sinnvolle Interpolationen von Niederschlag, Temperatur und anderen Wetterfaktoren zu erstellen?
  • Muss ich die Auswirkungen der Topografie berücksichtigen (zB orografischer Regeneffekt) oder handhabt der Kriging-Algorithmus dies?
  • Ist der Geostatistical Analyst ein besseres Werkzeug für diese Art von Analyse? (Ich glaube, es wurde entwickelt, um mit geographischen Verzerrungen umzugehen)
  • sollte ich sonst noch etwas beachten um ein aussagekräftiges ergebnis zu erzielen?

Vielen Dank


  • Sie sagen uns nichts über die Verwendung dieser Karten. Möchten Sie nur eine Karte erstellen? Werden Sie sie als Modelleingabe verwenden? Dies kann Ihre Methodik ändern.
  • Welcher Fehler ist für die von Ihnen benötigte Verwendung akzeptabel?
  • Topographie kann nur eingeschlossen werden, wenn Sie sie als Eingabevariable in einer Prozedur namens Regressionskriging verwenden. Ich weiß nicht, ob arcgis dies unterstützt, aber arcgis kann es nicht berücksichtigen, wenn Sie die Informationen nicht bereitstellen. In diesem speziellen Fall scheinen Sie viele Datenpunkte in Bergregionen zu haben, so dass der tatsächliche Unterschied gering sein kann.
  • Sie haben genügend Punkte, also nehme ich an, dass arcgis in der Lage sein wird, ein vernünftiges Variogramm anzupassen. In diesem Fall ist die Verwendung der automatischen Parameter in Ordnung (zumindest besser als die Verwendung von zB inverser Distanzgewichtung). Natürlich sollten Sie sich bewusst sein, dass die Vorhersage in Regionen mit wenigen Beobachtungen eine große Fehlerquote hat.

Die Rolle von GIS in der arbeitsmedizinischen Praxis: Ein neuer Ansatz

So zitieren Sie: Moussavi Najarkola S A, Mirzaei R. Die Rolle von GIS in der arbeitsmedizinischen Praxis: Ein neuer Ansatz, Gesundheitsbereich. 2013 2(3): 116-118. doi: 10.17795/jhealthscope-14730.

1. Einleitung

Parallel zur Wissensentwicklung in der arbeitsmedizinischen Praxis ist der Einsatz verschiedener Instrumente oder Systeme zum besseren Verständnis der räumlichen Kartierung von Expositionen und Erkrankungen unumgänglich. Geographisches Informationssystem (GIS) ist eine der am besten anwendbaren Softwares, die Arbeitshygienikern helfen kann. GIS ist ein gemeinsames Produkt der Computer- und Geowissenschaften, das eine Reihe von Komponenten integriert, darunter Hardware, Software, geografische Daten, geografische Benutzer und Methoden zur Anzeige und Verwaltung der Daten, die mit bestimmten räumlichen Positionen verbunden sind, und die die Beziehung zwischen räumlichen Daten und räumlicher Modellierung analysiert Prozesse, die den Benutzer bei der Datenverwaltung, komplexen Problemlösung und Entscheidungsfindung unterstützen (1, 2). Daher kann der Einsatz von GIS in arbeitsmedizinischen Praxisprogrammen eine wichtige Rolle spielen, um die Expositionsrisiken besser zu verstehen und Entscheidungen zur Problemlösung zu treffen (3). Die Schaffung eines räumlichen Zusammenhangs in der arbeitsmedizinischen Praxis, wie der Zusammenhang zwischen Krankheiten und deren Verteilung in verschiedenen Bereichen, ist so wichtig (4, 5).

2. Geographisches Informationssystem (GIS)

Informationen über den geografischen Standort, die als geografische Informationen bezeichnet werden und die Räume auf der Erde beschreiben (3). Diese Daten haben hauptsächlich drei wichtige Dimensionen: die räumliche Dimension, die auf die Frage antwortet, wo die Natur des untersuchten Gegenstands liegt, die auf die Frage, was und gelegentlich eine dritte Zeitdimension für dynamische Phänomene, die auf die Frage nach dem Wann antwortet (1 , 2). Daher spielt die Raumdimension eine Schlüsselrolle in den geografischen Informationen. Die Lage von Phänomenen auf der Erde wird im geographischen Koordinatensystem als geographische Breite und Länge (2) definiert. Die beste Methode zur Anzeige der geografischen Informationen ist die Karte, die den Benutzern durch eine grafische Darstellung die Möglichkeit bietet, geografische Informationen effektiver zu verstehen (4). GIS oder Wissenschaft ist ein computergestütztes Werkzeug zur Analyse und Kartierung von Geodaten (1-3). GIS als Softwarepaket ist ein computerbasiertes System zur Eingabe, Speicherung, Bearbeitung und Ausgabe von geografischen Informationen, das Hardware, Software, Daten, Benutzer und Methoden zur Problemlösung, Entscheidungsfindung und Planungshilfe integriert (5). Diese Fähigkeiten machen GIS zu einem wertvollen Werkzeug für die Erklärung von Ereignissen, die Vorhersage von Ergebnissen und Planungsstrategien in einer Vielzahl von öffentlichen und privaten Unternehmen (2).

3. Grundlegende Elemente von GIS

GIS integriert mehrere grundlegende Schlüsselelemente, einschließlich: Hardware, Software, Daten, Benutzer und Methoden (1-4). GIS-Hardware ist ein Computer sowie ein Drucker und andere ergänzende Geräte, auf denen GIS eingerichtet, implementiert und auf Monitoren dargestellt oder die Ergebnisse in Papierform erstellt werden (2). GIS-Software in verschiedenen Versionen (wie ARC/INFO GIS) läuft auf einer Vielzahl von Hardwaretypen, vom Personal Computer (PC) bis zum Laptop oder sogar anderen vernetzten Konfigurationen. GIS-Software bietet die Möglichkeit, geografische Informationen zu speichern, zu analysieren und anzuzeigen. Arc-Info und Arc-View sind zwei häufig verwendete Arten von GIS-Software, die im Handel erhältlich sind (3, 4). GIS-Daten scheinen das wichtigste Element des GIS-Integrals zu sein. Ein GIS-Tool muss in der Lage sein, Punktdaten in kontinuierliche Flächendaten und folglich nach Bedarf in räumliche und globale Daten umzuwandeln. Geografische und tabellarische Daten, Bilder aus Luftbildern und Karten sind drei gängige Arten der Datendarstellung in GIS (2, 3). Die Bandbreite der GIS-Benutzer reicht von GIS-Spezialisten bis hin zu nicht-spezialisierten Benutzern wie öffentlichen, Umwelt- und Arbeitshygienikern für ihre unterschiedlichen Zwecke (3). GIS-Methoden beziehen sich auf den organisatorischen Praxisplan, die Verfahren und Regeln, die für jede Organisation gelten. Einige Ressourcen gehen jedoch davon aus, dass ein GIS aus fünf Hauptkomponenten besteht, darunter Netzwerk, Hardware, Software, Datenbank und Verwaltung (4). Das GIS-Netzwerk stützt sich in hohem Maße auf das Internet oder Intranet-Netzwerke für die schnelle Kommunikation und den elektronischen Austausch von Informationen zu Topologie, Geographie usw. (1, 2). Das GIS-Management umfasst alle organisatorischen Verfahren und Regeln, die das Datenmanagement, die Berichterstattung und die Kartierung im GIS betreffen (4).

4. Funktionen von GIS

GSI verwendet verschiedene Interpolationsverfahren, hauptsächlich das Kriging-Interpolationsverfahren, um die ursprünglichen Punktdaten mit ausreichender Genauigkeit und geeigneter Zellengröße zu interpolieren und in eine kontinuierliche Fläche umzuwandeln (2, 4). Die durch Interpolation entstandene Karte ermöglicht die Analyse des Datenstatus in verschiedenen Teilen der gewünschten Gebiete auf der Erde (4). Es ist möglich, die zusammenhängenden Flächen der erhaltenen verschiedenen Klassen durch die Klassifizierung der erstellten Karte (3) zu bestimmen und zu vergleichen. Aus der kontinuierlichen Datenkarte wird schließlich die gewünschte Höhenlinienkarte (Höhenlinien) mit dreidimensionalen Analysemethoden, die im GIS vorgestellt werden (4), gewonnen. Innerhalb eines gewünschten Bereichs erhaltene Raumkoordinaten können leicht in das globale Koordinatensystem (5) übertragen werden.

5. GIS in der arbeitsmedizinischen Praxis

Heutzutage ist die arbeitsmedizinische Praxis in vielen Industrie- und Entwicklungsländern eines der wichtigsten Anliegen. GIS kann auch für Punkt-, Oberflächen- und Geodatenmanagement, räumliche Analyse, Konfiguration und Visualisierung sowie Kartierung in der arbeitsmedizinischen Praxis verwendet werden (6, 7). Die Anwendung von GIS in der arbeitsmedizinischen Praxis kann den Arbeitshygienikern helfen, Probleme besser zu verstehen und Entscheidungen zur Problemlösung zu treffen (8). Die Verwendung von GIS-Mapping in der arbeitsmedizinischen Praxis ist ein etwas neuer Ansatz (8). GIS kann verwendet werden für: Lärmüberwachung (8, 9), Screening von lärminduziertem Hörverlust (NIHL) (8, 9), ionisierende und nichtionisierende Strahlung, Beleuchtungsbewertung, Luftreinhaltung, Luftverschmutzungsverteilungsmodelle, Luftemissionen Verhaltensweisen, Berufs- und Umweltgifte, Tiergesundheit und ihre Beziehung zur menschlichen Gesundheit, Netzwerk zur Verfolgung der Gesundheit am Arbeitsplatz, Kartierung basierend auf den Organisationsmustern, Expositionstrends über die Zeit, Expositionsmodellierung, gefährdete Berufsbevölkerung, arbeitsmedizinische Dienste, Kartierung der Exposition gegenüber berufsbedingten Schadstoffen, oder chronische Krankheiten Standortkartierung, demografische Informationen des Arztes, Bewertung der beruflichen Risikofaktoren, Berufskrebs, Verletzungsprävention, arbeitsbedingte Muskel-Skelett-Erkrankungen (WMSD), epidemiologische Studien, Überwachung von Umweltgiften (Schwermetalle, Mineralstoffe, organische Stoffe, Gase und Dämpfe, Stäube, flüchtige organische Verbindungen (VOCs), Pflanzen- und Tiergifte), Ausbruch unsicher e-Zonen, Masterplan für Notfall- und Bereitschaftsreaktionen und arbeitsmedizinische Maßnahmen (8-10).

GIS kann eine Beziehung zwischen menschlichen Standorten, Verschmutzungsquellen und Umweltbedingungen auf einer räumlichen Karte als Schicht für Schicht herstellen. GIS kann die Arbeitshygieniker unterstützen, indem es die arbeitsmedizinische Situationsanalyse steuert, um gesundheitliche Probleme (Berufskrankheiten oder -störungen) zu vermeiden, die durch die Exposition gegenüber physikalischen, chemischen, ergonomischen, psychologischen und biologischen Schadstoffen verursacht werden, indem räumliche oder globale Karten erstellt werden.

Kurz gesagt, GIS kann in arbeitsmedizinischen Praktiken verwendet werden, hauptsächlich in der arbeitsmedizinischen Situationsanalyse zur Vorbeugung und Kontrolle von Gesundheitsfolgen aufgrund der Exposition gegenüber physikalischen, chemischen, ergonomischen, psychologischen und biologischen Schadstoffen durch die Erstellung von räumlichen oder globalen Karten. Dadurch kann die Anwendung von GIS in der arbeitsmedizinischen Praxis als neuer Ansatz eine Schlüsselrolle bei der Kontrolle von Krankheiten nach Exposition gegenüber verschiedenen Schadstoffen spielen und den Arbeitshygienikern und -managern helfen, solche Expositionen zu eliminieren, zu kontrollieren, zu reduzieren oder zu minimieren.

Danksagung

Es gibt keine Anerkennung in dieser Studie.

Fußnoten

  • Implikationen für Gesundheitspolitik/Praxis/Forschung/medizinische Ausbildung: Dieser Artikel widmet sich insbesondere der Rolle und den Anwendungen des geografischen Informationssystems (GIS) in der arbeitsmedizinischen Praxis, hauptsächlich in der arbeitsmedizinischen Situationsanalyse und in der Praxis zur Prävention und Kontrolle von Gesundheitsproblemen (Krankheiten), die durch die Exposition gegenüber physikalischen, chemischen, ergonomische, psychologische und biologische Schadstoffe durch die Erstellung von räumlichen oder globalen Karten.
  • Beitrag der Autoren: Diese Studie wurde gleichermaßen von Autoren durchgeführt.
  • Finanzielle Offenlegung: Es besteht kein Interessenkonflikt.
  • Finanzierung/Unterstützung: Es gibt keine Unterstützung für diese Studie.

Verweise

Luo W. Mit einer GIS-basierten Methode des schwimmenden Einzugsgebiets zur Bewertung von Gebieten mit Ärztemangel. Gesundheitsplatz. 2004 10(1) : 1 -11 [PubMed]

Stern J, Estes J. Geografisches Informationssystem. 1990

Ormsby T. ArcGIS Desktop kennenlernen: Grundlagen von ArcView, ArcEditor und ArcInfo. 2004

Goodchild MF, Steyaert LT, Parks BO, Johnston C. GIS und Umweltmodellierung: Fortschritt und Forschungsfragen. 1996

Murad AA. Erstellen einer GIS-Anwendung für Gesundheitsdienste in der Stadt Jeddah. Comput Biol Med. 2007 37(6) : 879 -89 [DOI][PubMed]

Donovan TL, Kurc A, Sambol C, Carpenter J, Moore KM. GIS-Kartierung von Besuchsdaten zur Arbeitsmedizin eines Tertiärkrankenhauses in Südost-Ontario. 2008 5 : 26

Koh D, Aw TC. Überwachung im Arbeitsschutz. Besetzen Sie Umgebung Med. 2003 60(9) : 705-10 [PubMed]

Ko JH, Chang SI, Lee BC. Lärmverträglichkeitsprüfung durch Verwendung von Lärmkarten und GIS: Eine Fallstudie in der Stadt Chungju, Republik Korea. Appl Acoust. 2011 72(8) : 544 -50

de Kluijver H, Stoter J. Lärmkartierung und GIS: Optimierung der Qualität und Effizienz von Lärmwirkungsstudien. Com Environ Urban Sys. 2003 27(1) : 85 -102

Wang F, Luo W. Bewertung räumlicher und nicht-räumlicher Faktoren für den Zugang zur Gesundheitsversorgung: hin zu einem integrierten Ansatz zur Definition von Bereichen des Fachkräftemangels im Gesundheitswesen. Gesundheitsplatz. 2005 11(2) : 131 -46 [DOI][PubMed]


Geografischer Kompetenzindex


Foto von Jani Bryson/iStockphoto.com

Die Bedeutung geografischer Fähigkeiten

&ldquoGeografische Fähigkeiten bieten uns die notwendigen Werkzeuge und Techniken, um geografisch zu denken. Sie sind von zentraler Bedeutung für den unverwechselbaren Ansatz der Geographie zum Verständnis der physischen und menschlichen Muster und Prozesse der Erde. Geografische Fähigkeiten werden verwendet, um Entscheidungen zu treffen, die für das tägliche Leben wichtig sind und wo man ein Haus kauft oder mietet, wo man einen Job findet, wie man zur Arbeit oder zum Haus eines Freundes kommt und wo man einkaufen, Urlaub machen oder zur Schule gehen kann. Alle diese Entscheidungen beinhalten die Fähigkeit, geografische Informationen zu beschaffen, zu arrangieren und zu verwenden. Tägliche Entscheidungen und gemeinschaftliche Aktivitäten sind mit einem systematischen und räumlichen Denken über Umwelt- und Gesellschaftsthemen verbunden.

Gemeinschaftsentscheidungen in Bezug auf Probleme der Luft-, Wasser- und Bodenverschmutzung oder Standortfragen, wie etwa der Standort von Industrien, Schulen und Wohngebieten, erfordern auch den geschickten Einsatz von geografischen Informationen. Geschäfts- und Regierungsentscheidungen–vom besten Standort für einen Supermarkt oder einen regionalen Flughafen bis hin zu Fragen der Ressourcennutzung oder des internationalen Handels–beinhaltet die Analyse geografischer Daten.

Geografische Fähigkeiten helfen Menschen, fundierte politische Entscheidungen zu treffen. Ob es um die Bewertung der Außenpolitik und der internationalen Wirtschaftspolitik oder die lokale Raumordnung und Landnutzung geht, geografische Fähigkeiten ermöglichen es den Menschen, Informationen zu sammeln und zu analysieren, zu fundierten Schlussfolgerungen zu gelangen und begründete Entscheidungen über eine Vorgehensweise zu treffen. Geografische Fähigkeiten helfen auch bei der Entwicklung und Präsentation effektiver, überzeugender Argumente in Fragen der öffentlichen Ordnung.

Geografische Fähigkeiten entwickeln

Es ist wichtig, dass die Schüler Fähigkeiten entwickeln, die es ihnen ermöglichen, Muster, Assoziationen und räumliche Ordnungen zu beobachten. Viele der Fähigkeiten, die von den Schülern erwartet werden, umfassen die Verwendung von Werkzeugen und Geotechnologien, die Teil des Prozesses der geografischen Untersuchung sind. Geographische Darstellungen wie Karten und Globen sowie deren digitale Versionen sind wesentliche Werkzeuge der Geographie, da sie bei der Visualisierung räumlicher Anordnungen und Muster helfen.

Andere Werkzeuge und Geodatentechnologien, einschließlich satellitengestützter Bilder, Grafiken, Skizzen, Diagramme und Fotografien, sind ebenfalls integrale Bestandteile der geografischen Analyse. Durch den Vergleich von alten und neuen Satellitenbildern lässt sich beispielsweise die Wachstumsrate eines Stadtgebietes beobachten. Großräumige Landnutzungsänderungen oder Änderungen der Meeresoberflächentemperaturen können durch den Vergleich einer Reihe von Satellitenbildern beobachtet werden. Ein wichtiges Werkzeug in der geografischen Analyse ist das geografische Informationssystem (GIS). Geografische Informationssysteme erleichtern das Organisieren, Analysieren und Präsentieren von geografischen Informationen und beschleunigen so die geografische Untersuchung. Fernerfasste Daten liefern sowohl archivierte als auch Echtzeitbilder, die unabhängig oder als Teil einer GIS-Analyse untersucht werden können. Digitale Globen und interaktive Online-Karten können menschliche und physikalische Datensätze anzeigen, um die systematische Analyse räumlicher Phänomene zu unterstützen. Ein globales Positionsbestimmungssystem (GPS) hilft bei der genauen Identifizierung des Standorts der gesammelten Daten. GPS-Technologien werden derzeit in einer Vielzahl von digitalen Mobilgeräten verwendet.

Viele der Fähigkeiten, die Schüler zum Entwickeln geographischer Fähigkeiten benötigen, werden als „kritische Denkfähigkeiten&rdquo bezeichnet. Solche Fähigkeiten sind nicht nur in der Geographie zu finden und beinhalten eine Reihe allgemeiner Denkprozesse wie Wissen, Schlussfolgerung, Analyse, Beurteilung, Hypothese, Verallgemeinerung, Vorhersage, Problemlösung und Entscheidungsfindung. Diese Fähigkeiten können auf alle Ebenen der geografischen Forschung angewendet werden und bilden die Grundlage, auf der die Schüler Kompetenzen zur Anwendung geografischer Fähigkeiten auf die geografische Forschung aufbauen können.

Geografische Fähigkeiten entwickeln sich über die gesamte Schulzeit der Schüler. Für jede der drei besprochenen aufeinanderfolgenden Klassenstufen müssen Lehrer und andere Lehrplanentwickler erkennen, dass die Beherrschung der geografischen Fähigkeiten der Schüler effektiv sequenziert werden sollte, damit die Schüler ihr Verständnis behalten und darauf aufbauen. Die Fähigkeiten können nicht isoliert gelehrt oder angewendet werden. Sie sind miteinander verbunden und ergänzen sich und bilden zusammen einen Untersuchungsprozess, der die Komplexität des Ortes verständlicher und verständlicher macht.

Die Begründung für geografische Fähigkeiten

  1. Geografische Fragen stellen
  2. Erfassen von geografischen Informationen
  3. Organisieren von geografischen Informationen
  4. Geografische Informationen analysieren
  5. Beantwortung geografischer Fragen

Für jedes der fünf Kompetenzpakete werden die Prinzipien erörtert, die dem Kompetenzpaket zugrunde liegen, und anschließend eine Präsentation dessen, was der Schüler in den Klassen 4, 8 und 12 wissen, verstehen und können soll. &rdquo

Geographie fürs Leben: Nationale Geographie-Standards, Zweite Ausgabe


26. September 2017

Explorative Datenanalyse von tropischen Stürmen in R

Die katastrophalen Auswirkungen der jüngsten Hurrikane Harvey und Irma haben zu einem großen Datenstrom innerhalb der Online-Community geführt. Ich war neugierig auf die Geschichte von Hurrikanen und tropischen Stürmen, also fand ich einen Datensatz auf data.world und begann mit einer grundlegenden explorativen Datenanalyse (EDA).

EDA ist entscheidend für den Start jedes Projekts. Durch EDA können Sie damit beginnen, Fehler und Inkonsistenzen in Ihren Daten zu identifizieren, interessante Muster zu finden, Korrelationen zu erkennen und Hypothesen zum Testen zu entwickeln. Für die meisten Menschen sind einfache Tabellenkalkulationen und Diagramme praktisch und bieten einen guten Ausgangspunkt. Sie sind eine einfach zu bedienende Methode, um Ihre Daten schnell zu manipulieren und zu visualisieren. Data Scientists mögen bei der Idee, eine grafische Benutzeroberfläche (GUI) zu verwenden, um den EDA-Prozess zu starten, zurückschrecken, aber diese Tools sind bei richtiger Anwendung sehr effektiv und effizient. Wenn Sie dies jedoch lesen, versuchen Sie wahrscheinlich, EDA auf die nächste Stufe zu heben. Der beste Weg, um zu lernen, ist, sich die Hände schmutzig zu machen, fangen wir an.

Die ursprüngliche Quelle der Daten ist unter DHS.gov zu finden.

Toller Rundgang durch die explorative Datenanalyse.

Jeder spricht über das Wetter, aber wussten Sie, dass zwischen Ursache und Wirkung eine Klimaverzögerung von vierzig (40) Jahren liegt?

Der menschliche Einfluss auf die Umwelt von heute wird in weiteren vierzig (40) Jahren nicht zu spüren sein.

Kann man die Auswirkungen eines Hurrikans im Jahr 2057 vorhersagen?

PS: Ist ein Hurrikan der Kategorie 6 möglich? von Brian Donegan ist eine interessante Diskussion darüber, wie man über Kategorie 5 für Hurrikane hinausgeht. Informationen zu Geschwindigkeiten finden Sie unter: Fujita-Skala (Tornados).


Die Kategorien

Kategorien Checkliste

Im Ressourcenleitfaden finden Sie eine Checkliste mit Personen und Gruppen, die in jede Kategorie fallen könnten.

Ein Plan zum Identifizieren aller Sprachen außer Englisch, die in einer Gemeinschaft gesprochen werden, führt beispielsweise zu einer sehr langen Liste. Andererseits wird ein Plan zur Identifizierung demographisch bedeutender Gruppen von Personen ohne oder mit eingeschränkten Englischkenntnissen oder solchen mit sehr geringen Lese- und Schreibfähigkeiten eine Kategorie hervorbringen: Sprache und Alphabetisierung.

Viele Untergruppen, aus denen breitere Bevölkerungsgruppen bestehen, haben einige der gleichen Kommunikationsbarrieren. Unabhängig davon, ob die beabsichtigte Zielgruppe beispielsweise Spanisch oder Chinesisch spricht oder einfach nicht gut Englisch liest oder versteht, ist die Kommunikationsbarriere ein Sprach- oder Alphabetisierungsproblem und viele der Strategien zur Nachrichtenanpassung können gleich sein. Anstatt Notfallnachrichten in 126 Sprachen zu übersetzen, die in einer Gemeinde gesprochen werden, haben die Gesundheitsbehörden Pilotversuche gestartet, um wichtige Informationen in einfachen, bildbasierten Nachrichten zu übermitteln, die für alle leicht verständlich sind.

Wenn Sie beginnen, gefährdete Bevölkerungsgruppen zu definieren, zu lokalisieren und zu erreichen, helfen Ihnen fünf umfassende, beschreibende Kategorien, gefährdete Personen zu gruppieren:

  • Wirtschaftlicher Nachteil
  • Sprache und Alphabetisierung
  • Medizinische Probleme und Behinderung (physisch, mental, kognitiv oder sensorisch)
  • Isolation (kulturell, geografisch oder sozial)
  • Alter

Viele Individuen lassen sich normalerweise nicht sauber in eine Kategorie oder Bevölkerungsgruppe einordnen oder sie können in mehr als eine fallen. In einigen Fällen fällt eine Person möglicherweise nicht in eine dieser Kategorien, kann aber ein Familienmitglied haben, das dies tut. In diesem Fall können Bemühungen zur Bereitstellung von Notdiensten vereitelt werden, weil Familienmitglieder nicht getrennt werden wollen.

Nach einem weit verbreiteten Notfall können Menschen gestrandet, vertrieben, mittellos, obdachlos oder krank sein. Sie können Herausforderungen erleben, die sie neu verwundbar oder plötzlich außerhalb der Mainstream-Kommunikation machen, auf eine Weise, die sie vor dem Notfall nicht erlebt haben. Diese Faktoren können neue Risikopopulationen schaffen.


3. COVID-19-Datensätze

Ein wesentlicher Bestandteil der Anwendung von KI-basierten Regressionstechniken sind Daten, mit denen die von den Algorithmen trainierten Modelle angepasst werden können. Die Daten müssen reichlich vorhanden sein und die reale Situation so gut wie möglich wiedergeben, da Fehler in den Daten zu Fehlern in den Vorhersagen von Modellen führen können. In diesem Abschnitt werden einige der am häufigsten verwendeten Datensätze zur epidemiologischen Ausbreitung von COVID-19 vorgestellt. Die betreffenden Datensätze werden von verschiedenen lokalen Regierungsbehörden erhoben. Jeder der vorgestellten Datensätze listet die verwendeten Quellen auf. Einige der häufigsten Quellen für die Länder mit einer hohen Fallzahl sind:

Center for Disease Control and Prevention in USA (CDC) [38],

Robert Koch-Institut in Deutschland [39],

Protezione Civile und Ministero della Salute in Italien [40],

Instituto de Salud Carlos III in Spanien [41],

Nationale Gesundheitskommission der Volksrepublik China (NHC) [42] und

Brasiliens Gesundheitsministerium [43].

Die Weltgesundheitsorganisation (WHO) ist eine unabhängige Sonderorganisation der Vereinten Nationen mit Sitz in Genf [44]. Die WHO ist verantwortlich für das Management globaler Gesundheitsprobleme, die Festlegung von Standards, die Gestaltung von Gesundheitsforschungs- und -entwicklungsprogrammen, die Überwachung und Bewertung von Gesundheitstrends, die Bereitstellung technischer Unterstützung für Länder und die Definition strategischer Dokumente auf der Grundlage wissenschaftlicher Erkenntnisse. Am 11. März 2020 hat die WHO COVID-19 zur globalen Pandemie erklärt. Auf der offiziellen Website der WHO befindet sich ein Dashboard mit der Zahl der weltweit bestätigten Fälle und Todesfälle, die täglich gesammelt werden [45]. Diese Daten sind offiziell und haben eine hohe Genauigkeit. Die Daten können in tabellarischer Form heruntergeladen werden, wobei die Daten alphabetisch nach Ländern sortiert sind und seit dem 3. Januar 2020 die Daten jedes Landes täglich sortiert sind. Sie sind in Spalten unterteilt, bestehend aus:

Datum des Berichts D A T E ,

WHO-Region, zu der das Land gehört ( W H O R ),

Anzahl neuer Fälle seit der letzten Tagesmeldung ( C N ),

Anzahl kumulierter Fälle seit Meldebeginn ( C C ),

Anzahl neuer Todesfälle seit der letzten Tagesmeldung ( D N ), und

die Zahl der kumulierten Todesfälle seit Beginn der Meldung ( D C ).

Ein Auszug aus den Daten des WHO-Datensatzes ist in Tabelle 2 dargestellt. Die Spalten sind in der Reihenfolge wie in der zuvor angegebenen Liste beschrieben und mit entsprechenden Codes gekennzeichnet, wobei die Visualisierung der Daten im Datensatz in Abbildung 3 für die Anzahl der bestätigten COVID-19-Fälle und in Abbildung 4 für die verstorbenen Patientendaten dargestellt ist.

Zeitreihendiagramm der Daten im WHO-Datensatz für die Anzahl der im Datensatz enthaltenen COVID-19-Infektionen.

Zeitreihendiagramm der Daten im WHO-Datensatz für die Anzahl der im Datensatz enthaltenen Patiententodesfälle aufgrund von COVID-19.

Tabelle 2

Das Auftauchen von Daten im offiziellen WHO-Datensatz.

DATUM CCLand DIER Cn CC Dn DC
14/02/2021DZAlgerienAFRO210110,51332935
15/02/2021DZAlgerienAFRO198110,71142939
16/02/2021DZAlgerienAFRO183110,89442943
17/02/2021DZAlgerienAFRO175111,06922945
03/01/2020WIEAmerikanischen Samoa-InselnWPRO0000
04/01/2020WIEAmerikanischen Samoa-InselnWPRO0000
05/01/2020WIEAmerikanischen Samoa-InselnWPRO0000

Die John Hopkins University (JHU) ist eine 1876 gegründete private Forschungsuniversität in Baltimore, Maryland [46]. Eine interaktive Karte, die vom Center for Systems Science and Engineering der renommierten University of Maryland erstellt wurde, zeigt genau, wie viele bestätigte Fälle von COVID-19, Todesfälle und genesene Patienten es weltweit gibt. Am 22. Januar 2020 hat die JHU erstmals ihre interaktive Karte vorgestellt [47,48]. Um einen solch detaillierten Überblick zu schaffen, sammeln Wissenschaftler der JHU Daten der WHO, der regionalen und staatlichen Gesundheitsministerien sowie lokaler Medienberichte. Die Website soll Forschern, Regierungsinstitutionen und der Öffentlichkeit ein Werkzeug zur Verfügung stellen, um die Ausbreitung von Infektionen in Echtzeit zu überwachen. Die angezeigten Daten werden in einem GitHub-Repository öffentlich zugänglich gemacht und täglich aktualisiert. Die Daten sind in [49] verfügbar und werden noch regelmäßig aktualisiert. Die Daten werden in drei Zeitreihentabellen für die Anzahl der bestätigten, genesenen und verstorbenen Patienten pro Tag und Land formatiert. Ein Auszug aus dem JHU-Datensatz ist in Tabelle 3 enthalten, wobei “…” für übersprungene Daten steht, die im dargestellten Datenbeispiel nicht gezeigt werden.

Tisch 3

Ein Beispiel für die im JHU-Datensatz enthaltenen Daten.

Provinz/
Zustand
Land/
Region
LatLang1/221/233/213/22
Thailand1510123 411599
Japan3613821 10071086
Singapur1.2833103.833301 432455
Nepal28.166784.2500 12
Malaysia2.5112.50011831306
britisch
Columbia
Kanada49.2827�.12100 424424
VictoriaAustralien�.8136144.963100 229296
QueenslandAustralien�.0167153.400 221221

Der JHU-Datensatz ist bei den Forschern aus vielen Gründen beliebt, darunter die bequeme zeitbasierte Formatierung für jedes Land, regelmäßige Aktualisierungen und Genauigkeit. Aufgrund der großen Datenmenge wurde der Datensatz in globale und US-amerikanische Datensätze aufgeteilt, was eine genauere Datenerfassung pro Landkreis für die USA ermöglicht. Abbildung 5 und Abbildung 6 zeigen die Daten aus dem globalen Datensatz der JHU im Zeitraum vom 22. Januar 2020 bis 17. Februar 2021 für geborgene ( N R ) und bestätigte ( N C ) bzw. verstorbene Fälle ( N D ). Der Wert des Obigen besteht darin, dass die Anzahl der aktiven Fälle ( N A ) aus den obigen Daten abgeleitet werden kann mit:

Zeitreihendiagramm der Daten im JHU COVID-19-Datensatz für bestätigte und genesene Patienten, die im Datensatz enthalten sind.

Zeitreihendiagramm der Daten im JHU COVID-19-Datensatz für verstorbene Patienten, die im Datensatz enthalten sind.

Die Rolle des Europäischen Zentrums für die Prävention und die Kontrolle von Krankheiten (ECDC) besteht darin, die europäische Verteidigung gegen übertragbare Krankheiten zu stärken [50]. Es bietet wissenschaftliche Beratung für EU-Regierungen und -Institutionen, gewährleistet die Früherkennung und Analyse bevorstehender Bedrohungen für die EU, es unterstützt die Regierungen der EU-Mitgliedstaaten bei der Vorbereitung auf Krankheitsausbrüche, analysiert und interpretiert Daten aus den EU-Mitgliedstaaten zu 52 übertragbaren Krankheiten und Erkrankungen. Der Datensatz ist unter [51] verfügbar, wird jedoch nicht mehr aktualisiert, da das ECDC seit dem 14. Dezember 2020 auf wöchentliche statt tägliche Berichterstattung umgestellt hat. Die Daten sind nach Ländern sortiert (Spalte “Länder und Gebiete”-Land) und enthalten das Datum— in formatierten und getrennten Formaten zusammen mit der Anzahl der neu gemeldeten Fälle (C) und Todesfälle (D) für das angegebene Datum. Zusammen mit diesen Informationen enthält der Datensatz die GeoID des Landes, den Ländergebietscode (CC), die 2019 erfassten Bevölkerungsdaten für das Land (POP), einen Kontinent, auf dem sich das Land befindet, und die kumulierte Zahl der COVID-19-Fälle pro 100.000 Menschen in der Bevölkerung für 14 Tage. Das Beispiel der im Datensatz enthaltenen Daten ist in Tabelle 4 angegeben, wobei die im Datensatz enthaltenen Daten in Abbildung 7 für die Infizierten und in Abbildung 8 für die verstorbenen Patienten dargestellt sind.

Zeitreihendiagramm der Daten im ECDC-Datensatz für bestätigte Patienten, die im Datensatz enthalten sind.

Zeitreihendiagramm der Daten im ECDC-Datensatz für verstorbene Patienten, die im Datensatz enthalten sind.

Tabelle 4

Ein Beispiel für Daten, die im ECDC-Datensatz enthalten sind.

Datum C D Land geoID CC POPKontinentKumulativ
für 14 Tage
pro 100.000
25/07/20201571ChinaCNCHN 1,43 · 10 9 Asien0.081323
24/07/20201391ChinaCNCHN 1,43 · 10 9 Asien0.073163
23/07/20201350ChinaCNCHN 1,43 · 10 9 Asien0.066677
22/07/2020742ChinaCNCHN 1,43 · 10 9 Asien0.059563
21/07/2020840ChinaCNCHN 1,43 · 10 9 Asien0.055866
20/07/20201300ChinaCNCHN 1,43 · 10 9 Asien0.051751
19/07/2020801ChinaCNCHN 1,43 · 10 9 Asien0.043661

Die Worldometer-Website [52] bietet detaillierte Daten zur Anzahl der Fälle pro Land, mit einer hervorragenden Verfolgung der Anzahl der aktiven Fälle, der wiederhergestellten Fälle, der Todesfälle und anderer Metriken pro Land. Die Daten werden in einem Tabellenformat für die täglichen Aktualisierungen bereitgestellt, die die Anzahl neuer Fälle und kumulativer Fälle enthalten, während die historischen Daten als Grafiken mit Daten von der WHO angezeigt werden. Dennoch werden die Daten nicht ohne weiteres in tabellarischer Form zum Download bereitgestellt, was die Nutzung für Forscher erschwert. Dieser Datensatz wurde in einigen ersten Forschungsarbeiten verwendet [53, 54], aber mit der Zeit nimmt die Komplexität der Datenerfassung von der Website zu, was die Verwendung der zuvor genannten Datensätze zu einer einfacheren Ressource macht.

Im Bereich der serologischen Prävalenz von COVID-19 bei Patienten gibt es viele Forschungsthemen [55,56,57]. Einige dieser Untersuchungen weisen darauf hin, dass die Zahl der Patienten in Wirklichkeit viel höher ist, als die Daten in den öffentlichen Datensätzen vermuten lassen [58]. Öffentliche Datensätze zur serologischen Prävalenz sind ebenfalls verfügbar, wie z. B. von CDC [59] und Our World in Data [60]. Nicht viele Forscher haben diese Daten für die KI-basierte Spread-Modellierung verwendet, möglicherweise aufgrund der geringeren Publizität solcher Datensätze im Vergleich zu Datensätzen, die in diesem Papier einen Überblick erhalten.


Bessere Daten, um Gutes zu tun: Verantwortungsvoller Umgang mit Big Data und Künstlicher Intelligenz

Beschreibt Möglichkeiten, den Wert von Big Data und künstlicher Intelligenz (KI) für das soziale Wohl zu nutzen und wie neue Familien von KI-Algorithmen es jetzt ermöglichen, automatisch und maßstabsgetreu umsetzbare Erkenntnisse zu gewinnen. Über das Internetgeschäft oder kommerzielle Anwendungen hinaus gibt es bereits zahlreiche Beispiele dafür, wie Big Data und KI dazu beitragen können, gemeinsame Entwicklungsziele wie die Agenda 2030 für nachhaltige Entwicklung und die Ziele für nachhaltige Entwicklung (SDGs) zu erreichen. Aber ethische Rahmenbedingungen im Einklang mit der zunehmenden Akzeptanz dieser neuen Technologien bleiben notwendig – nicht nur in Bezug auf den Datenschutz, sondern auch in Bezug auf die Auswirkungen und Folgen der Nutzung von Daten und Algorithmen. Das Potenzial von KI, sowohl Chancen für den gesellschaftlichen Nutzen als auch Risiken für die Menschenrechte zu schaffen, hat in der Öffentlichkeit zugenommen. Die Entwicklung erfordert, die Chance zu nutzen, die zukünftige Nutzung positiv zu gestalten und gleichzeitig sicherzustellen, dass die Technologien Ungleichheiten beseitigen und eine Erweiterung der digitalen Kluft vermeiden.


Labor für Geodäsie und Geomatik

Das Labor für Geodäsie wurde 1957 gegründet, zwei Jahre nach der Gründung des ehemaligen Lehrstuhls für Geodäsie mit dem Gründungsgesetz der Ingenieurschule und der Fakultät für Bauingenieurwesen der Aristoteles-Universität Thessaloniki. 1983 wurde das Labor für Geodäsie gemäß Gesetz 1268/82 und Ministerialbeschluss B1/200/232.83 in die Abteilung für Geotechnik, Abteilung für Bauingenieurwesen, AUTH eingegliedert. Im Juni 2004 wurde das Laboratorium für Geodäsie in Laboratorium für Geodäsie und Geomatik (FEK 872/14-6-2004, v. B) umbenannt und seine Geschäftsordnung genehmigt.

Derzeit ist Professor Paraskevas Savvaidis der Direktor des Labors.

Der Begriff Geodäsie bezeichnet die Disziplin, deren Hauptaufgabe die Bestimmung der genauen Form der gesamten Erdoberfläche oder bestimmter Teile davon ist. Es ist der praktische Teil einer kombinierten Anwendung von Trigonometrie und Geographie unter Verwendung höherer mathematischer und insbesondere statistischer Methoden zur Berechnung der erforderlichen Parameter. Eine geodätische Messung hat mit Winkeln, Entfernungen und Höhenunterschieden zu tun, sie wird mit Hilfe geeigneter Instrumente und statistischer Methoden durchgeführt. Es kann mit einer bestimmten Genauigkeit die Form des betrachteten Geländes (oder Objekts) erzeugen. Außerdem befasst sich Geodäsie mit dem gesamten wissenschaftlichen Hintergrund zu Koordinatensystemen, geografischen Projektionen, geografischen Informationssystemen und anderen Disziplinen im Zusammenhang mit der Messung von Geodaten. Darüber hinaus befasst sich das Labor mit der Überwachung von Verformungen technischer Bauwerke und Bodenbewegungen. Schließlich umfasst der breitere Kontext des Labors für Geodäsie und Geomatik den technischen, rechtlichen und wirtschaftlichen Rahmen für die Schätzung des Grundstückswerts, das Kataster und die Enteignung von Grundstücken.
Der Begriff Geomatik charakterisiert eine moderne Disziplin, die die Erfassung, Modellierung, Analyse und Verwaltung von raumbezogenen Daten, d.h. nach ihrem Standort identifizierten Daten, integriert. Basierend auf dem wissenschaftlichen Rahmen der Geodäsie verwendet es terrestrische, marine, luftgestützte und satellitengestützte Sensoren, um räumliche und andere Daten zu erfassen. Es umfasst den Prozess der Umwandlung raumbezogener Daten aus verschiedenen Quellen in gemeinsame Informationssysteme mit genau definierten Genauigkeitsmerkmalen. Geomatik nutzt Wissen aus verschiedenen Disziplinen, wie zum Beispiel: Geodäsie und Vermessung (Erd-, Himmels- und Orbitalkoordinatensystemmessungen), Ortung und Navigation (zB mit GPS), digitale Bildgebung und Kartierung mittels Photogrammetrie (terrestrische oder luftgestützte Fotografien) oder Fernerkundung (Bilder von Satellitensensoren), Geographische Informationssysteme (GIS), Land Tenure Systems (Landinformationsmanagement, Landvermessung, Landrecht).

Das Labor ist verantwortlich für die Vermittlung der Konzepte, Methoden, Geräte & Instrumente, Entwicklungen, Produkte und Anwendungen aller oben genannten Aufgaben auf Bachelor- und Postgraduiertenebene. Durch das wissenschaftliche Personal des Labors werden insbesondere folgende Lehrveranstaltungen unterrichtet:

Kurse für Studenten zur Erreichung des Bachelor Abschlusses

Aufbaustudiengänge

  1. Angewandte Geoinformation
  2. Erfassung, Verarbeitung und Verwaltung von Umweltdaten: Geographische Informationssysteme
  3. Land- und Facility-Management
  4. Anwendung von IC-Techniken im Verkehr
  5. Vermessungsmethoden für Denkmäler, historische Ensembles und Kunstwerke
  6. Identifizierung und Überwachung der Verformung historischer Bauwerke und ihrer Umgebung

Mitglieder des Labors:

Doktoranden:

  • Antoniou Sotiris, Bauingenieur
  • Charalampakis Emmanuel, Bauingenieur
  • Chatziathanasiou Anastasia, Bauingenieurin
  • Demertzi Alexandra, Förster
  • Dimoula Sophia, Bauingenieurin
  • Dasiou Constantina, Bauingenieurin
  • Kyriakidou Kelly, Planungs- und Entwicklungsingenieur
  • Mangos Eudoxia, Land- und Vermessungsingenieur
  • Pazarlidis Simos, Bauingenieur
  • Papadopoulou Ioanna, Land- und Vermessungsingenieur
  • Sevvastas Stephanos, Geologe
  • Sidiropoulos Andreas, Land- und Vermessungsingenieur
  • Spyridaki Polyxena, Bauingenieurin
  • Stergioudis Argyrios, Förster
  • Tokmakidis Panagiotis Land- und Vermessungsingenieur
  • Tzimourtas Vasileios, Informatik
  • Voulgaroudis Aristides, Bauingenieur

Ausstattung des Labors

Das Labor umfasst Räume im zweiten Obergeschoss des Gebäudes für Vermessungstechnik sowie im Erdgeschoss und Untergeschoss des Unterrichtsbereichs Vermessungstechnik.

Forschung

Forschungsschwerpunkte des Labors:
• Verformungsmessung von technischen Bauwerken und Erdrutschen
• Überprüfung der geometrischen Qualität von Konstruktionen und Industrieprodukten
• Anwendung von Satellitenpositionierungssystemen GNSS/GPS (in der Geodäsie, Geodynamik und der kinematischen Steuerung von Fahrzeugen)
• Installation und Betrieb einer kontinuierlichen Referenz-GPS-Station und einer Wetterstation
• Anwendungen geographischer Informationssysteme (GIS)
• Katastrophenmanagementsysteme (DMS)
• Untersuchung des Einflusses der Atmosphäre auf geodätische Messungen
• Vermessungsmethoden für Baudenkmäler und archäologische Stätten
• Geodätische Messtechnik, Kalibrierung und Justierung von geodätischen Instrumenten
• Beantragung und Recherche von Eigentumsurkunden
• Enteignung und Kataster
• Historische geodätische und kartografische Probleme

Im Rahmen dieser Aktivitäten wurden viele Forschungsprojekte durchgeführt, von denen einige in Zusammenarbeit mit anderen Labors und Universitäten in Griechenland und im Ausland durchgeführt wurden.

Infrastruktur - Ausrüstung

Das Labor verfügt über eine gute Lehr- und Forschungsausstattung bestehend aus:
• Totalstationen
• GPS-Empfänger zur Satellitenpositionierung
• räumliche 3D-Identifikationssysteme
• Robotersystem zum Messen von Punkten im Raum
• Kalibriersystem von geodätischen Instrumenten und Laserinterferometer zur Messung von Schwingungen von Bauwerken
• Autokollimator zur Überprüfung optischer geodätischer Instrumente
• Optische Instrumente zur Messung von Winkeln und Höhenunterschieden (Theodoliten - Levels)
• Lasertheodolite
• Elektronische Theodoliten und EDM-Instrumente

Auch ein Computerraum mit ca. 20 Terminals gehört zur Infrastruktur des Labors.


Arten und Quellen von Daten

In diesem Abschnitt haben wir die wichtigsten Arten und Quellen von Daten beschrieben, die bei der geografischen Analyse von Krebs am häufigsten verwendet werden, zusammen mit Beispielen für ihre Anwendung. Diese sind in Tabelle 1 zusammengefasst.

1. Krebsregister

Ein Krebsregister ist ein Datenerfassungssystem, das Krebsfälle verfolgt, die in einer bestimmten Einrichtung oder einem bestimmten geografischen Gebiet diagnostiziert oder behandelt wurden. Krebsregister sammeln in der Regel Informationen aus Krankenakten, die von Krankenhäusern, Ärzten, anderen Pflegeeinrichtungen, medizinischen Labors und/oder Versicherern bereitgestellt werden. Die von Krebsregistern erhobenen Daten werden unter sicheren Bedingungen gespeichert, um die Vertraulichkeit zu wahren.

Historisch gesehen waren die beobachteten geografischen Unterschiede in der Krebsinzidenz von großem Interesse, um mehr über Faktoren zu verstehen, die das Risiko dieser Krankheiten beeinflussen können. Solche Unterschiede haben als Grundlage für Studien über Migrantenpopulationen und Akkulturationsunterschiede in Migrantengruppen gedient.Sie waren möglich, weil Krebs eine der wenigen chronischen Krankheiten ist, für die in vielen Ländern der Welt seit vielen Jahren qualitativ hochwertige bevölkerungsbasierte Krankheitsüberwachungssysteme vorhanden sind.

Krebsregisterdaten wurden in großem Umfang für die Erstellung von Krebsatlanten [39], Studien zur Analyse der räumlichen Verteilung bestimmter Krebsherde [40] und Studien zur Bewertung der räumlichen Clusterbildung [41] verwendet. In jüngster Zeit wurden Krebsstudien durchgeführt, die auf den kombinierten Ressourcen von Krebsregisterdaten und zunehmend verfügbaren GIS-Tools aufbauen. Da die Adresse zum Zeitpunkt der Diagnose für die meisten Registerfälle verfügbar ist, kann sie geokodiert und in ein GIS mit Informationen zu sozialen und Umweltattributen in verschiedenen geografischen Maßstäben integriert werden. Beispiele für solche Ansätze sind Studien zu Krebs im Kindesalter, die Ratenunterschiede in Gebieten mit geringem und intensivem Pestizideinsatz in der Landwirtschaft untersuchen [42], starke Verkehrsmuster [43] oder hohe Luftverschmutzung [44]. Alternativ können Krebsregisterdaten dazu dienen, bevölkerungsbezogene Fälle für Studien mit Fall-Kontroll- oder Kohortendesigns zu identifizieren, die wiederum in ein GIS für Flächenattributdaten integriert werden können. Beispiele für diesen Ansatz sind Fall-Kontroll-Studien zu Leukämie bei Kindern und Verkehrsmustern [45–48]. und eine Studie zur Brustkrebsinzidenz im Zusammenhang mit dem Aufenthalt in Gebieten mit hohem Pestizideinsatz in einer großen Fall-Kontroll-Studie [49, 50]. und in einer großen Kohortenstudie [51].

Für diese Art von Studien bieten Krebsregisterdaten sowohl eine Reihe von Stärken als auch Einschränkungen. Zu den primären Stärken zählen die umfassende geografische Abdeckung, detaillierte Informationen zu Krankheitsuntergruppen und umfangreiche kovariable Informationen zu demografischen Merkmalen für jeden neu diagnostizierten Krebsfall. Da Registerdaten aus Krankenakten abstrahiert werden und Informationen für eine zeitliche Momentaufnahme widerspiegeln, umfassen die Haupteinschränkungen das Fehlen historischer Informationen zu verschiedenen Faktoren von potenziellem Interesse, einschließlich Wohnmobilität und relevantem persönlichen Verhalten. Krebsregister sammeln in der Regel Informationen über die Wohnadresse von Personen, bei denen zum Zeitpunkt dieser Diagnose neu Krebs diagnostiziert wurde. Da dies die Standortinformationen sind, die als Grundlage für nationale und internationale Statistiken zu den Krebsraten in Gebieten dienen, sind sie auch nützlich, um mit Ratenunterschieden verbundene Gebietsmerkmale zu untersuchen, obwohl Rückschlüsse auf ätiologische Assoziationen für diese Krankheiten mit langer Latenz begrenzt sind und sogar mehr für wohnmobil mobile Bevölkerungen.

Das Surveillance, Epidemiology and End Results (SEER)-Programm des National Cancer Institute (NCI) bietet über seine SEER*Stat-Software Inzidenzdaten auf Kreisebene für seine Mitgliedsregister, die einen Teil oder alle acht Bundesstaaten abdecken. Da es direkten Zugriff auf einzelne Krebsdatensätze bietet, müssen Benutzer zunächst eine Datenzugriffsvereinbarung unterzeichnen. Sterblichkeitsdaten auf Kreisebene für die gesamten Vereinigten Staaten, die vom National Center for Health Statistics (NCHS) gesammelt und gepflegt werden, sind auch über SEER*Stat zugänglich. Diese Daten umfassen alle Todesursachen, nicht nur Krebstodesfälle. Ausgewählte Krebsdaten auf Bezirksebene können auch über die Krebssterblichkeitskarten und -grafiken des NCI und die Websites der staatlichen Krebsprofile abgerufen werden. Letzteres wurde 2003 eingeführt und enthält eine Vielzahl innovativer statistischer Grafiken. Viele einzelne staatliche Register bieten auch zusätzliche geografisch bezogene Daten an. Die Website des Florida Cancer Data System ermöglicht es den Benutzern beispielsweise, bei Bedarf eine Vielzahl von Tabellen auf Kreis- und Einrichtungsebene sowie Karten auf Kreisebene zu erstellen. Das Kentucky Cancer Registry bietet auch eine Kartierungsanwendung auf Kreisebene. Der Staat New York bietet Mitte der 1990er Jahre einen begrenzten Satz von Daten auf Postleitzahlebene für die vier häufigsten Krebsarten an. Derzeit sind landesweit keine Daten zur Krebsinzidenz auf Kreisebene verfügbar.

2. Bevölkerungsdaten

Das United States Census Bureau ist die wichtigste Quelle für Daten über die Gesamtbevölkerung, in den meisten Ländern gibt es vergleichbare Behörden. Da die Krebsraten berechnet werden, indem die Anzahl der Fälle durch die Anzahl der Risikopersonen geteilt wird, werden Volkszählungsdaten häufig als "Nennerdaten" bezeichnet. Volkszählungsdaten sind in elektronischer Form über die Website des Volkszählungsbüros unter http://www.census.gov verfügbar. Die Daten stehen in drei Grundformaten zur Verfügung. American FactFinder ist eine webbasierte Anwendung, die es Benutzern ermöglicht, geografische Ebenen zu durchsuchen, um interessante Datentabellen zu finden. Es ist am nützlichsten für Datenabfragen, die gut fokussiert sind. Daten können auch über einen FTP-Server heruntergeladen werden. Diese Methode erhält Rohtextdateien, die das Schreiben von Computercode erfordern, bevor auf die Daten leicht zugegriffen oder sie manipuliert werden können. Diese Methode ist am nützlichsten für Benutzer mit großem Datenbedarf, die über Kenntnisse in der Datenbankprogrammierung verfügen. Der dritte Ansatz besteht darin, DVDs vom Kundendienstzentrum des Census Bureau zu kaufen. Die DVDs ermöglichen die Datenausgabe in vielen Tabellenkalkulations- und Datenbankformaten und erleichtern den Benutzern die Verarbeitung und Analyse der Daten. Darüber hinaus gibt es eine Vielzahl von Drittanbietern, die ähnliche Dienste anbieten [52].

Die vier primären Datendateien, die aus der Volkszählung 2000 hervorgegangen sind, werden als Summary File 1 bis Summary File 4 (SF1–SF4) bezeichnet. SF1 enthält Bevölkerungszählungen nach Alter, Geschlecht, Rasse und ethnischer Zugehörigkeit sowie grundlegende Wohnungseigenschaftsinformationen für die gesamte Bevölkerung bis auf Blockebene. SF2 enthält ähnliche Informationen, detailliert für ethnische Untergruppen, Indianerstämme und Ureinwohner Alaskas sowie Individuen mit mehreren Rassen. Diese Daten werden unterdrückt, wenn die Gesamtzahl der Personen in einer gegebenen geografischen Einheit weniger als 100 beträgt. SF3 enthält detaillierte Wohndaten, demografische und sozioökonomische Daten auf der Ebene der Volkszählungsblockgruppe oder des Zählbezirks, basierend auf einem Langformular, das an einen gesendet wurde in sechs Haushalten. Volkszählungsblockgruppen haben eine optimale Bevölkerungsgröße von 1.500 und Volkszählungsbezirke haben eine optimale Bevölkerungsgröße von 4.000, obwohl die Bevölkerungszahlen in der Praxis stark variieren. SF4 enthält die gleichen Informationen wie SF3 für detaillierte Rassen- und ethnische Gruppen, mit der gleichen Unterdrückungsregel wie SF2. Zusätzlich zu diesen vier primären Datendateien bietet das Census Bureau auch digitale kartografische Grenzdateien für politische Einheiten im Land sowie Annäherungen an Postleitzahlengrenzen, die als ZIP Code Tabulation Areas (ZCTAs) bekannt sind.

Das Census Bureau führt auch den American Community Survey (ACS) durch, eine laufende Umfrage, die jedes Jahr landesweit 3 ​​Millionen Haushalte erreichen soll. Ziel dieser Erhebung ist es, die Veröffentlichung detaillierter demografischer und sozioökonomischer Informationen häufiger als einmal im Jahrzehnt zu ermöglichen. Daten für geografische Einheiten mit insgesamt mehr als 65.000 Personen werden jährlich veröffentlicht, während Daten für kleinere geografische Einheiten entweder auf einem gleitenden Drei- oder Fünfjahresdurchschnitt basieren. Es wird die lange Form der Volkszählung ersetzen, die 2010 nicht durchgeführt wird. Es wird zweifellos eine schwierige Anpassungsphase geben, da Forscher im öffentlichen Gesundheitswesen beginnen, ACS-Daten zu verwenden.

Gegenwärtig ist der Umfang der verfügbaren Informationen für Übergangszeitpunkte recht begrenzt und leitet sich aus Schätzungen des Census Bureau auf Bundesstaats- oder Bezirksebene ab. Diese Schätzungen werden bei der Berechnung der Krebsraten von Bundes- und Landesbehörden verwendet, obwohl einige Untersuchungen gezeigt haben, dass sie nicht besonders zuverlässig sind, insbesondere Schätzungen auf Kreisebene für bestimmte Rassengruppen [53]. Verschiedene private Anbieter veröffentlichen Schätzungen zwischen den Volkszählungen für Gebiete, die kleiner als Landkreise sind, obwohl es unmöglich ist, ihre Genauigkeit zu überprüfen. Da viele Anbieter die Schätzungen des Census Bureau als Kontrollen verwenden (z. B. müssen Anbieterschätzungen der Postleitzahlen in einem Landkreis zur Schätzung des Census Bureau für diesen Landkreis addiert werden), unterliegen Anbieterschätzungen notwendigerweise denselben Einschränkungen wie die Schätzungen des Census Bureau. Schließlich veröffentlichen einige Landesregierungen ihre eigenen Bevölkerungsschätzungen. Im Allgemeinen wird davon ausgegangen, dass diese Schätzungen Verbesserungen gegenüber den Schätzungen des Census Bureau darstellen, da mehr lokale Kenntnisse und eine breitere Nutzung von Datenquellen vorhanden sind. Uns sind jedoch keine unabhängigen Versuche zur Bewertung dieser Behauptungen bekannt. Beispiele sind die Bevölkerungsschätzungen und -prognosen, die vom kalifornischen Finanzministerium veröffentlicht wurden, und die vom Epidemiologieprogramm des Krebsforschungszentrums von Hawaii. Die letztgenannten Bevölkerungsschätzungen wurden als Reaktion auf die Besorgnis entwickelt, dass die einheimische Bevölkerung Hawaiis in früheren Volkszählungen erheblich unterzählt war, und werden vom NCI zur Berechnung der nationalen Krebsraten verwendet.

Die Volkszählung von 2000 ermöglichte es den Befragten, mehr als eine Rasse auszuwählen, obwohl Krebsdaten auf diese Weise erst am Anfang gesammelt werden. Infolgedessen müssen die Bevölkerungsdaten aus dem Jahr 2000 auf die früheren Einzelrassenkategorien "überbrückt" werden, um Vergleiche mit früheren Daten zu ermöglichen. NCHS hat einen ausgeklügelten Brückenalgorithmus entwickelt, der Alter, Geschlecht, Verteilung einzelner Rassengruppen innerhalb von Landkreisen und andere Kovariaten berücksichtigt [54]. Dieser Algorithmus spiegelt sich in den Bevölkerungsprojektionen und -schätzungen von 1991–2003 wider, die auf der NCI-Website veröffentlicht und in ihre Statistiksoftware aufgenommen wurden. Das Census Bureau selbst verwendet bei seinen Schätzungen einen einfacheren Algorithmus, der den einzelnen Rassen gleiche Anteile jeder Kombination aus mehreren Rassen zuordnet [55]. Angesichts der Vielzahl von verfügbaren Bevölkerungsschätzungen und Methoden zu deren Berechnung ist es wichtig, die Quellen dieser Daten zu kennen und zu wissen, wie sie die mit einem bestimmten Forschungsergebnis verbundene Konfidenz beeinflussen können. Dies gilt insbesondere für kleinflächige Analysen, bei denen die Unsicherheiten am höchsten sind.

Zusätzlich zu den oben genannten Problemen ist es wichtig zu erkennen, dass selbst die Zählungen der zehnjährigen Volkszählungen nicht so genau sind, wie allgemein angenommen. Die Volkszählung stellt einen Versuch dar, die Bevölkerung an einem einzigen Datum aufzuzählen, aber ausnahmslos werden einige Personen übersehen oder doppelt gezählt. Diese Unter- und Überzählungen unterscheiden sich je nach Rasse, sozioökonomischem Status und geografischem Gebiet, was die Krebsraten möglicherweise verzerrt [56, 57].

Unzählige epidemiologische und geografische Studien verwenden in gewisser Weise Volkszählungsdaten, einschließlich der meisten Studien, die Krebsraten für geografische Gebiete berichten. Es ist auch üblich, Volkszählungsdaten zu verwenden, wenn keine Daten auf individueller Ebene verfügbar sind, insbesondere für Indikatoren des sozioökonomischen Status [58–60], des Bildungsstands [61] und der Wohnmerkmale [7]. Tabelle 2 fasst die in diesem Abschnitt beschriebenen Bevölkerungsdatenquellen zusammen.

3. Umfragen

Neben dem Census Bureau als primärer Quelle soziodemografischer Merkmalsdaten können in einigen Gebieten spezielle Erhebungsdaten für Bevölkerungsgruppen wertvolle Informationen zu diesen Merkmalen liefern. Eine der bekanntesten Umfragen dieser Art ist vielleicht das von der CDC gesponserte Behavioral Risk Factor Surveillance System (BRFSS), das als „weltweit größte Telefonumfrage“ angepriesen wird. Dieses fortlaufende System nationaler Erhebungen wurde in den 1980er Jahren entwickelt, um Trends bei verhaltensbezogenen Risikofaktoren auf Bundesstaatsebene zu verfolgen, und bietet auch Teilbereichs- und Untergruppeninformationen in einigen der größeren Staaten. Einige Forscher haben die Prävalenz von Verhaltensrisikofaktoren auf Kreisebene geschätzt, indem sie die landesweiten BRFSS-Daten mit demografischen Daten auf Kreisebene kombiniert haben [62, 63]. Eine Mapping-Anwendung zum Anzeigen von BRFSS-Antwortdaten auf Bundesstaats- und Stadtebene ist ebenfalls verfügbar http://apps.nccd.cdc.gov/gisbrfss/.

Eine weitere bekannte nationale Erhebung ist der National Health and Nutrition Examination Survey (NHANES) der NCHS, der seit 1960 existiert und Fragebogeninformationen mit einem nationalen körperlichen Untersuchungs- und Biomonitoring-Programm kombiniert. NCHS sponsert auch eine National Health Care Survey (NHCS), eine National Health Interview Survey (NHIS), eine National Immunization Survey (NIS) und eine National Survey of Family Growth (NSFG). Ähnlich angelegte groß angelegte Bemühungen, zeitliche und örtliche Unterschiede für gezieltes Gesundheitsverhalten innerhalb eines Bundesstaates zu verfolgen, umfassen die kalifornische Tabakumfrage, die Frauengesundheitsumfrage und die Gesundheitsinformationsumfrage (Tabelle 3).

Obwohl Daten aus Bevölkerungsumfragen bisher nicht umfassend in GIS-Studien eingeflossen sind, könnten diese Ressourcen in Zukunft eine gewisse Gelegenheit bieten, regionale Unterschiede in verhaltensbezogenen Risikoprofilen zu charakterisieren, die auf bestimmte Gesundheitsergebnisse ausgerichtet sind.

4. Umweltdaten

In den letzten Jahrzehnten hat die Verfügbarkeit von räumlich erfassten Umweltdaten in den Vereinigten Staaten und anderen Ländern stark zugenommen. Viele dieser Daten wurden als Ergebnis von Umweltvorschriften oder staatlich finanzierten Forschungsbemühungen gesammelt. Beispiele für US-Programme zur Erfassung räumlicher Daten zu Konzentrationen oder Freisetzungen von Schadstoffen in der Umwelt sind das National Assessment of Water Quality Program (NAWQA) des United States Geological Survey (USGS) http://water.usgs.gov/nawqa, das Environmental Protection Agency (EPA) National Air Toxics Assessment Database http://www.epa.gov/ttn/atw und das Toxic Release Inventory-Programm der EPA http://www.epa.gov/tri. Die EPA hat Umweltdaten in einer Dachdatenbank namens Envirofacts Data Warehouse http://www.epa.gov/enviro/ organisiert. Einige Staaten haben umfangreiche Anstrengungen unternommen, um zusätzliche Umweltdaten zu erheben. Ein Beispiel ist das kalifornische Programm zur Berichterstattung über den Einsatz von Pestiziden (http://www.cdpr.ca.gov/docs/pur/purmain.htm), das die Meldung des gesamten landwirtschaftlichen Pestizideinsatzes auf der Ebene der Sektionen des Public Land Survey Systems (eine Einheit von ungefähr einer Quadratkilometer groß).

Bei der Verwendung dieser Daten zur Zuordnung von "Exposition" in epidemiologischen Studien sind mehrere Aspekte zu berücksichtigen. Überwachungsdaten, die zu regulatorischen Zwecken erhoben werden, sollten sorgfältig auf ihre Nützlichkeit für die Schätzung individueller Expositionen bewertet werden. Auch das Verbleib und der Transport der Chemikalien in der Umwelt sollten berücksichtigt werden. Einfache Maßnahmen in der Nähe von Orten der Freisetzung von Chemikalien können den Transport der Chemikalie in der Umwelt möglicherweise nicht angemessen beschreiben. Der wahrscheinliche Expositionsweg sollte zusammen mit der biologischen Plausibilität für einen Zusammenhang zwischen der Exposition und der untersuchten Krankheit berücksichtigt werden. Schließlich wurden viele der Umweltüberwachungsdaten innerhalb des letzten Jahrzehnts gesammelt, und die Rekonstruktion der Exposition über längere Zeiträume, die für die Krebsinzidenz relevanter ist, wird eine Herausforderung darstellen.

Umweltdatenbanken werden in epidemiologischen Studien zu Krebs eingesetzt, um festzustellen, ob die Sterblichkeits- oder Inzidenzraten von Krankheiten in Gebieten mit spezifischen Umweltbelastungen (z analytisches epidemiologisches Studiendesign (dh Fall-Kontroll-, Kohortenstudien). Mit wenigen Ausnahmen wird der Wohnort als geografischer Standort für die Zuordnung der Exposition verwendet. Im Folgenden geben wir einen Überblick über die verschiedenen Arten von räumlich erfassten Expositionsdaten und geben Beispiele für deren Verwendung in epidemiologischen Studien zu Krebserkrankungen.

Ein. Daten zur Wasserqualität

Die US-EPA ist für die Regulierung der öffentlichen Trinkwasserversorgung zuständig. Eine Wasserversorgung ist geregelt, wenn sie 5 oder mehr Anschlüsse hat oder mindestens 25 Personen versorgt. Eine routinemäßige Überwachung ist für eine Vielzahl von Verunreinigungen und natürlich vorkommenden Elementen erforderlich, darunter Desinfektionsnebenprodukte, Arsen, Nitrat, bestimmte Pestizide und flüchtige organische Chemikalien. Staaten sind verpflichtet, Verstöße gegen die Maximum Contaminant Levels (MCL) der EPA zu melden. Seit 1996 ist die EPA verpflichtet, eine National Contaminant Occurrence Database (NCOD) mit Vorkommensdaten sowohl für regulierte als auch für nicht regulierte Schadstoffe in öffentlichen Wassersystemen zu unterhalten. Der Großteil der historischen Messdaten der öffentlichen Wasserversorgung liegt jedoch bei den Bundesländern. Einige Staaten erfassen den Breiten- und Längengrad der Orte, an denen die Wasserproben entnommen wurden (Ort im Verteilungssystem, Eintrittspunkt in das Verteilungssystem oder Standort der Wasserquelle). Die Standortinformationen sind in der Regel nicht öffentlich zugänglich, können aber Forschern mit entsprechender Genehmigung zur Verfügung stehen.

Die Wasserqualitätsdaten werden von den Versorgungsunternehmen gemeldet und um für epidemiologische Studien nützlich zu sein, muss eine Verbindung zu den versorgten Städten hergestellt werden. In größeren Ballungsräumen können mehrere Versorgungsunternehmen eine Stadt versorgen, oder umgekehrt kann ein Versorgungsunternehmen mehrere Städte und Unterbezirke versorgen. Daher ist es wichtig, eine genaue Verbindung zwischen den Adressen der Studienteilnehmer und den Wasserversorgungsunternehmen herzustellen, um eine Fehlklassifizierung der Exposition zu vermeiden. Langzeit-Expositionsmetriken können berechnet werden, wenn eine Lebensgeschichte der Wasserquelle gesammelt wird. Beispiele für Studien, die Daten zur Überwachung der Wasserqualität der öffentlichen Versorgung verwenden, umfassen Studien zu Desinfektionsnebenprodukten [64–66], Nitrat [67, 68], Radionukliden [69, 70] und Arsen [71, 72]. Schadstoffe wie Desinfektionsnebenprodukte und flüchtige organische Verbindungen variieren in der Konzentration in einem öffentlichen Versorgungsnetz. GIS-basierte Modellierungsbemühungen wurden verwendet, um die Expositionsschätzungen an einzelnen Wohnungen zu verbessern [73, 74].

Im Gegensatz zur öffentlichen Wasserversorgung sind private Hausbrunnen nicht reguliert und es gibt keine Überwachungspflichten, obwohl Brunnenbesitzer in einigen Bundesstaaten verpflichtet sein können, beim Verkauf einer Immobilie einige Informationen zur Wasserqualität bereitzustellen. Einige Bundesstaaten haben repräsentative Erhebungen zur Wasserqualität privater Brunnen durchgeführt [75]. 1988–1990 wurde von der EPA eine landesweite Umfrage durchgeführt [76, 77]. Die US-amerikanischen Centers for Disease Control (CDC) führten in neun Bundesstaaten des Mittleren Westens eine Untersuchung zu coliformen Bakterien, Nitrat und Atrazin in privaten Brunnen durch. http://www.cdc.gov/nceh/emergency/WellWater/default.htm. Der Mangel an historischen Wasserqualitätsdaten für private Brunnen schränkt die Expositionsabschätzung für epidemiologische Studien zu Krebs in dieser Population ein.

Das USGS NAWQA-Programm sammelt seit 1991 Informationen über Nährstoffe, Pestizide, flüchtige organische Verbindungen, Radionuklide und Hauptionen in mehr als 50 Flusseinzugsgebieten und Grundwasserleitern. Alle Messdaten beinhalten räumliche Attribute. Da das Ziel dieser Forschungsbemühungen darin besteht, die Qualität des Umgebungswassers (nicht unbedingt die gleiche wie die des Trinkwassers) zu verstehen, sind diese Daten möglicherweise nicht von direktem Nutzen für epidemiologische Studien. Die NAWQA-Daten können jedoch bei der Modellierung von Bemühungen zur Schätzung der Schadstoffkonzentrationen in privaten Bohrlöchern nützlich sein. Die EPA unterhält außerdem zwei Datenmanagementsysteme mit Informationen zur Wasserqualität, die von Bundes-, Landes- und privaten Gruppen für Oberflächen- und Grundwasser in allen 50 Bundesstaaten gesammelt wurden. Das Legacy Data Center (LDC) ist eine archivierte Datenbank mit Daten vom Anfang des 20. Jahrhunderts bis Ende 1998. STORET enthält Daten, die ab 1999 gesammelt wurden, zusammen mit älteren dokumentierten Daten des LDC. Tabelle 4 fasst die Quellen der Wasserqualitätsdaten zusammen.

B. Luftverschmutzer

Die EPA sammelt und verarbeitet Überwachungsdaten von Staaten zu sechs Kriterien von Luftschadstoffen (Kohlenmonoxid, Stickstoffdioxid, Ozon, Schwefeldioxid, Feinstaub [PM10 und PM2,5], Blei) und gefährlichen Luftschadstoffen, von denen 188 identifiziert wurden. Die gefährlichen Luftschadstoffe (HAP), auch als Luftgifte bekannt, sind solche, für die es Hinweise auf ein erhöhtes Krebsrisiko oder negative Auswirkungen auf die Fortpflanzung gibt.Ein routinemäßiges Monitoring von HAPs ist nicht erforderlich und die vorhandenen Monitoringdaten sind im Vergleich zu den Kriterien Luftschadstoffe spärlich verteilt. Die Daten werden in der Air Quality Systems-Datenbank gepflegt.

Die EPA erfasst HAP-Emissionen aus stationären Quellen (Punkte und Gebiete) und mobilen Quellen in einer Datenbank des National Toxics Inventory (NTI) (jetzt kombiniert mit den Daten der National Emissions Trends in der National Emissions Inventory-Datenbank), die alle drei Jahre aktualisiert wird. Um die Aktualisierungen durchzuführen, erhält die EPA Emissionsinventare von staatlichen Umweltbehörden und ergänzende Daten aus anderen Quellen, einschließlich des Toxic Release Inventory. Die erste bundesweite Bestandsaufnahme erfolgte 1996. Der räumliche Maßstab der Emissionsdaten variiert je nach Quellenart. Standortinformationen für Emissionen aus Punktquellen sind verfügbar, während Emissionen aus Flächenquellen auf Kreisebene geschätzt werden. Unter Verwendung eines Ausbreitungsmodells hat die EPA die jahresdurchschnittlichen HAP-Konzentrationen für jeden Zählbezirk in den angrenzenden USA geschätzt [78]. Diese Datensätze sind in Tabelle 5 zusammengefasst.

Luftschadstoffüberwachungsdaten wurden in Studien zu Lungenkrebs verwendet, bei denen im Allgemeinen eine Art Ausbreitungsmodell verwendet wurde, um die Exposition für Ballungsräume oder Volkszählungsgebiete abzuschätzen [79–81]. Kürzlich wurden die modellierten HAP-Konzentrationen verwendet, um die Inzidenz von Krebs bei Kindern zu bewerten [44]. Andere Studien haben auch die Verkehrsdichte und die Krebsinzidenz bei Kindern untersucht [43].

C. Landwirtschaftliche Pestizide

In den Vereinigten Staaten ist das US-Landwirtschaftsministerium (USDA) die wichtigste Bundesbehörde, die für die Sammlung von Informationen über den Einsatz von Pestiziden bei Nutzpflanzen und Nutztieren verantwortlich ist. Die Verfügbarkeit historischer Daten zum Einsatz von Pestiziden in der Landwirtschaft in den USA wurde überprüft [82]. Die erste umfassende Erhebung über den Einsatz von Pestiziden bei Nutzpflanzen erfolgte 1964 [83] und danach wurden bis in die 1970er Jahre regelmäßige Erhebungen durchgeführt. Diese frühen Erhebungen lieferten nur nationale oder regionale Schätzungen des kulturpflanzenspezifischen Einsatzes einzelner Pestizide. Ab 1986 lieferten die USDA-Erhebungen bundesstaatenspezifische Schätzungen des Pestizideinsatzes bei Feldfrüchten in den wichtigsten Anbaustaaten und ab 1990 lagen auch halbjährliche bundesstaatliche Schätzungen des Pestizideinsatzes bei Obst und Gemüse vor.

Mehrere Staaten haben ihre eigenen Informationen über den Einsatz von Pestiziden gesammelt, aber die meisten Datenerhebungsbemühungen wurden erst kürzlich durchgeführt. Oregon hat ab 2002 Gesetze erlassen, die die Berichterstattung über den Einsatz von Pestiziden in der Landwirtschaft vorschreiben, jedoch wurden für weitere Jahre keine ausreichenden Mittel bereitgestellt. Die bundesstaatlichen Daten zum Einsatz von Pestiziden sind am umfassendsten für Kalifornien, das seit den 1950er Jahren eine Art Meldepflicht für landwirtschaftliche Pestizide hat, die derzeit vom California Department of Pesticide Regulation überwacht wird. Ab 1969 wurden Informationen über Pestizide mit eingeschränkter Verwendung veröffentlicht. Im Jahr 1990 verlangte ein neues Gesetz von den Landwirten, jeden Pestizideinsatz auf Kulturpflanzen monatlich zu melden, einschließlich des Namens und des Herstellers des Pestizids, der behandelten Kultur, der öffentlichen Landvermessung, in der das Pestizid ausgebracht wurde, Datum und Uhrzeit der Anwendung, behandelte Hektar, Art der Anwendung und Anwendungsraten. Die Verfügbarkeit dieser detaillierten Daten zum Pestizideinsatz auf der räumlichen Skala eines Abschnitts führte zur Entwicklung von Methoden zur Verknüpfung der Einsatzdaten mit Krebsinzidenzdaten [84] zur Verwendung in einer ökologischen Studie zu Krebs im Kindesalter auf Ebene der Volkszählungsgebiete [42] . Die kalifornischen Daten wurden auch in einer Fall-Kontroll-Studie zu Bauchspeicheldrüsenkrebs [85], einer Kohortenstudie zu Brustkrebs [51] und einer noch unveröffentlichten Fall-Kontroll-Studie zu Krebs im Kindesalter verwendet. Es wurden auch Methoden entwickelt, um die potenzielle Pestizidbelastung in Wohnhäusern abzuschätzen, indem Daten zum Pestizideinsatz mit Pflanzenkarten verknüpft werden [86, 87]. Die "Exposition" von Pestiziden wird Häusern zugewiesen, die Ackerfelder in Entfernungen haben, die die wahrscheinliche Pestiziddrift widerspiegeln. Tabelle 6 fasst die Quellen der Pestiziddaten zusammen.

D. Industrielle Freisetzungen und gefährliche Abfälle

Der Emergency Planning and Community Right to Know Act von 1986 in den Vereinigten Staaten verlangt von bestimmten Industrien, der EPA jährlich ihre Freisetzungen und Abfallentsorgungsaktivitäten mit bestimmten giftigen Chemikalien zu melden. Die Daten stehen der Öffentlichkeit in einer Datenbank namens Toxics Release Inventory (TRI) zur Verfügung. Fertigungs-, Metall-, Kohlebergbau- und Stromerzeugungsanlagen müssen die geschätzte Menge giftiger Chemikalien melden, die in die Umwelt (Luft, Wasser, Land oder unterirdische Injektionen) freigesetzt, vor Ort behandelt oder zur weiteren Abfallbehandlung außerhalb des Standorts transportiert werden . Eine Berichterstattung ist nur für Einrichtungen erforderlich, die bestimmte Mindestkriterien in Bezug auf die produzierten oder verarbeiteten, bioakkumulierbaren Pfunde giftiger Chemikalien erfüllen, unterliegen niedrigeren Mindestberichterstattungsanforderungen. Die Vorschriften erfordern keine Umweltüberwachung, daher handelt es sich bei vielen Daten um Schätzungen von Freisetzungen. Standortinformationen werden vom Unternehmen gemeldet und nicht von der EPA überprüft. Einige der Stärken und Grenzen dieser Daten für Umweltgesundheitsstudien wurden beschrieben [88, 89].

Kanada verlangt auch die Meldung von Emissionen von Chemikalien, die von der Internationalen Agentur für Krebsforschung als wahrscheinlich, wahrscheinlich und als mögliche menschliche Karzinogene für 64 Industriesektoren eingestuft wurden [90]. Diese Daten sind Teil der Canadian Environmental Quality Database, die auch ein nationales Inventar kommunaler Abfalldeponien, kommunale Trinkwasserdaten, Luftqualitätsdaten sowie historische Industriestandort- und Produktivitätsdaten enthält [91]. Eine große Fall-Kontroll-Studie in mehreren Provinzen von 18 Krebszentren wurde mit dem Ziel durchgeführt, die Wohngeschichten nach Postleitzahlen mit der Umweltdatenbank für die Krebsüberwachung zu verknüpfen. Bisher wurde eine Analyse der Wohnnähe zu 7 Arten von Schwerindustrien und des Risikos für Non-Hodgkin-Lymphome (NHL) veröffentlicht. Die Wohnnähe innerhalb von 3,2 km von Kupferhütten und <0,8 km von Sulfitzellstofffabriken war mit einem erhöhten NHL-Risiko verbunden [92], nachdem die Beschäftigung in den bewerteten Industrien bereinigt wurde. Frühere Fall-Kontroll-Studien zu NHL [93] und Leukämie [94] fanden ein erhöhtes Risiko für den Aufenthalt in der Nähe von Industriestandorten, aber diese Studien stützten sich auf eine selbstberichtete Einschätzung der Entfernung des Wohnortes von Industrieanlagen, die einem Erinnerungsbias unterliegen kann .

Die EPA unterhält Informationen über den Standort von Abfallbehandlern, Abfallbehandlungsanlagen und Abfalldeponien, die gemäß dem Resource and Conservation Recovery Act (RCRA) und dem Comprehensive Environmental Response, Compensation and Liability Act (CERCLA), auch bekannt als Superfund ., geregelt sind Gesetz in der RCRAInfo-Datenbank, die über das Envirofacts Data Warehouse verfügbar ist. Informationen über den Standort von Unternehmen, denen Genehmigungen zur Einleitung von Abfällen in Flüsse erteilt wurden, werden in der Datenbank des Genehmigungs-Compliance-Systems (auch über Envirofacts erhältlich) verwaltet. Diese Datenquellen sind in Tabelle 7 zusammengefasst.

Die U.S. Agency for Toxic Substances and Disease Registry (ATSDR) wurde 1980 vom Kongress unter CERCLA gegründet. Seit 1986 ist das ATSDR verpflichtet, an jedem der Standorte auf der nationalen Prioritätenliste der EPA, den als am gefährlichsten eingestuften Abfallstandorten, eine Bewertung der öffentlichen Gesundheit durchzuführen. Ziel dieser Bewertungen ist die Bewertung der Exposition gegenüber Gefahrstoffen und der gesundheitlichen Auswirkungen der in der Umgebung des Standorts lebenden Bevölkerung [95]. Die Lage der Standorte und Informationen zu spezifischen Schadstoffen nach Art der Medien (Boden, Luft, Wasser), in denen sie gemessen wurden, sind auf der Website der ATSDR-HazDat-Datenbank verfügbar. Einschränkungen dieser Überwachungsdaten für Krebsstudien umfassen die begrenzten historischen Messdaten. Einige Studien haben die Krebsinzidenz bei Personen untersucht, die potenziell gefährlichen Mülldeponien [96] oder kommunalen Mülldeponien und Verbrennungsanlagen ausgesetzt sind [97, 98].

Die Rekonstruktion der historischen Exposition gegenüber Freisetzungen aus Industrien und Abfalldeponien ist für Studien zu Krebserkrankungen mit langer Latenzzeit schwierig. Einige Studien haben Nähe und Aufenthaltsdauer in der Nähe von Standorten untersucht. Eine lange Aufenthaltsdauer innerhalb einer halben Meile einer chemischen Fabrik, die PCBs herstellt, war positiv mit den PCB-Konzentrationen im Blutserum korreliert [99]. Keine der bisherigen epidemiologischen Studien hat jedoch festgestellt, ob die Nähe zu einer bedeutenden Exposition gegenüber Chemikalien von den Standorten führte. Auch die Verwechslung nach dem sozioökonomischen Status sollte bewertet werden, da sich Produktions- und Abfallanlagen eher in Vierteln mit niedrigerem sozioökonomischem Status befinden [100] und der sozioökonomische Status mit der Inzidenz einiger Krebsarten in Verbindung gebracht wird.

5. Fernerkundung/Luftbildaufnahmen

Zu den Fernerkundungsdaten gehören Bilder der Erde und unserer Atmosphäre, die von Satelliten oder Flugzeugen aufgenommen wurden. Die Nützlichkeit der Informationen hängt weitgehend von der Technologie ab, die verwendet wurde, um die Bilder zu erhalten, und der zusätzlichen Verarbeitung, die zur Georeferenzierung der Daten durchgeführt wurde. Das USGS Earth Resources Observation Systems Data Center (EDC) ist der Hauptspeicher dieser Daten in den USA. Luftaufnahmen sind seit Anfang des 20. Jahrhunderts verfügbar. Digitale Orthophoto Quadrangles (DOQs), digitale Bilder von Luftbildern, die die Bildeigenschaften eines Fotos mit den georeferenzierten Eigenschaften einer Karte kombinieren, sind von 1987 bis heute über EDC erhältlich. DOQs sind in Schwarzweiß-, Naturfarben- oder Farbinfrarotbildern erhältlich und haben eine Bodenauflösung von 1 Meter. Satellitenbilder, die für die Charakterisierung der Landbedeckung nützlich sind, umfassen die bereits 1972 verfügbaren multispektralen Landsat-Bilder. USGS hat historische Landnutzungs- und Landbedeckungsdaten erstellt, die aus Luftaufnahmen der 1970er und 1980er Jahre abgeleitet wurden (die Landnutzungs- und Landbedeckungsdaten). Ein nationaler Landbedeckungsdatensatz (NLCD) aus Landsat-Multispektralbildern für 1992 ist verfügbar. Der nationale Datensatz Multi-Resolution Land Characteristics (MRLC), der die Landbedeckung im Jahr 2000 darstellt, wird derzeit entwickelt. Tabelle 8 fasst diese Datenquellen zusammen. Die Anwendung dieser Daten auf Krebsstudien umfasste die Kartierung von Wohnorten auf Kulturpflanzenkarten, um ihre wahrscheinliche Exposition gegenüber landwirtschaftlichen Pestiziden abzuschätzen [49, 87, 101].

Zentralisierte Verfügbarkeit von Geodaten

Die von uns beschriebenen Datenquellen stehen bei einer Vielzahl von Bundes- und Landesbehörden zur Verfügung. Die Website für geografische Informationssysteme des National Cancer Institute http://gis.cancer.gov bietet Links zu vielen dieser Quellen sowie Links zu frei verfügbaren geografischen Tools und Ressourcen. Es gab auch mehrere Initiativen, um Geodaten in einem gemeinsamen, zentralisierten Informationssystem zusammenzustellen [102]. Solche zentralisierten Systeme versprechen standardisierte Datencodiersysteme, Dateiformate und geografische Grenzdefinitionen. Sie erleichtern auch den Austausch von Metadaten oder beschreibenden Informationen zu den Daten. Führend in diesem Unterfangen war das Federal Geographic Data Committee http://www.fgdc.gov. Das FGDC ist ein Konsortium von Bundesbehörden mit der Aufgabe, die Nationale Geodateninfrastruktur (NSDI) zu entwickeln, eine Reihe von Technologien, Richtlinien, Standards und Verfahren, die die Erstellung und den Austausch von Geodaten erleichtern. Zu den Leistungen des FGDC gehört die Einrichtung des National Spatial Data Clearinghouse, eines zentralen Katalogs mit Links zu Geodaten und Metadaten. Im Jahr 2003 wurde ein erweitertes Webportal http://www.geodata.gov eingerichtet, um den Zugang zu diesen Daten weiter zu erleichtern. Viele Staaten haben die nationale Clearingstelle mit eigenen Clearingstellen nachgeahmt. Das New Yorker GIS Clearinghouse http://www.nysgis.state.ny.us beispielsweise verfügt über mehr als 400 Mitgliedsinstitutionen, die Links zu Tausenden von Datensätzen bereitstellen.

Die Gemeinschaft zur Sammlung von Krebsdaten muss diese Ressource noch vollständig nutzen. Im Januar 2004 waren über die nationale Clearingstelle keine Daten zur Krebsinzidenz oder -mortalität verfügbar. Das Stichwort "Krebs" bot nur einen Link zur Environmental Defense Scorecard, einer Website, von der aus auf verschiedene Umweltdatensätze zugegriffen werden kann, insbesondere auf die von der EPA veröffentlichten http://www.scorecard.org. Die meisten der sehr begrenzten Daten in der Kategorie "Gesundheit und Krankheit des Menschen", auf die über das Webportal zugegriffen werden konnte, bestanden in einigen Bundesstaaten aus Krankenhäusern und anderen Gesundheitseinrichtungen. In einigen Fällen wären die Schritte, die erforderlich wären, um Krebsdaten über die nationale Clearingstelle zur Verfügung zu stellen, bescheiden. Zum Beispiel sind die Mortalitätsdaten des NCI, die Dateien mit geografischen Grenzen und die zugehörigen Metadaten, die auf seiner Website für Krebssterblichkeitskarten und -grafiken verwendet werden, leicht zugänglich und können heruntergeladen werden, und es wären nur geringfügige Änderungen erforderlich, um sie mit den FGDC-Standards in Einklang zu bringen.

Das DataWeb http://www.TheDataWeb.org ist eine weitere zentralisierte Online-Datenquelle, die aus einem Netzwerk von Online-Datenbibliotheken besteht, die in Zusammenarbeit zwischen der CDC und dem US Census Bureau erstellt wurden. Die Bibliotheken bestehen sowohl aus Mikrodaten als auch aus aggregierten Daten in zahlreichen Kategorien. Zu den verfügbaren Gesundheitsdaten gehören NHANES- und NHIS-Erhebungsdaten sowie die Sterblichkeit auf Kreisebene. Der Zugriff auf Informationen in DataWeb erfolgt über DataFerret, eine Anwendung, die Datensätze zum Herunterladen durch den Benutzer vorbereitet. Es ermöglicht Benutzern, einen "Datenkorb" von Variablen auszuwählen und diese Variablen dann nach Bedarf neu zu codieren. Benutzer entwickeln und passen Datentabellen an und können sie in verschiedenen gängigen Formaten auf ihren Desktop herunterladen.


Daten sind keine Ware

Vor einigen Jahren verglichen Branchenanalysten Big Data mit Öl. Wie Öl würde Big Data eine wirtschaftliche Revolution anheizen und die Welt verändern. Rückblickend scheint klar, dass die Behandlung von Daten als eine Art Ware fehlgeleitet und gefährlich ist. Daten sind kein Öl – wir sind es. Es ist unser Leben, unser Verhalten und unsere Gewohnheiten. Es geht darum, wohin wir gehen, was wir essen, wo wir leben, wie viel Geld wir verdienen, welche Menschen wir mögen und welche nicht.

Wir können Daten nicht wie Öl behandeln, weil Daten unendlich wertvoller sind. Ein besseres Verständnis von Daten beginnt damit, dass man akzeptiert, dass Daten wie Schnee in verschiedenen Formen vorliegen. Und zum Guten oder zum Schlechten ist nicht alles gleich.