Mehr

Automatisches Reduzieren der Größe von Etiketten, damit sie in Polygone passen

Automatisches Reduzieren der Größe von Etiketten, damit sie in Polygone passen


Ich möchte Beschriftungen automatisch verkleinern, damit sie in die Polygone passen. Die größte Schriftgröße ist 12 und ich möchte die Schriftgröße verringern, um sie auf die Grenzen der Polygone zu beschränken.

Es gibt eine zeitaufwändige Option, den Feldrechner zu verwenden, indem das Polygonflächenfeld verwendet wird. Gibt es eine andere Möglichkeit, wie ein Plugin oder ähnliches, um die Schriftgröße automatisch zu reduzieren?


  • Sie können die Schriftgröße in Metern statt in Punkten konstant machen, damit sie mit der Karte skaliert. Wählen Sie im Layer-Styling Meter at Scale statt Points aus.

  • Sie können die Größe in Punkten (oder Metern) auch mithilfe eines Ausdrucks zu einer Funktion der Polygonfläche machen.

    Die Polygone unten sind 10000 Quadratkilometer außen und kleiner in der Mitte der Karte. Der Ausdruck für die Größe (Maßstab) war einfach:

    $fläche/200000

    Eine komplexere Formel kann nützlich sein.

Vergrößert skaliert es mit der Karte:

Sie können die Schriftgröße auf der Fläche des Polygons basieren.


Ich bin mir nicht sicher, ob Sie dies bereits versucht haben, aber Sie können das bearbeiten Platzierung Ihrer Etiketten:

Layereigenschaften > Etiketten > Platzierung

Auswählen Versatz vom Schwerpunkt und wähle die ganzes Polygon und den mittleren Quadranten.

Es sei denn, Sie bearbeiten die Skalierungsbasierte Sichtbarkeit in dem Rendering-Bereich (Layereigenschaften > Etiketten > Rendering), erscheinen die Beschriftungen beim Vergrößern oder Verkleinern konstant in der gleichen Größe, was dazu führen kann, dass die Beschriftungen den Umfang des Polygons überschreiten.


Wie wählt man eine Schriftart für extrem begrenzten Platz aus, d.h. passt der LESEBARSTE Text auf kleinstem Raum?

Beim Erstellen von Berichten und Dashboards für Benutzer habe ich oft nur sehr begrenzten Platz. Normalerweise verwende ich Arial oder Arial Narrow, aber UI ist nicht mein Fachgebiet, daher möchte ich wissen, wie Sie eine optimale Schriftart bestimmen, um den am besten lesbaren Text auf kleinstem Raum einzupassen?

Hier ist ein Beispiel: Denken Sie daran, dass dies nur ein Beispiel ist, da der Platz oft begrenzt ist, z. B. wenn Sie eine Million Spalten in einen Bericht quetschen müssen usw.


Automatisches Reduzieren der Größe von Beschriftungen, damit sie in Polygone passen - Geografische Informationssysteme

Weltweit (online), 26. September 2020

Online-Modehändler haben in den letzten zehn Jahren erheblich an Popularität gewonnen, sodass Kunden Hunderttausende von Produkten entdecken können, ohne mehrere Geschäfte besuchen oder lange Schlangen an der Kasse anstellen zu müssen. Allerdings stehen die Kunden mit aktuellen Online-Shopping-Lösungen noch vor mehreren Hürden. Kunden fühlen sich zum Beispiel oft mit der großen Auswahl an Sortiment und Marken überfordert. Darüber hinaus mangelt es nach wie vor an effektiven Vorschlägen, die den Stilpräferenzen oder den Größen- und Passformbedürfnissen der Kunden gerecht werden, um sie in ihrem Entscheidungsprozess zu unterstützen. Darüber hinaus ist Social Shopping in der Mode in den letzten Jahren dank Plattformen wie Instagram aufgetaucht und bietet eine sehr interessante Möglichkeit, Mode auf radikal neue Weise zu erkunden. Solche jüngsten Entwicklungen stellen spannende Herausforderungen für die Forschungsgemeinschaften von Empfehlungssystemen und maschinellem Lernen dar.

Dieser Workshop zielt darauf ab, Forscher und Praktiker aus den Bereichen Mode, Empfehlungen und maschinelles Lernen zusammenzubringen, um offene Probleme in den oben genannten Bereichen zu diskutieren. Dabei geht es darum, interdisziplinäre Problemstellungen mit all ihren Herausforderungen zu adressieren. In diesem Workshop möchten wir den Dialog zwischen Fachleuten aus der Mode- und E-Commerce-Branche und Wissenschaftlern von Empfehlungssystemen beginnen und einen neuen Raum für die Zusammenarbeit zwischen diesen Gemeinschaften schaffen, der für die Bewältigung dieser tiefgreifenden Probleme erforderlich ist. Um vielfältige Möglichkeiten zum Meinungs- und Erfahrungsaustausch in einem so aufstrebenden Bereich zu bieten, nehmen wir Papiereinreichungen zu etablierten und neuartigen Ideen sowie neue interaktive Beteiligungsformate entgegen.

Keynote Speaker, Ralf Herbrich, Senior Vice President Data Science and Machine Learning bei Zalando

Ralf Herbrich leitet eine Vielzahl von Abteilungen und Initiativen, deren Kern die Forschung im Bereich Künstliche Intelligenz (KI) zwischen Data Science, Machine Learning und Economics ist, damit Zalando der Ausgangspunkt für Fashion-KI wird. Ralfs Teams wenden die Wissenschaft in vielen etablierten Wissenschaftsbereichen an, darunter Computer Vision, Natural Language Processing, Data Science und Wirtschaftswissenschaften. Ralf kam im Januar 2020 als SVP Data Science and Machine Learning zur Zalando SE.
Seine Forschungsinteressen umfassen Bayes'sche Inferenz und Entscheidungsfindung, natürliche Sprachverarbeitung, Computer Vision, Lerntheorie, Robotik, verteilte Systeme und Programmiersprachen. Ralf ist einer der Erfinder des Drivatars™-Systems in der Forza Motorsport-Reihe sowie des TrueSkill™-Ranglisten- und Matchmaking-Systems in Xbox Live.

Hauptredner, James Caverlee, Professor an der Texas A&M University

James Caverlee ist Professor und Lynn '84 und Bill Crane '83 Faculty Fellow an der Texas A&M University im Department of Computer Science and Engineering. Seine Forschung zielt auf Themen aus Empfehlungssystemen, Social Media, Information Retrieval, Data Mining und aufkommenden vernetzten Informationssystemen ab. Seine Gruppe wurde unter anderem von NSF, DARPA, AFOSR, Amazon, Google unterstützt. Caverlee ist Associate Editor für IEEE Transactions on Knowledge and Data Engineering (TKDE), IEEE Intelligent Systems und Social Network Analysis and Mining (SNAM). Er war allgemeiner Co-Vorsitzender der 13. ACM International Conference on Web Search and Data Mining (WSDM 2020) und war Mitglied des leitenden Programmkomitees von Veranstaltungsorten wie KDD, SIGIR, SDM, WSDM, ICWSM und CIKM

Themenvorschläge für Einreichungen sind (aber nicht beschränkt auf):

  • Computer Vision in Fashion (Bildklassifizierung, semantische Segmentierung, Objekterkennung.)
  • Deep Learning in Empfehlungssystemen für Mode.
  • Erlernen und Anwenden des Modestils (personalisierter Stil, implizite und explizite Vorlieben, Budget, Sozialverhalten usw.)
  • Größen- und Passformempfehlungen durch Mining-Kunden implizite und explizite Größen- und Passformpräferenzen.
  • Modellierung von Artikeln und Marken in Größe und Passform ähnlich.
  • Nutzung von Ontologien und Artikelmetadaten in Fashion und Retail (NLP, Social Mining, Search.)
  • Behebung des Kaltstartproblems sowohl für Artikel als auch für Benutzer in der Modeempfehlung.
  • Wissenstransfer in multidomänen Modeempfehlungssystemen.
  • Hybride Empfehlungen zur Kundenhistorie und zum Online-Verhalten.
  • Multi- oder Cross-Domain-Empfehlungen (Social Media und Online-Shops)
  • Techniken zur Wahrung der Privatsphäre zur Verfolgung der Kundenpräferenzen.
  • Verständnis sozialer und psychologischer Faktoren und Auswirkungen des Einflusses auf die Modeentscheidungen der Benutzer (wie Instagram, Influencer usw.)

Um die Reproduzierbarkeit der im Workshop vorgestellten Forschungsarbeiten zu fördern, haben wir auf der fashionXrecsys-Website eine Liste offener Datensätze zusammengestellt. Alle Einreichungen präsentieren Arbeiten, die in mindestens einem der beschriebenen offenen Datensätze bewertet wurden, werden für die beste Arbeit, die beste Studentenarbeit und die beste Demo-Auszeichnung berücksichtigt, die von unseren Sponsoren vergeben werden.

Mentorschaft

Erstmals bieten wir Mentoring-Möglichkeiten für Studierende an, die von Branchenkollegen ein erstes Feedback zu ihrer Arbeit erhalten möchten. Unser Ziel ist es, die Chancen auf die Veröffentlichung innovativer studentischer Arbeiten zu erhöhen und einen frühzeitigen Austausch zwischen Wissenschaft und Industrie zu fördern. Als Mentee sollten Sie mit mindestens einer Begutachtung Ihrer Arbeit vor dem Abgabetermin rechnen. Wenn Ihre Arbeit angenommen wird, sollten Sie auch mindestens eine Feedback-Sitzung zu Ihrer Demo, Ihrem Poster oder Ihrer mündlichen Präsentation erwarten.

Wenn Sie am Mentoring-Programm teilnehmen möchten, melden Sie sich bitte per E-Mail.

Anweisungen zur Papiereinreichung

  • Alle Einreichungen und Bewertungen werden elektronisch über EasyChair abgewickelt. Papers müssen bis zum 29. Juli 2019 um 23:59 Uhr AoE (Anywhere on Earth) eingereicht werden.
  • Einreichungen sollten nach dem einspaltigen ACM RecSys-Format erstellt werden. Long Papers sollten über substanzielle Beiträge von bleibendem Wert berichten. Die maximale Länge beträgt 14 Seiten (ohne Literaturhinweise) im neuen einspaltigen Format. Bei kurzen Arbeiten beträgt die maximale Länge 7 Seiten (ohne Referenzen) im neuen einspaltigen Format.
  • Das Peer-Review-Verfahren ist doppelblind (d. h. anonymisiert). Das bedeutet, dass alle Einreichungen keine Angaben enthalten dürfen, die die Autoren oder ihre Organisation identifizieren. Geben Sie insbesondere keine Namen und Zugehörigkeiten der Autoren an, anonymisieren Sie Zitate zu Ihren früheren Arbeiten und vermeiden Sie die Angabe anderer Informationen, die eine Identifizierung der Autoren ermöglichen würden, wie z. B. Danksagungen und Finanzierung. Es ist jedoch akzeptabel, in dem Papier ausdrücklich auf die Unternehmen oder Organisationen zu verweisen, die Datensätze, gehostete Experimente oder bereitgestellte Lösungen bereitgestellt haben, wenn dies speziell für das Verständnis der im Papier beschriebenen Arbeit erforderlich ist.
  • Eingereichte Arbeiten sollten original sein. Technische Berichte oder die Offenlegung von ArXiv vor oder gleichzeitig mit der Einreichung des Workshops sind jedoch zulässig, sofern sie nicht einem Peer-Review unterzogen werden. Die Organisatoren ermutigen auch Autoren, ihren Code und ihre Datensätze öffentlich zugänglich zu machen.
  • Akzeptierte Beiträge erhalten entweder einen mündlichen oder Posterpräsentationsslot im Workshop. Mindestens ein Autor jedes akzeptierten Beitrags muss am Workshop teilnehmen und seine Arbeit präsentieren. Sollte keiner der Autoren teilnehmen können, wenden Sie sich bitte an die Workshop-Organisation.
  • Alle akzeptierten Papiere werden über die Programm-Website verfügbar sein. Darüber hinaus befinden wir uns derzeit im Gespräch mit Springer, um die Workshop-Beiträge in einem Sonderheft zu veröffentlichen.

Zusätzliche Anweisungen zur Einreichung von Demos

Die Beschreibung der Demo sollte nach dem standardmäßigen zweispaltigen ACM SIG-Prozedereformat mit einer Seitenbegrenzung erstellt werden. Die Einreichung sollte enthalten:

  • Eine Übersicht über den Algorithmus oder das System, das den Kern der Demo bildet, einschließlich Zitaten zu allen Veröffentlichungen, die die Arbeit unterstützen.
  • Eine Diskussion über den Zweck und die Neuheit der Demo.
  • Eine Beschreibung des erforderlichen Setups. Wenn das System über eine installierbare Komponente (z. B. eine mobile App) oder eine Website verfügt, die Benutzer während oder nach der Konferenz nutzen können, erwähnen Sie dies bitte.
  • Ein Link zu einem kommentierten Screenshot Ihres Systems in Aktion, idealerweise ein Video (Dieser Abschnitt wird für die kamerafertige Version akzeptierter Beiträge entfernt)

  • Bewerbungsfrist: 10. Juni 2020
  • Einsendeschluss: 29. Juli 2020
  • Einsendeschluss: 14. August 2020
  • Autorenbenachrichtigung: 21. August 2020
  • Deadline für kamerafertige Version: 4. September 2020
  • Workshop: 26. September 2020

Ausgewählte Beiträge des Workshops sind erschienen in Empfehlungssysteme in Mode und Einzelhandel, von Nima Dokoohaki, Shatha Jaradat, Humberto Jesús Corona Pampín und Reza Shirvany. Teil der Buchreihe Springer's Lecture Notes in Electrical Engineering (LNEE, Band 734)

    [Präsentation] Die Bedeutung der Markenaffinität bei Empfehlungen für Luxusmode, von Diogo Goncalves, Liwei Liu, João Sá, Tiago Otto, Ana Magalhães und Paula Brochado [Präsentation] Probabilistic Color Modeling of Clothing Items, Mohammed Al-Rawi und Joeran Beel [Präsentation ] Identifizierung der Benutzerästhetik für Modeempfehlungen, von Liwei Liu, Ivo Silva, Pedro Nogueira, Ana Magalhães und Eder Martins
    [Präsentation] Aufmerksamkeit bringt Ihnen die richtige Größe und Passform in der Mode von Karl Hajjar, Julia Lasserre, Alex Zhao und Reza Shirvany [Präsentation] Towards-in-the-Loop Online-Modegrößenempfehlung mit geringer kognitiver Belastung, von Leonidas Lefakis, Evgenii Koriagin, Julia Lasserre und Reza Shirvany
  • Heidi Woelfle (University of Minnesota, Wearable Technology Lab), Jessica Graves (Sefleuria), Julia Lasserre (Zalando), Paula Brochado (FarFetch), Shatha Jaradat (KTH Royal Institute of Technology)

Shatha Jaradat

KTH Royal Institute of Technology

Nima Dokoohaki

Humberto Corona

Reza Shirvany

Im Folgenden finden Sie eine nicht erschöpfende Liste von Datensätzen, die für den fashionXrecsys-Workshop relevant sind. Teilnehmer, die Arbeiten in einem dieser Datensätze präsentieren, werden automatisch Teil des Challenge-Tracks des Workshops. Wenn es einen öffentlichen Datensatz gibt, der Ihrer Meinung nach in die Liste aufgenommen werden sollte, wenden Sie sich bitte an das Organisationskomitee.

Produktgrößenempfehlungen und Passformvorhersagen sind entscheidend, um das Einkaufserlebnis der Kunden zu verbessern und die Rücksendequoten zu reduzieren. Die Modellierung des Passform-Feedbacks der Kunden ist jedoch aufgrund seiner subtilen Semantik eine Herausforderung, die sich aus der subjektiven Bewertung von Produkten und einer unausgewogenen Etikettenverteilung ergibt (die meisten Feedbacks sind "Fit"). Diese von ModCloth und RentTheRunWay gesammelten Datensätze, die derzeit die einzigen öffentlich zugänglichen fit-bezogenen Datensätze sind, könnten verwendet werden, um diese Herausforderungen anzugehen und den Empfehlungsprozess zu verbessern.

Beschreibung: DeepFashion ist eine umfangreiche Kleiderdatenbank, die über 800.000 verschiedene Modebilder enthält, von gut gestellten Ladenbildern bis hin zu uneingeschränkten Verbraucherfotos. DeepFashion ist mit umfangreichen Informationen zu Kleidungsstücken versehen. Jedes Bild in diesem Datensatz ist mit 50 Kategorien, 1.000 beschreibenden Attributen, Begrenzungsrahmen und Kleidungsstücken gekennzeichnet. DeepFashion enthält außerdem über 300.000 Cross-Pose/Cross-Domain-Bildpaare.

Beschreibung: DeepFashion2 ist ein umfassender Modedatensatz. Es enthält 491K verschiedene Bilder von 13 beliebten Bekleidungskategorien sowohl von kommerziellen Einkaufsläden als auch von Verbrauchern. Es verfügt insgesamt über 801.000 Kleidungsstücke, bei denen jedes Element in einem Bild mit Maßstab, Okklusion, Zoom, Ansichtspunkt, Kategorie, Stil, Begrenzungsrahmen, dichten Orientierungspunkten und Pixelmaske beschriftet ist. Es gibt auch 873K kommerzielle Kleidung für Verbraucher Paare.

Beschreibung: Street2Shop hat 20.357 beschriftete Bilder von Kleidung, die von Menschen in der realen Welt getragen wird, und 404.683 Bilder von Kleidung von Shopping-Websites. Der Datensatz enthält 39.479 Paare genau passender Artikel, die in Straßenfotos getragen und in Shop-Bildern gezeigt werden.

Beschreibung: Fashionista ist ein neuartiger Datensatz zur Untersuchung von Kleidungsanalysen, der 158.235 Modefotos mit zugehörigen Textanmerkungen enthält.

Beschreibung: Der Paper Doll-Datensatz ist eine große Sammlung von mit Tags versehenen Modebildern ohne manuelle Anmerkungen. Es enthält über 1 Million Bilder von chictopia.com mit zugehörigen Metadaten-Tags, die Merkmale wie Farbe, Kleidungsstück oder Anlass kennzeichnen.

Beschreibung: Fashion-MNIST ist ein Datensatz von Zalandos Artikelbildern – bestehend aus einem Trainingsset mit 60.000 Beispielen und einem Testset mit 10.000 Beispielen. Jedes Beispiel ist ein 28x28-Graustufenbild, das einem Label aus 10 Klassen zugeordnet ist.

Beschreibung: ModaNet ist ein Datensatz für Street Fashion-Bilder, der aus Anmerkungen zu RGB-Bildern besteht. ModaNet bietet für jedes Bild mehrere Polygon-Anmerkungen.

Beschreibung: Der Datensatz enthält über 50.000 Kleidungsbilder, die für eine feinkörnige Segmentierung gekennzeichnet sind.

Beschreibung: Dies ist ein E-Commerce-Datensatz für Damenbekleidung, der sich um die von Kunden geschriebenen Bewertungen dreht. Seine neun unterstützenden Funktionen bieten eine großartige Umgebung, um den Text durch seine mehreren Dimensionen zu analysieren. Da es sich um echte kommerzielle Daten handelt, wurden diese anonymisiert und die Hinweise auf das Unternehmen im Bewertungstext und -text durch „Händler“ ersetzt.

Beschreibung: Dieser Datensatz enthält Produktbewertungen und Metadaten von Amazon, darunter 142,8 Millionen Bewertungen von Mai 1996 bis Juli 2014. Dieser Datensatz enthält Bewertungen (Bewertungen, Text, Nützlichkeitsstimmen), Produktmetadaten (Beschreibungen, Kategorieinformationen, Preis, Marke und Bild). Funktionen) und Links (auch angesehene/auch gekaufte Grafiken).

Beschreibung: Neben professionell aufgenommenen hochauflösenden Produktbildern enthält der Datensatz mehrere Etikettenattribute, die das Produkt beschreiben, das während der Katalogisierung manuell eingegeben wurde. Der Datensatz enthält auch beschreibenden Text, der die Produkteigenschaften kommentiert.

Beschreibung: Der Datensatz enthält Informationen zu 100.000 Bestellungen von 2016 bis 2018, die auf mehreren Marktplätzen in Brasilien getätigt wurden. Seine Funktionen ermöglichen es, eine Bestellung aus mehreren Dimensionen anzuzeigen: vom Bestellstatus, Preis, Zahlung und Frachtleistung bis hin zum Kundenstandort, Produktattributen und schließlich von Kunden verfassten Bewertungen. Der Datensatz enthält echte kommerzielle Daten, er wurde anonymisiert und Verweise auf die Unternehmen und Partner im Rezensionstext wurden durch die Namen der großen Game of Thrones-Häuser ersetzt.

Beschreibung: Dies ist ein vorgecrawlter Datensatz, der als Teilmenge eines größeren Datensatzes (mehr als 5,8 Millionen Produkte) verwendet wurde, der durch das Extrahieren von Daten von Flipkart.com, einem führenden indischen E-Commerce-Shop, erstellt wurde.

Beschreibung: Der Datensatz umfasst mehr als 18000 Bilder mit Metadaten, einschließlich der Bekleidungskategorie und einer manuellen Formanmerkung, die angibt, ob die Form der Person überdurchschnittlich oder durchschnittlich ist. Die Daten umfassen 181 verschiedene Nutzer von chictopia. Mit unserer Multi-Photo-Methode haben wir die Form jedes Benutzers geschätzt. Dies ermöglichte es uns, die Beziehung zwischen Kleidungskategorien und Körperform zu untersuchen. Insbesondere berechnen wir die bedingte Verteilung der Bekleidungskategorie abhängig von Körperformparametern.


Einzelheiten

Beachten Sie, dass die Textbeschriftungen beim Ändern der Größe eines Plots dieselbe Größe behalten, auch wenn sich die Größe des Plotbereichs ändert. Dies geschieht, weil "Breite" und "Höhe" eines Textelements 0 sind. Natürlich haben Textbeschriftungen Höhe und Breite, aber es sind physikalische Einheiten, keine Dateneinheiten. Aus dem gleichen Grund funktioniert das Stapeln und Abweichen von Text nicht standardmäßig und die Achsenbegrenzungen werden nicht automatisch erweitert, um den gesamten Text einzuschließen.

geom_text() und geom_label() fügen Labels für jede Zeile in den Daten hinzu, auch wenn die Koordinaten x, y beim Aufruf von geom_label() oder geom_text() auf einzelne Werte gesetzt sind. Um Beschriftungen an bestimmten Punkten hinzuzufügen, verwenden Sie annotate() mit annotate(geom = "text", . ) oder annotate(geom = "label", . ) .

Informationen zum automatischen Positionieren von nicht überlappenden Textetiketten finden Sie im ggrepel-Paket.


Abstrakt

Das Alter eines Gebäudes beeinflusst seine Form und Baustoffzusammensetzung und dies wiederum ist entscheidend für die Rückschlüsse auf seine Energieeffizienz. Diese Daten sind jedoch oft unbekannt. In diesem Beitrag präsentieren wir eine Methodik zur automatischen Identifizierung der Bauzeit von Häusern zum Zweck der urbanen Energiemodellierung und -simulation. Wir beschreiben zwei Hauptstufen, um dies zu erreichen – ein Klassifizierungsmodell pro Gebäude und eine Analyse nach der Klassifizierung, um die Genauigkeit der Klassenschlussfolgerungen zu verbessern. In der ersten Phase extrahieren wir Maße der Morphologie und Nachbarschaftsmerkmale aus leicht verfügbaren topographischen Kartierungen, einem hochauflösenden digitalen Oberflächenmodell und statistischen Grenzdaten. Diese Maße werden dann als Merkmale innerhalb eines Zufallswaldklassifikators verwendet, um eine Alterskategorie für jedes Gebäude abzuleiten. Wir evaluieren verschiedene prädiktive Modellkombinationen basierend auf Szenarien verfügbarer Daten und bewerten diese mithilfe einer 5-fach-Kreuzvalidierung, um die Klassifikator-Hyperparameter basierend auf einer Stichprobe von Stadteigenschaften zu trainieren und abzustimmen. Eine separate Stichprobe schätzte das leistungsstärkste kreuzvalidierte Modell mit einer Genauigkeit von 77 %. In der zweiten Stufe verbessern wir die abgeleitete Altersklassifizierung pro Gebäude (für eine räumlich zusammenhängende Teststichprobe) durch Aggregation von Vorhersagewahrscheinlichkeiten mit verschiedenen Methoden des räumlichen Denkens. Wir berichten über drei Methoden, um dies zu erreichen, basierend auf Adjazenzbeziehungen, Near-Neighbor-Graph-Analyse und Graph-Cuts-Label-Optimierung. Wir zeigen, dass die Nachbearbeitung die Genauigkeit um bis zu 8 Prozentpunkte verbessern kann.


Analyse groß angelegter Daten zur menschlichen Mobilität: ein Überblick über Methoden und Anwendungen des maschinellen Lernens

Die menschlichen Mobilitätsmuster spiegeln viele Aspekte des Lebens wider, von der weltweiten Ausbreitung von Infektionskrankheiten bis hin zu Stadtplanung und täglichen Pendelmustern. In den letzten Jahren hat die Verbreitung von Ortungsmethoden und -technologien, wie das globale Ortungssystem, die Geopositionierung von Mobilfunkmasten und WiFi-Ortungssysteme, Bemühungen vorangetrieben, menschliche Mobilitätsdaten zu sammeln und in diesen Daten interessierende Muster zu ermitteln, um die die Entwicklung standortbasierter Dienste und Anwendungen zu fördern. Die Bemühungen, signifikante Muster in großen, hochdimensionalen Mobilitätsdaten zu ermitteln, haben den Einsatz fortschrittlicher Analysetechniken erfordert, die normalerweise auf Methoden des maschinellen Lernens basieren. Daher untersuchen und bewerten wir in diesem Artikel verschiedene Ansätze und Modelle, die analysieren und lernen and menschliche Mobilitätsmuster, die hauptsächlich Methoden des maschinellen Lernens verwenden. Wir kategorisieren diese Ansätze und Modelle in einer Taxonomie basierend auf ihren Positionierungsmerkmalen, dem Analyseumfang, den Eigenschaften des Modellierungsansatzes und der Klasse von Anwendungen, die sie bedienen können. Wir stellen fest, dass diese Anwendungen in drei Klassen eingeteilt werden können: Benutzermodellierung, Ortsmodellierung und Trajektorienmodellierung, jede Klasse mit ihren Eigenschaften. Schließlich analysieren wir die kurzfristigen Trends und zukünftigen Herausforderungen der menschlichen Mobilitätsanalyse.

Dies ist eine Vorschau von Abonnementinhalten, auf die Sie über Ihre Institution zugreifen können.


Inhalt

Kerneldichte Bearbeiten

Die Kerneldichte ist eine computergestützte Analyse durch die Verwendung von geografischen Informationssystemen, die zur Messung der Kriminalitätsintensität eingesetzt werden. Es nimmt die Karte des untersuchten Gebiets als Grundlage für die Analyse und teilt dann das gesamte Gebiet oder die Karte in kleinere Gitterzellen auf. [1] Die Größe dieser Rasterzellen kann vom Analytiker entsprechend den zu untersuchenden Forschungsfragen oder den eingerückten Anwendungen gewählt werden. Jedes Zellengitter hat einen Mittelpunkt. Außerdem muss der Analytiker eine Bandbreite auswählen. Diese Bandbreite ist im Wesentlichen ein Suchradius von der Mitte jedes Kartengitters. Wenn die Analyse ausgeführt wird, durchsucht die Bandbreite die Anzahl der in jeder Zelle gemeldeten Verbrechen. Eine größere Anzahl von Straftaten, die näher am Zellzentrum liegen, weist auf eine höhere Kriminalitätsintensität hin. Wenn Zellen eine hohe Kriminalitätsrate aufweisen, werden ihnen hohe Werte zugewiesen.

Jedem Zellenraster in der Karte wird ein Wert zugewiesen. Dies führt zu einer fortlaufenden Karte, beispielsweise einer Karte einer Stadt unter der Zuständigkeit einer bestimmten Polizeibehörde. Diese Karte zeigt die Daten oder Intensität der Verbrechensvorfälle in Form von Farbschattierungen für jedes Raster im gesamten Untersuchungsbereich. Jeder Teil der Karte hat Zellen, daher hat jeder Teil der Karte einen Intensitätswert. Daher kann nach Durchführung der Kernel-Dichte-Analyse bestimmt werden, ob Gitterzellen mit hohen Kriminalitätsintensitätswerten zusammengeclustert sind und somit einen Kriminalitäts-Hotspot bilden. Die Zellen mit höheren Intensitätswerten innerhalb der Kriminalitäts-Hotspots zeigen nur die Kriminalitätsdichte, können aber nicht weiter analysiert werden, um die räumliche Abdeckung von Kriminalitätskonzentrationen zu lokalisieren. Die Möglichkeit, Zellen- und Bandbreitengrößen zu manipulieren, ermöglicht es Analysten, die Kerneldichte für die Durchführung von Analysen auf einer kleinen Umfangsebene innerhalb eines Kriminalitäts-Hotspots zu verwenden.

Hotspot-Matrix bearbeiten

Das Hotspot-Matrix wurde von Jerry H. Ratcliffe entwickelt. [2] Es handelt sich um die Analyse von Hotspots, die sich jedoch im Gegensatz zur herkömmlichen Analyse nicht auf die Untersuchung von Hotspots als reinen geografischen Standort beschränkt. Neben der Implementierung von räumlichen Analysetechniken wie Kernel Density, LISA oder STAC verwendet es eine aoristische Analyse, für die "Die grundlegende Prämisse ist, dass, wenn eine Zeit eines Ereignisses nicht bekannt ist, die Start- und Endzeit verwendet werden kann, um" Schätzung einer Wahrscheinlichkeitsmatrix für jedes kriminelle Ereignis für jede Stunde des Tages". [2] Daher ist die Hotspot-Matrix die Kombination von räumlichen und zeitlichen Merkmalen von Hotspots, um Kriminalitätskonzentrationsmuster in einem Gebiet mit hoher Kriminalitätsintensität zu bestimmen.

Ratcliffe teilte die Hotspot-Matrix in räumliche und zeitliche Attribute ein. Die räumlichen Attribute eines Hotspots sind: Hotpoint bezieht sich auf einen bestimmten Ort, von dem aus ein hohes Volumen an Kriminalität generiert wird. Das Clustered ist ein geografisches Merkmal und eine Darstellung von Hotspots, an denen sich die Kriminalität mit größerer Dichte in verschiedenen Bereichen des untersuchten Standorts konzentriert. Verstreute Kriminalität sind solche, die über die Untersuchungsregion verteilt sind, ohne große Kriminalitätscluster zu formulieren. Dies ist die engste Form der zufälligen Verteilung von Straftaten in einem Hotspot. Ratcliffe führte auch die Idee der zeitlichen Merkmale der Kriminalität ein. Diffuse sind Hotspots, an denen Straftaten zu jeder Zeit wahrscheinlich sind und es kein bestimmtes Zeitfenster für kriminelle Vorfälle gibt. Focused beschreibt ein Phänomen, bei dem es wahrscheinlich ist, dass Straftaten innerhalb eines Hotspots über einen Tag, eine Woche oder einen Monat mit größerer Intensität über eine Reihe kleiner Zeitfenster hinweg auftreten. Akut bezieht sich auf Hotspots, die die überwiegende Mehrheit der Vorfälle in einem sehr kleinen Zeitrahmen erleben. Kriminelle Vorfälle außerhalb dieses Zeitrahmens sind noch möglich, aber fast nicht existent. Dies sind die sechs großen Kategorien, die der Hotspot-Matrix zugeschrieben werden. Anhand dieser Kategorien können die Gebiete innerhalb der Verwaltungsgrenzen mit höherer Kriminalitätsintensität identifiziert werden. Es erleichtert auch die Identifizierung des Typs Hotspot in der Region. Nach Bekanntwerden der großen Kriminalitätsbereiche können sie folglich vom Analytiker isoliert werden, um sie näher zu untersuchen. [2]

Empirische Studie 1 (Chicago) Bearbeiten

Das Loyola Community Safety Project wurde zusammengestellt, um die potenzielle Beziehung zwischen Tavernen und anderen lokalen lizenzierten Unternehmen zu untersuchen, deren Haupt- oder Teileinkommensquelle der Verkauf von alkoholischen Getränken im Gebiet der Roger Park & Edgewater-Gemeinden in der Stadt Chicago ist. Diese Initiative war das Ergebnis der Zusammenarbeit vieler Gemeindegruppen aufgrund der steigenden Raten von Drogen- und Gewaltverbrechen in der Region. Die Forscher hatten Zugriff auf das Äquivalent von a Geodatabase, der im Wesentlichen als großer Ordner mit der Möglichkeit zum Speichern mehrerer Dateien wie Luftbilder oder anderer Dateien dient, die geografische Informationen darstellen können. Diese Geodatenbank wurde aus Aufzeichnungen von Polizeidienststellen und anderen Gemeindegruppen zusammengestellt und enthielt Daten in Form von Straßenadressen von Einrichtungen, die Alkohol verkaufen. Diese Informationen wurden als Softwaredateien auf einem Computer gespeichert, der die Analyse, die Geokodierung und die Ausgabe der Gemeinschaftskarten ermöglichte.

Die Forscher erstellten eine Liste aller Unternehmen im Studienbereich, die über eine Lizenz zum Verkauf von Spirituosen verfügen. Die Forscher beschränkten sich darauf, Tavernen als Quelle der Verbrechen zu definieren. Stattdessen nahmen sie jedes Unternehmen mit einer Alkohollizenz in ihre Studienpopulation auf. Dies erleichterte die Aufnahme von Betrieben, die in Gegenden mit höherer Armutsrate nicht in die Kategorie einer Taverne fallen, aber dennoch dieselbe Funktion erfüllen.

Die Forscher initiierten Geokodierung die eine Adresse in der realen Welt einer Karte zuordnet – sowohl die Adressen der verschiedenen Arten von Spirituosenverkaufseinrichtungen als auch die Verbrechen, die an Orten stattgefunden haben, an denen Spirituosen verkauft werden. Die geokodierten Verbrechen waren unterschiedlicher Natur und reichten von ordnungswidrigem Verhalten bis hin zu Verbrechen. Nachdem sowohl die Verbrechen als auch die Einrichtungen geokodiert waren, wurden die Karten überlagert. Dies erleichterte die Identifizierung von Alkohollokalen mit der größeren Anzahl von Straftaten innerhalb ihres Standorts oder ihrer Umgebung.

Einige der Einschränkungen in der Studie bestanden darin, dass ein hohes Maß an Koordinaten nicht übereinstimmte. Dies lag daran, dass die Rohdaten von verschiedenen Behörden und zu unterschiedlichen Zwecken erhoben wurden. Die Analysemethode bestand darin, die Hotspot-Ellipsen durch die Implementierung von Spatial and Temporal Analysis of Crime (STAC) zu berechnen. Eck und Weisburb (1995) definieren den Prozess der STAC-Funktion „STAC-Hot-Spot-Gebietssuche beginnt mit einzelnen Pin-Kartendaten und baut Gebiete auf, die die tatsächliche Streuung von Ereignissen widerspiegeln, unabhängig von willkürlichen oder vordefinierten Grenzen. STAC findet die dichtesten Ereigniscluster auf der Karte und berechnet die Standardabweichungsellipse, die am besten zu jedem Cluster passt.“ (S. 154). Es wurde festgestellt, dass die Anzahl der Spirituosengeschäfte und Spirituosengeschäfte nicht zufällig in der Gegend verteilt waren. Sie befanden sich im Allgemeinen in Gruppen entlang der Hauptstraßen. Dies unterstützt die Idee, dass Hotspots unterschiedliche Arrangements von Kriminalität enthalten können. Nachdem die Hotspots von den Forschern identifiziert worden waren, untersuchten sie weiter die Anordnung der Hotspots und betrachteten einige spezifische Kriminalitätskonzentrationen auf Adressebene. Die Studie ergab, dass hohe Konzentrationen von Tavernen oder Spirituosengeschäften nicht unbedingt zu einer hohen Kriminalitätsrate führen. Es kam zu dem Schluss, dass es Orte gibt, die für ein höheres Maß an Kriminalität verantwortlich sind als andere. Daher sind nicht alle Kriminalitätskonzentrationen gleichermaßen Auslöser von Kriminalität. Einige kriminelle Orte weisen Umwelthinweise auf, die das Auftreten und die Aufrechterhaltung von kriminellen Viktimisierungen erleichtern.

Empirische Studie 2 (Boston) Bearbeiten

Diese Studie wurde entwickelt, um Jugendgewalt und Waffenmärkte in Boston zu reduzieren. Dies war eine Zusammenarbeit von Forschern der Harvard University, dem Boston Police Department, Bewährungshelfern und anderen Mitarbeitern der Stadt, die über eine gewisse Erfahrung im Umgang mit jungen Straftätern oder gewaltgefährdeten Jugendlichen verfügten. Die Gruppe initiierte eine behördenübergreifende Studie unter der Annahme, dass eine hohe Dichte von Gangs in der Gegend von Interesse oder der Stadt Boston operierte. Es wurde angenommen, dass Jugendgewalt bei fast jedem Vorfall von Jugendgewalt das direkte Produkt der Beteiligung von Gangs war. Einige Bandenmitglieder wurden interviewt und es stellte sich heraus, dass sich viele nicht als Banden oder Bandenmitglieder einstufen.

Forscher identifizieren mit Hilfe von Banden- und Streifenpolizisten die Einsatzgebiete jeder Bande oder es wurden auch Informationen von Bandenmitgliedern gesammelt. Jedes Gebiet wurde auf einer gedruckten Karte markiert, was die Identifizierung des von Banden kontrollierten Territoriums erleichterte. Der nächste Schritt war, zur Hand zu gehen Digitalisierung die Bandengebiete in eine softwarebasierte Karte. Dabei stellte sich heraus, dass die Einsatzgebiete der Banden ungleich verteilt waren. Das Territorium von Gangs machte weniger als 10% von Boston aus.

Daten von bestätigten oder wahrscheinlich von Banden begangenen Gewaltverbrechen wurden geokodiert und mit der Landkarte der Banden abgeglichen. Diese Daten wurden vom Boston Police Department für das Jahr 1994 erhalten. Durch Geokodierung und die Überlappung der territorialen Karte der Banden wurden größere Konzentrationen von Kriminalität identifiziert. Die Quoten der Gewaltvorfälle waren unter Bandeneinsatzgebieten signifikant höher als in Gebieten ohne Bandenpräsenz. Allerdings waren nicht alle Banden gleich Verursacher von Verbrechen oder Praktikern der gleichen Straftaten. Darüber hinaus wurde das STAC-Programm verwendet, um Hotspot-Ellipsen zu erstellen, um die Verteilungsdichte der Kriminalität zu messen. Es verstärkte die früheren Ergebnisse, dass das Territorium einiger Banden die höheren Kriminalitätsraten aufweist. Die Kriminalitäts-Hotspots in den Regionen könnten dann weiter auf ihr einzigartiges Kriminalitätskonzentrationsmuster hin analysiert werden.

Randomisierte kontrollierte Studien Bearbeiten

The Center For Evidence-Based Crime Policy in George Mason University identifies the following randomized controlled trials of hot spot policing as very rigorous. [5]

Autoren Study Intervention Ergebnisse
Braga, A. A., & Bond, B. J. "Policing crime and disorder hot spots: A randomized, controlled trial", 2008 Standard hot spot policing Declines for disorder calls for service in target hot spots.
Hegarty, T., Williams, L. S., Stanton, S., & Chernoff, W. "Evidence-Based Policing at Work in Smaller Jurisdictions", 2014 Standard hot spot policing Decrease in crimes and calls for service across all hot spots during the trial. No statistically significant difference in crimes found between the visibility and visibility-activity hot spots.
Telep, C. W., Mitchell, R. J., & Weisburd, D. "How Much Time Should the Police Spend at Crime Hot Spots? Answers from a Police Agency Directed Randomized Field Trial in Sacramento, California", 2012 Standard hot spot policing Declines in calls for service and crime incidents in treatment hot spots.
Taylor, B., Koper, C. S., Woods, D. J. "A randomized controlled trial of different policing strategies at hot spots of violent crime.", 2011 Three-arms trial with control, standard hot spot policing and problem-oriented policing group. Problem oriented policing is a policing tactic where the police works in teams that include a crime analyst to target the root causes of crime. Standard hot spot policing was not associated with a significant decline in crime after the intervention. Problem-oriented policing was associated with a drop in “street violence” (non-domestic violence) during the 90 days after the intervention.
Rosenfeld, R., Deckard, M. J., Blackburn, E. "The Effects of Directed Patrol and Self-Initiated Enforcement on Firearm Violence: A Randomized Controlled Study of Hot Spot Policing", 2014 Directed patrol and directed patrol with additional enforcement activity Directed patrol alone had no impact on firearm crimes. Directed patrol with additional enforcement activity led to reduction in non-domestic firearm assaults but no reduction in firearm robberies.
Sherman, L. & Weisburd, D. "General deterrent effects of police patrol in crime "hot spots": a randomized, controlled trial", 1995 Directed patrol Decrease in observed crimes in hot spots.
Groff, E. R., Ratcliffe, J. H., Haberman, C. P., Sorg, E. T., Joyce, N. M., Taylor, R. B. "Does what police do at hot spots matter? The Philadelphia Policing Tactics Experiment", 2014 Four arms trial with control, foot patrol, problem-oriented policing and offender-focused policing groups. Offender-focused policing is a policing tactic where the police targets the most prolific and persistent offenders. Foot patrols or problem-oriented policing did not lead to a significant reduction in violent crime or violent felonies. Offender-oriented policing led to reduction in all violent crime and in violent felonies.
Ratcliffe, J., Taniguchi, T., Groff, E. R., Wood, J. D. "The Philadelphia Foot Patrol Experiment: A randomized controlled trial of police patrol effectiveness in violent crime hotspots", 2011 Foot patrol Significant decrease in crime in hot spots that reach a threshold level of pre-intervention violence.
Weisburd, D., Morris, N., & Ready, J. "Risk-focused policing at places: An experimental evaluation", 2008 Community policing and problem-oriented policing targeting juvenile risk factors No impact on self-reported delinquency.
Braga, A. A., Weisburd, D. L, Waring, E. J., Mazerolle, L. G., Spelman, W., & Gajewski, F. "Problem-oriented policing in violent crime places: A randomized controlled experiment", 1999 Problem-oriented policing-problem places Reductions in violent and property crime, disorder and drug selling.
Buerger, M. E. (ed.) "The crime prevention casebook: Securing high crime locations.", 1994 Problem-oriented policing Unable to get landlords to restrict offender access.
Koper, C., Taylor, B. G., & Woods, D. "A Randomized Test of Initial and Residual Deterrence From Directed Patrols and Use of License Plate Readers at Crime Hot Spots", 2013 License plate recognition software at hot spots Effective in combating auto-theft, the effect lasts 2 weeks after the intervention.
Lum, C., Merola, L., Willis, J., Cave, B. "License plate recognition technology (LPR): Impact evaluation and community assessment", 2010 Use of license plate readers mounted on patrol cars in autotheft hot spot areas No impact on auto crime or crime generally.

There are various methods for the identification and/or establishment of emerging geographical locations experiencing high levels of crime concentrations and hotspots. A commonly used method for this process is the implementation of kernel density this method depicts the probability of an event occurring in criminology it refers to crime incidents. This probability is often measured as a Mean and expressed in the form of density on a surface map. A disadvantage in this approach is that in order to obtain the different degrees of intensity, the map is subdivided into several grid cells. Therefore, the final map output have multiple cells with their own respective crime density degrees which facilitate the comparison between hotspots vs hotspots and places with relative low levels of crime. However, there is not finite line highlighting the begging and the exact end of each hotspot and its respective set or individual crime concentrations. This is assuming that the criminal incidents are not evenly distributed across the space within the hotspot. Also, every grid cell has the same crime density within it therefore, it is difficult to know the exact crime pattern within each cell. One way in which the analysts can handle these set of potential deficiencies is by adjusting the grid cells size on the digital map so they can represent a smaller spatial area on the actual ground. Also, the kernel density map can be overlaid with a dot map for which the crime incidents have been geocoded. This method will enable the analysts to corroborate his/her results by having two analysis of the same area. The kernel density map can be used to identify the spatial area that constitutes the hotspot. After Zooming in to the map, the dot map will enable to identify the individual crime distribution pertaining to each hotspot or even to each cell. Ultimately, this allows for an analysis of blocks, street and specific locations and their spatial relationship to crimes in their surroundings.

A potential deficiency in crime concentration analysis and hotspot identification techniques is that crime analysts generally are limited to analyze data collected from their own law enforcement agency. The collection of this data is limited by administrative and geopolitical lines. Crimes are not contained within social boundaries. These boundaries might restrict the analyst from looking at the entire crime picture. Therefore, by only analyzing within a police department's jurisdiction the researcher might be unable to study the actual or miss the root of the crime concentration due to a partial access of the natural flow of crime that is not restricted by geographical lines.

It is important to know the limitations of each analysis techniques. Thus, it is fundamental to know that some techniques do not include temporal characteristics of crime concentrations or crime incidents. One of the future developments in the analysis of crime concentrations should be the inclusion of time at which the incidents occurred. This will enable to create a hotspot in motion rather than static pictures that only capture one moment in time or portraits all crime incidents as if there exist no difference between the time of each crime's occurrence.

Identification of hotspots and consequently crime concentrations enables law enforcing agencies to allocate their human and financial resources effectively. Detecting areas experiencing abnormally high crime densities provide empirical support to police chiefs or managers for the establishment and justification of policies and counter crime measures. [2] It is through this method of crime analysis that areas with greater rates of victimization within a law enforcement's jurisdiction can received greater amounts of attention and therefore problem solving efforts.

Das crime analyst can utilize one of the various spatial analytical techniques for spotting the crime concentration areas. After the spatial extend of these hot areas are defined, it is possible to formulate research questions, apply crime theories and opt the course(s) of action to address the issues being faced therefore, preventing their potential spatial or quantitative proliferation. One example would be asking why a particular area is experiencing high levels of crime and others are not. This could lead the analyst to examine the hotspot at a much deeper level in order to become aware of the hotspot's inner crime incidents placement patterns, randomization or to examine the different clusters of crime. Because not all places are equal crime generators, individual facilities can be further analyzed in order to establish their relationship to other crimes in their spatial proximity. Similarly, every crime concentration analysis is essentially a snapshot of a given number of criminal acts distributed throughout a geographical area. Thus, crime concentrations analyses can be compared throughout different time periods such as specific days of the week, weeks, and dates of the month or seasons. For example, crime snapshots of block Z are compared every Friday over the course of 3 months. Through this comparison, it is determined that 85% of the Fridays during the length of the study block Z experienced abnormally high levels of burglaries in one specific place in Block. Based on this, a Crime prevention through environmental design approach can be taken.

The analyst can then study the specific location and determine the factors that make that facility prone to repeat victimization and a crime facilitator. Also, the analyst could discover that there exist a relationship between the place on block Z and the crime offenders. Or it could be discovered that the place managers oder guardians are not fulfilling their duties correctly. [6] Therefore, neglecting the crime target and enabling crime flourishment. It is also possible, that the crime target's physical design and characteristics, plus the nature of the businesses it conducts regularly attract or provide actual and potential offenders in the area some crime opportunities.

In addition, objects taken from the premises as part of the burglaries might be easily accessible or promote low risks of being apprehended. This could be further fortified by or as the application of the crime opportunity theory. All of this is made possible due to identification of hotspot and their respective crime concentrations. Plus the further employment of Ratcliffe's hotspot matrix which depicts the crime concentration patterns within hotspots. Also, his perspective of zooming in to hotspot to examine specific crime generators in order to analyze their spatial and temporal relationship to other crimes in the area of study.


Verweise

Wu X et al (2014) Data mining with big data. IEEE Trans Knowl Data Eng 26(1):97–107

Che D, Safran M, Peng Z (2013) From big data to big data mining: challenges, issues, and opportunities. In: Database systems for advanced applications

Battams K (2014) Stream processing for solar physics: applications and implications for big solar data. arXiv preprint arXiv:1409.8166

Zhai Y, Ong Y-S, Tsang IW (2014) The emerging “big dimensionality”. Comput Intell Mag IEEE 9(3):14–26

Fan J, Han F, Liu H (2014) Challenges of big data analysis. Nat Sci Rev 1(2):293–314

Chandramouli B, Goldstein J, Duan S (2012) Temporal analytics on big data for web advertising. In: 2012 IEEE 28th international conference on data engineering (ICDE)

Ward RM et al (2013) Big data challenges and opportunities in high-throughput sequencing. Syst Biomed 1(1):29–34

Weinstein M et al (2013) Analyzing big data with dynamic quantum clustering. arXiv preprint arXiv:1310.2700

Hsieh C-J et al (2013) BIG & QUIC: sparse inverse covariance estimation for a million variables. In: Advances in neural information processing systems

Vervliet N et al (2014) Breaking the curse of dimensionality using decompositions of incomplete tensors: tensor-based scientific computing in big data analysis. IEEE Signal Process Mag 31(5):71–79

Feldman D, Schmidt M, Sohler C (2013) Turning big data into tiny data: constant-size coresets for k-means, pca and projective clustering. In: Proceedings of the twenty-fourth annual ACM-SIAM symposium on discrete algorithms

Fu Y, Jiang H, Xiao N (2012) A scalable inline cluster deduplication framework for big data protection. In: Middleware 2012. Springer, pp 354–373

Zhou R, Liu M, Li T (2013) Characterizing the efficiency of data deduplication for big data storage management. In: 2013 IEEE international symposium on workload characterization (IISWC)

Dong W et al (2011) Tradeoffs in scalable data routing for deduplication clusters. In: FAST

Xia W et al (2011) SiLo: a similarity-locality based near-exact deduplication scheme with low RAM overhead and high throughput. In: USENIX annual technical conference

Trovati M, Asimakopoulou E, Bessis N (2014) An analytical tool to map big data to networks with reduced topologies. In: 2014 international conference on intelligent networking and collaborative systems (INCoS)

Fang X, Zhan J, Koceja N (2013) Towards network reduction on big data. In: 2013 international conference on social computing (SocialCom)

Wilkerson AC, Chintakunta H, Krim H (2014) Computing persistent features in big data: a distributed dimension reduction approach. In: 2014 IEEE international conference on acoustics, speech and signal processing (ICASSP)

Di Martino B et al (2014) Big data (lost) in the cloud. Int J Big Data Intell 1(1–2):3–17

Brown CT (2012) BIGDATA: small: DA: DCM: low-memory streaming prefilters for biological sequencing data

Lin M-S et al (2013) Malicious URL filtering—a big data application. In 2013 IEEE international conference on big data

Chen J et al (2013) Big data challenge: a data management perspective. Front Comput Sci 7(2):157–164

Chen X-W, Lin X (2014) Big data deep learning: challenges and perspectives. IEEE Access 2:514–525

Chen Z et al (2015) A survey of bitmap index compression algorithms for big data. Tsinghua Sci Technol 20(1):100–115

Hashem IAT et al (2015) The rise of “big data” on cloud computing: review and open research issues. Inf Syst 47:98–115

Gani A et al (2015) A survey on indexing techniques for big data: taxonomy and performance evaluation. In: Knowledge and information systems, pp 1–44

Kambatla K et al (2014) Trends in big data analytics. J Parallel Distrib Comput 74(7):2561–2573

Jin X et al (2015) Significance and challenges of big data research. Big Data Res 2(2):59–64

Li F, Nath S (2014) Scalable data summarization on big data. Distrib Parallel Databases 32(3):313–314

Ma C, Zhang HH, Wang X (2014) Machine learning for big data analytics in plants. Trends Plant Sci 19(12):798–808

Ordonez C (2013) Can we analyze big data inside a DBMS? In: Proceedings of the sixteenth international workshop on data warehousing and OLAP

Oliveira J, Osvaldo N et al (2014) Where chemical sensors may assist in clinical diagnosis exploring “big data”. Chem Lett 43(11):1672–1679

Shilton K (2012) Participatory personal data: an emerging research challenge for the information sciences. J Am Soc Inform Sci Technol 63(10):1905–1915

Shuja J et al (2012) Energy-efficient data centers. Computing 94(12):973–994

Ahmad RW et al (2015) A survey on virtual machine migration and server consolidation frameworks for cloud data centers. J Netw Comput Appl 52:11–25

Bonomi F et al (2014) Fog computing: a platform for internet of things and analytics. In: Big data and internet of things: a roadmap for smart environments. Springer, pp 169–186

Rehman MH, Liew CS, Wah TY (2014) UniMiner: towards a unified framework for data mining. In: 2014 fourth world congress on information and communication technologies (WICT)

Patty JW, Penn EM (2015) Analyzing big data: social choice and measurement. Polit Sci Polit 48(01):95–101

Trovati M (2015) Reduced topologically real-world networks: a big-data approach. Int J Distrib Syst Technol (IJDST) 6(2):13–27

Trovati M, Bessis N (2015) An influence assessment method based on co-occurrence for topologically reduced big data sets. In: Soft computing, pp 1–10

Dey TK, Fan F, Wang Y (2014) Computing topological persistence for simplicial maps. In: Proceedings of the thirtieth annual symposium on computational geometry

Zou H et al (2014) Flexanalytics: a flexible data analytics framework for big data applications with I/O performance improvement. Big Data Res 1:4–13

Ackermann K, Angus SD (2014) A resource efficient big data analysis method for the social sciences: the case of global IP activity. Procedia Comput Sci 29:2360–2369

Yang C et al (2014) A spatiotemporal compression based approach for efficient big data processing on Cloud. J Comput Syst Sci 80(8):1563–1583

Monreale A et al (2013) Privacy-preserving distributed movement data aggregation. In: Geographic information science at the heart of Europe. Springer, pp 225–245

Jalali B, Asghari MH (2014) The anamorphic stretch transform: putting the squeeze on “big data”. Opt Photonics News 25(2):24–31

Wang W et al (2013) Statistical wavelet-based anomaly detection in big data with compressive sensing. EURASIP J Wirel Commun Netw 2013(1):1–6

He B, Li Y (2014) Big data reduction and optimization in sensor monitoring network. J Appl Math. doi:10.1155/2014/294591

Brinkmann BH et al (2009) Large-scale electrophysiology: acquisition, compression, encryption, and storage of big data. J Neurosci Methods 180(1):185–192

Zou H et al (2014) Improving I/O performance with adaptive data compression for big data applications. In: 2014 IEEE international parallel & distributed processing symposium workshops (IPDPSW)

Lakshminarasimhan S et al (2011) Compressing the incompressible with ISABELA: in situ reduction of spatio-temporal data. In: Euro-Par 2011 parallel processing. Springer, pp 366–379

Ahrens JP et al (2009) Interactive remote large-scale data visualization via prioritized multi-resolution streaming. In: Proceedings of the 2009 workshop on ultrascale visualization

Bi C et al (2013) Proper orthogonal decomposition based parallel compression for visualizing big data on the K computer. In: 2013 IEEE symposium on large-scale data analysis and visualization (LDAV)

Bhagwat D, Eshghi K, Mehra P (2007) Content-based document routing and index partitioning for scalable similarity-based searches in a large corpus. In: Proceedings of the 13th ACM SIGKDD international conference on knowledge discovery and data mining

Rupprecht L (2013) Exploiting in-network processing for big data management. In: Proceedings of the 2013 SIGMOD/PODS Ph.D. symposium

Zhao D et al (2015) COUPON: a cooperative framework for building sensing maps in mobile opportunistic networks. IEEE Trans Parallel Distrib Syst 26(2):392–402

Zerbino DR, Birney E (2008) Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res 18(5):821–829

Cheng Y, Jiang P, Peng Y (2014) Increasing big data front end processing efficiency via locality sensitive Bloom filter for elderly healthcare. In: 2014 IEEE symposium on computational intelligence in big data (CIBD)

Dredze M, Crammer K, Pereira F (2008) Confidence-weighted linear classification. In: Proceedings of the 25th international conference on machine learning

Crammer K et al (2006) Online passive-aggressive algorithms. J Mach Learn Res 7:551–585

Hillman C et al (2014) Near real-time processing of proteomics data using Hadoop. Big Data 2(1):44–49

Sugumaran R, Burnett J, Blinkmann A (2012) Big 3d spatial data processing using cloud computing environment. In: Proceedings of the 1st ACM SIGSPATIAL international workshop on analytics for big geospatial data

Friedman J, Hastie T, Tibshirani R (2008) Sparse inverse covariance estimation with the graphical lasso. Biostatistics 9(3):432–441

Scheinberg K, Ma S, Goldfarb D (2010) Sparse inverse covariance selection via alternating linearization methods. In: Advances in neural information processing systems

Qiu J, Zhang B (2013) Mammoth data in the cloud: clustering social images. Clouds Grids Big Data 23:231

Hoi SC et al (2012) Online feature selection for mining big data. In: Proceedings of the 1st international workshop on big data, streams and heterogeneous source mining: algorithms, systems, programming models and applications

Hartigan JA, Wong MA (1979) Algorithm AS 136: a k-means clustering algorithm. In: Applied statistics, pp 100–108

Wold S, Esbensen K, Geladi P (1987) Principal component analysis. Chemometr Intell Lab Syst 2(1):37–52

Azar AT, Hassanien AE (2014) Dimensionality reduction of medical big data using neural-fuzzy classifier. Soft Comput 19(4):1115–1127

Cichocki A (2014) Era of big data processing: a new approach via tensor networks and tensor decompositions. arXiv preprint arXiv:1403.2048

Dalessandro B (2013) Bring the noise: embracing randomness is the key to scaling up machine learning algorithms. Big Data 1(2):110–112

Zeng X-Q, Li G-Z (2014) Incremental partial least squares analysis of big streaming data. Pattern Recogn 47(11):3726–3735

Ruhe A (1984) Rational Krylov sequence methods for eigenvalue computation. Linear Algebra Appl 58:391–405

Tannahill BK, Jamshidi M (2014) System of systems and big data analytics–Bridging the gap. Comput Electr Eng 40(1):2–15

Liu Q et al (2014) Mining the big data: the critical feature dimension problem. In: 2014 IIAI 3rd international conference on advanced applied informatics (IIAIAAI)

Jiang P et al (2014) An intelligent information forwarder for healthcare big data systems with distributed wearable sensors. IEEE Syst J PP(99):1–9

Leung CK-S, MacKinnon RK, Jiang F (2014) Reducing the search space for big data mining for interesting patterns from uncertain data. In: 2014 IEEE international congress on big data (BigData congress)

Stateczny A, Wlodarczyk-Sielicka M (2014) Self-organizing artificial neural networks into hydrographic big data reduction process. In: Rough sets and intelligent systems paradigms. Springer, pp 335–342

Hinton GE, Osindero S, Teh Y-W (2006) A fast learning algorithm for deep belief nets. Neural Comput 18(7):1527–1554

LeCun Y et al (1998) Gradient-based learning applied to document recognition. Proc IEEE 86(11):2278–2324

Kavukcuoglu K et al (2009) Learning invariant features through topographic filter maps. In: 2009 IEEE conference on computer vision and pattern recognition, CVPR 2009

Dean J et al (2012) Large scale distributed deep networks. In: Advances in neural information processing systems

Martens J (2010) Deep learning via Hessian-free optimization. In: Proceedings of the 27th international conference on machine learning (ICML-10), June 21–24, Haifa, Israel


Beispiele

Label Contour Plot Levels

Create a contour plot and obtain the contour matrix, C , and the contour object, h . Then, label the contour plot.

Label Specific Contour Levels

Label only the contours with contour levels 2 or 6.

Set Contour Label Properties

Set the font size of the labels to 15 points and set the color to red using Name,Value pair arguments.

Set additional properties by reissuing the clabel command. For example, set the font weight to bold and change the color to blue.

Set the font size back to the default size using the 'default' keyword.

Label Contour Plot with Vertical Text

Create a contour plot and return the contour matrix, C . Then, label the contours.


3 Antworten 3

For measuring the generalization error, you need to do the latter: a separate PCA for every training set (which would mean doing a separate PCA for every classifier and for every CV fold).

You then apply the same transformation to the test set: i.e. you do nicht do a separate PCA on the test set! You subtract the mean (and if needed divide by the standard deviation) of the training set, as explained here: Zero-centering the testing set after PCA on the training set. Then you project the data onto the PCs of the training set.

You'll need to define an automatic criterium for the number of PCs to use.
As it is just a first data reduction step before the "actual" classification, using a few too many PCs will likely not hurt the performance. If you have an expectation how many PCs would be good from experience, you can maybe just use that.

You can also test afterwards whether redoing the PCA for every surrogate model was necessary (repeating the analysis with only one PCA model). I think the result of this test is worth reporting.

I once measured the bias of not repeating the PCA, and found that with my spectroscopic classification data, I detected only half of the generalization error rate when not redoing the PCA for every surrogate model.

That being said, you can build an additional PCA model of the whole data set for descriptive (e.g. visualization) purposes. Just make sure you keep the two approaches separate from each other.

I am still finding it difficult to get a feeling of how an initial PCA on the whole dataset would bias the results without seeing the class labels.

But it does see the data. And if the between-class variance is large compared to the within-class variance, between-class variance will influence the PCA projection. Usually the PCA step is done because you need to stabilize the classification. That is, in a situation where additional cases tun influence the model.

If between-class variance is small, this bias won't be much, but in that case neither would PCA help for the classification: the PCA projection then cannot help emphasizing the separation between the classes.

The answer to this question depends on your experimental design. PCA can be done on the whole data set so long as you don't need to build your model in advance of knowing the data you are trying to predict. If you have a dataset where you have a bunch of samples some of which are known and some are unknown and you want to predict the unknowns, including the unknowns in the PCA will give you are richer view of data diversity and can help improve the performance of the model. Since PCA is unsupervised, it isn't "peaking" because you can do the same thing to the unknown samples as you can to the known.

If, on the other hand, you have a data set where you have to build the model now and at some point in the future you will get new samples that you have to predict using that prebuilt model, you must do separate PCA in each fold to be sure it will generalize. Since in this case we won't know what the new features might look like and we can't rebuild the model to account for the new features, doing PCA on the testing data would be "peaking". In this case, both the features and the outcomes for the unknown samples are not available when the model would be used in practice, so they should not be available when training the model.

Do the latter, PCA on training set each time

In PCA, we learn the reduced matrix : U which helps us get the projection Z_train = U x X_train

At test time, we use the same U learned from the training phase and then compute the projection Z_test = U x X_test

So, essentially we are projecting the test set onto the reduced feature space obtained during the training.

The underlying assumption, is that the test and train set should come from the same distribution, which explains the method above.