Case Study

Optimierung und Benchmarking für Geodaten mit Big Data-Technologie

Szenario

Das Defence Science and Technology Laboratory (DSTL) ist eine Exekutivagentur des britischen Verteidigungsministeriums. Das DSTL sorgt in Zusammenarbeit mit Universitäten und Industrie dafür, dass innovative Wissenschaft und Technologie zur Verteidigung und Sicherheit von Großbritannien beitragen.

Data Reply hat das DSTL bei der Beurteilung von Optionen für die Verarbeitung großer Mengen von Geodaten unterstützt und dazu sechs relevante Big-Data-Technologien ausgewertet. Dies umfasste ein Benchmarking für Datenaufnahme, Indexierung und Abfragen, wobei vor allem die Latenzzeiten untersucht wurden.

DSTL

Das Defence Science and Technology Laboratory (DSTL) ist eine Exekutivagentur des britischen Verteidigungsministeriums. In Zusammenarbeit mit Universitäten und innovativen Unternehmen entwickelt das DSTL kampfentscheidende Technologien zur Unterstützung der britischen Verteidigung, heute sowie für die Zukunft. Das DSTL stellt für die britische Regierung außerdem spezielle wissenschaftliche und technologische Forschung, Beratung und Analyse bereit, die häufig operativ kritisch ist und ein Potenzial für bahnbrechende technologische Neuerungen in sich birgt.

Ziel

Außerdem sollte Reply dem DSTL bei der Auswahl der für das Verarbeitungsvolumen geeigneten Technologie helfen und Beratung für eine Optimierung der Performance leisten.

In vielen Bereichen, insbesondere bei Nachrichtendiensten, nimmt der Wert von Informationen mit der Zeit ab. Ein rascher Zugang zu Erkenntnissen ist daher entscheidend. Funktionen zur Analyse von Geodaten, mit denen das DSTL häufig arbeitet, machen die Verarbeitung großer Datenmengen schwierig und oft sehr rechenintensiv.

Es gab bereits Bemühungen, die Komplexität raumbezogener Daten durch standardisierte Spezifikationen (z. B. das GeoJson-Datenformat) sowie durch verschiedene vielversprechende Technologien zu reduzieren, die für den Endnutzer nicht relevante Details entfernen. Es liegen allerdings nur unzureichende Vergleichsdaten vor, um die relative Leistung vieler dieser Technologien beurteilen zu können. Vor allem die jeweiligen Zeiten für Abfrage und Datenaufnahme sind nicht gut dokumentiert.

Um faktenbasierte Entscheidungen in diesem Bereich treffen zu können, beauftragte das DSTL Data Reply mit dem Benchmarking von sechs führenden Big-Data-Technologien, die sich für die Verarbeitung von Geodaten eignen. Außerdem sollte Reply dem DSTL bei der Auswahl der für das Verarbeitungsvolumen geeigneten Technologie helfen und Beratung für eine Optimierung der Performance leisten.

Lösung

Data Reply erstellte Testdatensätze, die den Aufbau echter Geodaten emulieren, einschließlich parametrisierter Punkte und Ellipsen.

Da es mit zufällig generierten Daten arbeitete, konnte das Projekt von der Geheimhaltung ausgenommen und öffentlich zugänglich gemacht werden, was eine der zentralen Zielsetzungen des DSTL für den Auftrag gewesen war.

Mithilfe der Google Cloud-Technologie testete Data Reply sechs verschiedene Big-Data-Technologien (GeoSpark, GeoMesa, Hive, MongoDB, ElasticSearch und Postgres-XL) und erstellte ein Benchmarking für deren Datenaufnahme- und Abfragegeschwindigkeiten. Alle sechs Technologien wurden gemäß den empfohlenen Einstellungen eingerichtet und anschließend so angepasst, dass die Ausgangsbedingungen weitgehend gleich waren. Für einige der Technologien entwickelte Data Reply auch spezielle Dienstprogramme zur Datenaufnahme, um die geforderte Skalierbarkeit bei gleichzeitiger Unterstützung der korrekten Datenstruktur zu bieten und die Einhaltung des GeoJson-Standards und der Spezifikationen des DSTL sicherzustellen.

Zur Ausführung von Anfragen setzte Data Reply SQL-Anfrage-Beschreibungen in der DSL der einzelnen Technologie ein, in einigen Fällen mit den entsprechenden Anpassungen, wenn die DSL-Syntax nicht direkt auf die Anfrage abgebildet werden konnte. Außerdem erstellte Data Reply die grundlegende Infrastruktur, um eine clusterinterne Replikation für Hochverfügbarkeit und Fehlertoleranz zu ermöglichen. So konnten 20 Milliarden Datenpunkte gleichzeitig auf verschiedenen Maschinen vorgehalten werden, mit einer einzigen Schreibanfrage, für den Fall, dass ein Knoten im Cluster ausfällt oder aufgrund von Faktoren wie Netzwerkpartionierung nicht verfügbar ist.

Nach Abschluss dieser Arbeiten veröffentlichte Data Reply einen umfangreichen Bericht an das DSTL (der für die Öffentlichkeit zugänglich ist), in dem die Untersuchung und ihre Ergebnisse ausführlich geschildert werden. Dies lieferte dem DSTL wertvolle Erkenntnisse über die Fähigkeiten und die Leistung verschiedener Big-Data-Technologien.

Data Reply

Data Reply, ein Unternehmen der Reply-Gruppe, ist eine auf Big Data und Analytik spezialisierte Beratungsfirma mit Niederlassungen in London, Mailand und München. Wir helfen unseren Kunden, bedarfsgerechte Erkenntnisse aus Data Science und Big Data Engineering zu gewinnen und sich mithilfe von The Data Incubator qualifizierte Mitarbeiter zu sichern.