Grid and Cloud Computing WS 2024/2025 – Übungsblatt 1
Das schwarze Loch
Das Event Horizon Telescope ist eine internationale Kooperation zur Aufnahme von Bildern schwarzer Löcher mit Hilfe eines virtuellen Teleskops in Erdgröße. Das EHT veröffentlichte das Bild des Schwarzen Lochs in der Galaxie Messier 87 im April 2019:
Aufgabe 1.1: Technologische Herausforderungen
In der Vorlesung (2VL GridCloud-25-10-2024) wurden die wichtigsten Herausforderungen bei der Erstellung der zuvor aufgenommenen Bilder erwähnt. Bitte nennen Sie diese und erläutern Sie in Ihren eigenen Worten, warum dies Herausforderungen in diesem Komplex sind. Erweitern Sie diese Liste um weitere Herausforderungen im Zusammenhang mit dem gesamten Arbeitsablauf von den ersten Messungen bis zu den veröffentlichten Bildern.
- Datenvolumen: Es mussten Daten von acht Radioteleskopen verteilt auf der ganzen Erde zusammengebildet werden. Die Gesamtmenge der Rohdaten befasste sich auf circa 5 Petabyte. Diese Datenmenge irgendwo speichern zu können stellt sich als Problematik für sich selbst dar.
- Datenübertragung: Da keine Netzwerkverbindung stemmen könnte, war es nötig die Daten auf physischen Festplatten zu speichern und per Flugzeug zu transportieren.
- Synchronisation: Die Teleskope mussten alle gleichzeitig. auf den gleichen Punkt im Weltall konzentriert werden, um das Bild aufnehmen zu können. Dies wurde durch Atomuhren sichergestellt.
- Datenverarbeitung: Um das entfernen von Rauschen im Bild und allgemein eine relativ hohe Bildqualität zu gewährleisten, musste mithilfe von komplexen Algorithmen die Daten aufgearbeitet werden, wofür Supercomputer und dementsprechend viele Ressourcen benötigt wurden.
Aufgabe 1.2: Daten-Korrelation
Die korrelierten Daten für das Schwarze-Loch-Bild benötigten etwa 3,5 PB Speicherplatz. An jeder der EHT-Stationen dauerte ein Durchlauf der Aufzeichnung dieser Funk-Rohdaten rund 10 Stunden und erzeugte 0,5 PB an Rohdaten. Diese Daten aus einem synchronisierten Lauf aller Stationen mussten in ein Datenzentrum übertragen werden, indem die Korrelation der Daten tatsächlich berechnet wurde.
a) Benennen und beschreiben Sie die gewählte Lösung für den Transport der Daten.
- Da wie oben beschrieben, die Daten zu groß für das Internet waren, hat man die Daten per Flugzeug transportiert. Dieses Vorgang nennt man
Sneakernet
(deut. Turnschuhnetzwerk). Dieser Begriff kommt ein wenig ironisch daher, dass man Daten auf Festplatten in physischer Form von A nach B bringt die letzten Schritte dann in Turnschuhen
b) Warum war es nicht möglich, einen Edge-Computing-Ansatz einzubeziehen?
📌 Edge Computing – Kompakter Überblick
- Dezentrale Datenverarbeitung: Die Daten werden direkt am „Rand“ des Netzwerks verarbeitet, also in der Nähe ihrer Entstehung (z. B. auf IoT-Geräten oder lokalen Servern), statt in einer zentralen Cloud.
- Reduzierte Latenzzeiten: Durch die lokale Verarbeitung müssen Daten nicht erst an ein zentrales Rechenzentrum geschickt werden, was die Reaktionszeit verkürzt. Ideal für Echtzeitanwendungen wie autonome Systeme, industrielle Steuerungen oder smarte Städte.
- Effiziente Bandbreitennutzung: Da nur ausgewählte oder verarbeitete Daten ins zentrale Netzwerk übertragen werden, sinkt der Bandbreitenbedarf erheblich. Das reduziert Kosten und verhindert Überlastung, insbesondere bei großen Datenmengen wie Video-Feeds.
- Erhöhte Datensicherheit: Sensible Daten verbleiben oft vor Ort, wodurch das Risiko externer Übertragungen sinkt. So kann Edge Computing zur Einhaltung von Datenschutzrichtlinien beitragen.
- Robustheit und Ausfallsicherheit: Edge-Devices sind oft unabhängig vom Netzwerk funktionsfähig und weniger von zentralen Serverausfällen betroffen. Sie können lokal weiterarbeiten und später synchronisieren.
Aufgrund der globalen Verteilung der Radioteleskope war ein Edge-Computing-Ansatz nicht möglich. Die Daten mussten zentral zusammengeführt und korreliert werden, da nur so ein kohärentes Bild erstellt werden konnte. Ein dezentrales Edge-Computing wäre hier nicht ausreichend gewesen, da die Daten der einzelnen Teleskope aufeinander abgestimmt werden mussten, was nur in einem zentralen Datenzentrum realisierbar war.
c) Wie schnell müsste die Verbindung zwischen den Messstationen und dem Datenzentrum sein, um die Berechnung in Echtzeit durchzuführen? (Eine grobe Schätzung ist ausreichend).
📌 Berechnung der Übertragungsrate für Echtzeitübertragung
Die allgemeine Formel zur Berechnung der benötigten Übertragungsrate für eine Echtzeitübertragung lautet:
wobei:
- die Gesamtmenge der zu übertragenden Daten (in GB oder einer anderen geeigneten Einheit) ist,
- die gewünschte Echtzeitdauer (in Sekunden) ist, innerhalb der die Daten übertragen werden sollen,
- die resultierende Übertragungsrate in ist.
Falls die Übertragungsrate in Gigabit pro Sekunde (Gbps) gewünscht ist, multipliziere das Ergebnis mit 8:
Berechnung der Übertragungsrate bei einer Echtzeit-Anforderung von 1 Sekunde
Formel:
Umrechnung in Gbps:
→ Die erforderliche Übertragungsrate wäre 40 Pbps. Zum Vergleich, das aktuell schnellstmögliche sind 319 Terabit pro Sekunde (Tbps) 0.319 Pbps Quelle dazu
Berechnung der Übertragungsrate bei einer Echtzeit-Anforderung von 1 Stunde
- Datenmenge: 5.000.000 GB
- Zeit: 1 Stunde = 3.600 Sekunden
Umrechnung in Gbps:
Ergebnis
Um die Daten innerhalb von 1 Stunde an das Datenzentrum zu übertragen, wäre eine Übertragungsrate von etwa 11.112 Gbps (11,1 Tbps) erforderlich.
Aufgabe 1.3: Daten-Transfer
Neben dem in A 1.2 a) verwendeten Ansatz wäre auch ein Datentransfer über die bestehenden Verbindungen zwischen den Stationen und dem Datenzentrum möglich.
a) Benennen und beschreiben Sie die Herausforderungen innerhalb dieses Ansatzes.
- Begrenzte Kapazität der bestehenden Verbindungen: Die aktuellen Verbindungen zwischen den Stationen und dem Datenzentrum sind wahrscheinlich nicht auf solch immense Datenmengen ausgelegt. Eine Übertragung dieser Größenordnung könnte entweder die Netzwerke überlasten oder extrem lange dauern, möglicherweise Jahre oder sogar Jahrzehnte.
- Netzwerkstabilität: Ein so massiver Datenstrom würde die bestehenden Netzwerke erheblich belasten und könnte zu Instabilität, Datenverlust oder sogar zum zeitweisen Zusammenbruch führen.
- Kosten und Energieverbrauch: Eine Übertragung dieser Datenmenge über bestehende Netzwerke wäre nicht nur langsam, sondern auch sehr teuer und energieintensiv, was den Ansatz noch unpraktischer macht.
b) Schlagen Sie die maximale Upload-Geschwindigkeit Ihrer Verbindung zum Internet bei Ihnen zu Hause nach.
36.62 Mbps
c) Berechnen Sie die minimale Übertragungszeit für 0,5 PB Rohdaten von Ihrem Computer zu Hause zum LRZ. Gehen Sie davon aus, dass Sie eine Ethernet-basierte Verbindung verwenden, wobei in allen Paketen die selben Header der jeweiligen Schichten existieren und ihre minimale Größe haben und der Anwendungs-Header 40 Bytes beträgt.
- Datenmenge:
- Upload-Geschwindigkeit:
- Anwendungsheader:
Upload Umrechnen
Übertragungszeit berechnen
→ Mit meiner Internetverbindung von würde ich knapp Tage benötigen um 0.5PB ans LRZ zu schicken
d) Vergleichen Sie mit A 1.2 c) Wie realisierbar ist eine Echtzeitverarbeitung in naher Zukunft?
Wir können mal das Extreme annehmen, dass die schnellsten 319 Terabit pro Sekunde (Tbps) Quelle dazu normal wären.
Lösung
Fazit
Mit der angenommenen Geschwindigkeit von 319 Tbps wäre die Verarbeitung einer Datenmenge von 500 TB in etwa 12,56 Sekunden möglich. Dies zeigt, dass Echtzeitverarbeitung unter diesen extremen Bedingungen in naher Zukunft realisierbar sein könnte, vorausgesetzt, die erforderliche Infrastruktur und Technologie werden entsprechend weiterentwickelt.
Lösung mit 100 Gbps
Fazit
Mit der realistischen Übertragungsgeschwindigkeit von 100 Gbps würde die Verarbeitung einer Datenmenge von 500 TB etwa 11 Stunden dauern. Dies zeigt, dass Echtzeitverarbeitung unter diesen Bedingungen herausfordernd ist, aber mit weiteren technologischen Fortschritten und Optimierungen in der Datenübertragung und -verarbeitung in naher Zukunft zunehmend realisierbar werden könnte.
Erläuterungen
-
Annahme einer realistischen Geschwindigkeit:
- 100 Gbps ist eine gängige Hochgeschwindigkeit für Verbindungen zu Rechenzentren wie dem LRZ.
-
Berechnung der Übertragungszeit:
- Die Datenmenge von 500 TB wird durch die Geschwindigkeit von 100 Gbps geteilt, um die benötigte Zeit zu berechnen.
- Die Berechnung zeigt, dass bei 100 Gbps die Übertragung ca. 11 Stunden dauern würde.
-
Vergleich zur ursprünglichen Annahme:
- Während 319 Tbps eine extrem hohe und derzeit unrealistische Geschwindigkeit darstellt, bietet 100 Gbps eine realistischere Basis für die Bewertung der Echtzeitverarbeitungsmöglichkeiten.
Aufgabe 1.4: Data Transfer Nodes
Eine der wichtigsten zukünftigen Herausforderungen in allen wissenschaftlichen Forschungsbereichen wird es sein, wie wir Daten effizient von A nach B übertragen können. Viele Forscher:innen auf der ganzen Welt versuchen, diese Herausforderungen zu lösen. Ein Ansatz ist die Verwendung sogenannter DTNs (Data Transfer Nodes).
Aufgabe 1.4: Data Transfer Nodes
Eine der wichtigsten zukünftigen Herausforderungen in allen wissenschaftlichen Forschungsbereichen wird es sein, wie wir Daten effizient von A nach B übertragen können. Viele Forscher:innen auf der ganzen Welt versuchen, diese Herausforderungen zu lösen. Ein Ansatz ist die Verwendung sogenannter DTNs (Data Transfer Nodes).
a) Beschreibung von DTNs und grundlegende Funktionalität
Data Transfer Nodes (DTNs) sind spezialisierte Server, die den schnellen und zuverlässigen Transfer großer Datenmengen zwischen Forschungseinrichtungen ermöglichen. Ihre Hauptfunktionen umfassen:
- Hohe Bandbreite: Schnelle Übertragung großer Datenmengen.
- Zuverlässigkeit: Stabile Verbindungen und Fehlerkorrektur sichern den Datenfluss.
- Sicherheit: Verschlüsselung und Zugangskontrollen schützen die Daten.
- Management: Überwachung und Optimierung des Datenverkehrs durch spezielle Software.
Anwendungsbereiche:
- Wissenschaftliche Forschung (z.B. Genomforschung, Klimamodelle)
- Zusammenarbeit zwischen Universitäten und Forschungseinrichtungen
- Datenintensive industrielle Anwendungen
b) Das GEANT-Netz und seine Rolle bei DTNs
GEANT ist das europäische Forschungsnetzwerk, das Universitäten, Forschungsinstitute und wissenschaftliche Einrichtungen verbindet. Es unterstützt DTNs durch:
- Hochgeschwindigkeitsverbindungen: Bietet die notwendige Bandbreite für effiziente Datenübertragungen.
- Interkonnektivität: Vernetzt DTNs über Ländergrenzen hinweg und erleichtert internationale Zusammenarbeit.
- Sicherheitsinfrastruktur: Schützt sensible Forschungsdaten während der Übertragung.
- Zusatzdienste: Bietet Cloud-Speicher und Datenmanagement-Tools zur Unterstützung der DTNs.
Beispiel: Ein Klimaforschungsprojekt kann GEANT nutzen, um große Simulationsdaten schnell und sicher zwischen europäischen Rechenzentren zu übertragen, wodurch die Datenanalyse effizienter wird.
Fazit
DTNs sind essenziell für den sicheren und effizienten Transfer großer Datenmengen in der Wissenschaft. Das GEANT-Netzwerk unterstützt diese Infrastruktur mit leistungsfähigen Verbindungen und Sicherheitsmaßnahmen, was die internationale Zusammenarbeit und den wissenschaftlichen Fortschritt fördert.