Aufgabe 3.1: Virtuelle Organisationen (3VL GridCloud-08-11-2024)

In der Vorlesung wurde der Begriff der virtuellen Organisation (VO) verwendet. Versuchen Sie, VOs zu definieren oder zumindest zu charakterisieren und geben Sie Beispiele und Gegenbeispiele an.

Eine Virtuelle Organisation ist ein Zusammenschluss von Individuen und/oder Institutionen, die Ressourcen und Informationen teilen, um ein gemeinsames Ziel zu erreichen. Das Hauptmerkmal hierbei ist, dass die Mitglieder aus verschiedenen geografischen Standorten arbeiten, moderne Technologien zur Zusammenarbeit nutzen und dennoch als Einheit auftreten.

Weitere Merkmale von Virtuellen Organisationen:

  • Dynamik: Mitglieder können flexibel hinzukommen oder ausscheiden.
  • Gemeinsame Ressourcen: Nutzung von Hardware, Software und Daten durch alle Mitglieder.
  • Verteilte Kontrolle: Keine zentrale Autorität, Entscheidungen werden gemeinschaftlich getroffen.

Beispiele für Virtuelle Organisationen:

  • Wissenschaftliche Zusammenarbeit: Gemeinsame Nutzung von Supercomputern oder z. B. durch BOINC, das ein Peer-to-Peer-System verwendet.
  • Open-Source-Projekte: Dezentrale und flexible Zusammenarbeit von Entwicklern weltweit, die über digitale Plattformen wie GitHub gemeinsam Code entwickeln, teilen und weiterentwickeln.
  • Geschäftsnetzwerke: Strategische Allianzen zwischen Unternehmen, die Ressourcen und Wissen für gemeinsame Projekte teilen.

Gegenbeispiele:

  • Klassische Unternehmen: Geschlossene Organisationen, in denen Mitarbeitende vor Ort arbeiten und keine externe Kooperation stattfindet.
  • Proprietäre Netzwerke: Zusammenarbeit nur innerhalb einer festen Gruppe ohne öffentliche Zugänglichkeit oder Ressourcenfreigabe.
  • Hierarchische Strukturen: Organisationen mit starren, zentralisierten Strukturen und ohne dynamische oder flexible Zusammenarbeit.
  • Exklusivprojekte: Projekte, bei denen nur ein begrenzter Kreis von Personen beteiligt ist und keine offene Teilnahme möglich ist.

Aufgabe 3.2: Grid-Basisarchitektur (Grid-Architektur Eine detaillierte Übersicht)

Hinweis: Grid-Basisarchitektur

In der Vorlesung wurde Ihnen das grundlegende Grid-Architekturmodell von Foster vorgestellt [1]. Der Einfachheit halber ist es in Abbildung 2 noch einmal angegeben.

Lesen Sie bitte Abschnitt 4 des Papers [1] (Online), und geben Sie für jede der folgenden Grid-Anforderungen an, welche Ebene(n) der Basisarchitektur in Abbildung 2 Ihrer Ansicht nach involviert ist/sind – selbst wenn Ihnen Details noch nicht bekannt sind.

 flowchart TD
     Application["Application"] --> Collective["Collective"]
     Application --> Resource["Resource"]
     Application --> Connectivity["Connectivity"]
    Fabric["Fabric"]
  1. Share resources across dynamic and geographically dispersed organizations
  2. Enable single sign-on
  3. Delegate rights and authorize access
  4. Ensure access control
  5. Ensure application of local and global policies
  6. Coordinate shared resources
  7. Provide uniform information infrastructure
  8. Support metadata management
  9. Provide data replica management

Beispielsweise wäre die Antwort zu Punkt 9: Fabric, Resource, Collective.

  1. Share resources across dynamic and geographically dispersed organizations
    Betroffene Schichten: Collective, Connectivity
    Begründung: Der Collective Layer koordiniert die Ressourcennutzung (z. B. Scheduling) zwischen Organisationen, während die Connectivity Layer eine sichere Kommunikation ermöglicht.
  2. Enable single sign-on
    Betroffene Schichten: Connectivity
    Begründung: Single Sign-On basiert auf den Authentifizierungs- und Sicherheitsprotokollen der Connectivity-Schicht.
  3. Delegate rights and authorize access
    Betroffene Schichten: Connectivity
    Begründung: Die Delegation von Rechten und Autorisierung erfolgen durch Sicherheitsmechanismen (z. B. X-Zertifikate) in der Connectivity-Schicht.
  4. Ensure access control
    Betroffene Schichten: Fabric, Connectivity
    Begründung: Lokal (physisch) erfolgt die Zugriffskontrolle in der Fabric Layer, während die Connectivity-Schicht Sicherheitsdienste zur Authentifizierung bereitstellt.
  5. Ensure application of local and global policies
    Betroffene Schichten: Resource
    Begründung: Die Durchsetzung von Richtlinien (z. B. Nutzungs- und Zugriffskontrollen) wird auf der Resource Layer umgesetzt und verwaltet.
  6. Coordinate shared resources
    Betroffene Schichten: Collective
    Begründung: Der Collective Layer ist für die Orchestrierung und Koordination mehrerer Ressourcen in einem Grid zuständig.
  7. Provide uniform information infrastructure
    Betroffene Schichten: Resource, Collective
    Begründung: Die Resource Layer verwaltet ressourcenspezifische Daten, während die Collective Layer diese Daten integriert und einheitlich bereitstellt.
  8. Support metadata management
    Betroffene Schichten: Collective, Application
    Begründung: Die Collective Layer verwaltet systemweite Metadaten; die Application Layer nutzt diese Metadaten für konkrete Anwendungen.
  9. Provide the management of data replicas
    Betroffene Schichten: Fabric, Resource, Collective
    Begründung: Die Fabric Layer stellt Speicherressourcen bereit, die Resource Layer verwaltet den Datenzugriff und der Collective Layer koordiniert Replikationsstrategien.

Aufgabe 3.3: Grundlegende Techniken

Beschreiben bzw. positionieren Sie die folgenden grundlegenden Techniken und Technologien im Kontext der Vorlesung.

  1. High Performance Computing (HPC)-Systeme

    • Supercomputer oder leistungsstarke Cluster für parallele, rechenintensive Aufgaben, Kommunikationsnetz im Vordergrund
  2. High Throughput Computing (HTC)-Systeme

    • Systeme für hohen Gesamtdurchsatz, bearbeiten viele Aufgaben über längere Zeit,Rechenwerk im Vordergrund. HTC fokussiert sich weniger auf die Leistung einzelner Recheneinheiten als auf den Gesamtdurchsatz vieler Aufgaben
  3. Computer Cluster versus Computational Grid

    • Cluster: Lokal verbundene Computer, arbeiten als ein System
    • Grid: Verteilte Ressourcen über Standorte und Organisationen hinweg
  4. Service-orientierte Architekturen (SOA)

    • Bereitstellung von Softwarefunktionen als Dienste über das Netwerk
  5. Virtuelle Maschinen versus virtuelle Infrastrukturen

    • Virtuelle Maschinen: Simulierte Computer auf einem Host
    • Virtuelle Infrastrukturen: Gesamte virtuelle IT-Umgebung mit vielen Ressourcen
  6. Virtuelle Organisationen versus Reale Organisationen

    • Virtuelle Organisationen: Temporäre Gruppen zur gemeinsamen Ressourcennutzung
    • Reale Organisationen: Physische Unternehmen oder Institutionen
  7. Dienste versus Ressourcen

    • Dienste: Software-Funktionen, die angeboten werden
    • Ressourcen: Hardware oder Daten, die dafür genutzt werden

Aufgabe 3.4: Verfügbarkeit und Zuverlässigkeit

In dieser Aufgabe berechnen Sie die Verfügbarkeit (availability) und Zuverlässigkeit (reliability) einer Grid Site. Dazu verwenden Sie bitte die folgenden (realen) Daten einer Grid Site im Worldwide LHC Computing Grid (WLCG) (http://wlcg.web.cern.ch/ und http://atlas.cern/) für September 2017:

DatumRegulärer Betrieb (Stunden)Wartung (Stunden)DatumRegulärer Betrieb (Stunden)Wartung (Stunden)DatumRegulärer Betrieb (Stunden)Wartung (Stunden)
1.9.201724-11.9.201724-21.9.201722-
2.9.201724-12.9.201724-22.9.201723-
3.9.2017121213.9.201724-23.9.201724-
4.9.201724-14.9.201724-24.9.201724-
5.9.201724-15.9.201724-25.9.201724-
6.9.201724-16.9.201712-26.9.201724-
7.9.201724-17.9.201724-27.9.201724-
8.9.201724-18.9.201724-28.9.201724-
9.9.201724-19.9.201724-29.9.201724-
10.9.201724-20.9.201781030.9.2017162

Formelsammlung

1. Verfügbarkeit (Availability)

Verfügbarkeit beschreibt die Wahrscheinlichkeit oder den Prozentsatz der Zeit, in der ein System betriebsbereit ist. Es gibt drei Hauptarten der Verfügbarkeit:

  • Inherent Availability ()
  • Achieved Availability ()
  • Operational Availability ()

Jede dieser Verfügbarkeitsarten berücksichtigt unterschiedliche Ausfallzeiten und Wartungsmaßnahmen.


1.1 Inherent Availability ()

Die inhärente Verfügbarkeit beschreibt die maximale theoretische Verfügbarkeit, wenn nur reparierbare Fehler betrachtet werden.

Wichtige Begriffe:

  • Meantime Before Failure (MTBF)
    Durchschnittliche Zeit zwischen zwei aufeinanderfolgenden Ausfällen eines Systems.
    Formel:
  • Meantime to Repair (MTTR)
    Durchschnittliche Zeit zur Behebung eines Fehlers.
    Formel:
Formel für die Inherent Availability:

→ Hohes MTBF und niedriges MTTR ergeben eine hohe inhärente Verfügbarkeit.


1.2 Achieved Availability ()

Die erreichte Verfügbarkeit berücksichtigt zusätzlich geplante Wartungsmaßnahmen.

Wichtige Begriffe:

  • Meantime Before Maintenance (MTBM)
    Durchschnittliche Zeit, bevor eine geplante Wartung erforderlich ist.
  • Downtime
    Zeit, in der das System nicht verfügbar ist (inkl. geplanter und ungeplanter Stillstände).
Formel für die Achieved Availability:

→ Hohes MTBM bedeutet längere Betriebsphasen ohne Wartung.


1.3 Operational Availability ()

Die operative Verfügbarkeit berücksichtigt alle Einflussfaktoren – Reparaturen, Wartung und externe Verzögerungen.

Wichtige Begriffe:

  • Uptime
    Gesamtzeit, in der das System betriebsbereit ist.
    Formel:
  • Operational Cycle
    Gesamte Betriebszeit inklusive Ausfälle und Wartung.
    Formel:
Formel für die Operational Availability:

→ Operational Availability ist die realistischste Verfügbarkeitsmetrik.


2. Zuverlässigkeit (Reliability)

Zuverlässigkeit beschreibt, wie lange ein System fehlerfrei arbeitet, bevor es ausfällt.

Formel für die Reliability:

  • Uptime: Zeit, in der das System fehlerfrei arbeitet.
  • Operational Cycle: Gesamte Betriebszeit inkl. Ausfälle und Wartung.
  • Maintenance Time: Zeit für präventive oder reaktive Wartung.

Ein System mit hoher Zuverlässigkeit hat:

  1. Lange Betriebszeiten (hohes MTBF)
  2. Seltene Wartungen (niedriges MTTR & niedrige Downtime)

Zusammenfassung der Unterschiede

AspektInherent AvailabilityAchieved AvailabilityOperational AvailabilityReliability
DefinitionMax. theoretische Verfügbarkeit ohne geplante Wartung oder LogistikVerfügbarkeit inkl. Wartung, aber ohne logistische VerzögerungenRealistische Verfügbarkeit unter Einbeziehung aller Ausfälle & WartungenWie lange ein System fehlerfrei läuft
BerücksichtigtReparaturen (MTBF & MTTR)Reparaturen + geplante Wartung (MTBM)Reparaturen + Wartung + externe FaktorenBetriebszeit vor dem ersten Ausfall
Formel
Wichtige FaktorenMTBF, MTTRMTBM, MTTR, DowntimeUptime, Operational Cycle, externe FaktorenMTBF, Wartung, Verfügbarkeit

Fazit

  • Inherent Availability: Maximale theoretische Verfügbarkeit, nur Reparaturen zählen.
  • Achieved Availability: Erweiterung um geplante Wartung.
  • Operational Availability: Realistischste Verfügbarkeit mit allen Verzögerungen.
  • Reliability: Wie lange ein System ohne Fehler läuft.

Praktische Bedeutung:

  • In Hochverfügbarkeitssystemen (z. B. Cloud-Server) ist Operational Availability entscheidend.
  • In kritischen Systemen (z. B. Luftfahrt, Medizin) ist Reliability essenziell.

a) Wie hoch ist die Verfügbarkeit (availability) der Grid Site für den Monat September (in Prozent)?

Gemeint ist hier die operational availability (im Gegensatz zur inherent availability und achieved availability), die verstanden wird als das Verhältnis der verfügbaren Betriebszeit zur Gesamtzeit.

→ Die Verfügbarkeit beträgt

b) Wie groß ist die Zuverlässigkeit (reliability) der Grid Site für den Monat September (in Prozent)?

Der Einfachheit halber soll reliability hier verstanden werden als das Verhältnis der verfügbaren Betriebszeit zur Gesamtzeit ohne Wartungszeiten.

c) Das Bundesamt für Sicherheit in der Informationstechnik (BSI) (https://www.bsi.bund.de) hat die in Abbildung 3 gelisteten Verfügbarkeitsklassen definiert. In welche Klasse würde die hier betrachtete Grid Site fallen?

Verfügbarkeitsklasse (VK)Bezeichnung Betrachtungseinheit, Prozess, System, Einheit, KomponenteMindestverfügbarkeitAusfallzeit pro Monat*Ausfallzeit pro Jahr*
VK 0Ohne zugesicherte Verfügbarkeit---
VK 1Normale Verfügbarkeit99,0 %< 8 h< 88 h
VK 2Erhöhte Verfügbarkeit99,9 %< 4 h< 9 h
VK 3Hochverfügbarkeit99,99 %< 53 min< 53 min
VK 4Höchstverfügbarkeit99,999 %< 26 s< 6 min
VK 5Verfügbarkeit unter extremen Bedingungen / auch bei höherer Gewalt (Disaster-Tolerant)---

*bei 7 x 24 Std. Betrieb

  • VK0, da wir eine Reliability niedriger als 99% haben () und unsere Ausfallzeit größer ist als die von VK1 ()

d) Welche Maßnahmen müssten Ihrer Ansicht nach getroffen werden, um die Site in die nächsthöhere Klasse zu bringen?

  • Es gibt Tage, an denen die verfügbare Zeit + Wartung nicht auf 24h kommt (z.B 20.09.2017, 30.9.2017 oder 21.9.2017). An diesen Tagen sollte angestrebt werden, die verfügbare Zeit zu verlängern
  • Die Wartungszeiten sind allgemein sehr hoch mit 12h am 3.9.2017 und 10h am 20.9.2017. Man sollte bedenken, wie man diese Wartungszeit senkt, indem man eventuell Redundanzen, bessere Codebase etc bereitstellt

Literatur

[1] Ian Foster, Carl Kesselman, and Steven Tuecke. The anatomy of the grid: Enabling scalable virtual organizations. International Journal of High Performance Computing Applications, 15(3):200–222, 2001.


×

MyUniNotes is a free, non-profit project to make education accessible for everyone. If it has helped you, consider giving back! Even a small donation makes a difference.

These are my personal notes. While I strive for accuracy, I’m still a student myself. Thanks for being part of this journey!