Skript

  • VL-02a-f-grammtikbeispiele-mehrdeutigkeit-und-Entfernen von -Produktion
  • vl-02b-ft-deterministische-endliche-automaten

VL-02a)

-Produktionen: Sonderregeln

Die Verwendung von -Produktionen, also Produktionen, die das leere Wort erzeugen, ist in der formalen Sprachtheorie von besonderer Bedeutung. Diese Produktionen ermöglichen es, Wörter der Länge null in der Sprache einer Grammatik zu repräsentieren. Jedoch gibt es spezifische Regeln und Einschränkungen für ihre Anwendung in den verschiedenen Typen von Chomsky-Grammatiken.

Allgemeine Definition

In den Chomsky-Grammatiken werden vier Typen unterschieden:

  • Typ 0: Unbeschränkte Grammatiken
  • Typ 1: Kontextsensitive Grammatiken
  • Typ 2: Kontextfreie Grammatiken
  • Typ 3: Reguläre Grammatiken (erstmal Fokus hierrauf)

Für Typ 0-Grammatiken gibt es keine Einschränkungen bezüglich -Produktionen, solange jede Produktion die Form hat, wobei . Die anderen Grammatiktypen haben jedoch spezifische Regeln.

-Produktionen In Typ 1, 2 und 3 Grammatiken

Das leere Wort kann normalerweise nicht direkt in Typ 1, 2 und 3 Grammatiken erzeugt werden, da die Produktion die Bedingung nicht erfüllt. Hierbei ist die Länge der linken Seite (hier 1) und die Länge des leeren Wortes (hier 0).

Sonderregel für -Produktionen

Um dennoch in diesen Grammatiktypen zulassen zu können, wird eine Sonderregel eingeführt:

Sonderregel: E-Produktion in Typ 1, 2, 3 Grammatiken

Eine Grammatik vom Typ 1, 2 oder 3 darf eine Produktion enthalten, vorausgesetzt, dass auf keiner rechten Seite einer Produktion in vorkommt. Diese Regel stellt sicher, dass keine Widersprüche oder Reduktionen zu unendlichen Schleifen führen.

Nicht erlaubte Konfiguration

Beispiel für eine nicht erlaubte Grammatik > G = (\{S\}, \{a\}, \{ S \rightarrow \varepsilon, S \rightarrow aSa \}, S)

Hier verletzt die Grammatik die Sonderregel, da sowohl auf der linken als auch auf der rechten Seite einer Produktion vorkommt, was zu Konflikten führen kann.

Erlaubte Konfiguration

Beispiel für eine erlaubte Grammatik > G = (\{S', S\}, \{a\}, \{ S' \rightarrow \varepsilon, S' \rightarrow aSa, S \rightarrow aSa \}, S')

In diesem Fall wird die Sonderregel eingehalten, da , das auf abgebildet wird, nicht auf der rechten Seite anderer Produktionen vorkommt.

Zusammenfassung

Die Verwendung von -Produktionen ermöglicht es Grammatiken, auch das leere Wort zu modellieren, was in vielen praktischen Anwendungen nützlich sein kann. Die Sonderregel für -Produktionen in Typ 1, 2 und 3 Grammatiken stellt jedoch sicher, dass die Grammatik wohldefiniert und frei von Ambiguitäten oder unerwünschten Schleifen bleibt. Durch die Einhaltung dieser Regel kann die Struktur und Effektivität der Grammatik beibehalten werden.

Entfernung von -Produktionen

Die Entfernung von -Produktionen aus einer Grammatik ist ein wichtiger Schritt in der Vereinfachung und Optimierung von formalen Sprachen. -Produktionen sind solche, die das leere Wort erzeugen. Obwohl sie in bestimmten Kontexten nützlich sind, können sie die Analyse und Verarbeitung der Grammatik komplizieren. Daher gibt es Verfahren, diese Produktionen systematisch zu entfernen.

Warum -Produktionen entfernen?

  • Vereinfachung der Analyse: Grammatiken ohne -Produktionen sind oft einfacher zu analysieren und zu verarbeiten.
  • Vermeidung von Komplikationen: In vielen Algorithmen zur Grammatikanalyse, wie dem Parsing, können -Produktionen spezielle Fälle erfordern, die den Algorithmus verkomplizieren.
  • Optimierung: Entfernen von -Produktionen kann die Effizienz von Algorithmen verbessern, die auf der Grammatik operieren.

Wie entfernt man -Produktionen?

Die Entfernung von -Produktionen erfolgt in mehreren Schritten und basiert darauf, alle Möglichkeiten zu erkennen, bei denen diese Produktionen verwendet werden könnten, um ein Wort zu erzeugen. Hier ist ein allgemeines Verfahren:

  1. Identifiziere alle nichtterminalen Symbole, die direkt erzeugen können: Dies sind alle Symbole mit einer Produktion .
  2. Ersetze diese Symbole in anderen Produktionen: Für jedes Symbol, das erzeugen kann, betrachte alle Produktionen, die dieses Symbol enthalten. Ersetze das Symbol durch die Option, es zu inkludieren oder zu exkludieren.
  3. Entferne redundante -Produktionen: Nachdem alle möglichen Ersetzungen gemacht wurden, entferne die ursprüngliche -Produktion aus der Grammatik.

Beispiel

Betrachten wir die Grammatik mit den Produktionen:

Schritt 1: Identifiziere -erzeugende Symbole. Hier ist ein solches Symbol, da .

Schritt 2: Ersetze in anderen Produktionen. Die Produktion kann umgeschrieben werden zu:

Schritt 3: Entferne die -Produktion . Die neue Grammatik sieht nun wie folgt aus:

Zusammenfassung

Die Entfernung von -Produktionen trägt dazu bei, die Struktur einer Grammatik zu vereinfachen und die Effizienz von darauf basierenden Algorithmen zu steigern. Durch das methodische Vorgehen können alle Instanzen von -Produktionen sicher und effektiv aus der Grammatik entfernt werden, wodurch die resultierende Sprache klarer und einfacher zu verarbeiten ist.

VL-02b)

Formalismen in der Theorie der formalen Sprachen

Die Theorie der formalen Sprachen nutzt verschiedene Formalismen, um Sprachen zu definieren und zu manipulieren. Zwei der wichtigsten Ansätze sind:

Grammatiken

Grammatiken sind Regelsysteme, die angeben, wie Wörter einer Sprache erzeugt werden können. Sie bestehen aus:

  • Einer Reihe von Symbolen, die das Alphabet der Sprache bilden.
  • Einem Satz von Produktionen, die angeben, wie Symbole kombiniert werden können, um gültige Wörter oder Sätze der Sprache zu formen.
  • Einem Startsymbol, von dem aus die Erzeugung beginnt.

Grammatiken werden oft genutzt, um die Syntax von Programmiersprachen zu definieren, aber auch in der Linguistik, um die Struktur natürlicher Sprachen zu beschreiben.

Maschinenmodelle

Maschinenmodelle sind abstrakte Rechner, die die Fähigkeit besitzen, Wörter einer Sprache zu erkennen oder zu verarbeiten. Einige der bekanntesten Modelle sind:

  • Endliche Automaten: Geeignet für reguläre Sprachen.
  • Kellerautomaten (Pushdown Automata): Für kontextfreie Sprachen.
  • Turingmaschinen: Können jede berechenbare Sprache erkennen.

Diese Modelle helfen zu verstehen, was berechenbar ist und welche Ressourcen (wie Zeit und Speicher) zur Berechnung benötigt werden.

Wahl des geeigneten Formalismus

Die Entscheidung, ob Grammatiken oder Maschinenmodelle verwendet werden sollten, hängt von der spezifischen Anwendung und den Anforderungen ab. Eine wichtige Überlegung ist die Frage:

Welche Maschine akzeptiert welche Sprachklasse?

Die Antwort auf diese Frage hilft dabei, den passenden Formalismus für das Erkennen oder Erzeugen einer bestimmten Sprache auszuwählen.

  • Für reguläre Sprachen sind endliche Automaten ausreichend.
  • Kontextfreie Sprachen benötigen Kellerautomaten.
  • Kontextsensitive Sprachen und andere komplexere Sprachen erfordern mächtigere Modelle wie Turingmaschinen.

Durch die Auswahl des angemessenen Modells kann man die Effizienz von Algorithmen verbessern und die Grenzen der Berechenbarkeit und Komplexität besser verstehen.

Überblick über Grammatiken und Maschinenmodelle

Die Chomsky-Hierarchie klassifiziert formale Sprachen und ihre zugehörigen Berechnungsmodelle. Dieser Abschnitt bietet einen Überblick über die unterschiedlichen Typen von Grammatiken und Maschinen.

Grammatiken und ihre Eigenschaften

Die Hierarchie unterteilt Grammatiken in vier Typen:

Typ 0-Grammatik

  • Eigenschaften: Keine Beschränkungen für die Produktionen.
  • Produktionen: Form wobei und beliebige Strings von Terminalen und Nichtterminalen sein können.
  • Entsprechendes Maschinenmodell: Turingmaschine (deterministisch und nichtdeterministisch).

Typ 1-Grammatik (Kontextsensitiv)

  • Eigenschaften: Die Länge der linken Seite einer Produktion darf nicht größer sein als die der rechten Seite.
  • Produktionen: Form mit .
  • Entsprechendes Maschinenmodell: Linear beschränkte Turingmaschine (nichtdeterministisch).

Typ 2-Grammatik (Kontextfrei)

  • Eigenschaften: Jede Produktion wandelt ein Nichtterminal in eine Folge von Terminalen und Nichtterminalen um.
  • Produktionen: Form wobei ein Nichtterminal ist und eine Folge von Terminalen und Nichtterminalen.
  • Entsprechendes Maschinenmodell: Kellerautomat (nichtdeterministisch).

Typ 3-Grammatik (Regulär)

  • Eigenschaften: Produktionen dürfen ein Nichtterminal nur in ein Terminal wandeln, eventuell gefolgt von einem weiteren Nichtterminal.
  • Produktionen: Form wobei und Nichtterminale und ein Terminal ist.
  • Entsprechendes Maschinenmodell: Endlicher Automat (deterministisch und nichtdeterministisch).

Sprachklassen und Berechnungsmodelle

Die Zuordnung von Grammatiken zu Maschinenmodellen zeigt auf, welche Berechnungsmodelle zur Erkennung der Sprachen der jeweiligen Grammatikklasse geeignet sind:

  • Alle Sprachen (rekursiv aufzählbar): Turingmaschinen sind in der Lage, diese Sprachen zu erkennen.
  • Kontextsensitive Sprachen: Durch linear beschränkte Turingmaschinen erkennbar.
  • Kontextfreie Sprachen: Kellerautomaten können diese Sprachen erkennen.
  • Reguläre Sprachen: Durch endliche Automaten erkennbar.

Diese Zuordnung ist wichtig für das Verständnis der Berechenbarkeit und Komplexitätstheorie, da sie aufzeigt, welche Sprachklassen von welchen Berechnungsmodellen verarbeitet werden können und welche Ressourcen hierfür erforderlich sind.

Wiederholung: Reguläre Sprachen

Reguläre Sprachen sind die einfachste Klasse formaler Sprachen in der Chomsky-Hierarchie und werden durch Typ-3-Grammatiken oder reguläre Grammatiken beschrieben. Die Charakteristik und Definition dieser Sprachklasse ist wie folgt:

Definition einer Typ-3-Grammatik

Eine Grammatik ist definiert als ein 4-Tupel , wobei:

  • eine endliche Menge von Nichtterminalsymbolen ist.
  • ein endliches Alphabet von Terminalsymbolen ist.
  • eine endliche Menge von Produktionsregeln ist.
  • das Startsymbol ist.

Die Grammatik wird als Typ-3 oder regulär bezeichnet, wenn alle Produktionsregeln in die Form haben, wobei:

  • für ein (Übergang zu einem Terminalsymbol).
  • für ein und (Übergang zu einem Terminalsymbol gefolgt von einem Nichtterminal).

Charakteristik regulärer Sprachen

Eine Sprache ist Teil der Klasse regulärer Sprachen (), wenn sie durch eine Typ-3-Grammatik erzeugt werden kann, sodass die von generierte Sprache gleich ist.

Dies bedeutet, dass reguläre Sprachen vollständig durch endliche Automaten erkannt werden können und dass ihre Struktur einfach genug ist, um sie mit linearen Durchläufen über die Wörter zu verarbeiten. Typ-3-Grammatiken erlauben die Beschreibung regulärer Ausdrücke, die in der Textverarbeitung und in der Programmierung weit verbreitet sind.

Beispiel

Betrachten wir die Grammatik mit den Produktionsregeln:

Diese Grammatik ist regulär, da sie den Vorschriften für Typ-3-Grammatiken folgt. Die Sprache , die sie erzeugt, besteht aus allen Wörtern, die mit dem Muster “ab” beginnen.

Deterministische endliche Automaten

Deterministische endliche Automaten (DEAs) sind ein Kernkonzept im Bereich der regulären Sprachen und Automatentheorie. Sie werden durch eine Reihe einfacher Prinzipien und Eigenschaften definiert:

Informelle Kurzfassung eines DEA

  • Start im Startzustand: Ein DEA beginnt seine Verarbeitung in einem definierten Startzustand.
  • Zeichenweise Eingabe: Das Eingabewort wird zeichenweise gelesen. Für jedes Zeichen gibt es einen definierten Übergang.
  • Zustandswechsel: Bei der Verarbeitung eines Zeichens wechselt der Automat in einen neuen Zustand, der für jede Eingabe eindeutig ist.
  • Endliche Zustände: Es gibt eine begrenzte Anzahl von Zuständen innerhalb des Automaten.

Nachdem der Automat ein Eingabewort komplett gelesen hat, kommt es zu einer der folgenden Entscheidungen:

  • Akzeptieren: Wenn der Automat in einem Endzustand endet, wird das Eingabewort akzeptiert.
  • Verwerfen: Wenn der Automat in einem Zustand endet, der kein Endzustand ist, wird das Eingabewort verworfen.

Akzeptierte Sprache

Die von einem DEA akzeptierte Sprache ist die Menge aller Wörter, die vom Automaten akzeptiert werden. Formal ausgedrückt ist dies die Sprache für die gilt: Ein Wort gehört zu , wenn der DEA nach der Verarbeitung von in einem Endzustand endet.

Deterministische endliche Automaten spielen eine entscheidende Rolle in der Praxis und Theorie, da sie dazu verwendet werden, reguläre Ausdrücke zu implementieren und einfache Syntaxanalyse durchzuführen. Sie sind auch ein wichtiger Bestandteil bei der Modellierung von Software- und Hardware-Systemen, in denen vorhersagbares Verhalten erforderlich ist.

Definition eines DFA

Ein deterministischer endlicher Automat (DFA) ist ein mathematisches Modell eines abstrakten Automaten, der eine Reihe von Zuständen und Übergängen zwischen diesen Zuständen definiert. Ein DFA wird formal durch ein 5-Tupel dargestellt:

Formale Struktur eines DFA

Ein DFA wird durch folgende Komponenten definiert:

  • : Das 5-Tupel, das den DFA darstellt.
  • : Eine endliche Menge von Zuständen.
  • : Das endliche Eingabealphabet. Kein Symbol aus dem Alphabet darf in der Menge der Zustände enthalten sein, d.h. .
  • : Die Übergangsfunktion, die definiert, wie der Automat von einem Zustand zum nächsten übergeht. Es ist eine Funktion von nach , die für jede Kombination aus aktuellem Zustand und Eingabezeichen genau einen Folgezustand angibt.
  • : Der Startzustand, aus dem der Automat die Verarbeitung beginnt. Es ist ein Element aus der Menge .
  • : Die Menge der Endzustände, welche Teilmenge von ist. Wenn der Automat nach der Verarbeitung eines Wortes in einem dieser Zustände endet, wird das Wort akzeptiert.

In mathematischer Schreibweise wird der DFA ausgedrückt als:

Die Definition eines DFA ist zentral für das Verständnis, wie reguläre Sprachen verarbeitet und erkannt werden können. DFAs werden aufgrund ihrer Determiniertheit und der Einfachheit, mit der sie modelliert und implementiert werden können, in verschiedenen Bereichen der Informatik und verwandten Disziplinen genutzt.

Zustandsgraph eines DFA

Ein Zustandsgraph ist eine visuelle Darstellung eines DFA, die die Zustände und die Übergänge zwischen ihnen zeigt. Für einen DFA wird der Zustandsgraph wie folgt konstruiert:

Konstruktion des Zustandsgraphen

  • Knoten für Zustände: Jeder Zustand wird als Knoten dargestellt.
  • Startzustand: Der Startzustand wird durch einen eingehenden Pfeil gekennzeichnet.
  • Endzustände: Die Endzustände werden durch doppelte Kreise dargestellt.
  • Übergänge: Die Übergänge werden als gerichtete Kanten von Knoten zu Knoten dargestellt, beschriftet mit dem Eingabesymbol .

Für eine kompakte Darstellung werden mehrere Übergänge zwischen zwei Zuständen mit verschiedenen Eingabesymbolen als eine Kante mit mehreren Beschriftungen dargestellt.

Beispiel für einen DFA

Ein Beispiel für einen DFA könnte wie folgt definiert sein:

mit den Übergangsfunktionen:

In einem solchen Zustandsgraph würden die Zustände , und als Knoten dargestellt. Vom Startzustand führen Übergänge mit zu und mit zurück zu . Von führen Übergänge mit zu und mit wieder zurück zu . Der Zustand ist ein Endzustand und bildet mit jedem Eingabesymbol einen Übergang zu sich selbst.

Die Verwendung von Zustandsgraphen ermöglicht es, DFAs intuitiv zu verstehen und zu analysieren. Sie sind besonders hilfreich beim Entwurf von Automaten und bei der Überprüfung ihrer Funktionalität.

Beispiel für einen akzeptierenden Lauf

Um zu demonstrieren, wie ein DFA ein Eingabewort verarbeitet, betrachten wir einen akzeptierenden Lauf. Ein akzeptierender Lauf ist eine Sequenz von Zustandsübergängen, die mit dem Startzustand beginnt und in einem Endzustand endet, nachdem das gesamte Eingabewort gelesen wurde.

Visualisierung des Laufs

Der Lauf des DFA durch das Eingabewort wird oft mithilfe eines Zustandsgraphen visualisiert. Für den DFA mit den Zuständen und der Eingabe , würde der akzeptierende Lauf wie folgt aussehen:

  • Starte im Startzustand .
  • Lies das erste Zeichen und wechsle zum Zustand .
  • Lies das nächste Zeichen und kehre zum Zustand zurück.
  • Lies ein weiteres Zeichen und bleibe im Zustand .
  • Mit dem nächsten Zeichen , bleibe weiterhin in .
  • Lies dann das Zeichen und wechsle zum Zustand .
  • Mit dem nächsten wechsle zum Endzustand .
  • Lies das letzte Zeichen und bleibe im Endzustand , wo das Wort akzeptiert wird.

Verarbeitungsschritte

Die genauen Schritte der Verarbeitung sind:

  1. Starte in z_0.
  2. Lies a und wechsle in z1.
  3. Lies b und wechsle in z0.
  4. Lies b und wechsle in z0.
  5. Lies b und wechsle in z0.
  6. Lies a und wechsle in z1.
  7. Lies a und wechsle in z2.
  8. Lies a und bleibe in z2.
  9. Akzeptiere das Eingabewort, da z2 ein Endzustand ist.

Das Eingabewort wird akzeptiert, da der Automat in einem Endzustand endet, nachdem das letzte Zeichen gelesen wurde. Dieses Beispiel veranschaulicht, wie ein DFA systematisch ein Eingabewort prüft und entscheidet, ob es zur Sprache des Automaten gehört.

Akzeptanz bei DFAs

Die Akzeptanz eines Wortes durch einen DFA wird durch die Nutzung einer erweiterten Übergangsfunktion definiert, die es ermöglicht, ganze Wörter anstelle von einzelnen Symbolen zu verarbeiten.

Erweiterte Übergangsfunktion

Für einen DFA definieren wir die erweiterte Übergangsfunktion , die rekursiv wie folgt funktioniert:

  • : Wenn das Eingabewort das leere Wort ist, bleibt der Zustand unverändert.
  • : Für ein Wort, das mit dem Symbol beginnt, gefolgt von einem Wort , wende zuerst die Übergangsfunktion auf das Symbol an, um einen neuen Zustand zu erhalten, und wende dann rekursiv auf diesen neuen Zustand und das verbleibende Wort an.

Akzeptierte Sprache

Die von akzeptierte Sprache ist die Menge aller Wörter, die von akzeptiert werden. Formal definieren wir die akzeptierte Sprache als:

Ein Wort gehört zur Sprache , wenn, nach der Verarbeitung des gesamten Wortes ausgehend vom Startzustand , der Automat in einem der Endzustände endet.

Die erweiterte Übergangsfunktion ermöglicht es uns, die Akzeptanz eines Wortes durch einen DFA in einem einzigen mathematischen Ausdruck darzustellen und zu berechnen. Sie ist ein zentrales Werkzeug bei der Analyse der Funktionsweise von DFAs.

Um die Funktionsweise der erweiterten Übergangsfunktion (\tilde{\delta}) eines DFA zu veranschaulichen, betrachten wir einen konkreten Automaten und die Verarbeitung eines Eingabewortes.

DFA und seine Übergangsfunktion

Gegeben sei der DFA ( M = ({z_0, z_1, z_2}, {a, b}, \delta, z_0, E) ) mit ( E = {z_2} ) und den folgenden Übergangsfunktionen:

  • (\delta(z_0, a) = z_1)
  • (\delta(z_0, b) = z_0)
  • (\delta(z_1, a) = z_2)
  • (\delta(z_1, b) = z_0)
  • (\delta(z_2, a) = z_2)
  • (\delta(z_2, b) = z_2)

Zustandsgraph

Der Zustandsgraph für ( M ) zeigt die Zustände ( z_0, z_1, z_2 ) und die Übergänge zwischen ihnen, beschriftet mit den Eingabesymbolen.

Verarbeitung eines Eingabewortes

Die Abarbeitung des Eingabewortes ( abbbaaa ) durch die erweiterte Übergangsfunktion würde wie folgt aussehen:

[ \tilde{\delta}(z_0, abbbaaa) = \delta(\delta(\delta(\delta(\delta(\delta(\delta(z_0, a), b), b), b), a), a), a) ]

Schritt für Schritt verarbeitet der Automat das Wort, indem er mit jedem Symbol den entsprechenden Zustandsübergang nimmt. Das Ergebnis dieses Prozesses zeigt, ob das Wort akzeptiert oder verworfen wird, basierend darauf, in welchem Zustand der Automat am Ende des Wortes landet.

Durch die rekursive Anwendung der Übergangsfunktion (\delta) kann die erweiterte Funktion (\tilde{\delta}) komplexe Berechnungen auf einfache Weise ausdrücken und damit bestimmen, ob ein Wort von einem DFA akzeptiert wird oder nicht.

Beispiel für die δ~-Funktion

Um die Funktionsweise der erweiterten Übergangsfunktion δ~ eines DFAs zu veranschaulichen, betrachten wir einen konkreten Automaten und die Verarbeitung eines Eingabewortes.

DFA und seine Übergangsfunktion

Gegeben sei der DFA M=({z0​,z1​,z2​},{a,b},δ,z0​,E) mit E={z2​} und den folgenden Übergangsfunktionen:

  • δ(z0​,a)=z1​
  • δ(z0​,b)=z0​
  • δ(z1​,a)=z2​
  • δ(z1​,b)=z0​
  • δ(z2​,a)=z2​
  • δ(z2​,b)=z2​

Zustandsgraph

Der Zustandsgraph für M zeigt die Zustände z0​,z1​,z2​ und die Übergänge zwischen ihnen, beschriftet mit den Eingabesymbolen.

Verarbeitung eines Eingabewortes

Die Abarbeitung des Eingabewortes abbbaaa durch die erweiterte Übergangsfunktion würde wie folgt aussehen:

[\tilde{\delta}(z_0, abbbaaa) = \delta(\delta(\delta(\delta(\delta(\delta(\delta(z_0, a), b), b), b), a), a), a)]

Schritt für Schritt verarbeitet der Automat das Wort, indem er mit jedem Symbol den entsprechenden Zustandsübergang nimmt. Das Ergebnis dieses Prozesses zeigt, ob das Wort akzeptiert oder verworfen wird, basierend darauf, in welchem Zustand der Automat am Ende des Wortes landet.

Durch die rekursive Anwendung der Übergangsfunktion δ kann die erweiterte Funktion δ~ komplexe Berechnungen auf einfache Weise ausdrücken und damit bestimmen, ob ein Wort von einem DFA akzeptiert wird oder nicht.