Categorical Theory of Automata (CATHY)

Third party funded individual grant


Acronym: CATHY

Start date : 01.11.2022

End date : 31.10.2025


Project details

Short description

Finite state-based structures are fundamental tools in computer science, engineering and in the natural sciences. There exist dozens of types of finite-state devices for different kinds of behavior, e.g. regular languages of finite or infinite words or trees, weighted or stochastic languages, and data languages. Their theories share many similarities, e.g. machine-independent characterizations by finite algebraic recognizers and by a type of monadic second-order logic as well as similar algorithmics. However, each type of system has mostly been studied separately.

In CATHY, we will develop a new unifying theory that covers the whole spectrum of behaviors of finite-state devices. Uniformity is founded on applying the concepts of category theory, a powerful mathematical theory that is very good at formalizing similarities and relating different structures systematically. The goal is a fully fledged theory of 'regularity' of the behavior of machines independent of their type. In particular, in the classical theory there is a deep connection between machines and finite algebraic structures for regular behaviors via duality. In fact, this is the basis for Eilenberg/Reiterman-type correspondences relating properties of regular behaviors with properties of their algebraic recognizers and allowing the specification of such properties by profinite equations. In addition, topological methods have led to new insights and a closer understanding of phenomena in the theory of regular languages. They enter the stage through the observation that recognizability of a language can be equivalently described by continuity of the corresponding predicate. Beginnings of a generic framework featuring e.g. a general Eilenberg/Reiterman-type correspondence are now in place. However, topological methods or even a generic notion of machine are still missing.

In CATHY, we will advance the state of the art in the duality based approach to algebraic language theory by developing topological methods and extended dualities within a generic framework. We will also introduce a notion of generic machine for recognizable behavior. A focus will be on their algorithmics, in particular on learning algorithms based on recent advances on coalgebraic automata learning.  

To demonstrate the robustness of the generic approach we devote substantial efforts towards developing new non-trivial applications of the generic framework. This includes more tame instances such as text languages, but also challenging ones such as data languages, stochastic languages, and regular languages accepted by quantum finite automata. Summing up, we will substantially contribute to unified foundations for finite-state devices by providing a comprehensive body of generic mathematical foundations, constructions and algorithms applicable to a wide range of types of finite-state behaviors.

Scientific Abstract

Endliche zustandsbasierte Strukturen sind grundlegende Beschreibungsmittel in der Informatik, den Ingenieur- und Naturwissenschaften. Es gibt dutzende Maschinentypen, z.B. für reguläre Sprachen endlicher und unendlicher Wörter oder Bäume, gewichtete oder stochastische Sprachen oder Datensprachen. Ihre Theorien zeigen viele Gemeinsamkeiten, z.B. maschinenunabhängige Beschreibungen durch endliche algebraische Erkenner oder eine Form von monadischer Logik zweiter Stufe sowie ähnliche Algorithmik. Trotzdem wurden verschiedene Systemtypen bisher meist separat erforscht. 

In CATHY entwickeln wir eine einheitliche Theorie, die das gesamte Spektrum von endlichen Zustandsmaschinen abdeckt. Dies basiert auf Konzepten der Kategorientheorie, einer mächtigen mathematischen Theorie, die sich sehr gut eignet, um Ähnlichkeiten formal zu erfassen und verschiedene Strukturen systematisch in Beziehung zu setzen. Das Ziel ist eine Theorie der Regularität von Maschinenverhalten, die unabhängig vom Systemtyp ist. Insbesondere geht es dabei um Dualitäten, die einen tiefen Zusammenhang zwischen Maschinen und endlichen algebraischen Strukturen für reguläres Verhalten herstellen. Dualität ist bspw. die Basis für Eilenberg/Reiterman-artige Korrespondenzen, die Eigenschaften regulären Verhaltens mit Eigenschaften ihrer algebraischen Erkenner in Beziehung setzen und deren Spezifikation mittels proendlicher Gleichungen erlauben. Hinzu kommen topologische Methoden, die zu einem besseren Verständnis von Phänomenen in der Theorie der regulären Sprache geführt haben. Sie fußen auf der Beobachtung, dass Erkennbarkeit von Sprachen durch die Stetigkeit entsprechender Prädikate beschreibbar ist. Anfänge einer generischen Theorie existieren, inkl. einer allgemeinen Eilenberg/Reiterman-Korrespondenz. Topologische Methoden und sogar ein generisches Maschinenmodell fehlen hingegen bisher.

In CATHY werden wir den Stand der Technik der generischen, dualitätsbasierten Theorie der algebraischen Sprachtheorie durch die Entwicklung topologischer Methoden erweitern. Ferner wird ein generisches Maschinenmodell für reguläres Verhalten eingeführt und dessen Algorithmik erforscht. Hierbei liegt ein besonderer Fokus auf algorithmischem Lernen dieser Maschinen, das auf neuen koalgebraischen Verfahren des Automatenlernens beruht. 

Die Robustheit des generischen Ansatzes wird demonstriert, indem wir neuen, nicht trivialen Anwendungen erhöhte Aufmerksamkeit widmen. Dies betrifft sowohl naheliegende Anwendungen wie Textsprachen als auch herausfordernde wie Datensprachen, stochastische Sprachen und von endlichen Quantenautomaten akzeptierte reguläre Sprachen. Zusammenfassend entsteht so eine vereinheitlichte generische Theorie des Verhaltens endlicher Zustandsmaschinen mit umfassenden mathematischen Grundlagen, Konstruktionen und Algorithmen mit breiter Anwendbarkeit.


Involved:

Contributing FAU Organisations:

Funding Source