Anfrageoptimierung und Daten-nahe Verarbeitung auf Rekonfigurierbaren SoCs für Big-Data-Analyse

Drittmittelfinanzierte Gruppenförderung - Teilprojekt

Details zum übergeordneten Gesamtprojekt

Titel des Gesamtprojektes: DFG-Schwerpunktprogramm (SPP) 2037 - Skalierbares Datenmanagement für zukünftige Hardware


Details zum Projekt

Projektleiter/in:
Dr.-Ing. Stefan Wildermann
Prof. Dr.-Ing. Jürgen Teich
Prof. Dr.-Ing. Klaus Meyer-Wegener

Projektbeteiligte:
Andreas Becher
Lekshmi Beena Gopalakrishnan Nair

Beteiligte FAU-Organisationseinheiten:
Lehrstuhl für Informatik 12 (Hardware-Software-Co-Design)
Lehrstuhl für Informatik 6 (Datenmanagement)

Mittelgeber: DFG / Schwerpunktprogramm (SPP)
Akronym: ReProVide
Projektstart: 28.08.2017
Projektende: 31.08.2020


Forschungsbereiche

Datenbanksysteme
Lehrstuhl für Informatik 6 (Datenmanagement)
Reconfigurable Computing
Lehrstuhl für Informatik 12 (Hardware-Software-Co-Design)


Abstract (fachliche Beschreibung):


Ziel dieses Projekts ist es, neuartige Hardware und Optimierungstechniken für die skalierbare, leistungsfähige Verarbeitung von Big Data bereitzustellen. Wir zielen insbesondere auf große Datenmengen mit flexiblen Schemata (zeilenorientierte, spaltenorientierte, dokumentenorientierte, irreguläre und/oder nicht-indexierte Daten) sowie auf Datenströme, wie sie in der Klick-Strom-Analyse, in Unternehmensquellen wie E-Mails, Software-Logs und Diskussionsforum-Archiven sowie in Sensoren im Internet of Things (IoT) und Industrie 4.0 zu finden sind. In diesem Bereich untersucht das Projekt das Potenzial Hardware-konfigurierbarer, FPGA-basierter Systems-on-Chip (SoCs) für die Daten-nahe Verarbeitung, bei der Berechnungen direkt bei den Datenquellen stattfinden. Basierend auf FPGA-Technologie und insbesondere deren dynamischer Rekonfiguration schlagen wir eine generische Architektur mit dem Namen ReProVide für die kostengünstige Verarbeitung von Datenbankanfragen vor.



Die Konzepte sollen die Integration von FPGA-basierten Beschleunigern in verfügbare SQL-, NoSQL- und In-Memory-Datenbanksysteme sowie Stream-Processing-Frameworks ermöglichen. Unser Ziel ist es dabei, flüchtige und nichtflüchtige Daten direkt an ReProVide-Knotenpunkte anzuschließen, die nicht nur bereinigte und integrierte Datensätze enthalten, sondern auch zur temporären oder persistenten Speicherung ungereinigter Daten aus neuen Datenquellen und Datenströmen verwendet werden können.

Unser FPGA-basiertes SoC wird vom Lehrstuhl für Informatik 12 vorangetrieben. Es





  • verwendet Hardware-Rekonfiguration zur Anpassung von Datenpfaden und Beschleunigern, um verschiedene OLAP- und Data-Mining-Operatoren auf Daten aus solchen heterogenen Datenquellen verarbeiten zu können,




  • enthält Management-Techniken zur Generierung lokaler Metadaten, Indexe und Statistiken dieser Datenquellen, um optimierte Datenverarbeitung zu ermöglichen, und





  • bietet Schema-on-read-Fähigkeiten für das Datenbank-Management-System (DBMS), das auf das SoC zugreift.





Während die Unterstützung unregelmäßiger Daten (z.B. Graphenverarbeitung) nicht im Fokus unserer Forschung steht, arbeiten wir an einer generischen Entwurfsmethodik, die Erweiterbarkeit durch benutzerdefinierte Funktionen und Datenschemata ermöglicht.



Solche Architekturen, die mit ihrem eigenen lokalen Optimierer ins DBMS integriert sind, erfordern neuartige Techniken zur globalen Abfrageoptimierung, die auf Konzepten aus verteilten und Multi-Database-Systemen basieren. Diese werden vom Lehrstuhl für Informatik 6 entwickelt. Während der lokale Optimierer Statistiken seiner lokalen Daten erstellt, muss der globale Optimierer auf diese Daten und Informationen der Daten-nahen Beschleuniger zugreifen. Anhand dieser Daten entscheidet die globale Abfrageoptimierung dann, welche Operationen auf den ReProVide SoCs berechnet werden und welche nicht. Es ist von entscheidender Bedeutung, dass der Optimierer über genügend Wissen verfügt, um ReProVide in der Abfrageverarbeitung einzusetzen, wann immer es einen Nutzen gibt. Dies erfordert funktionales Wissen (welche Daten und welche Operatoren sind verfügbar) sowie nicht funktionales Wissen (z.B. Kostenschätzungen für die Operatoren). In diesem Projekt soll eine erweiterbare Schnittstelle zur Verfügung gestellt werden, über die der globale Optimierer die zu bearbeitende Anfrage dem ReProVide-System übergeben und das Anfrageergebnis entgegennehmen kann. Darüber hinaus soll aber auch der bidirektionale Austausch von Hinweisen zur Verbesserung der jeweiligen Optimierung ermöglicht werden.


Externe Partner

Technische Universität Ilmenau
Technische Universität München (TUM)
Technische Universität Dresden
Technische Universität Berlin
Otto-von-Guericke-Universität Magdeburg


Publikationen

Becher, A., Herrmann, A., Wildermann, S., & Teich, J. (2019). ReProVide: Towards Utilizing Heterogeneous Partially Reconfigurable Architectures for Near-Memory Data Processing. In Gesellschaft für Informatik, Bonn (Eds.), Proceedings of the 1st Workshop on Novel Data Management Ideas on Heterogeneous (Co-)Processors (NoDMC) (pp. 51-70). Universität Rostock, DE: Bonn: Gesellschaft für Informatik.
Becher, A., Beena Gopalakrishnan Nair, L., Broneske, D., Drewes, T., Gurumurthy, B., Meyer-Wegener, K.,... Wildermann, S. (2018). Integration of FPGAs in Database Management Systems: Challenges and Opportunities. Datenbank-Spektrum. https://dx.doi.org/10.1007/s13222-018-0294-9
Becher, A., Wildermann, S., & Teich, J. (2018). Optimistic Regular Expression Matching on FPGAs for Near-Data Processing. In Proceedings of the Data Management on New Hardware (DaMoN). Houston, Texas, US: ACM.

Zuletzt aktualisiert 2019-28-02 um 12:01