AI4ScaDa: AI for Scarce Data - Maschinelles Lernen und Informationsfusion zur nachhaltigen Nutzung von Labor- und Kundendaten
Ausgangslage und Problemstellung: Unternehmen sind aktuell sehr bestrebt, ihr Datenkapital für zukunftsfähige intelligente Produkte und eine nachhaltige Wertschöpfung nutzbar zu machen. Künstliche Intelligenz (KI) und maschinelles Lernen (ML) als Disziplin der KI stellen für diese Unternehmen die Schlüsseltechnologien dar, um Daten zu analysieren und einen Mehrwert daraus zu erzielen. Die Einführung von KI-Anwendungen bei den Unternehmen, insbesondere bei KMU, stößt jedoch auf Hürden und Hemmnisse. Hinzu kommt, dass KI-Methoden überwiegend für große Datenmengen konzipiert sind und dort ihr Potenzial erst richtig entfalten. Mittelständische Unternehmen, insbesondere KMU, haben im Vergleich zu großen Plattform-Unternehmen wesentlich kleinere Datenmengen verfügbar, sogenannte Small Data. Small Data wird oftmals durch spärliche Datenmengen (Scarce Data) definiert, die bspw. aus Labordaten, Leistungsdaten von Maschinen, Personenwissen (Berichten) sowie Gerätenutzungsdaten bestehen und für die Unternehmen einen hohen Wert besitzen, da dort Informationen über ihre Produkte und Prozesse sowie deren Leistungsfähigkeit und Innovationspotenzial enthalten sind. Die KI-Entwicklung für Small-Data-Anwendungen, insbesondere für Scarce Data, bietet für diese Unternehmen große Chancen und bildet den Schwerpunkt von AI4ScaDa.
Zielstellung: Das Projekt AI4ScaDa verfolgt sowohl eine wirtschaftliche und nutzenorientierte als auch eine methodische Zielstellung. Dabei werden Anwendungsfälle fokussiert, die durch Scarce Data und heterogene Datenquellen geprägt sind. Durch Anwendungsfälle der beteiligten Partnerunternehmen SAATEN-UNION BIOTEC GmbH, GEA Westfalia Separator Group GmbH und Miele & Cie. KG wird der Nutzen und die Übertragbarkeit der erarbeiteten Lösung bestätigt. Dabei werden (i) eine Produkt- und Verfahrensauslegung für die Pflanzenzucht, (ii) eine Produkt- und Prozessauslegung für Separatoren und (iii) eine Diagnoseunterstützung für vernetzte Systeme fokussiert. Alle Anwendungen haben zum Ziel, Labordaten, gepaart mit weiteren Datenquellen, für zukunftsfähige innovative Produkte und Services gewinnbringend einzusetzen. Dafür verfolgt das Vorhaben ein übergeordnetes methodisches Ziel, indem eine KI-Lösung aus einer Informationsfusion und einer interpretierbaren KI modular und in generalisierter Form erarbeitet wird, die zudem durch eine Rückkopplung die Datenerhebung, z.B. im Labor, unterstützt.
Lösungsweg: Das Vorhaben AI4ScaDa setzt auf Informationsfusion, die einer interpretierbaren KI vorgelagert ist. Die interpretierbare KI wird mit ML-Verfahren realisiert, die aufgrund ihrer Struktur sowohl eine hohe Modellgüte bei geringen Datenmengen als auch eine gute inhärente Interpretierbarkeit aufweisen. Die Informationsfusion bereitet die heterogenen Daten für die ML-Verfahren auf und verdichtet diese. Die interpretierbaren Methoden zielen darauf ab, neben Ergebnis und Prognose, den Anwender*innen auch Informationen über Güte, Datenverständnis (Extrapolations- und Interpolationsverhalten) sowie Konfidenz zur Verfügung zu stellen. Diese Informationen tragen zu mehr Transparenz, Verständnis und Akzeptanz bei und werden zudem als Rückkopplung genutzt, um weitere Daten zu erheben und einen zusätzlichen Nutzen zu erzielen. Die KI-Lösung wird durch eine Microservice-Architektur und einheitliche Schnittstellen modular aufgebaut, was eine Übertragbarkeit von AI4ScaDa in verschiedene Unternehmensstrukturen
sichert.
Ergebnisverwertung: Die Verwertung der Ergebnisse findet sowohl in den Partnerunternehmen als auch über eine gezielte Verwertungsstrategie statt. Diese beinhaltet unter anderem die Kernpunkte (1) Generalisierung und offene Schnittstellen, (2) einfache Integration, insbesondere bei KMU, (3) Best Practices, (4) zielgerichteter Wissenstransfer und (5) Veröffentlichungen der Ergebnisse in Form von wissenschaftlichen Berichten und Publikationen. Zudem wird die realisierte Methodik auf der Innovationsplattform des Spitzenclusters implementiert. Hier findet ein bidirektionaler Austausch statt, indem bestehende Lösungen in der Konzeptphase von AI4ScaDa berücksichtigt und abschließend die praxiserprobten Lösungen von AI4ScaDa zurück auf die Plattform gespiegelt werden. Weiterhin fließen die Lösungen von AI4ScaDa in die Forschungsinfrastrukturen der Forschungspartner ein und stehen dort als Demonstratoren einem weiten Netzwerk, bestehend aus industriellen und wissenschaftlichen Partnern, zur Verfügung. Gleichzeitig findet AI4ScaDa Anwendung in der Lehre, indem die Methoden in Vorlesungsinhalte integriert werden und die Lösungen als Lernplattform in die Laborumgebungen und Realumgebungen der Hochschulen eingebunden wird.