Smarte Chips senken den Energieverbrauch von KI erheblich
Copyright: Universität Paderborn / Judith Kraft / ZUG gGmbH
Wie können Energieverbrauch und CO2-Ausstoß bei der Verwendung von KI-Systemen in der Bilderkennung und Sprachverarbeitung, gesenkt werden? Darüber sprachen wir mit Prof. Dr. Marco Platzer vom Institut für Informatik an der Universität Paderborn.
Herr Platzner, was hat Sie zu dem Projekt motiviert und was war das Ziel?
Für die Ausführung von Tiefen Neuronalen Netzen (engl. “Deep Neural Networks” oder auch DNNs) in der Bilderkennung und Sprachverarbeitung werden sehr große Datenmengen in Rechenzentren verarbeitet. Die hohe Rechenlast verursacht jedoch einen hohen Energieverbrauch und CO2-Ausstoß. Wir wollten durch die Nutzung von Field-Programmable Gate Arrays (FPGAs), eine Art frei programmierbare Chips, die Energieeffizienz von KI-Systemen für die DNN-Berechnung optimieren, um deren Umweltbelastung und Betriebskosten erheblich zu senken.
Warum durch die Nutzung von Field-Programmable Gate Arrays (FPGAs)?
Bisher werden für die Ausführung von Tiefen Neuronalen Netzen Grafikprozessoren (GPUs) oder Zentralprozessoren (CPUs) genutzt. Unsere beiden Arbeitsgruppen an der Universität Paderborn arbeiten seit vielen Jahren zu FPGAs. Diese Chips verbrauchen – je nach Anwendung – weniger Energie und rechnen schneller als GPUs, sind aber aufwendiger zu programmieren. Die Firma AMD/Xilinx hatte mit dem Open-Source-Framework FINN bereits ein offenes Compiler-Framework für neuronale Netze auf FPGAs entwickelt. Das Projekt gab uns die Chance, unsere Erfahrung und die enge Zusammenarbeit mit AMD/Xilinx zu nutzen, um FINN deutlich auszubauen und den Schwerpunkt auf Energieeffizienz zu legen.
Welche weiteren Schritte waren notwendig?
Wir wollten den Energiebedarf von KI-Modellen, die auf FPGAs laufen, im Rechenzentrum messen und senken. Dafür mussten wir DNNs automatisiert auf diese Hardware bringen, Modelle durch Entfernung unnötiger Verbindungen (Pruning) und starke Quantisierung vereinfachen und verschlanken, nichtlineare Funktionen effizient umsetzen und DNNs auf mehrere FPGAs verteilen. Ein weiterer Schwerpunkt war, verlässliche Methoden zu entwickeln, um den Energiebedarf einzelner Komponenten vorhersagen zu können.
Welche Ergebnisse konnten Sie erreichen?
Wir haben FINN erweitert, sodass heute deutlich mehr Modellarten, auch erste Transformer, auf FPGAs laufen können. Zudem haben wir Methoden entwickelt, um den Energiebedarf einzelner Bausteine eines Tiefen Neuronalen Netzes vorab zu schätzen. Ergänzend können wir den Verbrauch kompletter Inferenzläufe messen und mit anderen Technologien vergleichen. Je nach Modell und Batchgröße sind Einsparungen von 90% gegenüber GPUs möglich. Auch die Umsetzung auf Multi-FPGA-Systemen konnten wir zeigen.
Welche Herausforderungen gab es im Projekt?
Die Entwicklung neuer DNN-Architekturen ist sehr dynamisch, und ihre Umsetzung auf FPGAs ist oft aufwendig. Durch die stärkere Automatisierung von FINN und eine klarere Benutzerführung konnten wir diesen Aufwand reduzieren. Eine weitere Hürde war das Testen realistischer Workloads, da kommerzielle Testlasten meist fehlen. Wir haben dafür eigene Bewertungsmethoden aufgebaut, um Energieeffizienz dennoch belastbar prüfen zu können.
Welchen Impact haben die Ergebnisse für den Umwelt- Natur- oder Klimaschutz?
Wir konnten eine erhöhte Energieeffizienz bis zum Zehnfachen gegenüber der Verwendung von Grafikprozessoren erreichen. Das senkt nicht nur direkt den Stromverbrauch, sondern auch – je nach Strommix – den Ausstoß von CO₂-Emissionen. Da der Einsatz von KI stetig wächst, wird in Zukunft der Energiebedarf von DNNs zu einem wichtigen Umweltfaktor. Mittelfristig erwarten wir, dass die Anzeige konkreter Energiebedarfe für einzelne DNN-Inferenzen Nutzerinnen und Nutzer stärker für einen bewussteren, ressourcenschonenderen Umgang mit KI-Aufrufen sensibilisiert.
Können die Ergebnisse des künftig auch in anderen Bereichen eingesetzt werden?
Ja. Alle Ergebnisse werden veröffentlicht, und der Code steht im FINN-Repository offen zur Verfügung. Das Paderborn Center for Parallel Computing (PC2) wird zudem weiter Workshops anbieten, um Interessierte in die Nutzung der Methoden zur DNN-Abbildung auf FPGA-Systemen und zur Energieanalyse einzuführen. Die Arbeiten haben außerdem zu neuen Forschungsideen im Hardwaredesign und Modelltechniken inspiriert, die wir nach Projektende weiterverfolgen wollen.
Kurz erklärt: Field-Programmable Gate Arrays (FPGAs)
FPGAs sind spezielle Computerchips, die sich umprogrammieren lassen. Anders als herkömmliche Prozessoren, die feste Befehlssätze ausführen, kann man bei FPGAs die Schaltung selbst anpassen. So entsteht eine Art maßgeschneiderte Hardware, die genau auf eine Aufgabe zugeschnitten ist. Das lohnt sich vor allem bei sehr rechenintensiven Anwendungen, etwa bei KI-Modellen oder Signalverarbeitung. FPGAs bieten viel Platz für parallele Recheneinheiten, sehr hohe Datenraten und meist einen deutlich geringeren Energiebedarf als viele andere Beschleuniger. Sie sind jedoch aufwendiger zu entwickeln und erfordern spezielles Know-how.