KI-Hardware / KI-Beschleuniger
Es gibt eine Reihe spezialisierter Hardware für KI-Anwendungen, die entwickelt wurden, um die hohen Anforderungen an die Rechenleistung und Effizienz für maschinelles Lernen und künstliche Intelligenz zu erfüllen. Diese Hardware-Lösungen gehen über herkömmliche CPUs hinaus und sind oft für spezifische KI-Berechnungen oder sogar KI-Aufgaben optimiert.
Dabei geht es nicht nur um Geschwindigkeit, sondert um Effizienz. Das ist bei Aufgaben wichtig, die laufend erfolgen müssen und wo nur ein kleines KI-Modell zur Anwendung kommt. Dabei soll möglichst wenig Strom verbraucht werden.
Übersicht
- FPGA (Field Programmable Gate Arrays)
- ASIC (Application Specific Integrated Circuits)
- CPU - Central Processing Unit
- GPU - Graphics Processing Unit
- KI-Beschleuniger
- NPU - Neural Processing Unit
- TPU - Tensor Processing Unit
FPGA (Field Programmable Gate Arrays) und ASIC (Application Specific Integrated Circuits)
FPGAs und ASICs sind Spezialprozessoren, die als Beschleuniger mit einer CPU zusammenarbeiten können. Sie werden für jeweils ein spezifisches Problem entwickelt. Das kann die Beschleunigung der Parallelverarbeitung von KI-Berechnungen sein oder die gezielte Beschleunigung neuronaler Netze.
CPU - Central Processing Unit
Universal-Prozessoren, in der Regel als CPUs bezeichnet, sind nicht für bestimmte KI-Aufgaben optimiert, aber gerade deshalb relevant. Denn wenn man noch nicht genau weiß, wohin optimiert werden muss, kann man mit ihnen alles berechnen. Grundlegende KI-Berechnungen lassen sich selbst mit der langsamsten CPU durchführen und verarbeiten.
Es ist davon auszugehen, dass zukünftige CPUs allgemeine KI- oder Vektor-Einheiten für Beschleunigungen sorgen. Spezielle Vector Neural Network Instructions (VNNI) verarbeiten jetzt schon BF16 und Int8 direkt in der CPU.
Matrix-Rechenwerke in CPUs
Moderne Prozessoren enthalten spezielle Rechenwerke für Matrixmultiplikationen direkt in ihren CPU-Kernen. Diese Rechenwerke sind darauf ausgelegt, Algorithmen aus dem Bereich der künstlichen Intelligenz bzw. des Machine Learnings deutlich zu beschleunigen, da viele dieser Verfahren stark auf Matrixoperationen beruhen, die sich gut parallelisieren lassen.
KI-Beschleuniger
KI-Beschleuniger ist ein Oberbegriff für spezielle Rechenwerke und Chips, die KI-Algorithmen wesentlich schneller und effizienter ausführen können. Sie wurden entwickelt, weil KI-Anwendungen optimierte Rechenwerke und mehr Speicher brauchen. Die meisten KI-Beschleuniger wurden auf Basis von Grafik-Prozessoren für PCs entwickelt.
GPU - Graphics Processing Unit
GPUs sind hervorragend für die Parallelverarbeitung geeignet, da sie Hunderte parallel arbeitender Recheneinheiten besitzen. Sie eignen sich besonders gut für Matrixmultiplikationen, die den größten Teil der Berechnungen in neuronalen Netzen ausmachen. GPUs sind also ideal für die KI-Beschleunigung. Neuere GPUs verfügen über spezielle KI-Rechenwerke, die für oft genutzte Berechnungen optimiert sind.
Eine besondere Bedeutung kommt dabei der Programmierschnittstelle zu. Für Nvidia gibt es CUDA und für AMD gibt es ROCm.
NPU - Neural Processing Unit
Die nächste Stufe sind spezialisierte NPUs (Neural Processing Units). Sie sind noch leistungsfähiger, erfordern jedoch speziell angepasste und „quantisierte“ KI-Modelle.
Das bedeutet, im Vergleich zu einer NPU können Matrix-Rechenwerke in der CPU flexibler eingesetzt werden.
TPU - Tensor Processing Unit
TPUs sind spezielle Prozessoren, die von Google entwickelt wurden und gezielt auf KI-Anwendungen, insbesondere Tensor-Operationen, abgestimmt sind. Sie können in manchen Anwendungen sparsamer arbeiten.
KI-Leistungskennzahlen
Um den Leistungsbedarf von KI-Modellen mit der Leistungsfähigkeit von KI-Beschleunigern sinnvoll zu vergleichen, nutzt man in der Praxis vor allem die Maßeinheit FLOPS als gemeinsame Kennzahl für die Rechenleistung.
- FLOPs (Floating Point Operations) gibt die Anzahl der benötigten Gleitkomma-Operationen eines Modells (z. B. pro Inferenz oder Training) an.
- FLOPS (Floating Point Operations per Second) ist ein Maß für die Rechenleistung der Hardware. Wie viele FLOPs pro Sekunde ausgeführt werden können.
Man kann den Modellbedarf (z. B. 10 TFLOPs pro Modell-Durchlauf) und die Beschleunigerleistung (z. B. 100 TFLOPS) direkt vergleichen.
Dadurch lässt sich die Laufzeit und benötigte Hardware abschätzen. Abschätzen deshalb, weil die Beschleunigerleistung in FLOPS nur ein theoretischer Wert ist. Zur weiteren Beurteilung der Leistungsfähigkeit sind weitere Kennzahlen heranzuziehen.
In der Praxis braucht man fast immer eine Kombination aus FLOPS, Speicherbandbreite und Effizienz, um realistische Aussagen zu treffen.
Rechenpräzision (Precision)
KI-Beschleuniger liefern unterschiedliche FLOPS mit einer bestimmten Präzision. Das ist wichtig für realistische Vergleiche, weil die tatsächlich erreichbare Rechenleistung stark davon abhängt, mit welcher numerischen Genauigkeit gerechnet wird und viele KI-Modelle auch mit geringerer Präzision (z. B. FP16 oder INT8) nahezu die gleiche Genauigkeit bei deutlich höherer Geschwindigkeit erreichen.
Beispiele für die Rechenpräzision:
- FP64: Floating Point mit 64 Bit (Double Precision, v. a. in wissenschaftlichen Anwendungen)
- FP32: Floating Point mit 32 Bit
- FP16: Floating Point mit 16 Bit
- BF16: Brain Floating Point mit 16 Bit (ähnlich FP16, aber größerer Wertebereich, häufig in KI-Training)
- TF32: Tensor Float 32 (optimierte Mischform auf bestimmten GPUs, z. B. für schnelleres Training)
- FP8: Floating Point mit 8 Bit (neuere Entwicklung für sehr effiziente KI-Beschleuniger)
- INT16: Ganzzahl (Integer) mit 16 Bit
- INT8: Ganzzahl (Integer) mit 8 Bit (für quantisierte Modelle)
- INT4: Ganzzahl (Integer) mit 4 Bit (für stark quantisierte Modelle)
Je geringer die Bitbreite, desto:
- schneller und energieeffizienter die Berechnung
- aber potenziell ungenauer das Ergebnis
Deshalb wird in der Praxis oft ein Kompromiss zwischen Genauigkeit und Effizienz gewählt. Zum Beispiel FP16 für Training und INT8 für Inferenz.
Speicherbandbreite (Memory Bandwidth)
Die Speicherbandbreite ist oft der eigentliche Flaschenhals bei großen KI-Modellen. Die Speicherbandbreite bestimmt, wie schnell die Daten aus dem Speicher in die Recheneinheit bewegt werden können.
Latenz und Durchsatz
- Die Latenz ist die Zeit, die pro Anfrage vergeht. Das ist die Zeit zwischen dem Eingang einer Anfrage und der Ausgabe des Ergebnisses.
- Der Durchsatz ist die Anzahl der Anfragen pro Sekunde.
Beide Angaben sind besonders wichtig, wenn es um die Echtzeitanwendung von KI-Modellen geht.
Energieeffizienz
Entscheidend in Rechenzentren und der Edge-KI ist die Energieeffizienz in FLOPS pro Watt. Sie gibt an, wie viel Rechenleistung pro eingesetzter Energie erzielt wird und damit direkt Kosten, Kühlungsaufwand und die Skalierbarkeit von KI-Anwendungen bestimmt.
Software und Programmierschnittstellen (APIs)
Eine schnelle KI-Hardware ist nur die halbe Miete. Da die unterschiedlichen KI-Rechenwerke von AMD, Apple, Intel, Nvidia und Qualcomm nicht binärkompatibel sind, bedarf es passende Software wie Frameworks, Bibliotheken und optimierte Modelle, um das Potenzial der Hardware ausschöpfen zu können.
KI-Frameworks wie TensorFlow, Caffe, PyTorch oder Keras, die wiederum verschiedene Programmierschnittstellen wie Microsoft DirectML, Apple CoreML, Nvidia TensorRT, AMD AI Engine, Intel OpenVINO, Qualcomm AI Engine Direct oder Vulkan nutzen.
Es ist schwierig herauszufinden, welche KI-Software die Hardware optimal ausreizt, da die Performance je nach Kombination aus Framework, API, Treibern und Hardware stark variieren kann.
Beispiel: Künstliche neuronale Netze (KNN)
Künstliche neuronale Netze sind Verbindungen zwischen künstlichen Neuronen, die in Schichten organisiert sind und deren Funktionsweise von den Neuronen im Gehirn inspiriert sind. Jedes künstliche Neuron führt eine einfache Berechnung durch und leitet das Ergebnis an alle Neuronen der nächsten Schicht weiter. In Summe können komplexe Zusammenhänge erlernt oder Entscheidungen getroffen werden.
Weitere verwandte Themen:
- Künstliche Intelligenz (KI) / Artificial Intelligence (AI)
- Was ist ein KI-Modell?
- Machine Learning / Maschinelles Lernen
- KI-Software
- KI-Anwendungen
Lernen mit Elektronik-Kompendium.de
Noch Fragen?
Bewertung und individuelles Feedback erhalten
Aussprache von englischen Fachbegriffen
Computertechnik-Fibel
Computertechnik neu verstehen - jetzt in der 6. Auflage
Die Computertechnik-Fibel ist in einer vollständig überarbeiteten 6. Auflage als Buch, eBook und Bundle erschienen.
Statt einzelne Teile zu lernen, entwickelst du ein Gesamtverständnis moderner Computersysteme. Von der Hardware, Betriebssysteme, Virtualisierung, KI und Quantencomputer.
inkl. MwSt. zzgl. Versandkosten
Computertechnik-Fibel
Alles was du über Computertechnik wissen musst.
Die Computertechnik-Fibel ist ein Buch über die Grundlagen der Computertechnik, Prozessortechnik, Halbleiterspeicher, Schnittstellen, Datenspeicher, Laufwerke und wichtige Hardware-Komponenten.
Artikel-Sammlungen zum Thema Computertechnik
Alles was du über Computertechnik wissen solltest.






