KI-Hardware / KI-Beschleuniger

Es gibt eine Reihe spezialisierter Hardware für KI-Anwendungen, die entwickelt wurden, um die hohen Anforderungen an die Rechenleistung und Effizienz für maschinelles Lernen und künstliche Intelligenz zu erfüllen. Diese Hardware-Lösungen gehen über herkömmliche CPUs hinaus und sind oft für spezifische KI-Berechnungen oder sogar KI-Aufgaben optimiert.

Dabei geht es nicht nur um Geschwindigkeit, sondert um Effizienz. Das ist bei Aufgaben wichtig, die laufend erfolgen müssen und wo nur ein kleines KI-Modell zur Anwendung kommt. Dabei soll möglichst wenig Strom verbraucht werden.

Übersicht

FPGA (Field Programmable Gate Arrays)
ASIC (Application Specific Integrated Circuits)
CPU - Central Processing Unit
GPU - Graphics Processing Unit
KI-Beschleuniger
NPU - Neural Processing Unit
TPU - Tensor Processing Unit

FPGA (Field Programmable Gate Arrays) und ASIC (Application Specific Integrated Circuits)

FPGAs und ASICs sind Spezialprozessoren, die als Beschleuniger mit einer CPU zusammenarbeiten können. Sie werden für jeweils ein spezifisches Problem entwickelt. Das kann die Beschleunigung der Parallelverarbeitung von KI-Berechnungen sein oder die gezielte Beschleunigung neuronaler Netze.

CPU - Central Processing Unit

Universal-Prozessoren, in der Regel als CPUs bezeichnet, sind nicht für bestimmte KI-Aufgaben optimiert, aber gerade deshalb relevant. Denn wenn man noch nicht genau weiß, wohin optimiert werden muss, kann man mit ihnen alles berechnen. Grundlegende KI-Berechnungen lassen sich selbst mit der langsamsten CPU durchführen und verarbeiten.
Es ist davon auszugehen, dass zukünftige CPUs allgemeine KI- oder Vektor-Einheiten für Beschleunigungen sorgen. Spezielle Vector Neural Network Instructions (VNNI) verarbeiten jetzt schon BF16 und Int8 direkt in der CPU.

Matrix-Rechenwerke in CPUs

Moderne Prozessoren enthalten spezielle Rechenwerke für Matrixmultiplikationen direkt in ihren CPU-Kernen. Diese Rechenwerke sind darauf ausgelegt, Algorithmen aus dem Bereich der künstlichen Intelligenz bzw. des Machine Learnings deutlich zu beschleunigen, da viele dieser Verfahren stark auf Matrixoperationen beruhen, die sich gut parallelisieren lassen.

Matrix-Rechenwerke (CPU)

KI-Beschleuniger

KI-Beschleuniger ist ein Oberbegriff für spezielle Rechenwerke und Chips, die KI-Algorithmen wesentlich schneller und effizienter ausführen können. Sie wurden entwickelt, weil KI-Anwendungen optimierte Rechenwerke und mehr Speicher brauchen. Die meisten KI-Beschleuniger wurden auf Basis von Grafik-Prozessoren für PCs entwickelt.

GPU - Graphics Processing Unit

GPUs sind hervorragend für die Parallelverarbeitung geeignet, da sie Hunderte parallel arbeitender Recheneinheiten besitzen. Sie eignen sich besonders gut für Matrixmultiplikationen, die den größten Teil der Berechnungen in neuronalen Netzen ausmachen. GPUs sind also ideal für die KI-Beschleunigung. Neuere GPUs verfügen über spezielle KI-Rechenwerke, die für oft genutzte Berechnungen optimiert sind.
Eine besondere Bedeutung kommt dabei der Programmierschnittstelle zu. Für Nvidia gibt es CUDA und für AMD gibt es ROCm.

NPU - Neural Processing Unit

Die nächste Stufe sind spezialisierte NPUs (Neural Processing Units). Sie sind noch leistungsfähiger, erfordern jedoch speziell angepasste und „quantisierte“ KI-Modelle.
Das bedeutet, im Vergleich zu einer NPU können Matrix-Rechenwerke in der CPU flexibler eingesetzt werden.

NPU - Neural Processing Unit

TPU - Tensor Processing Unit

TPUs sind spezielle Prozessoren, die von Google entwickelt wurden und gezielt auf KI-Anwendungen, insbesondere Tensor-Operationen, abgestimmt sind. Sie können in manchen Anwendungen sparsamer arbeiten.

TPU - Tensor Processing Unit

KI-Leistungskennzahlen

Um den Leistungsbedarf von KI-Modellen mit der Leistungsfähigkeit von KI-Beschleunigern sinnvoll zu vergleichen, nutzt man in der Praxis vor allem die Maßeinheit FLOPS als gemeinsame Kennzahl für die Rechenleistung.

FLOPs (Floating Point Operations) gibt die Anzahl der benötigten Gleitkomma-Operationen eines Modells (z. B. pro Inferenz oder Training) an.
FLOPS (Floating Point Operations per Second) ist ein Maß für die Rechenleistung der Hardware. Wie viele FLOPs pro Sekunde ausgeführt werden können.

Man kann den Modellbedarf (z. B. 10 TFLOPs pro Modell-Durchlauf) und die Beschleunigerleistung (z. B. 100 TFLOPS) direkt vergleichen.
Dadurch lässt sich die Laufzeit und benötigte Hardware abschätzen. Abschätzen deshalb, weil die Beschleunigerleistung in FLOPS nur ein theoretischer Wert ist. Zur weiteren Beurteilung der Leistungsfähigkeit sind weitere Kennzahlen heranzuziehen.

In der Praxis braucht man fast immer eine Kombination aus FLOPS, Speicherbandbreite und Effizienz, um realistische Aussagen zu treffen.

Rechenpräzision (Precision)

KI-Beschleuniger liefern unterschiedliche FLOPS mit einer bestimmten Präzision. Das ist wichtig für realistische Vergleiche, weil die tatsächlich erreichbare Rechenleistung stark davon abhängt, mit welcher numerischen Genauigkeit gerechnet wird und viele KI-Modelle auch mit geringerer Präzision (z. B. FP16 oder INT8) nahezu die gleiche Genauigkeit bei deutlich höherer Geschwindigkeit erreichen.

Beispiele für die Rechenpräzision:

FP64: Floating Point mit 64 Bit (Double Precision, v. a. in wissenschaftlichen Anwendungen)
FP32: Floating Point mit 32 Bit
FP16: Floating Point mit 16 Bit
BF16: Brain Floating Point mit 16 Bit (ähnlich FP16, aber größerer Wertebereich, häufig in KI-Training)
TF32: Tensor Float 32 (optimierte Mischform auf bestimmten GPUs, z. B. für schnelleres Training)
FP8: Floating Point mit 8 Bit (neuere Entwicklung für sehr effiziente KI-Beschleuniger)
INT16: Ganzzahl (Integer) mit 16 Bit
INT8: Ganzzahl (Integer) mit 8 Bit (für quantisierte Modelle)
INT4: Ganzzahl (Integer) mit 4 Bit (für stark quantisierte Modelle)

Je geringer die Bitbreite, desto:

schneller und energieeffizienter die Berechnung
aber potenziell ungenauer das Ergebnis

Deshalb wird in der Praxis oft ein Kompromiss zwischen Genauigkeit und Effizienz gewählt. Zum Beispiel FP16 für Training und INT8 für Inferenz.

Speicherbandbreite (Memory Bandwidth)

Die Speicherbandbreite ist oft der eigentliche Flaschenhals bei großen KI-Modellen. Die Speicherbandbreite bestimmt, wie schnell die Daten aus dem Speicher in die Recheneinheit bewegt werden können.

Latenz und Durchsatz

Die Latenz ist die Zeit, die pro Anfrage vergeht. Das ist die Zeit zwischen dem Eingang einer Anfrage und der Ausgabe des Ergebnisses.
Der Durchsatz ist die Anzahl der Anfragen pro Sekunde.

Beide Angaben sind besonders wichtig, wenn es um die Echtzeitanwendung von KI-Modellen geht.

Energieeffizienz

Entscheidend in Rechenzentren und der Edge-KI ist die Energieeffizienz in FLOPS pro Watt. Sie gibt an, wie viel Rechenleistung pro eingesetzter Energie erzielt wird und damit direkt Kosten, Kühlungsaufwand und die Skalierbarkeit von KI-Anwendungen bestimmt.

Software und Programmierschnittstellen (APIs)

Eine schnelle KI-Hardware ist nur die halbe Miete. Da die unterschiedlichen KI-Rechenwerke von AMD, Apple, Intel, Nvidia und Qualcomm nicht binärkompatibel sind, bedarf es passende Software wie Frameworks, Bibliotheken und optimierte Modelle, um das Potenzial der Hardware ausschöpfen zu können.
KI-Frameworks wie TensorFlow, Caffe, PyTorch oder Keras, die wiederum verschiedene Programmierschnittstellen wie Microsoft DirectML, Apple CoreML, Nvidia TensorRT, AMD AI Engine, Intel OpenVINO, Qualcomm AI Engine Direct oder Vulkan nutzen.
Es ist schwierig herauszufinden, welche KI-Software die Hardware optimal ausreizt, da die Performance je nach Kombination aus Framework, API, Treibern und Hardware stark variieren kann.

KI-Software

Beispiel: Künstliche neuronale Netze (KNN)

Künstliche neuronale Netze sind Verbindungen zwischen künstlichen Neuronen, die in Schichten organisiert sind und deren Funktionsweise von den Neuronen im Gehirn inspiriert sind. Jedes künstliche Neuron führt eine einfache Berechnung durch und leitet das Ergebnis an alle Neuronen der nächsten Schicht weiter. In Summe können komplexe Zusammenhänge erlernt oder Entscheidungen getroffen werden.

Weitere verwandte Themen:

Lernen mit Elektronik-Kompendium.de

Noch Fragen?

Bewertung und individuelles Feedback erhalten

Aussprache von englischen Fachbegriffen

Neue Auflage

Computertechnik-Fibel

Computertechnik neu verstehen - jetzt in der 6. Auflage

Die Computertechnik-Fibel ist in einer vollständig überarbeiteten 6. Auflage als Buch, eBook und Bundle erschienen.
Statt einzelne Teile zu lernen, entwickelst du ein Gesamtverständnis moderner Computersysteme. Von der Hardware, Betriebssysteme, Virtualisierung, KI und Quantencomputer.

Jetzt bestellen

inkl. MwSt. zzgl. Versandkosten

Computertechnik-Fibel

Alles was du über Computertechnik wissen musst.

Die Computertechnik-Fibel ist ein Buch über die Grundlagen der Computertechnik, Prozessortechnik, Halbleiterspeicher, Schnittstellen, Datenspeicher, Laufwerke und wichtige Hardware-Komponenten.

Das will ich haben!

Artikel-Sammlungen zum Thema Computertechnik

Alles was du über Computertechnik wissen solltest.

KI-Hardware / KI-Beschleuniger

Übersicht

FPGA (Field Programmable Gate Arrays) und ASIC (Application Specific Integrated Circuits)

CPU - Central Processing Unit

Matrix-Rechenwerke in CPUs

KI-Beschleuniger

GPU - Graphics Processing Unit

NPU - Neural Processing Unit

TPU - Tensor Processing Unit

KI-Leistungskennzahlen

Rechenpräzision (Precision)

Speicherbandbreite (Memory Bandwidth)

Latenz und Durchsatz

Energieeffizienz

Software und Programmierschnittstellen (APIs)

Beispiel: Künstliche neuronale Netze (KNN)

Weitere verwandte Themen:

Lernen mit Elektronik-Kompendium.de

Noch Fragen?

Bewertung und individuelles Feedback erhalten

Aussprache von englischen Fachbegriffen

Computertechnik-Fibel

Computertechnik neu verstehen - jetzt in der 6. Auflage

Computertechnik-Fibel

Alles was du über Computertechnik wissen musst.

Artikel-Sammlungen zum Thema Computertechnik

Trends in der IT

Crashkurs IT

Digitalisierung

Quantentechnik