Audio-Codecs (VoIP)

Wie bei der Digitalisierung der Sprache für die Fernsprechübertragung arbeiten Codecs nach dem Prinzip Sampling, Quantisierung und Kodierung. Dadurch erreicht man eine optimale Sprachqualität, um das analoge Sprachsignal über digitale Systeme zu übertragen.

In einem paketvermittelten Netz ist man immer bestrebt Bandbreite zu sparen. Deshalb werden die Sprachdaten meistens noch komprimiert. Allerdings nimmt bei zunehmender Komprimierung die Sprachqualität ab, die Dekomprimierungszeit und die erforderliche Rechenleistung nehmen zu.
Das gilt jedoch nicht immer. Die meisten Codecs machen sich die Eigenschaften der menschlichen Sprache zu nutze um möglichst verlustfrei zu komprimieren.

Codecs zur Sprachdigitalisierung müssen einige Bedingungen erfüllen. Bedingt durch die Struktur des Internets (paketorientierte Übertragung und Vermittlung) müssen sie Paketverluste (bis zu 5%) verkraften und Laufzeitunterschiede der einzelnen Pakete ausgleichen und in die richtige Reihenfolge sortieren können (Forward Error Correction und Jitter Buffering). Das bedeutet, dass Paketverluste und Laufzeitschwankungen keinen Einfluss auf die Sprachqualität haben dürfen.

MOS - Mean Opinion Score

MOS kleiner 4 MOS größer 4
vergleichbar mit
der Sprachqualität
im Mobilfunknetz
vergleichbar mit
der Sprachqualität
im Festnetz

Von Bell Labs wurde der "Mean Opinion Score" (MOS) definiert. Der MOS gibt die durchschnittliche, subjektiv empfundene Gesprächsqualität eines Benutzers an. Der MOS-Wert 4 gilt als Grenzwert. Darüber wird die Sprachqualität besser, darunter schlechter.

MOS-Wert Bedeutung
5 / excellent keine Anstrengung zum Verständnis der Sprache notwendig
4 / good keine Anstrengung notwendig, aber Aufmerksamkeit notwendig
3 / fair leichte Anstrengung notwendig
2 / poor merkbare, deutliche Anstrengung notwendig
1 / bad trotz Anstrengung kein Verständnis

Hinweis: Entscheidend für die Qualität der Sprache ist nicht der Codec alleine, sondern dass alle Datenpakete innerhalb eines bestimmten Zeitfensters bei der Gegenstelle ankommen.

Übersicht

Es gibt verschiedene Codecs, die für Multimedia-Übertragung im IP-Netzwerk geeignet sind.

  • ITU-T G.711
  • ITU-T G.722
  • ITU-T G.722.2
  • ITU-T G.723
  • ITU-T G.726
  • ITU-T G.729

Der Referenz-Codec hinsichtlich Sprachqualität ist G.711. Pro Verbindung und Richtung benötigt er eine Bandbreite von 100 kBit/s.

Mit G.726 und G.729 lässt sich die notwendige Bandbreite ohne spürbare oder nur geringfügige Qualitätsverluste reduzieren. Mit G.722 und G.722.2 verbessert sich die Qualität der Sprache bei vergleichbarer Bandbreite.
Neben den offiziellen und standardisierten Codecs gibt es weitere proprietäre Codecs einiger Firmen.

Die meisten IP-Telefone unterstützen eine Art „Rangliste“ der zu benutzenden Codecs, um Inkompatibilitäten zu vermeiden.

Codec G.711 / PCM - Pulse Code Modulation

Der G.711 ist der älteste Codec und entspricht der Pulse Code Modulation (PCM). Das ist ein Verfahren zur Digitalisierung von Sprache. Das Verfahren benötigt nur eine geringe Rechenleistung. Mit einer Datenrate von 64 kBit/s hat der Codec gerade mal eine Bandbreite von 3,1 kHz (Fernsprechkanal). Dafür ist ein vergleichsweise geringe Rechenleistung für die Analog-Digital-Wandlung erforderlich.

Bei 8.000 Abtastungen pro Sekunde (Sampling), mit einer Quantisierung von 8 Bit pro Abtastung ergibt sich eine Bitrate von 64 kBit pro Sekunde (nach µ-Law/a-Law). Diese Technik wird als PCM bezeichnet. Sie wird im leitungsvermittelten ISDN für die Digitalisierung und Übertragung der Sprache verwendet.

G.711 (PCM) ist der kleinste gemeinsame Nenner, was die Sprachqualität angeht. Es kommt ohne rechenintensive Kompression aus und braucht deshalb auch relativ viel Bandbreite. Werden die Sprachdaten mit einem anderen Codec komprimiert, dann wird G.711 oft beim Qualitätsvergleich herangezogen.

ISDN verwendet G.711 für seine B-Kanäle. VoIP-Anbieter setzen häufig G.711 ein. Der Vorteil liegt in der einfachen Durchleitung der Sprachdaten vom Festnetz ins IP-Netz bzw. umgekehrt. Eine Umkodierung der Sprachdaten ist nicht notwendig.

Codec G.722 (HD Voice) / AMR - Adaptive Multi-Rate Codec

Beim Einsatz des Codecs G.722 spricht man auch von HD-Voice oder HD-Telefonie. Das „High Definition“ kommt durch eine Bandbreite von 7 kHz. Damit verbessert sich Sprachqualität bei Telefonverbindungen.

Je nach dem, wie hoch die Übertragungsrate und der Qualitätsbedarf ist, kann der Bandbreitenbedarf bei 48, 56 oder 64 kBit/s liegen. In VoIP-Netzen ist G.722 weit verbreitet und in Endgeräten und Vermittlungsstellen implementiert.

Die Sprachqualität reicht bis an die Qualität eines UKW-Radios heran und wird zum Beispiel für CAT-iq (DECT) verwendet. Die höhere Sprachqualität kann man aber nur mit neuen und kompabiblen Telefonen nutzen. Normalerweise auch nur mit DECT-Telefonen, der mit CAT-iq HD-Telefonie mit G.722 unterstützt.

Der Codec G.722 bewertet die Signaldifferenz zwei aufeinanderfolgender Signale. So lässt sich mit der selben Bitrate von G.711 ein Sprachsignale bis 7 kHz mit einer Abtastrate von 16 kHz digitalisieren. Das Frequenzband reicht von 50 Hz bis 7.000 Hz.

Codec G.722.2 (HD Voice) / AMR-WB - Adaptive Multi-Rate Wideband

ITU-T G.722.2 ist die Wideband-Version des Adaptive Multirate Codec. Trotz der Namensähnlichkeit mit G.722 hat G.722.2 nur den übertragenen Tonumfang gemeinsam.

LTE ist das erste öffentliche Mobilfunknetz, das vollständig IP-basiert ist. Bei der Sprachübertragung spricht man von Voice over LTE (VoLTE).
Ob AMR-WB beim Übergang zwischen Mobilfunknetz und IP-Telefonie im Festnetz verwendet wird, ist nicht gesichert.

AMR-WB ist auf die Übertragung im Mobilfunknetz zugeschnitten und komprimiert die Sprache sehr stark. AMR-WB tastet das Sprachsignal mit 16 kHz ab und quantisiert es mit 14 Bit. Die Übertragungsbandbreite ist variabel und liegt zwischen 6,6 und 24 kBit/s. In Gesprächspausen kann die Datenrate auch auf 1,75 kBit/s fallen.

Codec G.726 / ADPCM - Adaptive Differential Pulse Code Modulation

Ursprünglich wurde der Codec G.726 (ADPCM-Codec mit 32 kbit/s) für die Integration von DECT-basierten Telefonanlagen in die IP-Welt entwickelt.

Codec G.729 / G.729A / Conjugate Structure Algebraic Code Excited Linear Prediction (CSA-CELP)

Bei G.729 handelt es sich um die optimierte Variante des CELP-Algorithmus für Sprachübertragungen. G.729 ist mit G.723 vergleichbar. Der Bandbreitenbedarf liegt bei nur 8 kBit/s, wodurch eine geringere Rechenleistung im Vergleich zu G.723 erforderlich ist.
Für VoIP-Anwendungen wird der Codec G.729A verwendet. Er ist die Grundlage für eine gute Sprachqualität in VoIP-Verbindungen. Unter Berücksichtigung des IP-Overheads, der Sprachkomprimierung und der Sprechpausenunterdrückung wird eine Bandbreite von ca. 10 kbit/s (1,25 kByte/s) pro Sprachverbindung benötigt. Diese Bandbreite muss das Datennetz für jedes Gespräch gewährleisten.

Übersicht und Vergleich der Audio-Codecs

Codec Name/Bezeichnung Bandbreite MOS Delay Sprachqualität
G.711 Pulse Code Modulation (PCM) 56 oder 64 kbit/s 4,10 0,25 ms ISDN
G.722 Adaptive Multi-Rate (AMR) 48 bis 64 kBit/s     HD
G.722.2 Adaptive Multi-Rate Wideband (AMR-WB) 1,75 bis 24 kBit/s     HD
G.723.1 Multiple Maximum Likelihood Quantization (MP-MLQ) 5,6 - 6,3 kbit/s 3,90 67,5 ms Gut
G.723 Algebraic Code Excited Linear Prediction (A-CELP) 5,3 kbit/s 3,65    
G.726 Adaptive Differential Pulse Code Modulation (AD-PCM) 16 - 40 kbit/s 3,85   Mobilfunk
G.728 Low Delay Code Excited Linear Prediction (LD-CELP) 16 kbit/s 3,61 1,25 ms ungefähr ISDN
G.729 Conjugate Structure Algebraic Code Excited Linear Prediction (CSA-CELP) 8 kbit/s 3,92 25 ms  
G.729A Conjugate Structure Algebraic Code Excited Linear Prediction (CSA-CELP) 8 kbit/s 3,70 25 ms besser als G.723.1

Weitere verwandte Themen:

Frag Elektronik-Kompendium.de

Kommunikationstechnik-Fibel

Alles was Sie über Kommunikationstechnik wissen müssen.

Die Kommunikationstechnik-Fibel ist ein Buch über die Grundlagen der Kommunikationstechnik, Übertragungstechnik, Netze, Funktechnik, Mobilfunk, Breitbandtechnik und Voice over IP.

Das will ich haben!

Netzwerktechnik-Fibel

Alles was Sie über Netzwerke wissen müssen.

Die Netzwerktechnik-Fibel ist ein Buch über die Grundlagen der Netzwerktechnik, Übertragungstechnik, TCP/IP, Dienste, Anwendungen und Netzwerk-Sicherheit.

Das will ich haben!

Videokonferenz-Server im eigenen Netzwerk betreiben

Videokonferenz-Server Jitsi im eigenen Netzwerk betreiben
  • Eigener Videokonferenz-Server auf Basis von Jitsi und WebRTC
  • Sicherer und Datenschutz-konformer durch den Eigenbetrieb
  • Unabhängig von externen Diensten
  • Externe Teilnehmer einladen
  • In jedem Webbrowser einfach zu bedienen
  • Mit Jitsi Meet ist eine Smartphone-App verfügbar

Bestellen Sie Ihre TrutzBox mit integriertem Videokonferenz-Server jetzt mit dem Gutschein-Code "elko50" und sparen Sie dabei 50 Euro.

Mehr über den Videokonferenz-Server