Entwicklung und Geschichtliches
Mitte der 1930er Jahre begann man bei Bell Laboratories mit Forschungen über Analyse und Synthese der menschlichen Sprache. Diese Bemühungen endeten in der Entwicklung eines Sprachanalysegerätes mit dem Namen "Vocoder" und einem Sprachsynthesizer, dem "Voder". Der Hauptbeweggrund für die Forschungen war der Wunsch, Sprache über längere Distanzen (Transatlantik) über Telegraphenleitungen zu übertragen, die aber in ihrer Bandbreite sehr beschränkt waren. Die erste praktische Anwendung erfuhr das "Voice Encoding" als kryptographische Maßnahme während des 2. Weltkrieges.
In Produktion gingen Vocoder-Systeme ein wenig später, der erste wurde von Hommer Dudley 1939 in New Jersey unter dem Namen "Parallel Bandpass Vocoder" gebaut. Vocoder waren wichtige Werkzeuge bei der Gestaltung von Science-Fiction Filmmusik ab den 40er Jahren. Vocoder-Klänge sind das Synonym für elektronische Musik ab 1970. V.a. Bands, wie Kraftwerk, verhalfen diesen Maschinen zu ihrem Erfolg.
Abb.: Korg VC-10 Vocoder
Prinzip eines Vocoders
Wenn man sich den Klang von bestimmten Synthesizern genauer anhört und ein wenig mit Filtern und Equalizern experimentiert, entstehen Geräusche, die Vokalen sehr ähnlich sind. Daraus kann man schließen, dass sich aus einem obertonreichen Signal Sprache erzeugen lässt. Wenn dies nun automatisch geschieht und nicht durch Drehen an Reglern, immer genau die richtigen Frequenzbänder beeinflusst werden und diese Information aus einem Sprachsignal gewonnen wird, dann handelt es sich um ein Vocoder-System.
Bei einem Vocoder gibt es nun keinen Equalizer, sondern Filterbänke. Das zu modulierende Eingangssignal (die menschliche Stimme) wird durch eine Reihe Bandpaßfilter geschickt und in Frequenzbänder zerlegt. Es wird sozusagen nachgesehen, welche Frequenzanteile im Signal enthalten sind. Man spricht hier vom Trägersignal oder Carrier. Modulationseingang, Filter und Envelope werden als Analyseteil bezeichnet.
Im Syntheseteil folgt auf das Filter ein VCA, der von der Steuerspannung aus dem Analyseteil gesteuert wird. Diese Kombination bildet einen Block, von dem meist mehrere in einem Vocoder vorkommen. Je nachdem wie viele Blöcke enthalten sind, verändert sich die Qualität des Vocoders. Meist sind ca. 15 Blöcke vorhanden, mit denen sich gute Sprachmodulationen erzielen lassen. Es sind aber auch Vocoder am Markt, die über bis zu 30 Blöcke verfügen – mehr Schaltkreise können aber auch schlechtere Qualität bedeutet, da es mehr „rauscht“.
Die Abbildung zeigt den schematischen Aufbau eines zwei-bandigen Vocoders.
Abb.: schematischer Aufbau eines Vocoders mit zwei Bändern
Voiced/Unvoiced - Stimmhaft/Stimmlos
Die dargestellte Form der synthetischen Spracherzeugung funktioniert zwar für die Nachbildung von Vokalen (die stimmhaften Laute a, e, i, o, u), jedoch nicht für Konsonanten bzw. Zischlaute (die stimmlosen Laute z, sch, f, etc.). Somit muss im Syntheseteil des Vocoders noch eine weitere Aufgabe erledigt werden: Ein so genannter Voiced/Unvoiced Detector oder Stimmgenerator stellt fest, ob es sich um einen stimmlosen Laut handelt und mischt dem Ausgangssignal entweder hochfrequentes Rauschen, oder den Höhenanteil des originalen Sprachsignales bei.
Die hauptsächliche und wohl bekannteste Anwendung des Vocoders ist eine roboterähnliche Verfremdung der menschlichen Stimme. Ein Vocoder kann aber bei weitem mehr und das Einsatzgebiet ist vielfältig. Da ein Vocoder im Prinzip eine Ansammlung von vielen Filtern ist, kann er hervorragend als Filterelement bei einem modularen Synthesizer eingesetzt werden.
Vocoder und die menschliche Stimme
Zur Modulation der menschlichen Sprache ist wichtig, dass Träger- und Modulator-Signal richtig aufeinander abgestimmt sind. Die Basis-Tonhöhe sollte beim Vocoding der Sprache im Bereich der Sprachfrequenzen liegen. Bei Männern etwa zwischen 120 Hz und 160 Hz, bei Frauen zwischen 220 Hz und 330 Hz. Ist das der Fall, klingt das elektronische (vocodierte) Signal für unser Gehör ähnlich der menschlichen Stimme.
Stimme für den Vocoder aufbereiten
Das folgende Schema (aus Awander S.141) zeigt die optimale Vor- bzw. Aufbereitung der aufgenommen Stimme für den Vocoder-Vorgang.
Abb.: Stimmbearbeitung für Vocoder
Der erste wesentliche Qualitätsfaktor ist das Eingangssignal des Mikrofones bei der Stimmenaufnahme. Deshalb sollte bereits hier auf die bestmögliche Quelle Wert gelegt werden. Ein gut geeignetes Signal für den Vocoder sollte ordentlich komprimiert werden, um einen gleichmäßigen Lautstärkenverlauf zu gewährleisten. Klangregelung bedeutet, dass man das eingehende Signal um einige, nicht gebrauchte Frequenzen "beschneiden" kann. So können Frequenzen unterhalb 150 Hz weg gefiltert werden. Diese Teile werden ja später durch das Carrier-Signal ersetzt.
Die durch den Kompressor (wahrscheinlich) mitverstärkten Rausch- und Geräuschanteile filtert man im Anschluss am besten mit Hilfe eines Noise-Gates, welches hinter den Kompressor gehängt wird. Zusätzlich zu diesen Bearbeitungsschritten kann mit Filtern die Qualität des Ausgangssignals verbessert werden.
Klangbeispiel: H. Dudley's Voder, ca. 1935 (Quelle: http://www.bell-labs.com/org/1133/Heritage/Vocoder/)