Die Qualitätenreihe der Töne, von der oben die Rede war, enthält eine überaus große Mannigfaltigkeit von unterscheidbaren Einzeltönen. Vergleicht man nun, von einem beliebigen Ton ausgehend, der Reihe nach die aufeinanderfolgenden Töne mit dem Ausgangston, so findet man, daß gewisse Töne so innig mit ihm verschmelzen, daß nur ein geübtes Ohr die Zweiheit der Töne bemerkt, während bei dem Zusammenklingen anderer die Zweiheit sofort hervortritt. Wir nennen nun den Tonabstand, bei dem die innigste Verschmelzung eintritt, der Musiklehre folgend, eine Oktav, den hinsichtlich des Verschmelzungsgrades nächstfolgenden eine Quint, der sich die Quart, die große Terz, die Sext, die Sekunde und die Septim anschließen. Der Zusammenklang der beiden letztgenannten Intervalle ist für uns unlustbetont; wir sprechen von Dissonanzen, während die erstgenannte Intervalle die wohlgefälligen Konsonanzen ergeben.
Wie bei der Besprechung der Konsonanz, so überschreiten wir nochmals das enge Gebiet der eigentlichen Empfindung, indem wir uns der Klangfarbe zuwenden. Doch ist diese zweifache Gebietsüberschreitung hier berechtigt, weil wir durch sie die Tonempfindung selbst näher kennen lernen. Helmholtz wies experimentell nach, daß mit den Tönen, die wir erzeugen, gewisse „Obertöne“ verbunden sind, und zwar gesellt sich für gewöhnlich der nächste Oktavton, die Quint von dieser Oktav, ferner die zweite Oktav usw. hinzu. Es sind immer nur ganz bestimmte Töne, die sich mit dem Grundton vereinigen, aber nicht alle Obertöne sind in jedem Falle vorhanden und nicht alle sind jedesmal in der nämlichen Stärke gegeben. Wegen dieser doppelten Variationsmöglichkeit klingen gleich hohe Töne auf verschiedenen Instrumenten ganz verschieden. Mit Hilfe der Helmholtzschen Resonatoren, metallener Hohlkugeln mit einer Öffnung zum Auffangen und einer kleineren zur Abgabe des Tones in den Gehörgang, lassen sich die Teiltöne aus dem Klangganzen heraushören. So gelangt man zu einer Charakteristik des einfachen Tones gegenüber dem zusammengesetzten Klang. Der einfache Ton ist angenehm, ohne Rauhigkeit, unkräftig, in der Tiefe weich und dumpf, in höheren Lagen hell und spitz. Der menschliche Mund beim Pfeifen und die Flöte der Orgel erzeugen Klänge, die dem einfachen Ton sehr nahestehen. Verbindet sich mit dem Grundton eine Anzahl niederer Obertöne, so ergibt sich ein reicher musikalischer Klang wie bei der offenen Orgelpfeife. Ungeradzahlige Teiltöne machen den Klang hohl und bei größerer Anzahl näselnd. Ist der Grundton zugleich der stärkste, so bezeichnen wir den Klang als voll, andernfalls als leer. Werden endlich die jenseits des sechsten liegenden Obertöne sehr intensiv, so erhalten wir den scharfen, rauhen Klang der Blechmusik.
2. Die Beziehung der Tonempfindungen zu den äußeren Reizen
Als allgemeiner Reiz für die Entstehung der Schallwahrnehmungen gelten schwingende Luftmassen. Dem einfachen Ton entspricht die einfache Sinusschwingung, und zwar wird die Gesamtqualität des Tones oder die Tonhöhe durch die Zahl der in einer Sekunde erfolgenden Schwingungen und die Intensität des Tones durch die Amplitude bedingt. Für die Intensitätsregel ist allerdings zu beachten, daß sie in dieser einfachen Form nur für Töne gleicher Höhe gilt. Denn die lebendige Kraft, von der die Stärke des Tones abhängt, richtet sich sowohl nach der Amplitude wie nach der Schwingungszahl; je größer diese ist, um so geringer kann jene sein. Darum klingt von zwei Tönen gleicher Amplitude der höhere lauter (Helmholtz), weshalb z. B. eine Piccoloflöte oder ein guter Sopran ein stark besetztes Orchester zu übertönen vermag.
Die Zahl der Luftschwingungen in der Sekunde bestimmt die Höhe des Tones. 435 Doppelschwingungen in der Sekunde ergeben z. B. den Wiener Kammerton a. Die Raschheit der Schwingungen muß nun so groß sein, daß auf eine Sekunde wenigstens 15 Schwingungen kommen, wenn überhaupt ein Ton gehört werden soll (Ellis). Als oberste Schwingungszahl, die auf uns noch den Eindruck eines Tones macht, gibt man 20000 (König) oder 50000 (Edelmann) Schwingungen an. Im Alter rücken diese Grenzen ein wenig zusammen (Zwaardemaker). Wenn nun als untere Grenze 15 Schwingungen für die Sekunde genannt werden, so ist damit nicht gesagt, daß tatsächlich wenigstens 15 Luftstöße unser Ohr treffen müßten, sondern es ist nur ausgesprochen, mit welcher Geschwindigkeit diese Stöße einander zu folgen haben, damit überhaupt ein musikalischer oder doch ein akustischer Eindruck entsteht. Es genügen nach den neueren Untersuchungen in Wirklichkeit schon zwei aufeinanderfolgende Luftstöße zur Erzeugung einer Tonempfindung. Allerdings ist der Charakter dieser Tonempfindung noch nicht völlig bestimmt. Aber schon mit 16 Schwingungen ist der höchste Grad der Bestimmtheit erreicht. Eine ähnliche Feinheit zeigt das Ohr in dem mittleren Gebiet für die Unterschiede der Geschwindigkeit der Luftstöße. Beträgt der Unterschied auch nur eine halbe Schwingung in der Sekunde, so wird der Ton als ein qualitativ anderer erkannt, wenngleich die Bestimmung seiner Höhe unsicher sein kann. Es lassen sich darum in einer mittleren Oktave über 1000 Töne unterscheiden. Bei etwa 40 Schwingungen irrt man allerdings um eine ganze Schwingung und an den oberen Grenzen vollends um Tausende bei der Bestimmung der Tonhöhen.
Höchst beachtenswert sind die Beziehungen, die zwischen den Schwingungszahlen jener Töne bestehen, die wir oben rein psychologisch als mehr oder weniger miteinander verschmelzend, mehr oder weniger konsonant herausgestellt haben. Die Schwingungszahl eines beliebigen Tones verhält sich zu der seiner Oktav, seiner Quint, seiner Quart, großen Terz, kleinen Terz usw. wie 1 : 2, 2 : 3, 3 : 4, 4 : 5, 5 : 6 usf. Ähnlich einfache Verhältnisse finden sich bei den Schwingungszahlen des Grundtones und der Obertöne. Diese verhalten sich der Reihe nach wie 1 : 2 : 3 : 4 : 5 usf. Aus solchen Tatsachen darf man jedoch nicht den Schluß ziehen, unser Ohr fasse diese eigenartigen Zahlenverhältnisse auf, oder ein konsonantes Intervall erscheine uns deshalb wohlgefällig, weil das Verhältnis der Schwingungszahlen ein sehr einfaches sei. In dem Bewußtsein des über die Tonreize nicht unterrichteten Menschen ist nichts vorhanden als der angenehme oder unangenehme Zusammenklang zweier Töne. Dagegen besitzt unser Ohr eine merkwürdige Fähigkeit, die kompliziertesten Luftwellen zu zerlegen. Ertönt eine Stimmgabel, so werden die benachbarten Luftteilchen in Transversalschwingungen versetzt, die sich geometrisch als einfache Sinusschwingungen nach ihren einzelnen Phasen wiedergeben lassen. Erklingt nun gleichzeitig eine zweite Stimmgabel, so erfassen die von ihr ausgehenden Stöße das nämliche Luftteilchen. Auch sie möchten ihm eine Sinusschwingung erteilen. Da es jedoch nunmehr beiden Antrieben folgen muß, so wird seine Bewegung eine sehr eigenartige, und das Kurvenbild der Totalbewegung wird ein recht kompliziertes, das mit der ursprünglichen Sinuskurve kaum noch eine Ähnlichkeit aufweist. Aber wie sich mathematisch jede Kurve in Sinuskurven zerlegen läßt (Fourrier 1822), so wird auch der verwickelte Gesamtreiz im Ohr in seine einfachen Komponenten zerlegt. Und darum verschmelzen zwei gleichzeitig erklingende Töne nicht zu einem Mischton wie zwei Farben zu einer Mischfarbe verschmelzen, sondern jeder Ton bleibt für sich bestehen. Aus demselben Grunde macht es für das Hören keinen Unterschied, ob zwei Töne gleichzeitig oder nacheinander einsetzen, so sehr sich auch die entstehende Gesamtkurve infolge einer Phasenverschiebung verändert.
Man hat den der Tonempfindung bzw. dem musikalischen Eindruck zugehörigen Reiz vielfach als periodische Luftschwingung dem ein Geräusch verursachenden Reiz gegenübergestellt und diesen als unperiodischen gekennzeichnet. Drückt man aber eine Anzahl benachbarter Klaviertasten gleichzeitig nieder, so vernimmt man ein Geräusch, obwohl hier aus der Summe periodischer Teilreize wieder ein periodischer Gesamtreiz entstehen muß. Anderseits hört man beim Ausklingen einer Sirene zweifellos einen musikalischen Klang, und doch folgen sich hier nicht periodische Schwingungen, da die Reize sich beständig ändern. Man wird also den musikalischen Reiz als den einfacheren gegenüber dem sehr komplizierten Geräuschreiz zu betrachten haben, ohne vorerst eine scharfe Grenzlinie ziehen zu können.
Bevor wir nun die Theorie der Gehörempfindungen darstellen können, müssen wir noch zwei Tatsachengruppen besprechen, die über die Einzelempfindung hinausführen, die Schwebungen und die Kombinationstöne. Erklingen zwei benachbarte Töne gleichzeitig, so bemerkt man rhythmische Intensitätsschwankungen: bei sehr nahe zusammenliegenden Tönen ein allmähliches Ab- und Zunehmen der Intensität, bei entfernteren vernimmt man abgegrenzte Stöße oder endlich ein verworrenes Schwirren. Zählt man ab, wieviele Schwebungen auf die Sekunde entfallen, so stellt sich heraus, daß die Zahl der Schwebungen gleich der Differenz der Schwingungszahlen der beiden Töne ist. Je näher also die Töne einander liegen, um so geringer ist die Zahl der Schwebungen. Schwebungen bei hohen und bei niederen Tönen unterscheiden sich durch die größere Rauhigkeit in den oberen Regionen. Merkwürdigerweise ruft auch ein kräftiger Oberton Schwebungen mit dem Grundton hervor, wodurch also ein neues, die Klangfarbe mitbestimmendes Element gegeben ist.
Die Erklärung der Schwebungen möchte man zunächst bei den äußeren Reizen suchen. Vereinigt man zwei wenig voneinander unterschiedene Sinuskurven, so ergibt sich eine neue Kurve, die periodisch ein Maximum und ein Minimum der Amplitude aufweist. Es wird also wirklich die Luftwelle durch Interferenz abwechselnd geschwächt und verstärkt. Allein diesem Deutungsversuch widerspricht die oben mitgeteilte Tatsache, daß das Ohr von der durch Kombination der Schwingungen entstandenen Form der Kurve unabhängig ist, da es aus dieser die ursprünglichen Komponenten herausanalysiert. Somit müssen die Schwebungen im Ohr selbst entstehen. Die Theorie der Gehörempfindungen hat dies verständlich zu machen.
In eigenartiger Weise geht unser Sinnesorgan über die objektiv vorhandenen Reize hinaus und bleibt doch wiederum in streng gesetzmäßiger Beziehung zu den Reizen bei den sogenannten Kombinationstönen. Wird gleichzeitig ein hoher (h) und ein tiefer (t) Ton geboten, so hört man unter Umständen noch einen dritten Ton von der Schwingungszahl h−t, den Differenzton. Außerdem ist ein Ton von der Schwingungszahl h+t vernehmbar, der Summationston. Sorgfältige Beobachtungen ergaben nun, daß sich zwischen dem Ton t und dem tieferen Differenzton h−t ein neuer Differenzton bildet von der Schwingungszahl t−(h−t) = 2t−h. Man nennt ihn den zweiten Differenzton. Wie man sieht, lassen sich nach diesem Prinzip noch eine Reihe anderer Kombinationstöne rein rechnerisch ableiten. Man will sie zum Teil auch beobachtet haben. Von größerer Bedeutung sind indes nur die drei genannten Kombinationstöne. Zu ihrer einwandfreien Feststellung hat namentlich Stumpf eine exakte Methode ausgearbeitet, auf die wegen ihrer vorbildlichen Sorgfalt hier wenigstens aufmerksam gemacht sei. (Stumpf, Beobachtungen über Kombinationstöne ZPs. 55 [1910], S. 1 ff.)