Nähe und Distanz in der Kommunikation über die Stimme

Digitale Gesangsstunden während der COVID-19-Pandemie

Till Hartwig

Journal für Psychologie, 30(2), 70–89

https://doi.org/10.30820/0942-2285-2022-2-70 CC BY-NC-ND 4.0 www.journal-fuer-psychologie.de

Zusammenfassung

Dieser Beitrag beschäftigt sich mit der Rolle von Nähe und Distanz in der gemeinsamen Koordination musikalischer Praktiken, genauer: in der intersubjektiven Kommunikation über die Stimme im Kontext professionellen Gesangs. Dazu wird vor dem Hintergrund einer phänomenologischen Betrachtung der Stimme, insbesondere ihrem Spannungsfeld von Nähe und Distanz, ein empirischer Blick auf Interaktionsformen in klassischen Gesangsstunden geworfen und im Hinblick auf die (pandemiebedingte) Durchführung von Online-Formaten kontextualisiert. Im Mittelpunkt steht dabei die Analyse der Bedingungen einer weitgehend auf körperlich-leiblicher Nähe konstituierten Interaktionsform, deren Möglichkeiten und Grenzen, die den beteiligten Akteur/innen im Online-Unterricht geboten sind – und die sie zugleich durch die kommunikative Abstimmung ihres Handelns gestalten. Die Ausführungen dieses Beitrags stützen sich, der Idee einer methodischen Triangulation (Flick 2004) folgend, sowohl auf die teilnehmende Beobachtung und Videoaufzeichnungen von Gesangsstunden als auch auf Experteninterviews mit professionellen Opernsänger/innen und Dozent/innen an Musikhochschulen und Konservatorien (in Deutschland, Italien und Österreich), die im Rahmen einer qualitativen Untersuchung über kommunikative Praktiken im Kontext der musikalischen Verwendung der Stimme erhoben und analysiert wurden.

Schlüsselwörter: Qualitative Sozialforschung, multimodale Kommunikation, implizites Wissen, Stimme, Gesang, Interaktion, Online-Unterricht, Covid-19-Pandemie

Summary
Going the distance when communicating about the voice

Digital singing lessons during the COVID-19 pandemic

This article examines the role of proximity and distance in the joint coordination of musical practices, more precisely: in intersubjective communication about vocal practices in professional singing classes. For this purpose, a phenomenological perspective on the voice, its relation to proximity and distance, will be broadened by an empirical view on forms of interaction in classical singing classes with the implementation of online lessons during the pandemic. The article analyses the conditions of a form of interaction largely based on physical proximity, its possibilities, and limits which the actors involved encounter – and which they change through communication. Following the idea of a triangulation of research methods (Flick 2004), different types of data have been combined to form a multi-perspective approach. This includes Participant observation and video recordings of singing lessons as well as expert interviews with professional opera singers, répétiteurs and teachers at conservatories in Germany, Italy and Austria, which have been collected and analysed in the context of a qualitative study of communicative practices about the musical use of the voice.

Keywords: Qualitative social research, multimodality, tacit knowledge, voice, singing, interaction, online teaching, Covid-19 pandemic

Anwesenheit und Stimme

Interaktion bedarf stets der Anwesenheit mehrerer Individuen. Dieser Gedanke findet sich in den Analysen alltäglicher Selbstdarstellung bei Goffman (1956) ebenso zentral wie in der Systemtheorie Luhmanns (1984), wo Anwesenheit ein Selbstselektionsprinzip des Interaktionssystems ist.¹ Sofern Goffmans populäre Minimaldefinition von Interaktion zum Ausgangspunkt der Beobachtung interaktiver Praxis gemacht, diese also als eine wechselseitige Handlungsbeeinflussung physisch unmittelbar anwesender Individuen bestimmt wird – »the reciprocal influence of individuals upon one another’s actions when in one another’s immediate physical presence« (Goffman 1956, 8) –, ist es naheliegend, auch bei der Analyse intersubjektiver Handlungskoordination im Kontext stimmlicher Praktiken die Bedeutung der Anwesenheit der beteiligten Akteur/innen näher in den Blick zu nehmen. Anwesenheit ist jedoch nicht nur im Hinblick auf die hier interessierenden Formen von Kommunikation (Interaktion), sondern auch im Hinblick auf den Gegenstand, auf den diese sich richtet, zentral. Denn die Stimme ist ein Phänomen von Anwesenheit schlechthin.

»Gibt es«, fragen Doris Kolesch und Sybille Krämer treffend in der Einführung in ihrem Band Stimme (2006), »ein Phänomen, das so untrüglich Zeugnis ablegt von menschlicher Anwesenheit und kreatürlichem Leben wie das Erklingen einer Stimme?« (Kolesch und Krämer 2006, 7) Mit der Stimme und durch die Stimme kündigen oder zeigen wir unsere Anwesenheit an – wenn wir etwa durch ein betontes Räuspern einen vermeintlich dezenten, aber unmissverständlichen Hinweis auf unsere Präsenz geben. Als kommunikatives Medium ist die Stimme stets als »Artikulation leiblicher Anwesenheit« (Böhme 2009, 28) spürbar. Sie gilt damit nicht nur als ein Phänomen von Anwesenheit, sondern auch von Interaktion schlechthin (vgl. Krämer 2006, 284f.). Erst mit den durch Audiotechnologien geschaffenen Möglichkeiten der Reproduktion von Stimmen, in Form von Tonträgern, Aufzeichnungen, Telekommunikationsmedien oder auch »Computerstimmen«, kann sie unabhängig von ihrem Interaktionskontext werden (vgl. Krämer 2006, 272).

Wie sehr die räumlich-zeitliche Kopräsenz von Akteur/innen für das Gelingen bestimmter Formen intersubjektiver Kommunikation erforderlich ist, hat sich in den pandemiebedingten Veränderungen alltäglicher Kommunikationsroutinen – auch jenseits des (viel zu) häufig angeführten Allgemeinplatzes der »Pandemie als Brennglas« – in besonderer Deutlichkeit gezeigt. Auf dem Feld musikalischer Praktiken und ihrer professionellen Ausbildung, wo mit einer Vielzahl von Registern der Interaktion operiert wird, trifft dies sowohl auf den Gesangs- als auch auf den Instrumentalunterricht zu. Zwar sind digitale musikpädagogische Angebote, zumindest sofern sie im Kontext der recht jungen Entwicklungsgeschichte des Internets verortet werden, keine völlige Neuheit (vgl. Gerhardt 2004, 25ff.). Mit der abrupten und alternativlosen Überführung musikalischer Proben, Unterrichtsstunden oder sogar Prüfungen in Online-Formate, die während des bzw. der Lockdowns erfolgte, waren die Beteiligten jedoch meist mehr mit einer Notfall-Lösung (Hodges et al. 2020) als mit bereits erprobten und bewährten Mitteln des Unterrichts und des gemeinsamen Übens konfrontiert. Sie wurden schnell mit dessen Möglichkeiten, aber auch – und insbesondere – mit dessen Grenzen vertraut. Zugleich wurden durch die vor diesem Hintergrund stattfindenden Kommunikationsformen auch neue Möglichkeiten der gemeinsamen Handlungskoordinierung hervorgebracht. Die Durchführung dieser (für viele gänzlich neuen) Formate hat schließlich nicht nur die häufige Aussichtslosigkeit eines rein remote geführten Kommunikationsmodus vor Augen geführt, sondern dadurch auch einen Teil der konkreten Gelingensbedingungen einer »in Präsenz« stattfindenden Interaktion transparent werden lassen.

Die Akteur/innen haben die Reichweite der körperlich-leiblichen Kopräsenz für die Vermittlung musikalischer Fähigkeiten oft in ganz konkreter Gestalt und »am eigenen Leib« erfahren können: etwa in einer Abschlussprüfung im Studienfach Klavier, in der ein Student aus Albanien per Videoübertragung mit einem mehrköpfigen Gremium von Dozent/innen eines italienischen Konservatoriums seine erlernten musikalischen Fähigkeiten über Computermikrofon und -lautsprecher präsentiert und die zu beurteilende Darbietung von den Zuhörenden nur erahnt, nicht aber am konkreten Klang bewertet werden kann, wie eine Hochschulprofessorin für Korrepetition in einem leitfadengestützten Interview berichtet:

»Dann hat er [der Student] in Tirana vorgespielt […] er war mit dem Tablet […] er hat das Programm geschickt und dann angefangen jedes Stück vorzuspielen. Aber das Problem war […] der Internetempfang, der war nicht so gut, absolut nicht so gut […] einen Takt lang oder du hörst nicht alle richtige Noten […] also die Prüfung hat ihren Wert verloren […]. Was man absolut verloren hat online, ist der Klang. […] Also der Klang kann nie sein wie in der Realität, also der Klang ändert sich absolut, komplett, komplett!« (Interviewauszug 1)²

Oder auch wenn eine Sängerin und ein Pianist (in einer frühen Phase des ersten Lockdowns im März 2020) zusammen einen Liederzyklus einzustudieren versuchen, aber die dafür notwendige Synchronität von Gesang und Klavierbegleitung durch die zeitversetzte Übertragung nicht möglich ist und zum Scheitern des gemeinsamen Musizierens führt.³ Neben den vorwiegend auf die technische Signalübertragung zurückzuführenden Problemen, die hier als konkrete Ursache für das Scheitern von Kommunikation ganz im Sinne der mathematischen Informationstheorie (Shannon 1948; Shannon und Weaver 1964) angeführt werden und – etwa durch sehr hohe Datenübertragungsgeschwindigkeiten und hochprofessionelle audiovisuelle technische Ausstattung – eingegrenzt werden könnten, berühren diese Beispiele auch unüberwindbare Grenzen zwischen einem in zeitlicher und räumlicher Kopräsenz wahrgenommenen Klangereignis einerseits und der technischen Konservierung/Übertragung dieses Klangereignisses andererseits. Denn die (technisch gestützte) Aufnahme einer musikalischen – sowohl instrumental als auch gesanglich realisierten – Darbietung stellt stets ein Artefakt dar. Ein Artefakt, das einer ganz eigenen ästhetischen Logik folgt und keineswegs die Möglichkeit eines unverzerrten Transports bereitstellt (vgl. Wicke 2011, 42f.).

Die weitreichende Rolle körperlich-leiblicher Kopräsenz für die hier untersuchten Kommunikationsformen sowie die Möglichkeiten und Grenzen eines rein digital basierten Interaktionssettings zeigen sich in einem noch weitaus komplexeren Kontext. Aber wie äußert sich die Bedeutung von Nähe und Distanz bei der Stimme bzw. in der Kommunikation über sie? Welche Rolle kommt ihnen bei der kommunikativen Abstimmung gesanglicher Praktiken in dem hier untersuchten Kontext zu? Und worin bestehen letztlich die Möglichkeiten und Grenzen der Online-Kommunikation dieser weitgehend auf körperlich-leiblicher Kopräsenz verweisenden Interaktionsform? Um diesen Fragen nachzugehen, ist ein genauerer Blick auf das Spannungsverhältnis von Nähe und Distanz notwendig, das sich bei der Stimme auf drei wesentlichen Ebenen nachvollziehen lässt: auf akustischer, auf visueller und auf taktiler Ebene.

Der Klang

Mit ihrem Klang ist die Stimme ein grundsätzlich flüchtiges Phänomen. Sie erklingt und verklingt zugleich. Sie ist – bei ihrer Produktion jenseits tontechnischer Reproduktion – ein Ereignis, das stets von einem dialektischen Verhältnis von An- und Abwesenheit geprägt ist: »[I]hr Vorhandensein besteht im beständigen Verklingen, im Verschwinden […] in einer anwesenden Abwesenheit« (Kolesch 2009, 16). So hält auch Mladen Dolar in seiner Theorie der Stimme (2007) fest: »[S]ie ist reines Vorübergehen, nichts, was sich festlegen oder festhalten ließe« (Dolar 2007, 50). Zugleich ist die Stimme durch ihren Klang ein Instrument räumlicher Orientierung und Distanzüberwindung: »Stimmlich orientieren wir uns im Raum, breiten uns darin aus und überwinden Distanzen« (Kolesch 2009, 18). Im Operngesang spielen diese Distanzen eine besonders zentrale Rolle: Hier müssen »große« Stimmen große Distanzen überwinden – wie auch die im Bühnenkontext häufig verwendete Phrase »sing für die letzte Reihe« widerspiegelt. Theater, Opernhäuser und Konzertsäle, in denen mehrere Tausend Personen Platz finden, verlangen daher, neben einer Reihe darstellerischer Fähigkeiten, eine besonders ausgeprägte Tragfähigkeit der Stimme, das bedeutet, »die Stimmen füllen den Raum ohne technische Hilfsmittel« (Fischer 1998, 72). Dass die Distanz, die die Stimme wegen fehlender Tontechnik überwinden muss, einen entscheidenden Einfluss auf die Gesangstechnik hat, zeigt sich nicht zuletzt auch in deren historischem Wandel.⁴

Aus der Nähe zur eigenen und der Distanz zur fremden Stimme gehen in dem hier untersuchten Kontext jedoch noch weiterreichende Konsequenzen hervor. Da die Stimme von ihrem Träger oder ihrer Trägerin immer in doppelter Weise wahrgenommen wird, zugleich »von außen« und »von innen«, bedarf es einer besonderen Handlungsabstimmung zwischen den Akteur/innen. Der Umstand, dass Sänger/innen ihre eigene Stimme aufgrund der zusätzlichen Knochenleitung des Schalles immer anders hören als ihr Publikum, welches die Stimme nur über die Luftleitung des Schalles wahrnimmt (vgl. Sundberg 1997, 216), muss bei der (intersubjektiven) Koordination gesanglicher Praktiken stets mitberücksichtigt werden. Im Gesang sind die beteiligten Akteur/innen – und hier besteht ein entscheidender Unterschied zur Instrumentalmusik – immer im »Diesseits« des Resonanzkörpers (vgl. Mari 1983, 82), oder anders: Der Resonanzkörper ist immer der eigene Körper. Sundberg (1997) zeigt in seinen phoniatrischen Betrachtungen der Singstimme die daraus entspringenden Konsequenzen für den Gesangsunterricht auf. Aus der unumgänglichen Tatsache, »daß eine Stimme für Hörer und Sprecher nie gleich klingen kann […] ergibt sich ein Problem für die Stimmbildung« (Sunbderg 1997, 216), das er in folgendem Gedankenexperiment ausführt:

»Wir wollen einmal annehmen, daß ein Student einen Sänger mit idealem Timbre hört und dieses zu imitieren sucht. Phoniert der Student so, daß das von ihm dabei wahrgenommene Timbre dem Timbre des Idealklangs gleicht, so ist der Klang seiner Stimme für einen Zuhörer bei weitem nicht identisch mit dem Idealklang« (ebd., 216).

Zwar stehen den Akteur/innen hier verschiedene Mittel zur Verfügung, diese akustischen Unterschiede einzudämmen, etwa in dem Singen durch die um den eigenen Mund angelegten und zu einem Trichter geformten Hände, was eine stärkere Luftleitung bewirkt, oder auch dem Spüren phonationsbedingter Vibrationsempfindungen am eigenen Körper, die eine Art nicht-akustischer Rückkopplungserfahrung ermöglichen und der Phonationskontrolle dienen können (vgl. Sundberg 1997, 217f.). Diese Selbstwahrnehmungs- und Selbststeuerungsmöglichkeiten können jedoch nicht die Relevanz einer intersubjektiven Perspektive ersetzen; den Einbezug der Hörerfahrung einer anderen Person. Denn die Doppelempfindung der Stimme (Merleau-Ponty 1986, 189) erfordert die Anwesenheit eines »dritten Ohres«, welches neben dem inneren und äußeren subjektiven Hören der eigenen Stimme eine intersubjektive Orientierungsmöglichkeit zur richtigen Intonierung bietet. Die kritische Betrachtung der Stimme, die zu ihrer professionellen Schulung notwendig ist, kann nicht nur in Form einer Selbstkritik bestehen, sondern muss immer auch durch eine Fremdkritik begleitet werden. Das Hinzuziehen eines erfahrenen Sängers oder einer Gesangsprofessorin, oft auch einer Pianistin oder eines Korrepetitors, wird von den beteiligten Akteur/innen deshalb häufig als unersetzbar bewertet. Ein interviewter Tenor beschreibt dies in folgenden Worten:

»Meine Lehrerin hört meine Stimme anders als ich, ähm, sie hat ein unglaubliches Ohr. Sie erkennt Sachen, die ich selbst nicht kenne, ähm, selbst nicht erkenne. Sie kennt meine Stimme manchmal besser als ich, weißt du. […] Natürlich wird es leichter im, ähm mit der Zeit, mit der Erfahrung. Ich habe gelernt meine Stimme so zu hören wie sie [die Gesangsprofessorin], wie sie meine Stimme haben will, wo sie meine Stimme haben will […], aber ich könnte nie für Jahre nur allein üben« (Interviewauszug 2).

Das Verhältnis zwischen Gesangslehrer/innen und Sänger/innen ist damit stets von einem Angewiesensein geprägt: einem Angewiesensein auf das klangliche Beurteilungsvermögen des oder der anderen, welches eine räumliche und zeitliche Anwesenheit voraussetzt. Die beteiligten Akteur/innen betonen in diesem Kontext auch die Unersetzbarkeit einer gemeinsam geteilten körperlich-leiblichen Kopräsenz – oder wie es eine interviewte Sopranistin formuliert: »Keine Aufzeichnung kann die Qualität einer von Nahem gehörten Stimme ersetzen« (Interviewauszug 3).⁵ Die Möglichkeit, die eigene Stimme als fremde wahrzunehmen, eine Möglichkeit, die sich durch ihre Konservier- und Reproduzierbarkeit mittels Aufzeichnungsgeräten bietet, wird von den beteiligten Akteur/innen durchaus zur Selbstkorrektur genutzt und kann darüber hinaus auch die Differenz zwischen Selbst- und Fremdwahrnehmung der eigenen Stimme in einer objektivierten Form nachvollziehbar machen – wie in einem weiteren Auszug aus einem narrativen Interview thematisiert wird:

»Die Sache mit der Intonation ist nicht immer leicht. Weißt du, ich habe es schon ein paar Mal erlebt, ähm, dass meine Stimme für mich, ähm, für mein eigenes Ohr super intoniert war, aber dann nicht für meine Gesangsprofessorin oder für den Pianisten. Oder ganz oft habe ich erlebt, dass ich eine Aufnahme von, von dem Unterricht gehört habe, noch am selben Tag, wenn mein Körper noch, ähm, noch wach war und alles frisch war. Und ich habe gedacht ›was ist das denn?‹, ganz anders, als ich es im Unterricht gehört habe« (Interviewauszug 4).

Allerdings ist das Nutzen dieser Dokumentations- und Selbstvermessungstechnik für die Akteur/innen nur bedingt hilfreich: Sie stellt nur eine Alternative, nicht aber einen vollständigen Ersatz körperlich-leiblicher Kopräsenz dar. Denn die tontechnisch gestützte Reproduktion der Stimme vermag niemals ihren authentischen, in unmittelbarer physischer Anwesenheit wahrnehmbaren Klang einzufangen oder wiederzugeben (vgl. Kolesch und Krämer 2006, 7). Und auch das für die Singstimme so zentrale Moment der richtigen Intonation wird zu einem sich über Distanz verstärkenden Problem; denn die Abweichung vom Idealklang, die nach Sundberg (1997, 216) aus der Differenz von akustischer Selbst- und Fremdwahrnehmung resultiert, wird durch die technisch gestützte Vermittlung der Stimme keineswegs verringert. Insbesondere auf klanglicher Ebene ist die »natürliche Basis« (Pfeiffer 2006, 71) des Operngesangs »durch keine Technologie zu ersetzen« (ebd.). Der Musikologe Peter Wicke führt zwar die Dominanz von Aufnahmen bei der Etablierung von Normen und Standards für musikalische Aufführungen an, die durch die nahezu unbegrenzten Möglichkeiten moderner technischer Klanggestaltung erwachsen; er betont in diesem Zusammenhang aber auch, dass eine technische Repräsentation eines Klanggeschehens niemals ganz seiner unmittelbaren akustischen Wahrnehmung entsprechen kann (vgl. Wicke 2011, 43).⁶ Die Qualität einer analogen Stimme – nicht ihre durch einzelne oder mehrere Individuen erfolgende normative Bewertung, sondern ihre Qualität im Sinne eines nur ganzheitlich erfahrbaren Wesens, das sich nicht auf die Analyse einzelner Bestandteile reduzieren lässt (vgl. Dewey 1931, 93ff; Merlau-Ponty 1966, 22f.)⁷ – ist durch Tontechnik nicht hinreichend reproduzier- oder übertragbar. Die Akteur/innen sind für seine Beurteilung daher sehr weitreichend auf eine Nähe angewiesen, in welcher die Stimme unmittelbar und unvermittelt zum Klingen kommt.

Das Zeigen

Die Stimme liegt hinsichtlich ihrer Sichtbarkeit zu einem großen Teil im Verborgenen. Sie ist kein unsichtbares, aber ein im Wesentlichen nicht-sichtbares Instrument. Nur äußerst gering ist derjenige Teil der Stimme, den Akteur/innen beim Singen sehen können: Die Bewegungen, die sie zum Klingen bringen, lassen sich visuell kaum unmittelbar wahrnehmen, weder bei der eigenen noch bei einer fremden Stimme. Die Formung des Mundes und – bei ausreichender Nähe – auch die Stellung von Zunge und Gaumen, oder sogar das Absenken des Kehlkopfes, lassen sich teilweise sehen oder vorzeigen; nicht aber der komplexe Bau des Kehlkopfes sowie das Zusammenspiel der zahlreichen Knorpel, Bänder und Muskeln. Die in der modernen Phoniatrie vorhanden Möglichkeiten der Visualisierung des Stimmapparates bieten zweifelsfrei eine Grundlage zur Erklärung bzw. expliziten Darstellung der physiologischen Zusammenhänge der Stimme. Und auch die Vorteile einer Nutzbarmachung phoniatrischer Erkenntnisse in gesanglicher Praxis werden sowohl aus Sicht der Phoniatrie als auch aus Sicht der Gesangspädagogik betont (vgl. Seidner und Wendler 1978; Mari 1983; Fischer 1998). Doch wenn Akteur/innen im Kontext der Vermittlung gesanglicher Fähigkeiten miteinander interagieren, ist die Stimme zum größten Teil weder sicht- noch vorzeigbar. Sie ist damit ein weitgehend »verstecktes« Instrument (vgl. Mari 1983, 83). Ihre unlösbare biologische Verankerung, ihre unmögliche (vollständige) Externalisierung, hat zur Folge, dass Sänger/innen ihr Instrument auch visuell niemals in völliger Distanz wahrnehmen können. Wo ein Cellist seiner Schülerin die Klangunterschiede direkt am Instrument, etwa an der Dicke der Saiten, vorzeigen und erklären kann, ist die Gesangslehrerin auf indirekte Darstellungsformen, zum Beispiel auf die Hinzuziehung phoniatrischer Abbildungen oder auch die Nutzung von Gegenständen als Hilfsmittel zur visuellen Demonstration angewiesen. Die grundlegende optische Abwesenheit der Stimme – ihre paradoxerweise maximale (körperliche) Nähe bei zugleich minimaler Zugänglichkeit – stellt nicht nur ein allgemeines Spezifikum bei der Koordinierung gesanglicher Praktiken, sondern auch eine Herausforderung für deren kommunikative Abstimmung dar.

Neben dieser grundsätzlicheren »Zugangsproblematik« und deren Konsequenzen für die intersubjektive Handlungsabstimmung im Gesangsunterricht kommt dem Spannungsfeld visueller Nähe und Distanz in dem hier interessierenden Setting noch eine andere Bedeutung zu. Bei online durchgeführten Gesangsstunden stehen die Akteur/innen in einem Verhältnis physischer Distanz, welche sich neben der akustischen auch auf visueller Ebene zu einem gewissen Teil überwinden lässt: Mit der Übertragung des Bildes durch Nutzung der Videotelefonie ist eine – obwohl zeitlich oft leicht versetzte – Interaktion auf Grundlage visueller Kommunikationsformen durchaus möglich. Die beteiligten Akteur/innen können etwa durch bestimmte Körperbewegungen oder gestische Expressionen miteinander kommunizieren. So können beispielsweise die Stellung des Kinns sowie des Kiefers, das Öffnen des Mundes und auch das Formen der Lippen durch ein unmittelbares (wenn auch digital vermitteltes) Vorführen gezeigt werden. Einige der konkreten Formen dieser visuell vermittelten Interaktion sowie deren Verhältnis zu der auf akustischer Ebene realisierten Handlungsabstimmung lassen sich anhand einer verdichteten Analyse einer exemplarischen Sequenz aus einer aufgezeichneten Online-Gesangsstunde nachvollziehen (vgl. Abbildung 1 und 2).

In dieser Unterrichtseinheit üben eine Gesangsprofessorin und eine junge Sängerin die Arie des Komponisten (»Sein wir wieder gut«) aus dem Prolog der Oper Ariadne auf Naxos von Richard Strauss (Op.60, 1916). Die Akteurinnen gehen dabei die gesamte Arie – Phrase für Phrase, Wort für Wort und teilweise sogar Ton für Ton – gemeinsam durch. Die Sängerin singt einige der Phrasen oder Worte mehrere Male hintereinander, wobei ihr die Gesangslehrerin nicht nur zuhört und -sieht, sondern sie mehrfach unterbricht; sie auf Details der Ausführung spezifischer Gesangstechniken hinweist, zum Beispiel auf die Position des Kiefers, die Stellung des Kehlkopfes, oder die Sängerin zu einzelnen Atempausen und -übungen anleitet und sie dann zur Wiederholung der Phrasen, Worte oder Töne auffordert. In besonders verdichteter Form zeigt sich diese gemeinsame Feinabstimmung bei der Phrase »Musik ist eine heilige Kunst« (Strauss 1944, 83). Die Sängerin singt hier mehrere Male hintereinander die Worte »Musik ist«, wobei die Gesangslehrerin sie immer wieder unterbricht, auf die Artikulation bestimmter Worte bzw. Laute (zum Beispiel die im deutschsprachigen Repertoire besonders deutliche Aspiration des t in »Kunst«) und auf einige Atempausen und den Übergang einzelner Noten hinweist. Die Gesangsprofessorin singt einzelne Töne zum Teil selbst vor und fordert die Sängerin dann zur Wiederholung der gesamten Phrase auf. Nachdem beide nach einigen wiederholten Durchgängen mit dem klanglichen Ergebnis der gesungenen Phrase zufrieden sind und die Sängerin durch das »okay, I can do it« (Abb. 1, 24:36) diese Schleife der Wiederholung auflöst und damit das gemeinsame Fortfahren in der Arie anstößt, geht die Gesangslehrerin auf die Bewegung des Mundes ein. Sie äußert dazu zunächst die Worte »if you would also«, zeigt dann auf ihren Mund und singt dabei die Worte »eine heilige Kunst« selbst vor, wobei sie diese in deutlich geringerer Lautstärke als die Sängerin und in einer Art Sprechgesang betont. Besonders deutlich wird hier, dass der Fokus der gemeinsamen Handlungsabstimmung nicht auf dem – nur unzureichend übermittelten – Akustischen liegt, sondern die Akteurinnen auf eine Kombination kommunikativer Handlungen auf sowohl akustischer als auch visueller Ebene zurückgreifen: Die Gesangslehrerin hat bei der Artikulation der Worte ihren Mund durchgehend weit geöffnet, sodass ihre Zähne und die Bewegung der Zunge deutlich zu sehen sind (ebd., 24:42).⁸ Unmittelbar danach singt sie (wieder sprechgesangähnlich) die gleichen Worte, indem sie ihren Mund bei jeder Silbe vollständig schließt und wieder weit öffnet. Sie führt dabei gleichzeitig mit ihrer auf Höhe des Bildschirms gehobenen rechten Hand eine Auf-und-zu-Bewegung aus und spricht dann ein emphatisches »don’t you« (ebd., 24:45) zur Sängerin.

Abbildung 1: »Eine heilige Kunst« – zeigendes Erklären im Online-Gesangsunterricht⁹

Hier zeigen sich vor allem die Möglichkeiten, die den Akteurinnen auch in der Kommunikation über Distanz zur Verfügung stehen: Die Gesangslehrerin kann auf die Vermeidung einer zu großen Bewegung bzw. eines zu häufigen Öffnens und Schließens des Mundes beim Singen der Phrase hinweisen, das als »übertrieben« und »unelegant« gedeutet wird, und gleichzeitig die korrekte Mund- und Kieferstellung sowie die Formung der Lippen demonstrieren. Indem sie diese selbst einmal in korrekter Ausführung vorführt und daran anschließend in der zu vermeidenden Form, durch das übertrieben deutliche Öffnen und Schließen des Mundes, das zusätzlich durch die Bewegung der Hand in einer Art »Plappergeste« verstärkt wird, kann sie der Sängerin den Unterschied aufzeigen und dadurch eine konkrete, wenn auch zum großen Teil implizit bleibende Handlungsanweisung geben. Dieses Vorführen steht dabei nicht in einem isolierten Zusammenhang, sondern ist in einen multimodalen Kontext eingebettet: Die deiktische Geste, in Form des Fingerzeigs auf den eigenen Mund, findet synchron mit der Lippenbewegung bzw. mit der Artikulation der Worte statt und ist zusätzlich durch sprachliche Anweisungen gerahmt. Die Äußerungen »if you would also« und »don’t you« (ebd., 24:42–24:45), die vor und hinter den demonstrierten Bewegungen sowie der (gesanglichen) Artikulation der Phrase stehen, wären ohne die sie begleitenden körperlichen Ausdruckshandlungen nicht verständlich. Denn die sprachlichen Ausdrücke stehen hier, aufgrund ihrer Offenheit und Unvollständigkeit, in einem Verweisungszusammenhang mit den simultan sichtbaren non-verbalen Expressionen. Die Gesangslehrerin äußert ihre Anweisungen nicht in vollständigen Sätzen; es »fehlt« – ließe sich aus formalistischer Perspektive bemerken – ein Prädikat oder Objekt, auf das sich die Äußerungen beziehen und wodurch sie als konkrete Handlungsanweisung lesbar würden. Diese erschließt sich als solche hingegen erst vor dem Hintergrund des Zusammenwirkens der verbalen und non-verbalen Ausdruckshandlungen. Durch das Zusammenwirken dieser unterschiedlichen kommunikativen Handlungen stehen den Akteur/innen – hier vor allem der Sängerin – Möglichkeiten der Umsetzung praktischer Anweisungen bereit, ohne dass es dazu einer umfangreichen Explikation bedürfe. Die Multimodalität von Kommunikation, die Kress (2010) in der Verknüpfung mehrerer semiotischer Ebenen, vor allem von sprachlichen Zeichen mit Bildern, beschreibt und deren kommunikatives Potenzial sich insbesondere in Situationen entfaltet, in denen es um die Bereitstellung schnell verständlicher Handlungsanweisungen (vgl. Kress 2010, 32ff.) oder um Lernprozesse in einem professionellen Kontext (vgl. Bezemer und Kress 2016) geht, kann ihre kommunikative Wirkung in dem hier untersuchten Interaktionssetting erst durch die Übertragung von Ton und Bild ausschöpfen.

Während die beschriebenen Formen der Handlungsabstimmung einige durchaus mögliche Aspekte der gemeinsamen Interaktion über die Nutzung von (digitalen) Telekommunikationstechniken aufzeigen, gibt es jedoch auch Grenzen, mit denen die beteiligten Akteur/innen im remote durchgeführten Gesangsunterricht konfrontiert sind. Und auch diese Grenzen sind wesentlich durch ein Verhältnis von Nähe und Distanz bestimmt. Jenseits der Einschränkungen und Schwierigkeiten auf der Ebene der technischen Signalübertragung (zum Beispiel instabile Internetverbindung, verpixelte Bilder etc.), die sich prinzipiell optimieren ließen, gibt es weitgehend unumgängliche Vorgaben für die Nutzung des Mediums, über das die beteiligten Akteur/innen in dem hier analysierten Setting miteinander in Verbindung stehen. Die Videotelefonie ermöglicht nicht nur die gemeinsame Interaktion, sondern formt sie zugleich: Sie gibt den Akteur/innen vor, wie sie sich räumlich positionieren müssen, um sich gegenseitig visuell wahrzunehmen; sie kann somit als ein den Handlungsspielraum der Akteur/innen limitierendes Dispositiv (Agamben 2008, 26f.) betrachtet werden.¹⁰ Die Akteur/innen können immer nur einen Bildausschnitt sehen, der eine feste Rahmung ihres Blickes vorgibt – der Ausdruck face-to-face interaction (Goffman 1956, 8) bekommt vor diesem Hintergrund eine höchst wörtliche Bedeutung (vgl. Abbildung 1).

Da sie ihre Position bzw. ihre räumliche Nähe und Distanz nicht zur anderen Person, sondern nur zum Bildschirm bzw. zur Kamera verändern können, sind die Akteur/innen bei der Absicht, den oder die andere aus unterschiedlichen Distanzen wahrzunehmen, immer auf die Positionierung, auf die Nähe oder Distanz der anderen Person zum Aufnahmegerät angewiesen. Sie können ihre Perspektive nicht direkt, durch die Veränderung der eigenen Position im Raum, sondern nur über Anweisungen und Aufforderungen verändern – das nähere Heranrücken an den Bildschirm stellt eine nur sehr begrenzte Möglichkeit eines selbstgesteuerten Perspektivwechsels dar. Ein solcher Perspektivwechsel, eine spontane und eigenständig vorgenommene Veränderung der Distanz (oder Nähe), die im »in Präsenz« stattfindenden Unterricht nicht nur möglich ist, sondern auch einen zentralen Bestandteil des gemeinsamen Unterrichts bildet – wenn die Akteur/innen etwa aufeinander zugehen, um verschiedene Ebenen von Bewegungen zum Gegenstand ihrer Kommunikation zu machen – ist mit der »festen Einstellung« in der Videotelefonie nicht umsetzbar. Aus Perspektive der Datenerhebung und -auswertung bietet dieses spezifische Setting hingegen sogar auch Vorteile: Durch den Verzicht auf zusätzliche Aufzeichnungsmedien sowie die Ausrichtung der Akteur/innen zur (meist im Bildschirm integrierten) Kamera bietet dieses empirische Material Forschenden eine Nähe und Perspektive, die in einem »analogen« Setting kaum umsetzbar ist.

Die Berührung

Die Berührung stellt nicht nur die größtmögliche physische Nähe zwischen Akteur/innen dar; sie kann auch als die körperlich-leiblichste Form von Wahrnehmung und Kommunikation betrachtet werden: »Das, was wir sehen und hören[,] können wir versuchen ›uns vom Leib zu halten‹, nicht aber das, was wir berühren oder was uns berührt« (Wagener 2000, 57). Im Kontext musikalischer Praxis wird es dabei häufig als unverzichtbar bewertet, in einen gemeinsamen physischen Kontakt zu treten. Verbale Erklärungen reichen oft nicht aus, um körperliche Empfindungen wie das Spüren von Klangresonanzen bzw. -vibrationen oder eine spezifische Körperhaltung zu beschreiben, und auch das Vorführen von Bewegungen aus der Distanz kann die Notwendigkeit körperlich-leiblicher Nähe nicht vollständig ablösen. »Unterricht im Musizieren«, wie Mahlert (2011, 66) mit Blick auf das intime Verhältnis zwischen Lehrenden und Schüler/innen im Instrumental- und Vokalunterricht festhält, »kann ohne körperliche Vermittlung nicht auskommen […]. Erforderlich ist eine Beziehungsqualität, dies [sic] es erlaubt, sich in der musikalischen Arbeit emotional zu öffnen und auch körperlich zu berühren« (ebd.). In dem an Musikhochschulen stattfindenden Unterricht für Korrepetition ist es etwa notwendig, dass die Akteur/innen in einigen Situationen in gemeinsamen Körperkontakt treten, um Haltungen zu korrigieren oder Verspannungen in den Schultern und Unterarmen zu vermeiden, die während des Musizierens auftreten können. Eine Pianistin und Dozentin für Korrepetition an einem deutschsprachigen Konservatorium beschreibt dies in einem leitfadengestützten Interview wie folgt:

»Ähm, ich muss irgendwie manchmal die Studenten berühren […]. Manche Leute sitzen falsch auch am Klavier zum Beispiel, die legen nicht richtig entspannt die Beine an den Boden. […] Ich sehe sofort die Leute, ich erkenne die Verkrampfungen, okay, dann kann ich […] zum Beispiel zeigen und die richtige Handstellung oder die Verkrampfungen vermeiden« (Interviewauszug 5).

Neben den unterschiedlichen Formen der Berührung, die innerhalb der Instrumentalmusik bestehen, kommt der körperlichen Berührung im Gesang eine besondere Bedeutung zu. Denn obwohl die Stimme durch ihre musikalische Verwendungsmöglichkeit als musikalisches Instrument bezeichnet wird (z. B. Fischer 1969, 31), ist sie auch im Hinblick auf ihre Körperlichkeit grundlegend verschieden von (anderen) musikalischen Instrumentationselementen. Anders als in der Instrumentalmusik ist die Berührung des Instruments immer auch die Berührung des (eigenen oder fremden) Körpers bzw. Leibes.¹¹ Während die Klavierlehrerin sowohl die Finger ihres Schülers als auch, in demonstrierender Weise, nur die Tasten des Instruments berühren kann, berührt die Gesangslehrerin mit dem Instrument immer zugleich einen Leibkörper.

Die Stimme ist als körperlich-leibliches Instrument von einer nicht größer denkbaren (physischen wie psychischen) Nähe zu ihrem Träger oder ihrer Trägerin geprägt. Im Gesangsunterricht werden spezifische Gesangs- und Atemtechniken daher nicht selten durch das Berühren oder Berührtwerden vermittelt. In einem narrativen Interview weist eine Opernsängerin in diesem Zusammenhang auf die kommunikative Funktion gemeinsamen Körperkontakts hin:

»Zum Beispiel sie [die Gesangsprofessorin] zeigt, wie sie atmet. Das ist ganz schwer, das ist, ähm, schrecklich. Wenn die Professoren […] zeigen, wie sie atmen. Weil sehr viele Professoren tun deine Hände hierhin [fasst sich an den oberen Bauch] Abdomen […] oder ich muss sie anfassen, ähm, um ihr Zwerchfell zu spüren« (Interviewauszug 6; Anmerkung T. H.).

Zugleich werden diese Formen des Berührens und Berührtwerdens von den beteiligten Akteur/innen häufig, wie auch in dem angeführten Interviewauszug, nicht nur positiv gedeutet. Berührung kann hier als ein Anfassen wahrgenommen werden; als ein unangenehm empfundenes, einseitiges Herstellen von Körperkontakt. Da die Berührung des fremden Instruments stets eine Berührung des fremden Leibkörpers ist, werden mit ihr immer auch die Grenzen seiner Selbstbestimmung berührt – manchmal auch verletzt. Aus diesen Gründen wird der physische Kontakt zwischen Lehrenden und Lernenden im Musikunterricht häufig vermieden oder, auch aufgrund seiner tendenziell erotisch-symbolischen Aufladung, tabuisiert. Besonders deutlich zeigt sich dies im Unterricht mit Minderjährigen, wo körperliche Berührung im Kontext einer Zeit der zunehmenden Aufdeckung sexuellen Missbrauchs steht (vgl. Barandun 2018, 132). Aber auch in dem im Hochschulkontext stattfindenden Gesangsunterricht zwischen Erwachsenen, der primär in Form intergenerationaler Kommunikation stattfindet (vgl. Hartwig 2022), ist die Berührung immer auch ein Eingriff in die Territorien des Selbst (Goffman 1982, 54ff.), der von den Akteur/innen als »schwer« oder sogar »schrecklich« (Interviewauszug 6) erfahren werden kann. Neben der engen Verflechtung didaktischer Settings mit der Erotik der Berührung (vgl. Steiner 2004, 37) und der damit zusammenhängenden – häufig romantisch verklärt erscheinenden – »pädagogischen Liebe« (Kraemer 2004, 121) gilt es allerdings, die kommunikative Reichweite der Berührung nicht gänzlich aus dem Blick zu nehmen. Denn auf physischen Kontakt im Instrumental- oder Gesangsunterricht, etwa in Form einer sanften Berührung der hochgezogenen Schulter, gänzlich zu verzichten, hieße, direkte Formen körperlicher Kommunikation ungenutzt zu lassen und bestimmte Inhalte nicht oder nur sehr begrenzt vermitteln zu können (vgl. Barandun 2018, 132).

Selbstberührung

Da das Berühren des fremden Körpers im digital durchgeführten Gesangsunterricht nicht möglich ist, müssen die Akteur/innen auf das Mittel der Selbstberührung zurückgreifen. Dazu kann die Gesangsprofessorin oder der Gesangslehrer den Studenten oder die Schülerin anleiten, den eigenen Körper zu berühren, zum Beispiel, um die Resonanz bzw. Vibrationen am eigenen Körper zu ertasten oder auch die Bewegung einer spezifischen Atemtechnik zu fühlen, indem die Hände während einer Atemübung an den Rücken gelegt und durch diese Form der Selbstberührung der Wirkungszusammenhang von Körperbewegung(en) und Klangproduktion nachvollzogen werden kann (vgl. Abbildung 2). Obwohl die Akteur/innen dabei nicht in einen direkten physischen Kontakt miteinander treten, ist es so möglich, vorübergehend eine strukturell gleiche (bzw. ähnliche) Körperlichkeit zu erfahren und so eine gemeinsame Handlungsperspektive einzunehmen. Sie können auf diese Weise nicht nur eine geteilte Aufmerksamkeit sowie eine geteilte Intentionalität (Tomasello et al. 2005, 680ff.) herstellen, sondern auch eine sinnlich aufeinander bezogene, geteilte körperlich-leibliche Wahrnehmung erleben. Aus einer leibphänomenologischen Perspektive ließe sich auch sagen: Die Akteur/innen können, auch ohne die körperliche Nähe des anderen, in eine Beziehung der Zwischenleiblichkeit treten, vor deren Hintergrund ein gegenseitiges Verstehen ermöglicht wird.¹² Dies gelingt aber freilich erst durch eine kommunikative Abstimmung auf den verschiedenen aufgezeigten Ebenen der Handlungskoordinierung. Zugleich ist die Selbstberührung nicht ausschließlich ein als »Notlösung« im digitalen Unterricht zu deutendes kommunikatives Mittel, sondern kann auch in dem üblichen »analogen« Setting der gemeinsamen Interaktion genutzt werden – und so auch auf das problematisierte Überschreiten der Territorien des Selbst durch die Fremdberührung reagieren. Die durch den anderen angewiesene Selbstberührung bleibt allerdings, genau wie auf der visuellen Ebene, immer ein Mittel der indirekten Kommunikation und keines der direkten körperlich-leiblichen Interaktion.

Konsequenzen

Die Stimme steht in einem stetigen Spannungsverhältnis von Nähe und Distanz. Sie ist aufgrund ihrer Innerlichkeit (als musikalisches Instrument) sowohl auf akustischer als auch auf visueller sowie taktiler Ebene nur bedingt intersubjektiv zugänglich: Durch ihre akustische Doppelempfindung klingt sie für die singende oder sprechende Person immer anders als für die nur hörende; sie ist zu einem nur äußerst begrenzten Teil direkt sicht- und vorzeigbar; und berühren lässt sie sich immer nur über den Körper ihrer Trägerin oder ihres Trägers. Das Wissen um ihre spezifischen Klangeigenschaften und Verwendungsmöglichkeiten ist deshalb immer ein körperlich-leiblich verankertes Wissen, das nicht in Form allgemeingültiger Aussagen und Regelanleitungen formuliert und auf diese Weise als explizites Wissen versprachlicht bzw. kommuniziert werden kann.

In der intersubjektiven Kommunikation über die Stimme, dies zeigt sich besonders deutlich in der Interaktion im Kontext professioneller Gesangsstunden, ist für die beteiligten Akteur/innen deshalb eine gemeinsam geteilte körperlich-leibliche Anwesenheit zentral: Während auf visueller Ebene nur geringe Unterschiede zwischen der über Distanz stattfindenden Kommunikation mittels Videotelefonie und einem in körperlich-leiblicher Kopräsenz stattfindenden Unterricht zum Vorschein kommen – wie etwa die fehlende Möglichkeit eines spontanen Wechsels von Blickwinkeln –, besteht auf der taktilen Ebene mit der Unmöglichkeit der gegenseitigen Berührung eine scharfe Grenze zwischen Nähe und Distanz. Und auch auf klanglicher Ebene wird deutlich, dass die Nutzung von Telekommunikationsmedien eine nur begrenzte Alternative, aber keinen Ersatz für den auf Nähe angewiesenen Gesangsunterricht darstellt. Denn der authentische Klang der Stimme ist in all seinen akustischen Facetten technisch weder vollständig reproduzier- noch übermittelbar. Er lässt sich nur unmittelbar und unvermittelt – und damit nur aus der Nähe – wahrnehmen.

Die analysierten Interaktionsformen zeigen jedoch auch, dass die durch das Medium Videotelefonie gesetzten Grenzen und Einschränkungen keinen zwingenden Grund einer gänzlich zum Scheitern verurteilten Kommunikation darstellen. Zwar können durch die – wenn auch oft nur minimale – zeitliche Verzögerung keine Interaktionsformen stattfinden, die (insbesondere auf klanglicher Ebene) auf Synchronität angewiesen sind, wie etwa das Scheitern von Versuchen gemeinsamen Musizierens bei der Korrepetition verdeutlicht. Doch die Akteur/innen bringen durch die Kommunikation über Distanz auch neue Möglichkeiten der gemeinsamen Handlungsabstimmung hervor. Da die Beurteilung des nur in körperlich-leiblicher Kopräsenz authentisch wirkenden Klangs der Stimme in einem remote geführten Interaktionssetting äußerst begrenzt stattfinden kann, verschieben die beteiligten Akteur/innen den Fokus ihrer Handlungskoordination: Sie konzentrieren sich nicht auf das in der technischen Übertragung Fehlende und Verlorengehende, sondern nutzen eine Kombination der auf den verschiedenen Ebenen zur Verfügung stehenden Möglichkeiten kommunikativen Handelns. Durch diese multimodal eingebetteten kommunikativen Praktiken können sie eine gegenseitig aufeinander bezogene Abstimmung von Handlungen umsetzen, die ihnen ein Gerüst zur Koordinierung gesanglicher Praktiken bietet. Die gemeinsam koordinierte Selbstberührung zeigt, dass von den Akteur/innen zugleich auch andere Möglichkeiten der gegenseitigen Bezugnahme zu körperlich-leiblichen Wahrnehmungen kommunikativ hervorgebracht werden, wodurch ihnen eine geteilte Handlungsperspektive ermöglicht wird. So können sie auch über Distanz miteinander interagieren; sich nicht nur über Bildschirm und Lautsprecher wahrnehmen, sondern auch situativ aufeinander Bezug nehmen und ihre weiteren Handlungen koordinieren – auch wenn diese Interaktion nicht unmittelbar, sondern immer vermittelt stattfindet.

Die Verfolgung verschiedener analytischer Zugänge, die hier in einer Verknüpfung unterschiedlicher Datensorten, der Triangulation von Interview- und Videodaten, besteht, erlaubt sowohl eine detaillierte (feinsequenzielle) Analyse kommunikativer Handlungen als auch die Berücksichtigung der Perspektive der beteiligten Akteur/innen. Die hier – wenn auch nur ausschnittsweise – dargestellten Ausführungen stützen sich jedoch auf einen begrenzten Untersuchungsrahmen und erheben nicht den Anspruch allgemeiner Übertragbarkeit oder gar formaler Repräsentativität.

Die dargelegten Möglichkeiten der situativen Abstimmung von Handlungen in Online-Gesangsstunden geben nicht zuletzt auch Anlass, sich mit dem Revisionsbedarf von Begriffen wie Interaktion, Situation oder auch Anwesenheit zu beschäftigen. Vor dem Hintergrund des in den hier analysierten Interaktionsformen rekonstruierbaren Gelingens der kommunikativen Abstimmung von Handlungen können diese sich nicht (mehr) – wie es bei der populären Bestimmung der Begriffe durch Goffman der Fall ist – auf eine unmittelbare bzw. unvermittelte (immediate) physische Anwesenheit stützen (vgl. Goffman 1956, 8); auf ein Setting, in dem die Anwesenden sich in räumlicher Kopräsenz mit den »nackten Sinnen« wahrnehmen (vgl. Goffman 1964, 133ff.)¹³. Ein zeitgemäßer, das bedeutet auch die gegenwärtigen technischen Möglichkeiten und Fortschritte berücksichtigender Interaktionsbegriff, muss, sofern er dieser empirischen Gegebenheit gerecht werden will, vermehrt über Distanz realisierte Formen der Anwesenheit von Akteur/innen berücksichtigen, um so schließlich auch anschlussfähig für weitergehende Analysen zu sein.

Anmerkungen

[1]: Luhmann schließt zwar unter Interaktion alles ein, »was als anwesend behandelt werden kann« (Luhmann 1984, 560). Die für das Interaktionssystem relevante Anwesenheit ist allerdings nicht auf die bloße physische Präsenz von Individuen zu reduzieren; sie entsteht erst durch die wechselseitige Wahrnehmung der Beteiligten, wenn also »wahrgenommen wird, daß wahrgenommen wird« (ebd., 560).
[2]: Das für die Datenanalyse nach den Vorgaben des Gesprächsanalytischen Transkriptionssystem 2 (GAT 2) transkribierte Interview wurde zum Zweck der Publikation an die deutsche Rechtschreibung angepasst.
[3]: Situationsbeschreibung einer zum Zweck dieser Untersuchung videografierten Online-Korrepetition.
[4]: Dieser lässt sich etwa bei der Gesangstechnik des Vibrato nachvollziehen, der zu Zeiten des Barocks deutlich geringer ausgeprägt war, als es heute der Fall ist, da »erst durch das Aufkommen der großen Bühnen sowie der mit zahlreichen Musikern stark besetzten und damit lauten Orchestern eine größere Sängerleistung verlangt wurde […], die ein extensiveres Vibrato bedingt« (Fischer 1998, 145).
[5]: In dem zum Teil auf Italienisch geführten Interview lautet es wörtlich: »Nessuna registrazione può sostituire la qualità di una voce sentita da vicino.«
[6]: Ferner würde die Vorstellung eines auf professionellen Aufnahmen gestützten Musikunterrichts nicht nur einen enormen technischen Aufwand in Vorbereitung, Durchführung und Nachbearbeitung dieses tontechnischen Artefakts bedeuten, sondern ein solcher Unterricht würde auch keine Interaktion mehr in dem hier verfolgten Sinne darstellen, wo die beteiligten Akteur/innen unmittelbar aufeinander Bezug nehmen und auf diese Weise die gesanglichen Praktiken in actu gemeinsam koordinieren können.
[7]: Bei John Dewey richtet sich Qualität auf die Gesamtheit des spezifischen Wesens einer Situation oder eines Gegenstandes, die nicht auf eine »mechanische Aufzählung isolierter Einzelpunkte« (Dewey 2003, 97) reduziert werden kann. Einer ähnlichen Auslegung folgt auch Merleau-Ponty, für den Qualitäten »nicht Bewußtseinselemente, sondern Eigenschaften eines Gegenstandes« (Merleau-Ponty 1966, 22f.) sind, die »im Moment einer bestimmten räumlichen Konfiguration« (ebd., 23) kontextualisiert werden und ihr spezifisches Wesen entfalten, das Akteur/innen als Empfindung wahrnehmen.
[8]: Das Bildmaterial wurde zum Zweck der Publikation grafisch verfremdet. Aufgrund der Herausforderungen, die mit dem Versuch der Pseudonymisierung von videografischem Material (bei gleichzeitiger Wahrung der Analysierbarkeit kommunikativer Handlungen) verbunden sind, lassen sich in der hier präsentierten Abbildung nicht alle Details aus dem Originalvideo erkennen, welches Grundlage dieser Analyse ist. Im Interesse der beteiligten Personen wurde ihre potenzielle Identifizierbarkeit (durch Dritte) jedoch der Nachvollziehbarkeit visueller Details übergeordnet.
[9]: Transkript einer aufgezeichneten Online-Gesangsstunde. Das Bildmaterial wurde zum Zweck der Pseudonymisierung grafisch verfremdet. Transkription nach Basistranskript des Gesprächsanalytischen Transkriptionssystems (GAT 2).
[10]: In Erweiterung des Foucaultschen Dispositivbegriffs verfolgt Agamben eine deutlich breitere Auslegung: »Als Dispositiv bezeichne ich alles, was irgendwie dazu imstande ist, die Gesten, das Betragen, die Meinungen und die Reden der Lebewesen zu ergreifen, zu lenken, zu bestimmen, zu hemmen, zu formen, zu kontrollieren und zu sichern. Also […] auch der Federhalter, die Schrift, die Literatur […], die Computer, die Mobiltelefone und – warum nicht – die Sprache selbst, die das vielleicht älteste Dispositiv ist« (Agamben 2008, 26f.).
[11]: Aufgrund der zugleich körperlichen und leiblichen Dimension der Stimme ist es sinnvoll, sie stets als Instrument des Leibkörpers oder auch des Körper-Leibs (Zifras 2017, 37) zu adressieren.
[12]: Bei Merleau-Ponty ist Zwischenleiblichkeit Gelingensbedingung intersubjektiver Kommunikation. Indem der eigene Leib den anderen als strukturell gleich wahrnimmt, »findet in ihm so etwas wie eine wunderbare Fortsetzung seiner eigenen Intentionen, eine vertraute Weise des Umgangs mit der Welt« (Merleau-Ponty 1966, 405) statt.
[13]: So Goffman (1964, 135) in der Definition der sozialen Situation als »an environment of mutual monitoring possibilities, anywhere within which an individual will find himself accessible to the naked senses of all others who are ›present‹, and similarly find them accessible to him«.

Literatur

Agamben, Giorgio. 2008. Was ist ein Dispositiv? Zürich: Diaphanes.

Barandun, Brigitta. 2018. Wie Begeisterung sich zeigt. Eine empirische Studie zum Enthusiasmus der Lehrkraft im Instrumental- und Gesangsunterricht. Münster: Waxmann.

Benjamin, Walter. 1963. Das Kunstwerk im Zeitalter seiner technischen Reproduzierbarkeit. Frankfurt am Main: Suhrkamp.

Bezemer, Jeff und Gunther Kress. 2016. Multimodality, Learning and Communication. A social semiotic frame. London: Routledge.

Böhme, Gernot. 2009. »Die Stimme im leiblichen Raum«. In Stimm-Welten. Philosophische, medientheoretische und ästhetische Perspektiven, hrsg. v. Doris Kolesch, Vito Pinto und Jenny Schrödl, 23–32. Bielefeld: transcript.

Bühler, Karl. 1926. »Die Krise der Psychologie«. Kant-Studien 31 (1–3): 455–526.

Dewey, John. 1931. Philosophy and Civilization. New York: Minton, Balch & Company.

Dewey, John. 2003. Philosophie und Zivilisation. Frankfurt am Main: Suhrkamp.

Dolar, Mladen. 2007. His Master’s Voice. Eine Theorie der Stimme. Frankfurt am Main: Suhrkamp.

Fischer, Emil. 1969. Handbuch der Stimmbildung. Tutzing: Hans Schneider.

Fischer, Peter-Michael. 1998. Die Stimme des Sängers. Analyse ihrer Funktion und Leistung – Geschichte und Methodik der Stimmbildung. Stuttgart: J. B. Metzler.

Flick, Uwe. 2004. Triangulation. Eine Einführung. Wiesbaden: Springer VS.

Gerhardt, Bert. 2004. Internet und Musikunterricht. Bestandsaufnahe und Perspektiven. Augsburg: Wißner.

Goffman, Erving. 1956. The Presentation of Self in Everyday Life. Edinburgh: University of Edinburgh Social Sciences Research Centre.

Goffman, Erving. 1964. »The Neglected Situation«. American Anthropologist 66 (6): 133–136.

Goffman, Erving. 1982. Das Individuum im öffentlichen Austausch. Mikrostudien zur öffentlichen Ordnung. Frankfurt am Main: Suhrkamp.

Hartwig, Till. 2022 (im Erscheinen). »Der Klang des Alter(n)s. Intergenerationale Kommunikation über die Stimme in gesanglicher Praxis«. In Kommunikation im Alter. Interdisziplinäre Zugänge zur intra- und intergenerationalen Kommunikation, hrsg. v. Rafael Mollenhauer und Christian Meier zu Verl. Weilerswist: Velbrück.

Hodges, Charles, Stephanie Moore, Barb Lockee, Torrey Trust und Aaron Bond. 2020. The Difference Between Emergency Remote Teaching and Online Learning. Zugriff 10.05.2022. https://er.educause.edu/articles/2020/3/the-difference-between-emergency-remote-teaching-and-online-learning.

Kolesch, Doris. 2009. »Zwischenzonen«. In Stimm-Welten. Philosophische, medientheoretische und ästhetische Perspektiven, hrsg. v. Doris Kolesch, Vito Pinto und Jenny Schrödl, 13–22. Bielefeld: transcript.

Kolesch, Doris und Sybille Krämer, Hrsg. 2006. Stimme. Annäherung an ein Phänomen. Frankfurt am Main: Suhrkamp.

Kraemer, Rudolf-Dieter. 2004. Musikpädagogik – eine Einführung in das Studium. Augsburg: Wißner.

Krämer, Sybille. 2006. »Die ›Rehabilitierung der Stimme‹. Über die Oralität hinaus«. In Stimme. Annäherung an ein Phänomen, hrsg. v. Doris Kolesch und Sybille Krämer, 269–295. Frankfurt am Main: Suhrkamp.

Kress, Gunther. 2010. Multimodality. A social semiotic approach to contemporary communication. London: Routledge.

Luhmann, Niklas. 1984. Soziale Systeme. Grundriss einer allgemeinen Theorie. Frankfurt am Main: Suhrkamp.

Mahlert, Ulrich. 2011. Wege zum Musizieren. Methoden im Instrumental- und Vokalunterricht. Mainz: Schott.

Mari, Nanda. 1983/1975. Canto e voce. Difetti causati da un errato studio del canto. Milano: Ricordi.

McLuhan, Marshall. 1974. »At the moment of Sputnik the planet became a global theater in which there are no spectators but only actors«. Journal of Communication 24 (1): 48–58.

Merleau-Ponty, Maurice. 1966. Phänomenologie der Wahrnehmung. Berlin: de Gruyter.

Merleau-Ponty, Maurice. 1986. Das Sichtbare und das Unsichtbare. München: Fink.

Pfeiffer, Ludwig. 2006. »Operngesang und Medientheorie«. In Stimme. Annäherung an ein Phänomen, hrsg. v. Doris Kolesch und Sybille Krämer, 65–84. Frankfurt am Main: Suhrkamp.

Renn, Joachim. 2012. »Was ist rational am impliziten Wissen – zum theoretischen Status der praktischen Gewissheit zwischen Handlungs- und Gesellschaftstheorie«. In Implizites Wissen. Epistemologische und handlungstheoretische Perspektiven, hrsg. v. Jens Loenhoff, 150–177. Weilerswist: Velbrück.

Seidner, Wolfram und Jürgen Wendler. 1978. Die Sängerstimme. Phoniatrische Grundlagen der Gesangsausbildung. Wilhelmshaven: Heinrichshofen.

Shannon, Claude E. 1948. »A Mathematical Theory of Communication«. The Bell System Technical Journal 27 (3/4): 379–423 und 623–656. https://archive.org/details/bellsystemtechni27amerrich/page/378/mode/2up.

Shannon, Claude E. und Warren Weaver. 1964. The Mathematical Theory of Communication. Urbana: The University of Illinois Press.

Steiner, George. 2004. Der Meister und seine Schüler. München: Hanser.

Strauss, Richard. 1944/1916. Ariadne auf Naxos. Oper in einem Aufzuge. London: Boosey & Hawkes.

Sundberg, Johan. 1997. Die Wissenschaft von der Singstimme. Bonn: Orpheus.

Tomasello, Michael, Malinda Carpenter, Josep Call, Tanya Behne und Henrike Moll. 2005. »Understanding and sharing intentions: The origins of cultural cognition«. Behavioral and Brain Sciences 28(5): 675–691. https://doi.org/10.1017/S0140525X05000129.

Wagener, Ute. 2000. Fühlen-Tasten-Begreifen. Berührung als Wahrnehmung und Kommunikation. Oldenburg: BIS Verlag.

Waldenfels, Bernhard. 2006. »Das Lautwerden der Stimme«. In Stimme. Annäherung an ein Phänomen, hrsg. v. Doris Kolesch und Sybille Krämer, 191–210. Frankfurt am Main: Suhrkamp.

Wicke, Peter. 2011. »Zwischen Aufführungspraxis und Aufnahmepraxis. Musikproduktion als Interpretation«. In Ereignis und Exegese. Musikalische Interpretation – Interpretation der Musik, hrsg. v. Camilla Bork, Tobias Robert Klein, Burkhard Meischein, Andreas Meyer und Tobias Plebuch, 42–53. Schliengen: Edition Argus.

Wittgenstein, Ludwig. 1977/1953. Philosophische Untersuchungen. Frankfurt am Main: Suhrkamp.

Zirfas, Jörg. 2017. »Zur musikalischen Bildung des Körpers. Ein pädagogisch-anthropologischer Zugang«. In Musik und Körper: Interdisziplinäre Dialoge zum körperlichen Erleben und Verstehen von Musik, hrsg. v. Lars Oberhaus und Christoph Stange, 21–40. Bielefeld: transcript.

Der Autor

Till Hartwig, M. A., ist Kommunikationswissenschaftler, assoziierter Fellow am Kulturwissenschaftlichen Institut Essen (KWI) und Programmkoordinator am Mercator Research Center Ruhr (MERCUR) sowie Lehrbeauftragter an der Universität Duisburg-Essen. Zu seinen Forschungsschwerpunkten zählen qualitative Methoden der Sozialforschung, implizites Wissen und interkulturelle Kommunikation.

Kontakt:
Till Hartwig,
Hafkesdell 15a, 45219 Essen;
E-Mail: till.s.hartwig@gmail.com