Werbung

Forscher suchen im Gehirn nach Algorithmen für das Cocktailparty-Problem

Das Cocktailparty-Problem, die algorithmischen Schwierigkeiten, mit denen Computer konfrontiert sind, wenn sie die Fähigkeit des menschlichen Geistes nachbilden, die wichtigsten akustischen Signale inmitten eines Datenrauschens zu identifizieren, hat in letzter Zeit einige wichtige Entwicklungen erfahren.

Die Fähigkeit eines Computers, einige Signale zu erkennen, die in einer Masse von verrauschten Daten verborgen sind, andere jedoch nicht, ist ein bekanntes und derzeit unlösbares Problem für Informatiker, die auf dem Gebiet der Sprach- und Tonverarbeitung tätig sind.Algorithmen, die eine bestimmte Stimme identifizieren und verstärken können, während sie die Kakophonie anderer Stimmen, Geräusche und Verzerrungen dämpfen, die von der Umgebung erzeugt werden, sind bisher schwer fassbar geblieben.

VERBINDUNG: DIESES BRAIN-COMPUTER-GERÄT STIMMT DENEN, DIE NICHT SPRECHEN KÖNNEN

Glücklicherweise haben Wissenschaftler ein System zur Modellierung, um dieses Problem zu lösen: das menschliche Gehirn. Menschen sind soziale Tiere, und als solche hat sich unser Gehirn stark weiterentwickelt, um die Stimme der Person, mit der wir sprechen, zu isolieren und sich darauf zu konzentrierenJetzt werden die Forscher gedämpft und unterdrücken oft sogar andere Stimmen und Umgebungsgeräusche vollständig, um zu hören, was eine Person sagt. Jetzt beginnen die Forscher bedeutende Fortschritte beim Verständnis, wie das Gehirn eine bestimmte Stimme unter vielen isoliert und verarbeitet, sowie bei der Entwicklung neuer AnsätzeLösung des Problems.

Der Cocktailparty-Effekt

Der Cocktailparty-Effekt, wie er genannt wird, ist die Fähigkeit des menschlichen Gehirns, sich auf eine einzelne Stimme in einer Menschenmenge zu konzentrieren und sie vom Umgebungsgeräusch zu isolieren. Während dies für manche recht einfach erscheint, ist es einfachNehmen Sie den Cocktailparty-Effekt als selbstverständlich und schätzen Sie nicht, wie außergewöhnlich ein neurologischer Prozess ist.

In einer Menschenmenge sind Stimmen Störungen in der Umgebungsluft, die ineinander schlagen und sich zerstreuen, was es schwierig macht, eine Stimme zu hören, es sei denn, sie überwältigt einfach den Rest des Schreiens oder ähnliches. Da dies keine ideale Lösung istdas Cocktailparty-Problem, unser Gehirn macht stattdessen etwas anderes, das ziemlich außergewöhnlich ist.

In Sekundenbruchteilen identifiziert und isoliert unser Gehirn das Sprachsignal der Person, die wir hören möchten, und verstärkt es. Anschließend werden alle anderen Sprachsignale oder Geräusche gefiltert oder maskiert, sodass diese Geräusche unterdrückt werdenhöre, was eine Person unter den meisten sozialen Umständen sagt.

Werbung

Jeden Tag verarbeitet unser Gehirn eine Unendlichkeit von Geräuschen, die es in Bruchteilen von Sekunden priorisiert. Und genau wie sie kontinuierlich das Bild dieses Nasenstücks entfernen, das sich physisch in unser ansonsten ungehindertes Sichtfeld erstreckt, verstärkt sich unser Gehirndie Geräusche, auf die wir uns konzentrieren, und unterdrücken die anderen Geräusche mit niedrigerer Priorität in der Umgebung, so dass sie funktionell verschwinden.

Aber wie genau unser Gehirn diesen unglaublichen Cocktailparty-Effekt erzielt, war jahrzehntelang ein Rätsel, nachdem das „Cocktailparty-Problem“ in den 1950er Jahren erstmals von Forschern diskutiert wurde. Glücklicherweise haben Forschungen der letzten Jahre Aufschluss darüber gegeben, wie sich unser Gehirn identifiziertund diese wichtigen Sprachsignale in sozialen Umgebungen zu isolieren, bringen uns der Replikation desselben Prozesses mit einer Maschine viel näher als je zuvor.

Werbung

Trennung verschiedener Sprachsignale im auditorischen Kortex

Quelle : Pixabay

Die letztes Jahrzehnt hat unser Verständnis, wie Menschen Sprache und Sprache identifizieren und verarbeiten, erheblich verbessert. Ein Forscherpaar, das vom US-amerikanischen National Institute on Deafness and Other Communication Disorders unterstützt wird, veröffentlicht a bemerkenswertes Papier im Tagebuch Natur in 2012 das zeigte, wie wir nicht nur sehen konnten, wie das Gehirn konkurrierende Sprachsignale filterte und unterschied, sondern die Forscher sogar in der Lage waren um vorherzusagen welches Wort der Befragte gehört hat.

Edward Chang, Ph.D., Neurochirurg und außerordentlicher Professor an der Universität von Kalifornien in San Francisco UCSF wollte zunächst nicht herausfinden, wie Menschen den Cocktailparty-Effekt erzielen, er behandelte Patienten mit Epilepsieimplantiert ein Blatt von 256 Elektroden direkt unter dem Schädel seiner Patienten, um die elektrische Aktivität in der äußeren Schicht der Neuronen ihrer Temporallappen zu überwachen.

Werbung

Chang und Nima Mesgarani, Ph.D., Postdoktorand an der UCSF, stellten fest, dass diese Patienten ihnen eine seltene Gelegenheit boten. Mit ihrer hoch entwickelten Ausrüstung - die empfindlich genug war, um das Brennen eines einzelnen Neurons zu erkennen - undDurch die Tatsache, dass die intrakraniellen Elektroden auch den auditorischen Kortex überwachen können, der sich im Temporallappen befindet, könnten sie untersuchen, wie das Gehirn Geräusche in beispiellosen Details verarbeitet.

Drei freiwillige Probanden hörten simultane Audioaufnahmen, eine von einer Frau und die andere von einem Mann, mit Anweisungen, auf eines der beiden spezifischen Zielwörter zu hören, mit denen das Audio-Sample beginnen würde, und berichteten dann über die StimmeDas Audio-Sample sagte nach diesen Worten: Durch Analysieren der Messwerte von den Elektroden unter Verwendung eines Decodierungsalgorithmus, der Muster identifizieren und rekonstruieren konnte, was das Subjekt hörte, stellten die Forscher fest, dass die Messwerte von den Elektroden nur das Muster des Zielsprechers aufnahmen, was bedeutetdass der auditive Kortex den Nichtzielsprecher vollständig ignoriert.

Werbung

"Viele Leute dachten, dass der auditive Kortex diese Informationen nur an den kognitiven Teil des Gehirns, den frontalen Kortex und die exekutiven Kontrollbereiche weiterleitet, wo sie wirklich verarbeitet werden", sagte Chang. "Was wir gefunden haben."war, dass der auditive Kortex an und für sich ziemlich raffiniert ist. Es ist, als ob er weiß, welche Klänge zusammengefasst werden sollten und nur diejenigen extrahiert, die für den einzelnen Sprecher relevant sind. “

Noch bemerkenswerter ist die Tatsache, dass der Decodierungsalgorithmus allein aufgrund der neuronalen Aktivität vorhersagen konnte, welchen Sprecher das Subjekt hörte, und dass er den Moment erkennen konnte, in dem sich die Aufmerksamkeit des Subjekts auf den anderen Sprecher verlagerte oder verirrte.Dies sagt uns, dass der auditive Kortex der Schlüssel zum Verständnis ist, wie das menschliche Gehirn mit dem Cocktailparty-Problem auf eine Weise umgehen kann, die Computer derzeit nicht können.

Werbung

Unterscheiden der Stimme vom Ton

Quelle : DepositPhotos

Während ein Computer die neuronale Aktivität des Gehirns entschlüsseln und genau wissen kann, was der auditive Kortex tatsächlich gehört hat, reicht dies nicht aus, um das Cocktailparty-Problem allein zu überwinden. Wir müssen jedoch noch wissen, wie das Gehirn diese tatsächlich herstelltUnterscheidet und unterscheidet Sprachsignale und andere Umgebungsgeräusche, um sich auf die Zielstimme zu konzentrieren.

Forscher an der Universität Genf, Schweiz UNIGE und der Universität Maastricht in den Niederlanden veröffentlichte ein Papier diesen Sommer im Tagebuch Natur menschliches Verhalten der versucht hat, den Grundmechanismus dieses Prozesses zu finden, nämlich wie das Gehirn die Stimmen verarbeitet, die wir hören, und die Wörter, die gesprochen werden.

Zu diesem Zweck entwickelten die Forscher eine Sammlung von Pseudowörtern - Wörter ohne Bedeutung -, die von einem ausgebildeten Phonetiker in drei verschiedenen Tonhöhen gesprochen wurden. Die Probanden, die die Stimmproben hörten, wurden dann gebeten, die spezifischen Höraufgaben der Unterscheidung zwischen ihnen auszuführenverschiedene Tonhöhen derselben Stimme oder durch Hören der Sprachlaute selbst, sogenannte Phoneme.

Werbung

"Wir haben 120 Pseudowörter erstellt, die der Phonologie der französischen Sprache entsprechen, aber keinen Sinn ergeben, um sicherzustellen, dass die semantische Verarbeitung die reine Wahrnehmung der Phoneme nicht beeinträchtigt", sagte Narly Golestani, Professor in der Abteilung für Psychologiean der UNIGE-Fakultät für Psychologie und Erziehungswissenschaften FPES und Mitautor des Papiers.

Sanne Rutten, Forscherin am FPES von UNIGE und Mitautorin des Papiers, sagte, dass die Unterscheidung der Stimmen des Sprechers für das Subjekt so schwierig wie möglich sein müsse, um die Leistung des Gehirns genau zu untersuchendiese auditive Verarbeitung. "Um die Unterscheidung der Stimmen so schwierig wie die Unterscheidung der Sprachlaute zu machen, haben wir die Wahrnehmung von drei verschiedenen Stimmen aus den aufgezeichneten Reizen erzeugt, anstatt drei tatsächlich unterschiedliche Personen aufzuzeichnen."

Vor dem Test analysierten die Forscher die Unterschiede in den akustischen Parametern zwischen den Sprach- und Phonemgeräuschen, wie z. B. die Frequenz - entweder hoch oder niedrig - zeitliche Modulation - die wahrgenommene Geschwindigkeit des gesprochenen Tons - und die spektrale Modulation.-die Art und Weise, wie die Schallenergie auf die verschiedenen Frequenzen verteilt wird. Hohe spektrale Modulationen erwiesen sich als am nützlichsten bei der Unterscheidung der verschiedenen Stimmproben, und niedrige spektrale Modulationen zusammen mit schneller zeitlicher Modulation waren am nützlichsten bei der Identifizierung von Unterschieden in Phonemen.

Quelle : Sanne Rutten / UNIGE

Während des Tests selbst wurden die Probanden gebeten, drei spezifische Sprachlaute zu identifizieren - / p /, / t / oder / k /, wie in den Pseudowörtern Preperibion, Gabratade und Ecalimacre - oder zu identifizieren, ob die Probe hatteWährend des Tests wurden ihre Gehirne mit einem funktionellen Magnetresonanztomographen fMRT gescannt, um die Blutoxygenierung des Gehirns zu überwachen. Dies ist eine hochwirksame Methode, um festzustellen, welche Teile des Gehirns vorhanden sindam aktivsten, da mehr Aktivität mehr Sauerstoff erfordert als weniger aktive Regionen des Gehirns.

Mithilfe eines Computermodells zur Analyse der fMRT-Ergebnisse stellten die Forscher fest, dass der auditive Kortex die höheren spektralen Modulationen verstärkte, wenn er mit der Unterscheidung von Stimmen beauftragt wurde und wenn er aufgefordert wurde, die spezifischen Phoneme in den Proben zu identifizieren, konzentrierte er sich auf dieschnellere zeitliche Modulationen und niedrigere spektrale Modulationen gegenüber anderen Stimuli.

"Die Ergebnisse zeigen große Ähnlichkeiten zwischen den Aufgabeninformationen in den Sounds selbst und den neuronalen fMRI-Daten", sagte Golestani.

Dies zeigt, dass der auditive Kortex den gleichen Klang je nach der spezifischen Aufgabe, die er ausführen möchte, unterschiedlich verarbeitet. Dies zeigt die wesentlichen Mechanismen, die erforderlich sind, um Menschen zuzuhören, die mit uns sprechen, und wie unser Gehirn zwischen verschiedenen Stimmen unterscheidet. "Dies ist das erste Mal, dass beim Menschen und mit nicht-invasiven Methoden gezeigt wurde, dass sich das Gehirn auf eine Weise an die jeweilige Aufgabe anpasst, die mit den akustischen Informationen übereinstimmt, die in Sprachlauten berücksichtigt werden ", sagte Rutten.

Lösung des Cocktailparty-Problems mit Algorithmen, die dem auditorischen Kortex nachempfunden sind

Das Finden der richtigen Stimme unter vielen bleibt ein unlösbares Problem für Computer. Quelle : Stab Sgt. Garrett L. Dipuma / US Army National Gaurd

Wenn unser Verständnis der Vorgänge im auditorischen Kortex wächst und wir mehr über die Mechanismen des Cocktailparty-Effekts erfahren, können wir diese neuen Erkenntnisse nutzen, um die Art und Weise zu verbessern, wie Computersysteme den Klang der menschlichen Stimme verarbeiten. Während natürliche SpracheVerarbeitungssysteme wie die Sprach-Text-API von Google sind sicherlich leistungsstark. Ihre besten Algorithmen für das Cocktailparty-Problem sind immer noch unzureichend. Es wird mindestens einige Jahre dauern, bis die neurologische Forschung am auditorischen Kortex die Art von Durchbrüchen hervorbringt, die uns die Entwicklung ermöglichendie richtigen Algorithmen, um den Cocktailparty-Effekt in Computern zu reproduzieren.

Bis dahin bleibt die Art der sprachgesteuerten Computerschnittstellen, wie sie in Star Trek zu sehen sind, unerreichbar. Die Erforschung des auditorischen Kortex ist jedoch vielversprechend, und die Daten, die wir bisher aus neurologischen Studien gewonnen haben, zeigen diesdass weitere Forschungen in dieser Region des Gehirns wahrscheinlich neue neurologische Mechanismen aufdecken werden, die für die Entwicklung effizienter Algorithmen für das Cocktailparty-Problem unerlässlich sind.

Folgen Sie uns auf

Bleiben Sie über die neuesten technischen Neuigkeiten auf dem Laufenden

Geben Sie einfach Ihre E-Mail-Adresse ein und wir kümmern uns um den Rest :

Mit Ihrer Anmeldung stimmen Sie unserer zu Nutzungsbedingungen und Datenschutzerklärung . Sie können sich jederzeit abmelden.