Logo mybusinessculture.com

Die Weit Verbreiteten Sprachen, Die Wir Immer Noch Nicht Online übersetzen Können

Die Weit Verbreiteten Sprachen, Die Wir Immer Noch Nicht Online übersetzen Können
Die Weit Verbreiteten Sprachen, Die Wir Immer Noch Nicht Online übersetzen Können

Video: Die Weit Verbreiteten Sprachen, Die Wir Immer Noch Nicht Online übersetzen Können

Video: Die Weit Verbreiteten Sprachen, Die Wir Immer Noch Nicht Online übersetzen Können
Video: Deutsch lernen durch Hören mit Transkriptionen | Wortschatz C1 C2 | Deutsch lernen mit Nachrichten 2023, Dezember
Anonim

Im Zeitalter des Internets, in dem wir mit einer Sprachbarriere konfrontiert sind, gibt es eine Vielzahl von Internet-Ressourcen, um diese zu lösen: Übersetzungs-Apps, Wörterbuch-Websites, Wikipedia-Versionen in anderen Sprachen und die einfache Option "Click to Translate". Aber es gibt ungefähr 7000 Sprachen, die heute auf der Welt gesprochen werden. Die Top 10 oder so werden von Hunderten von Millionen von Sprechern gesprochen; Das untere Drittel hat 1000 Lautsprecher oder weniger.

Gretchen McCulloch ist die in WIRED ansässige Linguistin. Sie ist die Mitschöpferin des Lingthusiasmus, eines Podcasts, der sich für Linguistik begeistert. Ihr Buch "Weil das Internet: Die neuen Regeln der Sprache verstehen" soll im Juli 2019 bei Penguin erscheinen.

Aber im trüben Mittelfeld gibt es ein paar hundert Sprachen, die von Sprechern in Millionenhöhe gesprochen werden. Diese mittelgroßen Sprachen werden immer noch recht häufig gesprochen, bieten jedoch einen äußerst inkonsistenten Online-Support. Es gibt Schwedisch mit 9, 6 Millionen Sprechern, die drittgrößte Wikipedia mit über 3 Millionen Artikeln und Unterstützung für Google Translate, Bing Translate, Facebook, Siri, YouTube-Untertitel und so weiter. Aber es gibt auch Odia, die offizielle Sprache des indischen Bundesstaates Odisha mit 38 Millionen Sprechern, die in Google Translate nicht vertreten ist. Und Oromo, eine Sprache, die von rund 34 Millionen Menschen gesprochen wird, hauptsächlich in Äthiopien, mit nur 772 Artikeln in der Wikipedia.

Warum haben Griechisch, Tschechisch, Ungarisch und Schwedisch mit ihren 8 bis 13 Millionen Sprechern Google Translate-Unterstützung und eine robuste Wikipedia-Präsenz, während Sprachen mit der gleichen oder einer größeren Größe wie Bhojpuri (51 Millionen), Fula (24 Millionen) und Sylheti (11 Millionen), Quechua (9 Millionen) und Kirundi (9 Millionen) leiden unter technologischer Dunkelheit?

Ein Grund dafür ist, dass Griechisch, Tschechisch, Ungarisch und Schwedisch zu den 24 Amtssprachen der Europäischen Union gehören, was bedeutet, dass eine kleine Gruppe von menschlichen Übersetzern jedes Jahr viele offizielle Dokumente des Europäischen Parlaments übersetzt. Vom Menschen übersetzte Dokumente sind eine hervorragende Grundlage für das, was Linguisten als Parallelkorpus bezeichnen - eine große Textmenge, die Satz für Satz in mehreren Sprachen gleichwertig ist. Maschinenübersetzungsmaschinen verwenden Parallelkorpora, um regelmäßige Korrespondenzen zwischen Sprachen zu ermitteln: Wenn "regering" oder "κυβέρνηση" oder "kormány" oder "vláda" häufig parallel zu "government" auftreten, kommt die Maschine zu dem Schluss, dass diese Wörter gleichwertig sind.

Um einigermaßen effektiv zu sein, erfordert die maschinelle Übersetzung einen enormen Parallelkorpus für jede Sprache. Im Idealfall enthält dieses Korpus Dokumente aus einer Vielzahl von Genres: nicht nur parlamentarische Verfahren, sondern auch Nachrichten, Romane, Drehbücher und so weiter. Die Maschine kann informelle Social-Media-Posts nicht sehr gut übersetzen, wenn sie nur für formelle rechtliche Dokumente geschult wurde. Die Übersetzungstools kratzen bereits am Boden des parallelen Korpuslaufs: In vielen Sprachen ist der größte parallel übersetzte Text die Bibel, was zu besonderen Umständen führt, in denen Google unsinnige Silben in Prophezeiungen des Untergangs übersetzt.

Die Übersetzungstools kratzen bereits am Boden des parallelen Korpuslaufs: In vielen Sprachen ist der größte parallel übersetzte Text die Bibel.

Neben den EU-Dokumenten verfügen Schwedisch, Griechisch, Ungarisch und Tschechisch über eine Fülle von Sprachressourcen, die über Jahrhunderte hinweg jeweils für einen Menschen erstellt wurden. Sie sind die Sprachen ganzer Nationalstaaten, mit nationalen Fernseh- und Radioaufzeichnungen, die als Grundlage für Text-zu-Sprache-Modelle dienen können. Ihre Redner verfügen über das verfügbare Einkommen, das Medienunternehmen dazu bringt, populäre Romane zu übersetzen und ausländische Filme und Fernsehsendungen zu untertiteln. Sie befinden sich in Ländern, in denen Tech-Unternehmen glauben, dass ihre Kunden möglicherweise in einem Land leben oder zumindest in den Ferien sind. Es lohnt sich also, die Schnittstellen zu lokalisieren und sie als Übersetzungsoptionen hinzuzufügen. Sie verfügen über regulierte Rechtschreibsysteme und Wörterbücher, die in Rechtschreibprüfungen und Vorhersagetextmodellen zusammengefasst werden können. Sie haben hochkompetente Sprecher mit Internetzugang, die zu Projekten wie Wikipedia beitragen können. (Sprecher, die im Fall von Schwedisch sogar einen Bot erstellen können, um automatisch grundlegende Wikipedia-Artikel für Flüsse, Berge und andere natürliche Merkmale zu erstellen.)

Sprachressourcen werden nicht nur angezeigt. Die Menschen müssen sich dafür entscheiden, sie zu schaffen, und diese Menschen müssen ernährt und bewässert und erzogen und untergebracht und unterstützt werden, sei es durch Regierungen oder Unternehmen oder durch die Art von persönlichem Reichtum, der es Einzelnen ermöglicht, zeitraubende intellektuelle Hobbys anzunehmen. Das Erstellen von parallelen Korpora- und anderen Sprachressourcen dauert, wenn überhaupt, Jahre und kostet zehn Millionen Dollar pro Sprache.

Mittlerweile wissen wir, dass sich weltweit regelmäßig Katastrophen ereignen: Erdbeben, Überschwemmungen, Hurrikane, Wirbelstürme, Krankheiten, Hungersnöte, Brände. Einige von ihnen werden in Gebieten vorkommen, in denen Menschen eine große, gut ausgestattete Sprache sprechen, und Organisationen werden sich um ihre Hilfe bemühen. Die Chancen stehen jedoch gut, dass einige der zukünftigen Krisen der Welt in Gebieten stattfinden werden, in denen Menschen eine dieser mittelgroßen, aber ressourcenarmen Sprachen sprechen. In diesen Fällen werden Hilfsorganisationen und Regierungen mit einer dringenden Sprachbarriere konfrontiert sein.

Das Problem ist, wir wissen nicht, welche Sprache als nächstes dringend die Aufmerksamkeit der Welt benötigen wird. Als 2010 ein Erdbeben Haiti traf, benötigten internationale Organisationen plötzlich haitianisch-kreolische Ressourcen. Ebola-Ausbrüche in Westafrika betrafen Sprecher von Sprachen wie Suaheli, Nande, Mbuba, Krio, Mende und Themne. Asylsuchende aus Mittelamerika sprechen oft Sprachen wie Zapotec, Q'anjob'al, K'iche 'und Mam. Diese Lautsprecher sind nicht die idealen Kunden großer Technologieunternehmen. Sie haben keine Freizeit, um Wikipedia zu bearbeiten. Sie beherrschen möglicherweise nicht einmal ihre Muttersprache und kommunizieren nicht per SMS, sondern per Sprachnotiz. Wenn jedoch eine Krise eintritt, sind Tools für die Internetkommunikation von entscheidender Bedeutung.

Forscher von Darpa, der Agentur für fortgeschrittene Verteidigungsforschungsprojekte, beschlossen, das Problem zu lösen, indem sie die Art und Weise, in der wir Sprachen übersetzen, überarbeiteten. Anstatt sprachspezifische Tools zu entwickeln, versucht Darpa, sprachunabhängige Tools zu entwickeln, die in Krisenzeiten in Aktion treten und mit geringfügigen Anpassungen auf jede Sprache abgestimmt werden können - selbst wenn sie nur einsprachigen Text enthalten, der aus dem sozialen Bereich entfernt wurde Medien und nicht sorgfältig übersetzte Parallelkorpora.

Sie haben auch ihre Ziele geändert. Laut Dr. Boyan Onyshkevych, Programmmanager im Information Innovation Office von Darpa, ist es zu schwierig, zu ausgewachsenen maschinellen Übersetzern zu gelangen, die idiomatische Prosa produzieren. Stattdessen können sie leichter zu bewältigende Aufgaben ausführen, z. B. das Verknüpfen aller Eigennamen in einer Passage mit ihren Entsprechungen in einer weiter verbreiteten Sprache. Die automatische Identifizierung von Entitäten auf diese Weise kann Hinweise auf die Gesamtsituation geben, z. B. welche Flüsse überfluten, welche Dörfer von einem Ausbruch betroffen sind oder welche Personen vermisst werden.

Die automatische Identifizierung von Entitäten auf diese Weise kann Hinweise auf die Gesamtsituation geben, z. B. welche Flüsse überfluten, welche Dörfer von einem Ausbruch betroffen sind oder welche Personen vermisst werden.

Empfohlen:

Tipp Der Redaktion