Dieses Forum verwendet Cookies
Dieses Forum verwendet Cookies um deine Login-Daten zu speichern (sofern du registriert bist) bzw. deinen letzten Aufenthaltsort (wenn nicht registriert und eingeloggt). Cookies sind kleine Textdateien, die auf deinem Rechner gespeichert werden. Die von diesem Forum gespeicherten Cookies werden ausschließlich für Zwecke dieses Forums verwendet und nicht von Dritten ausgelesen. Sie stellen kein Sicherheitsrisiko für deinen Rechner dar. Cookies werden in diesem Forum auch verwendet, um die Anzeige bereits gelesener und noch ungelesener themen zu unterscheiden. Bitte bestätige, ob du Cookies zulassen willst oder nicht.

Ungeachtet deiner Entscheidung wird ein anonymer Cookie gespeichert, um zu vermeiden, dass du bei jedem Besuch erneut entscheiden musst. Du kannst deine Entscheidung jederzeit ändern.

Metahilfe: Was wir hier (nicht) tun - Informationen zum Thema Fragen und Hilfen im Forum.

Du kennst dich aus? — Prima. Unser Fragenbeantwortungs-Team freut sich immer über engagierte Verstärkung!



[Phon]: Phonetik & Phonologie  » nicht erledigtTextfile mit [wort - lautschrift] - Einträgen
20.09.2015, 15:19:58,
Beitrag #1
Textfile mit [wort - lautschrift] - Einträgen
Hallo Lächel

Für eine BigData Analyse von Texten benötige ich die Lautschrift von möglichst allen deutschsprachigen Wörtern in möglichst vielen morphologischen Formen.
Meine bevorzugte Datenstruktur ist eine Textdatei, in der jede Zeile aus einem Wort und seiner Lautschrift besteht.
Es wäre jedoch auch beispielsweise kein Problem, die Daten aus einer Datenbank zu extrahieren.
Kennt jemand eine frei verfügbare Quelle, die diese Daten beinhaltet?

lg
SwiftFox

ZitierenReturn to top
20.09.2015, 23:26:48,
Beitrag #2
RE: Textfile mit [wort - lautschrift] - Einträgen
(20.09.2015, 15:19:58)SwiftFox schrieb: Für eine BigData Analyse von Texten benötige ich die Lautschrift von möglichst allen deutschsprachigen Wörtern in möglichst vielen morphologischen Formen.

Lieber Swiftfox,

ein paar zusätzliche Informationen wären hilfreich. Brauchst Du die Daten für kommerzielle Zwecke oder für wissenschaftliche Belange? Was meinst Du mit deutschsprachigen Wörtern? Benötigst Du auch dialektale Ausdrücke oder sogar dialektale Aussprachvarianten? Wie sieht es mit Sonderwortschätzen aus? Wie genau sollte transkribiert sein? ...

Ich habe mal ein bisschen gestöbert und das gefunden:

http://www.adaba.at/

Hier kannst Du wohl die Datenbanken auch beziehen. Eine Rezension auf A...zon ist jedoch nicht sehr aufgeschlossen:

http://www.amazon.de/%C3%96sterreichisch...3631554141

Vielleicht hilft es Dir ja dennoch.

PeterSilie


Hier könnte PeterSilie's Signatur stehen...
ZitierenReturn to top
27.09.2015, 01:47:29,
Beitrag #3
RE: Textfile mit [wort - lautschrift] - Einträgen
Hallo PeterSilie,

Vielen Dank für die Antwort Lächel
Ich habe jetzt einfach den deutschsprachigen wiktionary dump als XML kostenfrei gedownloaded.
Das ist mit über 200.000 Wörtern schon mal ein guter Anfang.

Viele Grüße,
SwiftFox

ZitierenReturn to top
27.09.2015, 10:48:02,   Dieser Beitrag wurde zuletzt bearbeitet: 27.09.2015, 12:21:08 von thf
Beitrag #4
RE: Textfile mit [wort - lautschrift] - Einträgen
In Studien in dem Bereich wird manchmal das CELEX-Korpus zitiert, das auch einen phonologischen Annotationslayer enthält. Das ist an sich nicht frei, aber es sieht so aus, als wäre es über eine leere Suche im Web-Interface möglich, einen Dump zu erhalten.

Da du zu einer hohen Anzahl von Wortformen Ausspracheinformationen möchtest, ist möglicherweise für dein Vorhaben auch ein Graphem-Phonem-Konverter von Interesse. Sowas gibt es teilweise als einzelne Software, aber auch in Text-To-Speech Programme integriert. Von den OpenSource-Tools, die es da so gibt, hab' ich nur eSpeak ausprobiert, das auf Wunsch auch IPA ausgibt. Vom Ergebnis bin ich nur so mittelmäßig überzeugt, aber vielleicht reicht es für das, was du machen möchtest:

Zitat:$ espeak --ipa -v de
Als Gregor Samsa eines Morgens aus unruhigen Träumen erwachte, fand er sich in seinem Bett zu einem ungeheuren Ungeziefer verwandelt.

als ɡrˈeːɡoːɾ zˈamzɑː ˌaɪnəs mˈɔɾɡəns ˌaʊs ˈʊnrˌuːɪɡən tɾˈɔømən ɛɾvˈaxtə
fˈant ɛɾ zɪç ɪn zˌaɪnəm bˈɛt tsuː ˌaɪnəm ˈʊnɡəhˌɔørən ˈʊnɡətsˌiːfɜ fɛɾvˈandəlt

ZitierenReturn to top
18.03.2016, 11:06:50,
Beitrag #5
RE: Textfile mit [wort - lautschrift] - Einträgen
Hallo zusammen,

da ich selber ziemlich lange nach einem solchen Programm gesucht habe, hier mein Tipp: Auf der folgenden Seite werden die Daten aus dem Mbrola-Projekt abgeriffen und Text nach SAMPA und IPA gewandelt.

http://tools.webmasterei.com/mbrolatester/

als gRe:go:6 zamsa: aIn@s mORg@ns aUs UnRu:Ig@n tROYm@n ERvaxt@ fant e:6 zIC In zaIn@m bEt tsu: aIn@m Ung@hOYR@n Ung@tsi:f6 fERvand@lt

als gʁe:go:ɐ zamsa: aɪnəs mɔʁgəns aʊs ʊnʁu:ɪgən tʁɔʏmən ɛʁvaxtə fant e:ɐ zɪç ɪn zaɪnəm bɛt tsu: aɪnəm ʊngəhɔʏʁən ʊngətsi:fɐ fɛʁvandəlt

Celex sollte auf der genannten URL noch zu grabben sein, echt schade, dass dieses Projekt in einer finsteren Ecke rumliegt.

Grund meiner Recherche ist, dass wir selbst dabei sind, ein solches Tool zu entwickeln. Unser Ansatz bei der Entwicklung ist es jedoch, nicht statistisch, sondern linguistisch vorzugehen und quasi offenzulegen, wie die "Graphem-to-Phonem"-Regeln sind.

?als gRe:|gO6 zam|za ?aI|n@s mO6|g@ns ?aUs ?u:n|Ru:|?i:|g@n tROY|m@n ?E6|vax|t@ fant ?e:6 zIC ?In zaI|n@m bEt tsU ?aI|n@m ?u:n|g@|hOY|R@n ?u:n|g@|tsi:|f6 f6|van|d@lt

Beispielwort "verwandelt"

Analysestadium 1. Silben, Vokallängen und Betonungen werden kalkuliert:

# Silbe Betonung Vokallänge
1 ver unbetont kurz
2 wan betont kurz
3 delt unbetont kurz

Analysestadium 2. Graphem to Phonem Converter wandelt mit Regular Expressions:

Level 10
ver|wan|delt -> fer|wan|delt
Schritt Reg. Ausdruck Ersetzen durch durchgeführt Resultat
1 v f True fer|wan|delt
Level 11
fer|wan|delt -> fer|van|delt
Schritt Reg. Ausdruck Ersetzen durch durchgeführt Resultat
1 w v True fer|van|delt
Level 20
fer|van|delt -> f@r|van|d@lt
Schritt Reg. Ausdruck Ersetzen durch durchgeführt Resultat
1 e @ True f@r|van|delt
2 e @ True f@r|van|d@lt
Level 23
f@r|van|d@lt -> f@r|van|d@lt
Schritt Reg. Ausdruck Ersetzen durch durchgeführt Resultat
1 a a True f@r|van|d@lt
Level 24
f@r|van|d@lt -> f6$|van|d@lt
Schritt Reg. Ausdruck Ersetzen durch durchgeführt Resultat
1 @r 6$ True f6$|van|d@lt

Wenn das jemand spannend findet, dann freuen wir uns immer über Kontakte.

Viele Grüße

Klemens

ZitierenReturn to top
19.03.2016, 16:19:41,
Beitrag #6
RE: Textfile mit [wort - lautschrift] - Einträgen
Auf der folgenden Seite haben wir das Testmodul zur phonetischen Umschrift online gestellt. Man kann dort nun ein Wort eingeben und bekommt XSAMPA hinten raus. Neben unserer Ausgabe wird auch der Wert aus Celex ausgegeben. Zeitnah soll der Wert aus mbrola hinzukommen. Die Eingabe ist case-sensitive, wenn man die Vergleichswerte bekommen will:

http://www.metricalizer.de/de/transcript.../xsa/test/

Das Tool ist noch in der Entwicklung, wenn jemand einen Fehler findet, kann er mir gerne eine PM schicken. Ich könnte mir vorstellen, dass es gerade für das Erlernen von Lautschrift interessant sein könnte, da alle Prosodie- und Lautregeln, die für die Interpretation wichig sind, mit ausgegeben werden.

Viele Grüße

Klemens

ZitierenReturn to top


Gehe zu:

This forum uses Lukasz Tkacz PHP Developer addons.
Forum use Krzysztof "Supryk" Supryczynski addons.