Metahilfe: Was wir hier (nicht) tun - Informationen zum Thema Fragen und Hilfen im Forum.

Du kennst dich aus? — Prima. Unser Fragenbeantwortungs-Team freut sich immer über engagierte Verstärkung!



1 Benutzer in diesem Thread: (0 Mitglieder, und 1 Besucher). 1 Gast/Gäste
Antwort schreiben 
[Phon]: Phonetik & Phonologie  » nicht erledigt Textfile mit [wort - lautschrift] - Einträgen
▶ Lexikon, Lautschrift, File, Deutsch

20.09.2015, 15:19:58
Beitrag #1
Textfile mit [wort - lautschrift] - Einträgen
Hallo Lächel

Für eine BigData Analyse von Texten benötige ich die Lautschrift von möglichst allen deutschsprachigen Wörtern in möglichst vielen morphologischen Formen.
Meine bevorzugte Datenstruktur ist eine Textdatei, in der jede Zeile aus einem Wort und seiner Lautschrift besteht.
Es wäre jedoch auch beispielsweise kein Problem, die Daten aus einer Datenbank zu extrahieren.
Kennt jemand eine frei verfügbare Quelle, die diese Daten beinhaltet?

lg
SwiftFox

Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
20.09.2015, 23:26:48
Beitrag #2
RE: Textfile mit [wort - lautschrift] - Einträgen
(20.09.2015 15:19:58)SwiftFox schrieb:  Für eine BigData Analyse von Texten benötige ich die Lautschrift von möglichst allen deutschsprachigen Wörtern in möglichst vielen morphologischen Formen.

Lieber Swiftfox,

ein paar zusätzliche Informationen wären hilfreich. Brauchst Du die Daten für kommerzielle Zwecke oder für wissenschaftliche Belange? Was meinst Du mit deutschsprachigen Wörtern? Benötigst Du auch dialektale Ausdrücke oder sogar dialektale Aussprachvarianten? Wie sieht es mit Sonderwortschätzen aus? Wie genau sollte transkribiert sein? ...

Ich habe mal ein bisschen gestöbert und das gefunden:

http://www.adaba.at/

Hier kannst Du wohl die Datenbanken auch beziehen. Eine Rezension auf A...zon ist jedoch nicht sehr aufgeschlossen:

http://www.amazon.de/%C3%96sterreichisch...3631554141

Vielleicht hilft es Dir ja dennoch.

PeterSilie


Hier könnte PeterSilie's Signatur stehen...
Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
27.09.2015, 01:47:29
Beitrag #3
RE: Textfile mit [wort - lautschrift] - Einträgen
Hallo PeterSilie,

Vielen Dank für die Antwort Lächel
Ich habe jetzt einfach den deutschsprachigen wiktionary dump als XML kostenfrei gedownloaded.
Das ist mit über 200.000 Wörtern schon mal ein guter Anfang.

Viele Grüße,
SwiftFox

Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
27.09.2015, 10:48:02
Beitrag #4
RE: Textfile mit [wort - lautschrift] - Einträgen
In Studien in dem Bereich wird manchmal das CELEX-Korpus zitiert, das auch einen phonologischen Annotationslayer enthält. Das ist an sich nicht frei, aber es sieht so aus, als wäre es über eine leere Suche im Web-Interface möglich, einen Dump zu erhalten.

Da du zu einer hohen Anzahl von Wortformen Ausspracheinformationen möchtest, ist möglicherweise für dein Vorhaben auch ein Graphem-Phonem-Konverter von Interesse. Sowas gibt es teilweise als einzelne Software, aber auch in Text-To-Speech Programme integriert. Von den OpenSource-Tools, die es da so gibt, hab' ich nur eSpeak ausprobiert, das auf Wunsch auch IPA ausgibt. Vom Ergebnis bin ich nur so mittelmäßig überzeugt, aber vielleicht reicht es für das, was du machen möchtest:

Zitat:$ espeak --ipa -v de
Als Gregor Samsa eines Morgens aus unruhigen Träumen erwachte, fand er sich in seinem Bett zu einem ungeheuren Ungeziefer verwandelt.

als ɡrˈeːɡoːɾ zˈamzɑː ˌaɪnəs mˈɔɾɡəns ˌaʊs ˈʊnrˌuːɪɡən tɾˈɔømən ɛɾvˈaxtə
fˈant ɛɾ zɪç ɪn zˌaɪnəm bˈɛt tsuː ˌaɪnəm ˈʊnɡəhˌɔørən ˈʊnɡətsˌiːfɜ fɛɾvˈandəlt

Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
18.03.2016, 11:06:50
Beitrag #5
RE: Textfile mit [wort - lautschrift] - Einträgen
Hallo zusammen,

da ich selber ziemlich lange nach einem solchen Programm gesucht habe, hier mein Tipp: Auf der folgenden Seite werden die Daten aus dem Mbrola-Projekt abgeriffen und Text nach SAMPA und IPA gewandelt.

http://tools.webmasterei.com/mbrolatester/

als gRe:go:6 zamsa: aIn@s mORg@ns aUs UnRu:Ig@n tROYm@n ERvaxt@ fant e:6 zIC In zaIn@m bEt tsu: aIn@m Ung@hOYR@n Ung@tsi:f6 fERvand@lt

als gʁe:go:ɐ zamsa: aɪnəs mɔʁgəns aʊs ʊnʁu:ɪgən tʁɔʏmən ɛʁvaxtə fant e:ɐ zɪç ɪn zaɪnəm bɛt tsu: aɪnəm ʊngəhɔʏʁən ʊngətsi:fɐ fɛʁvandəlt

Celex sollte auf der genannten URL noch zu grabben sein, echt schade, dass dieses Projekt in einer finsteren Ecke rumliegt.

Grund meiner Recherche ist, dass wir selbst dabei sind, ein solches Tool zu entwickeln. Unser Ansatz bei der Entwicklung ist es jedoch, nicht statistisch, sondern linguistisch vorzugehen und quasi offenzulegen, wie die "Graphem-to-Phonem"-Regeln sind.

?als gRe:|gO6 zam|za ?aI|n@s mO6|g@ns ?aUs ?u:n|Ru:|?i:|g@n tROY|m@n ?E6|vax|t@ fant ?e:6 zIC ?In zaI|n@m bEt tsU ?aI|n@m ?u:n|g@hOYR@n ?u:n|g@tsi:f6 f6|van|d@lt

Beispielwort "verwandelt"

Analysestadium 1. Silben, Vokallängen und Betonungen werden kalkuliert:

# Silbe Betonung Vokallänge
1 ver unbetont kurz
2 wan betont kurz
3 delt unbetont kurz

Analysestadium 2. Graphem to Phonem Converter wandelt mit Regular Expressions:

Level 10
ver|wan|delt -> fer|wan|delt
Schritt Reg. Ausdruck Ersetzen durch durchgeführt Resultat
1 v f True fer|wan|delt
Level 11
fer|wan|delt -> fer|van|delt
Schritt Reg. Ausdruck Ersetzen durch durchgeführt Resultat
1 w v True fer|van|delt
Level 20
fer|van|delt -> f@r|van|d@lt
Schritt Reg. Ausdruck Ersetzen durch durchgeführt Resultat
1 e @ True f@r|van|delt
2 e @ True f@r|van|d@lt
Level 23
f@r|van|d@lt -> f@r|van|d@lt
Schritt Reg. Ausdruck Ersetzen durch durchgeführt Resultat
1 a a True f@r|van|d@lt
Level 24
f@r|van|d@lt -> f6$|van|d@lt
Schritt Reg. Ausdruck Ersetzen durch durchgeführt Resultat
1 @r 6$ True f6$|van|d@lt

Wenn das jemand spannend findet, dann freuen wir uns immer über Kontakte.

Viele Grüße

Klemens

Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
19.03.2016, 16:19:41
Beitrag #6
RE: Textfile mit [wort - lautschrift] - Einträgen
Auf der folgenden Seite haben wir das Testmodul zur phonetischen Umschrift online gestellt. Man kann dort nun ein Wort eingeben und bekommt XSAMPA hinten raus. Neben unserer Ausgabe wird auch der Wert aus Celex ausgegeben. Zeitnah soll der Wert aus mbrola hinzukommen. Die Eingabe ist case-sensitive, wenn man die Vergleichswerte bekommen will:

http://www.metricalizer.de/de/transcript.../xsa/test/

Das Tool ist noch in der Entwicklung, wenn jemand einen Fehler findet, kann er mir gerne eine PM schicken. Ich könnte mir vorstellen, dass es gerade für das Erlernen von Lautschrift interessant sein könnte, da alle Prosodie- und Lautregeln, die für die Interpretation wichig sind, mit ausgegeben werden.

Viele Grüße

Klemens

Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
Antwort schreiben 


Möglicherweise verwandte Themen...
Thema:VerfasserAntworten:Ansichten:Letzter Beitrag
  [Phon] Lautschrift gesucht für das Wort „middenmang“ hamburglingo 3 863 09.05.2016 22:24:24
Letzter Beitrag: Kevin
  "spitz" als Wort für "sexuell erregt" Kevin 6 1.862 16.09.2015 10:46:01
Letzter Beitrag: thf
  [Sem] Das Wort ''unvermeidbar'' Kanye 7 2.892 06.04.2015 09:35:49
Letzter Beitrag: Willi Wamser
  Allltagssprache und Fachsprache – Das Wort BEGRIFF Son of my comfort 2 1.261 24.03.2015 17:30:50
Letzter Beitrag: Son of my comfort
  [Sem] Wort- Namensherkunft Šebrelje (Schebrelje) (Ortschaft in Slowenien) Sibrigl 3 1.874 21.11.2014 21:41:40
Letzter Beitrag: janwo
  Das Wort ''können'' Kanye 2 2.319 15.06.2014 13:10:19
Letzter Beitrag: derrichtigename
  [Morph] morphologische (Wort)Strukturen Schnitte862 4 2.567 12.11.2012 01:00:44
Letzter Beitrag: suz
  Unterschied syntaktisches Wort/ Wortform fleuraison 3 6.496 14.01.2012 22:36:42
Letzter Beitrag: lin
  Wort "so" oder "so so" im Sinne von mittelmäßig Berndtz 4 8.323 05.01.2012 09:39:34
Letzter Beitrag: Alarich

Gehe zu:


1 Benutzer in diesem Thread: (0 Mitglieder, und 1 Besucher). 1 Gast/Gäste