Wahrscheinlichkeitsrechnung und Linguistik

Tröten statt tweeten: Kommt auf unsere Mastodon-Instanz linguisten.info.

Ansichts-Optionen

[CoLi] Computerlinguistik, ling. Datenverarbeitung, KI:
Erledigt: 01.07.2018, 18:21:10

Wahrscheinlichkeitsrechnung und Linguistik

LeaRebecca

Seniormitglied
Level: 30 | EXP: 94.44%
offline

Registriert seit: 02.09.2011 12:42
Beiträge: 170 | Themen: 30
Bewertung: 0
Pronomen/Geschlecht: weiblich
Affiliation: Heinrich-Heine-Universität, Anglistik 3

29.06.2012, 14:17:39

Hallo zusammen,

Ein Freund (Stochastiker) von mir, hat gestern erzählt, dass Wahrscheinlichkeitsrechnung in der Linguistik ein ganz beliebtes Werkzeug sei. Speziell sprach es von der Häufigkeit von Worten, und dass das zweit-häufigste Wort in so ziemlich jeder Sprache ungefähr halb so oft vorkommt wie das häufigste. Kann das jemand spontan bestätigen? Bin grad auf der Arbeit und kann nicht in Korpora wühlen Rolleyes

Erst gestern habe ich ein Referat gehalten über die Vorhersage von Lautsystemen mit Hilfe von Algorithmen - dass das im Grunde Wahrscheinlichkeitsrechnung ist war mir garnicht bewusst. Entsprechend kann man ja auch Wortfolgen berechnen usw. Dies nur als Kommentar / eigene Erkenntnis am Rande...

Suchen

Zitieren Zum Seitenanfang

suz

Supermitglied
Level: 33 | EXP: 93.78%
abwesend

Registriert seit: 02.03.2011 15:57
Beiträge: 211 | Themen: 4
Bewertung: 3
Pronomen/Geschlecht: weiblich
Affiliation: FU Berlin User+

29.06.2012, 14:46:39

Häufigkeitsliste für LOB (Englisch, 1960er):

Total No. of Word Types: 48379
Total No. of Word Tokens: 1123452
1 61603 the
2 35453 of
3 26943 and
4 26495 to
5 21610 a
6 19719 in

Häufigkeitsliste für FLOB (English, 1990er):

Total No. of Word Types: 51399
Total No. of Word Tokens: 1199781
1 58279 the
2 33874 of
3 26711 to
4 26341 and
5 22039 a
6 19111 in

Scheint also gar nicht so weit weg zu sein, *diese* Vermutung (zumindest auf Platz 1&2). Dein Kumpel bezieht sich möglicherweise auf das Zipf'sche Gesetz (Zipf 1949), die "eine Korrelation zwischen der Rangfolge eines Wortes in einer frequenzbasierten Wortliste und seiner Häufigkeit im Korpus" beschreibt (Mukherjee 2009: 68). Ergo:

Ranglistenplatz (r) x Frequenz (f) = Konstant (c) (Mukherjee 2009: 69).

Dort ist auch ganz knapp beschrieben, dass es sich um eine Tendenz handelt, die aber mitunter "bemerkenswert" konstant ist (ibid.).

Mukherjee, Joybrato. 2009. Anglistische Korpuslinguistik. Eine Einführung. Berlin: Erich Schmidt.
Zipf, George Kingsley. 1949. Human Behavior and the Principle of Least Effort. An Introduction to Human Ecology. Cambridge, MA: Addison-Wesley Press.

Suchen

Zitieren Zum Seitenanfang

LeaRebecca

Seniormitglied
Level: 30 | EXP: 94.44%
offline

Registriert seit: 02.09.2011 12:42
Beiträge: 170 | Themen: 30
Bewertung: 0
Pronomen/Geschlecht: weiblich
Affiliation: Heinrich-Heine-Universität, Anglistik 3

29.06.2012, 16:25:32

Das mag jetzt eine doofe Frage sein, aber erstellt man frequenzbasierte Wortlisten nicht ohnehin aufgrund der Häufigkeit in einem Korpus?

Suchen

Zitieren Zum Seitenanfang

janwo

Forenprominenz Level 10
Level: 72 | EXP: 99.57%
offline

Registriert seit: 16.11.2004 13:05
Beiträge: 2.987 | Themen: 102
Bewertung: 32
Pronomen/Geschlecht: männlich
Affiliation: Studienkolleg Indonesia · WWU

29.06.2012, 17:05:36 (Dieser Beitrag wurde zuletzt bearbeitet: 03.07.2012, 18:45:37 von janwo.)

(29.06.2012, 14:17:39)LeaRebecca schrieb: Ein Freund (Stochastiker) von mir, hat gestern erzählt, dass Wahrscheinlichkeitsrechnung in der Linguistik ein ganz beliebtes Werkzeug sei. Speziell sprach es von der Häufigkeit von Worten, und dass das zweit-häufigste Wort in so ziemlich jeder Sprache ungefähr halb so oft vorkommt wie das häufigste.

Bekanntestes(?) Beispiel hierfür ist wohl das "Zipfsche Gesetz"
→ Zipfsches Gesetz (Wikipedia)
→ GP: Zipfsches Gesetz (Glottopedia)

Suchen

Zitieren Zum Seitenanfang

thf

System-Team
Level: 53 | EXP: 95.64%
offline

Registriert seit: 04.04.2011 23:00
Beiträge: 1.052 | Themen: 13
Bewertung: 22
Pronomen/Geschlecht: männlich System-Team

29.06.2012, 17:23:41

Ansonsten ist der Begriff, nach dem man mal schauen kann quantitative Linguistik.
Wikipedia kennt da noch eine ganze Reihe weiterer Gesetze:
http://de.wikipedia.org/wiki/Quantitativ...achgesetze

Gibt auch einen HSK-Band zu: http://www.degruyter.com/viewbooktoc/product/178207

Wie auch Computerlinguistik ist das so eins der Gebiete, die ich ziemlich interessant finde, mit denen ich mich bisher aber noch nicht ausführlich beschäftigen konnte :( (Im Gegensatz zur Computerlinguistik, die mir wegen Überschneidungen vorenthalten wurde, spielte quantitative Linguistik aber im Studium bisher keine Rolle).

Suchen

Zitieren Zum Seitenanfang

suz

Supermitglied
Level: 33 | EXP: 93.78%
abwesend

Registriert seit: 02.03.2011 15:57
Beiträge: 211 | Themen: 4
Bewertung: 3
Pronomen/Geschlecht: weiblich
Affiliation: FU Berlin User+

29.06.2012, 19:00:03 (Dieser Beitrag wurde zuletzt bearbeitet: 29.06.2012, 19:19:31 von suz.)

(29.06.2012, 16:25:32)LeaRebecca schrieb: Das mag jetzt eine doofe Frage sein, aber erstellt man frequenzbasierte Wortlisten nicht ohnehin aufgrund der Häufigkeit in einem Korpus?

Ja, das dachte ich auch erst, als ich das gelesen habe. Ist vermutlich missverständlich formuliert. Gemeint ist aber die Formel, dass Ranglistenplatz x Häufigkeit immer konstant ist.

Als Beispiel gibt Mukherjee (2008: 69):

the 1 x 64.815=64.815
of 2 x 34.147=68.294
and 3 x 27.293=81.879
to 4x27.058=108.232
a 5 x 23.249=116.245
usw.

(Die Konstanz ist, dass die Werte für die häufigsten 30 Wörter zwischen 64.815 und 125.280 liegen.)

(29.06.2012, 17:05:36)janwo schrieb:
(29.06.2012, 14:17:39)LeaRebecca schrieb: Ein Freund (Stochastiker) von mir, hat gestern erzählt, dass Wahrscheinlichkeitsrechnung in der Linguistik ein ganz beliebtes Werkzeug sei. Speziell sprach es von der Häufigkeit von Worten, und dass das zweit-häufigste Wort in so ziemlich jeder Sprache ungefähr halb so oft vorkommt wie das häufigste.

Bekanntestes(?) Beispiel hierfür ist wohl die "Zipfsches Gesetz" genannte Feststellung.

Äh, ja, das sagte ich ja :)

Suchen

Zitieren Zum Seitenanfang

LeaRebecca

Seniormitglied
Level: 30 | EXP: 94.44%
offline

Registriert seit: 02.09.2011 12:42
Beiträge: 170 | Themen: 30
Bewertung: 0
Pronomen/Geschlecht: weiblich
Affiliation: Heinrich-Heine-Universität, Anglistik 3