Diese Website verwendet Cookies
Dieses Forum verwendet Cookies um deine Login-Daten zu speichern (sofern du registriert bist) bzw. deinen letzten Aufenthaltsort (wenn nicht registriert und eingeloggt). Cookies sind kleine Textdateien, die auf deinem Rechner gespeichert werden. Die von diesem Forum gespeicherten Cookies werden ausschließlich für Zwecke dieses Forums verwendet und nicht von Dritten ausgelesen. Sie stellen kein Sicherheitsrisiko für deinen Rechner dar. Cookies werden in diesem Forum auch verwendet, um die Anzeige bereits gelesener und noch ungelesener Themen zu unterscheiden.
Siehe auch unsere Datenschutzerklärung. Bitte bestätige, ob du Cookies zulassen willst oder nicht.

Ungeachtet deiner Entscheidung wird ein anonymer Cookie gespeichert, um zu vermeiden, dass du bei jedem Besuch erneut entscheiden musst. Du kannst deine Entscheidung jederzeit ändern.

Tröten statt tweeten: Kommt auf unsere Mastodon-Instanz linguisten.info.



[CoLi] Computerlinguistik, ling. Datenverarbeitung, KI: 
Erledigt: 01.07.2018, 18:21:10 Wahrscheinlichkeitsrechnung und Linguistik
#1
Erledigt: 01.07.2018, 18:21:10
 
Hallo zusammen,

Ein Freund (Stochastiker) von mir, hat gestern erzählt, dass Wahrscheinlichkeitsrechnung in der Linguistik ein ganz beliebtes Werkzeug sei. Speziell sprach es von der Häufigkeit von Worten, und dass das zweit-häufigste Wort in so ziemlich jeder Sprache ungefähr halb so oft vorkommt wie das häufigste. Kann das jemand spontan bestätigen? Bin grad auf der Arbeit und kann nicht in Korpora wühlen Rolleyes

Erst gestern habe ich ein Referat gehalten über die Vorhersage von Lautsystemen mit Hilfe von Algorithmen - dass das im Grunde Wahrscheinlichkeitsrechnung ist war mir garnicht bewusst. Entsprechend kann man ja auch Wortfolgen berechnen usw. Dies nur als Kommentar / eigene Erkenntnis am Rande...
Zitieren Zum Seitenanfang
#2
 
Häufigkeitsliste für LOB (Englisch, 1960er):

Total No. of Word Types: 48379
Total No. of Word Tokens: 1123452
1 61603 the
2 35453 of
3 26943 and
4 26495 to
5 21610 a
6 19719 in

Häufigkeitsliste für FLOB (English, 1990er):

Total No. of Word Types: 51399
Total No. of Word Tokens: 1199781
1 58279 the
2 33874 of
3 26711 to
4 26341 and
5 22039 a
6 19111 in

Scheint also gar nicht so weit weg zu sein, *diese* Vermutung (zumindest auf Platz 1&2). Dein Kumpel bezieht sich möglicherweise auf das Zipf'sche Gesetz (Zipf 1949), die "eine Korrelation zwischen der Rangfolge eines Wortes in einer frequenzbasierten Wortliste und seiner Häufigkeit im Korpus" beschreibt (Mukherjee 2009: 68). Ergo:

Ranglistenplatz (r) x Frequenz (f) = Konstant (c) (Mukherjee 2009: 69).

Dort ist auch ganz knapp beschrieben, dass es sich um eine Tendenz handelt, die aber mitunter "bemerkenswert" konstant ist (ibid.).

Mukherjee, Joybrato. 2009. Anglistische Korpuslinguistik. Eine Einführung. Berlin: Erich Schmidt.
Zipf, George Kingsley. 1949. Human Behavior and the Principle of Least Effort. An Introduction to Human Ecology. Cambridge, MA: Addison-Wesley Press.
Zitieren Zum Seitenanfang
#3
 
Das mag jetzt eine doofe Frage sein, aber erstellt man frequenzbasierte Wortlisten nicht ohnehin aufgrund der Häufigkeit in einem Korpus?
Zitieren Zum Seitenanfang
#4
 
(29.06.2012, 14:17:39)LeaRebecca schrieb: Ein Freund (Stochastiker) von mir, hat gestern erzählt, dass Wahrscheinlichkeitsrechnung in der Linguistik ein ganz beliebtes Werkzeug sei. Speziell sprach es von der Häufigkeit von Worten, und dass das zweit-häufigste Wort in so ziemlich jeder Sprache ungefähr halb so oft vorkommt wie das häufigste.

Bekanntestes(?) Beispiel hierfür ist wohl das "Zipfsche Gesetz"
Zipfsches Gesetz (Wikipedia)
GP: Zipfsches Gesetz (Glottopedia)
Zitieren Zum Seitenanfang
#5
 
Ansonsten ist der Begriff, nach dem man mal schauen kann quantitative Linguistik.
Wikipedia kennt da noch eine ganze Reihe weiterer Gesetze:
http://de.wikipedia.org/wiki/Quantitativ...achgesetze

Gibt auch einen HSK-Band zu: http://www.degruyter.com/viewbooktoc/product/178207

Wie auch Computerlinguistik ist das so eins der Gebiete, die ich ziemlich interessant finde, mit denen ich mich bisher aber noch nicht ausführlich beschäftigen konnte :( (Im Gegensatz zur Computerlinguistik, die mir wegen Überschneidungen vorenthalten wurde, spielte quantitative Linguistik aber im Studium bisher keine Rolle).
Zitieren Zum Seitenanfang
#6
 
(29.06.2012, 16:25:32)LeaRebecca schrieb: Das mag jetzt eine doofe Frage sein, aber erstellt man frequenzbasierte Wortlisten nicht ohnehin aufgrund der Häufigkeit in einem Korpus?

Ja, das dachte ich auch erst, als ich das gelesen habe. Ist vermutlich missverständlich formuliert. Gemeint ist aber die Formel, dass Ranglistenplatz x Häufigkeit immer konstant ist.

Als Beispiel gibt Mukherjee (2008: 69):

the 1 x 64.815=64.815
of 2 x 34.147=68.294
and 3 x 27.293=81.879
to 4x27.058=108.232
a 5 x 23.249=116.245
usw.

(Die Konstanz ist, dass die Werte für die häufigsten 30 Wörter zwischen 64.815 und 125.280 liegen.)

(29.06.2012, 17:05:36)janwo schrieb:
(29.06.2012, 14:17:39)LeaRebecca schrieb: Ein Freund (Stochastiker) von mir, hat gestern erzählt, dass Wahrscheinlichkeitsrechnung in der Linguistik ein ganz beliebtes Werkzeug sei. Speziell sprach es von der Häufigkeit von Worten, und dass das zweit-häufigste Wort in so ziemlich jeder Sprache ungefähr halb so oft vorkommt wie das häufigste.

Bekanntestes(?) Beispiel hierfür ist wohl die "Zipfsches Gesetz" genannte Feststellung.

Äh, ja, das sagte ich ja :)

Zitieren Zum Seitenanfang
#7
 
@suz: Ja, so macht das da durchaus Sinn - und ist in der Tat faszinierend!

@thf: Dankeschön, da werde ich mal ein bisschen drüberlesen.
Zitieren Zum Seitenanfang


Social bookmarks & quicklinks
Permalink: https://linguisten.de/t1394


Gehe zu:


Benutzer, die gerade dieses Thema anschauen: 1 Gast/Gäste