Metahilfe: Was wir hier (nicht) tun - Informationen zum Thema Fragen und Hilfen im Forum.

Du kennst dich aus? — Prima. Unser Fragenbeantwortungs-Team freut sich immer über engagierte Verstärkung!



1 Benutzer in diesem Thread: (0 Mitglieder, und 1 Besucher). 1 Gast/Gäste
Antwort schreiben 
 » Erledigt: Heute Heute Satzlängenberechnung im Korpus

23.06.2011, 23:28:12
Beitrag #1
Satzlängenberechnung im Korpus
Hallo an alle!

Ich bin Studentin der Anglistik und schreibe derzeit an meiner Diplomarbeit im Bereich der englischen Sprachwissenschaft, wobei ich mit einem Korpus von australischer Onlinewerbung arbeite.

Nun würde ich gerne eine Satzlängenanalyse durchführen. Da ich davor sehr wenig mit Korpora zu tun hatte, ist mir nicht geläufig, wie so etwas durchgeführt wird. Alles was ich über Google finden konnte ist die Formel: #Wörter / #Sätze = Durschnittliche Satzlänge.

Aber: Bei der Anzahl an Sätzen, inkludiert man da üblicherweise nur vollständige Sätze? Oder auch Satzfragmente wie z.B. "5 Foods to never eat" oder "Over 100.000 Australians helped each year"?

In Online Werbung gibt es nur sehr wenige vollständige Sätze, wenn ich also in der Anzahl der Sätze nur vollständige Sätze inkludiere, ist die Zahl der Sätze sehr gering im Vergleich zur Anzahl der Wörter. Ich komme dann also auf eine Gleichung von ca. 4000 Wörtern / 150 Sätze = 26,6 Wörter pro Satz, was die Tatsachen stark verzerrt, da es in meinem ganzen Korpus wahrscheinlich keinen einzigen Satz gibt der 26 Wörter lang ist.

Es scheint, es würde also Sinn machen auch unvollständige Sätze zu inkludieren. Aber was ist mit allein stehenden Wörtern? Eine Werbung für Haarglätter und ähnliche Produkte besteht z.B. hauptsächlich aus einzelnen Wörtern bzw. Wortgruppen, die nicht syntaktisch verbunden sind: "total style", "MAKE OVER" "curl", "crimp", "straight"... Sollte ich jedes dieser Wörter (bzw. Wortgruppen) als eigenen Satz werten?

Ich weiß, es gibt keine einheitliche Lösung dafür, aber ich freue mich über alle Tipps und Hinweise wie ich an das Problem herangehen könnte!

Danke schon mal im Voraus!

Liebe Grüße,
Alexandra


Hallo, ich bin alexa_x und seit 23.06.2011 18:03:51 hier angemeldet.
Hier könnte meine Signatur stehen.
Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
24.06.2011, 10:36:44
Beitrag #2
RE: Satzlängenberechnung im Korpus
Mal davon abgesehen, dass in wahrscheinlich niemand so genau weiß, was ein "Satz" ist, gibt es eine eigentlich ganz pragmatische Lösung für dein Problem: berechne die durchschnittliche Länge der Äußerungen. Darunter fallen dann sowohl ganze Sätze als auch Wortgruppen, etc. Je nach Fragestellung kannst du ja auch noch andere Werte berechnen, indem du z.B. die Ein-Wort-Äußerungen rauslässt und schaust wie lang dann der Durchschnitt ist.

Das arithmetische Mittel ist übrigens nicht unbedingt das beste Maß, das man nehmen kann. Es ist nämlich sehr empfindlich für Ausreißer. Wenn z.B. fast alle Äußerungen 5 Wörter lang sind, aber dann gibt es auch eine, die 200 Wörter lang ist, verändert das deinen Mittelwert sehr stark, obwohl es nur von einem einzigen Fall abhängt. Der Median ist für solche Ausreißer viel unempfindlicher. Dabei werden alle Fälle der Größe nach angeordnet und der Median ist dann der Fall, der genauso viele Fälle vor sich wie nach sich hat.

Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
24.06.2011, 11:32:21
Beitrag #3
RE: Satzlängenberechnung im Korpus
(23.06.2011 23:28:12)alexa_x schrieb:  Aber: Bei der Anzahl an Sätzen, inkludiert man da üblicherweise nur vollständige Sätze? Oder auch Satzfragmente wie z.B. "5 Foods to never eat" oder "Over 100.000 Australians helped each year"?
(23.06.2011 23:28:12)alexa_x schrieb:  Es scheint, es würde also Sinn machen auch unvollständige Sätze zu inkludieren. Aber was ist mit allein stehenden Wörtern? Eine Werbung für Haarglätter und ähnliche Produkte besteht z.B. hauptsächlich aus einzelnen Wörtern bzw. Wortgruppen, die nicht syntaktisch verbunden sind: "total style", "MAKE OVER" "curl", "crimp", "straight"... Sollte ich jedes dieser Wörter (bzw. Wortgruppen) als eigenen Satz werten?

Sebastian hat es ja schon weitgehend beantwortet. Mit dem Konzept der Äußerung kommst Du hier vermutlich weiter und kannst es Dir ersparen, eine Definition von 'Satz' zu kreieren, die entweder kontraintuitiv oder aber für Deine Zwecke ungeeignet ist.

Enzelwörter oder Wortgrruppen kannst Du dann als Äußerung werten, wenn sie für sich stehen bzw. von anderen Äußerungen getrennt sind. Selbst so Dinge wie eine Dreierkette aus Imperativen (z.B. see - buy - fly; Duty free shop) oder Adjektiven haben ja einen inneren Zusammenhang als eine Äußerung, auch wenn sie keine grammatisch wohlgeformten Sätze sind.


(24.06.2011 10:36:44)Sebastian schrieb:  Mal davon abgesehen, dass in wahrscheinlich niemand so genau weiß, was ein "Satz" ist,
oder was ein "Wort" ist. Auch das ist ja nicht gerade einfach zu definieren. Wobei – wenn es nur um Printanzeigen geht – man vermutlich mit den orthographischen Kriterium ("das was zwischen zwei Leerzeichen steht") schon hinreichend weit kommt.


Mitmachen, mitgestalten, mitwissen: Glottopedia: the free encyclopedia of linguistics
Webseite des Benutzers besuchenAlle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
27.06.2011, 13:51:13
Beitrag #4
RE: Satzlängenberechnung im Korpus
Vielen Dank für eure Hilfe!

Hab jetzt tatsächlich die durchschnittliche Länge der Äußerungen berechnet, was in meinem Fall wohl die beste Lösung war.

Zitat:Das arithmetische Mittel ist übrigens nicht unbedingt das beste Maß, das man nehmen kann. Es ist nämlich sehr empfindlich für Ausreißer. Wenn z.B. fast alle Äußerungen 5 Wörter lang sind, aber dann gibt es auch eine, die 200 Wörter lang ist, verändert das deinen Mittelwert sehr stark, obwohl es nur von einem einzigen Fall abhängt. Der Median ist für solche Ausreißer viel unempfindlicher. Dabei werden alle Fälle der Größe nach angeordnet und der Median ist dann der Fall, der genauso viele Fälle vor sich wie nach sich hat

Danke für den Tipp! Allerdings habe ich nur für einen Teil meines Korpus die Äußerungslängen berechnet, in dem, wie ich bei meiner Auswertung gesehen habe, keine Äußerung eine auffällig höhere Wortlänge aufweist als die anderen - ich glaube daher dass für meine Zwecke der Mittelwert ausreicht.


Hallo, ich bin alexa_x und seit 23.06.2011 18:03:51 hier angemeldet.
Hier könnte meine Signatur stehen.
Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
Antwort schreiben 


Möglicherweise verwandte Themen...
Thema:VerfasserAntworten:Ansichten:Letzter Beitrag
  [CoLi] Suche: Social Media Korpus oder Tool zur Erstellung Manatee 0 148 07.11.2016 15:40:04
Letzter Beitrag: Manatee
  [Allg] Hausarbeit SMS Korpus NadjaAm8 4 611 15.07.2016 22:12:50
Letzter Beitrag: lingucat
  [CoLi] Korpus annotieren per RFTagger Woiz 5 2.348 28.07.2015 16:19:19
Letzter Beitrag: Woiz
98_exclamation Gesprochensprachlicher Korpus LisaLottaLotta90 4 2.072 17.06.2015 20:29:37
Letzter Beitrag: LisaLottaLotta90
91_heart Korpus in Fußnote angeben moppi 1 1.288 01.06.2015 23:54:38
Letzter Beitrag: suz
  [CoLi] Korpus aus Web-Texten Weidenröschen 2 2.178 30.04.2015 11:49:23
Letzter Beitrag: suz
  [HowTo] Kombination aus unterschiedlichen Wortarten in Korpus suchen lagom 3 2.823 30.06.2014 20:45:28
Letzter Beitrag: lingucat
  [HowTo] Korpus bedienen? LeaRebecca 2 2.427 29.05.2012 20:49:02
Letzter Beitrag: LeaRebecca
  [HowTo] Korpus zitieren? LeaRebecca 3 3.440 04.03.2012 16:23:28
Letzter Beitrag: Sebastian

Gehe zu:


1 Benutzer in diesem Thread: (0 Mitglieder, und 1 Besucher). 1 Gast/Gäste