Metahilfe: Was wir hier (nicht) tun - Informationen zum Thema Fragen und Hilfen im Forum.

-- [CONTRIB] Petition zum niedersorbischen Sprachunterricht in Brandenburg --

Du kennst dich aus? — Prima. Unser Fragenbeantwortungs-Team freut sich immer über engagierte Verstärkung!



1 Benutzer in diesem Thread: (0 Mitglieder, und 1 Besucher). 1 Gast/Gäste
Antwort schreiben 
[CoLi]: Computerlinguistik, ling. Datenverarbeitung, KI  » nicht erledigt Korpus aus Web-Texten
▶ Diskursanalyse, Korpus, html

29.04.2015, 21:26:43
Beitrag #1
Korpus aus Web-Texten
Hallo liebe Linguisten,

ich möchte für eine Diskursanalyse ein Web-Korpus erstellen, das aus verschiedenen Weblogs, Forenbeiträgen und sonstigen Texten aus dem Internet besteht, die alle bestimmte Schlüsselwörter beinhalten. Wichtig ist, dass es sich um Texte aus ganz verschiedenen deutschen Domains handelt, damit es statistische Relevanz besitzt und es müssen viele Texte sein (vielleicht >10.000) damit ich eine quantitative Analyse machen kann.
Ich habe bisher schon versucht die Google API zu benutzen und mit Python (Scrapy) einen Crawler zu programmieren, aber so richtig funktioniert das nicht. Außer ein bisschen Python kann ich leider kaum Programmieren. Traurig

Hat jemand eine Idee, wie ich so einen Korpus erstellen kann?

Ich habe mir überlegt vielleicht CommonCrawl zu benutzen. Das ist ein Korpus aus mehreren Milliarden Onlinetexten, aber weiß nicht wie ich nach Schlüsselwörtern suchen könnte.


Hier könnte Weidenröschen's Signatur stehen...
Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
29.04.2015, 23:32:02
Beitrag #2
RE: Korpus aus Web-Texten
Wozu brauchst du das denn (Hausarbeit, Abschlussarbeit?)und wieviel Zeit hast du? Ich hatte für eine Hausarbeit vor längerer Zeit mal eine Art Korpusanalyse von Blogtexten durchgeführt. Nach mehreren Versuchen das automatisch zu erheben, ging mir die Zeit aus und ich habe das dann doch im wesentlichen manuell gemacht; bei der Menge, die ich brauchte ging das noch so gerade, bei 10.000 Texten macht das aber wohl eher keinen Spaß Lächel Ich denke, dass ein individueller Crawler (das war auch mein ursprünglicher Ansatz, ebenfalls in Python) da der Königsweg wäre -- allerdings ist das auch nicht ganz zeitunintensiv Zwinker Insb. ist das aber ja ein der eigentlichen Linguistik vorgelagertes (wenn auch sehr spannendes) Problem. Gibt ja auch unter dem Schlagwort "web as corpus" durchaus einige Diskussion zu dem Themenkomplex.

Wie sieht es hiermit aus http://www.webcorp.org.uk/live/? Ansonsten: Hast du dir schon mal fertige Crawler, headless Browser und sowas angesehen?

Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
30.04.2015, 11:49:23
Beitrag #3
RE: Korpus aus Web-Texten
Die Frage lässt sich auch nicht unabhängig davon beantworten, welches Phänomen du untersuchen willst (Frage bestimmt Methode, nicht umgekehrt). Und wenn wir wissen, womit wir es zu tun haben, können wir auch eher helfen und bei bestimmten Wegen zu- oder abraten. Für eine quantitative Analyse sind auch nicht unbedingt Unmengen an Text notwendig, das hängt eher davon ab, wie häufig das Phänomen ist. (Vielleicht auch davon, was du unter „quantitativ“ verstehst.) Sprache? Mein Tipp wäre dann auch, erst mal zu schauen, ob du auf bestehende Korpora zurückgreifen kannst.

Webseite des Benutzers besuchenAlle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
Antwort schreiben 


Möglicherweise verwandte Themen...
Thema:VerfasserAntworten:Ansichten:Letzter Beitrag
  [Morph] Suche nach Texten Mermoz Kouassi 6 337 18.04.2017 22:33:11
Letzter Beitrag: SarahW
  [CoLi] Suche: Social Media Korpus oder Tool zur Erstellung Manatee 0 434 07.11.2016 15:40:04
Letzter Beitrag: Manatee
  [Allg] Hausarbeit SMS Korpus NadjaAm8 4 1.058 15.07.2016 22:12:50
Letzter Beitrag: lingucat
  [CoLi] Korpus annotieren per RFTagger Woiz 5 2.857 28.07.2015 16:19:19
Letzter Beitrag: Woiz
98_exclamation Gesprochensprachlicher Korpus LisaLottaLotta90 4 2.457 17.06.2015 20:29:37
Letzter Beitrag: LisaLottaLotta90
91_heart Korpus in Fußnote angeben moppi 1 1.707 01.06.2015 23:54:38
Letzter Beitrag: suz
  [CoLi] Erkennen von Emotionen auf Basis von Texten Adrian1980 0 2.025 22.09.2014 16:31:57
Letzter Beitrag: Adrian1980
  [Syn] Syntaktisch markierte STrukturen in geschriebenen Texten Molosso_08 1 2.297 07.09.2014 19:00:33
Letzter Beitrag: Anna K.
  [HowTo] Kombination aus unterschiedlichen Wortarten in Korpus suchen lagom 3 3.194 30.06.2014 20:45:28
Letzter Beitrag: lingucat

Gehe zu:


1 Benutzer in diesem Thread: (0 Mitglieder, und 1 Besucher). 1 Gast/Gäste