Metahilfe: Was wir hier (nicht) tun - Informationen zum Thema Fragen und Hilfen im Forum.

Du kennst dich aus? — Prima. Unser Fragenbeantwortungs-Team freut sich immer über engagierte Verstärkung!



1 Benutzer in diesem Thread: (0 Mitglieder, und 1 Besucher). 1 Gast/Gäste
Antwort schreiben 
[CoLi]: Computerlinguistik, ling. Datenverarbeitung, KI  » nicht erledigt Korpus aus Web-Texten
▶ Diskursanalyse, Korpus, html

29.04.2015, 21:26:43
Beitrag #1
Korpus aus Web-Texten
Hallo liebe Linguisten,

ich möchte für eine Diskursanalyse ein Web-Korpus erstellen, das aus verschiedenen Weblogs, Forenbeiträgen und sonstigen Texten aus dem Internet besteht, die alle bestimmte Schlüsselwörter beinhalten. Wichtig ist, dass es sich um Texte aus ganz verschiedenen deutschen Domains handelt, damit es statistische Relevanz besitzt und es müssen viele Texte sein (vielleicht >10.000) damit ich eine quantitative Analyse machen kann.
Ich habe bisher schon versucht die Google API zu benutzen und mit Python (Scrapy) einen Crawler zu programmieren, aber so richtig funktioniert das nicht. Außer ein bisschen Python kann ich leider kaum Programmieren. Traurig

Hat jemand eine Idee, wie ich so einen Korpus erstellen kann?

Ich habe mir überlegt vielleicht CommonCrawl zu benutzen. Das ist ein Korpus aus mehreren Milliarden Onlinetexten, aber weiß nicht wie ich nach Schlüsselwörtern suchen könnte.


Hier könnte Weidenröschen's Signatur stehen...
Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
29.04.2015, 23:32:02
Beitrag #2
RE: Korpus aus Web-Texten
Wozu brauchst du das denn (Hausarbeit, Abschlussarbeit?)und wieviel Zeit hast du? Ich hatte für eine Hausarbeit vor längerer Zeit mal eine Art Korpusanalyse von Blogtexten durchgeführt. Nach mehreren Versuchen das automatisch zu erheben, ging mir die Zeit aus und ich habe das dann doch im wesentlichen manuell gemacht; bei der Menge, die ich brauchte ging das noch so gerade, bei 10.000 Texten macht das aber wohl eher keinen Spaß Lächel Ich denke, dass ein individueller Crawler (das war auch mein ursprünglicher Ansatz, ebenfalls in Python) da der Königsweg wäre -- allerdings ist das auch nicht ganz zeitunintensiv Zwinker Insb. ist das aber ja ein der eigentlichen Linguistik vorgelagertes (wenn auch sehr spannendes) Problem. Gibt ja auch unter dem Schlagwort "web as corpus" durchaus einige Diskussion zu dem Themenkomplex.

Wie sieht es hiermit aus http://www.webcorp.org.uk/live/? Ansonsten: Hast du dir schon mal fertige Crawler, headless Browser und sowas angesehen?

Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
30.04.2015, 11:49:23
Beitrag #3
RE: Korpus aus Web-Texten
Die Frage lässt sich auch nicht unabhängig davon beantworten, welches Phänomen du untersuchen willst (Frage bestimmt Methode, nicht umgekehrt). Und wenn wir wissen, womit wir es zu tun haben, können wir auch eher helfen und bei bestimmten Wegen zu- oder abraten. Für eine quantitative Analyse sind auch nicht unbedingt Unmengen an Text notwendig, das hängt eher davon ab, wie häufig das Phänomen ist. (Vielleicht auch davon, was du unter „quantitativ“ verstehst.) Sprache? Mein Tipp wäre dann auch, erst mal zu schauen, ob du auf bestehende Korpora zurückgreifen kannst.

Webseite des Benutzers besuchenAlle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
Antwort schreiben 


Möglicherweise verwandte Themen...
Thema:VerfasserAntworten:Ansichten:Letzter Beitrag
  [CoLi] Suche: Social Media Korpus oder Tool zur Erstellung Manatee 0 153 07.11.2016 15:40:04
Letzter Beitrag: Manatee
  [Allg] Hausarbeit SMS Korpus NadjaAm8 4 620 15.07.2016 22:12:50
Letzter Beitrag: lingucat
  [CoLi] Korpus annotieren per RFTagger Woiz 5 2.352 28.07.2015 16:19:19
Letzter Beitrag: Woiz
98_exclamation Gesprochensprachlicher Korpus LisaLottaLotta90 4 2.075 17.06.2015 20:29:37
Letzter Beitrag: LisaLottaLotta90
91_heart Korpus in Fußnote angeben moppi 1 1.295 01.06.2015 23:54:38
Letzter Beitrag: suz
  [CoLi] Erkennen von Emotionen auf Basis von Texten Adrian1980 0 1.735 22.09.2014 16:31:57
Letzter Beitrag: Adrian1980
  [Syn] Syntaktisch markierte STrukturen in geschriebenen Texten Molosso_08 1 2.057 07.09.2014 19:00:33
Letzter Beitrag: Anna K.
  [HowTo] Kombination aus unterschiedlichen Wortarten in Korpus suchen lagom 3 2.830 30.06.2014 20:45:28
Letzter Beitrag: lingucat
  Erwähnung der Dp-Hypothese in Chomskys Texten M.Bncsa 1 2.004 10.05.2014 08:38:34
Letzter Beitrag: Anna K.

Gehe zu:


1 Benutzer in diesem Thread: (0 Mitglieder, und 1 Besucher). 1 Gast/Gäste