Dieses Forum verwendet Cookies
Dieses Forum verwendet Cookies um deine Login-Daten zu speichern (sofern du registriert bist) bzw. deinen letzten Aufenthaltsort (wenn nicht registriert und eingeloggt). Cookies sind kleine Textdateien, die auf deinem Rechner gespeichert werden. Die von diesem Forum gespeicherten Cookies werden ausschließlich für Zwecke dieses Forums verwendet und nicht von Dritten ausgelesen. Sie stellen kein Sicherheitsrisiko für deinen Rechner dar. Cookies werden in diesem Forum auch verwendet, um die Anzeige bereits gelesener und noch ungelesener themen zu unterscheiden. Bitte bestätige, ob du Cookies zulassen willst oder nicht.

Ungeachtet deiner Entscheidung wird ein anonymer Cookie gespeichert, um zu vermeiden, dass du bei jedem Besuch erneut entscheiden musst. Du kannst deine Entscheidung jederzeit ändern.

Metahilfe: Was wir hier (nicht) tun - Informationen zum Thema Fragen und Hilfen im Forum.

-- [CONTRIB] Petition zum niedersorbischen Sprachunterricht in Brandenburg --

Du kennst dich aus? — Prima. Unser Fragenbeantwortungs-Team freut sich immer über engagierte Verstärkung!



[CoLi]: Computerlinguistik, ling. Datenverarbeitung, KI  » nicht erledigtKorpus aus Web-Texten
29.04.2015, 21:26:43,
Beitrag #1
Korpus aus Web-Texten
Hallo liebe Linguisten,

ich möchte für eine Diskursanalyse ein Web-Korpus erstellen, das aus verschiedenen Weblogs, Forenbeiträgen und sonstigen Texten aus dem Internet besteht, die alle bestimmte Schlüsselwörter beinhalten. Wichtig ist, dass es sich um Texte aus ganz verschiedenen deutschen Domains handelt, damit es statistische Relevanz besitzt und es müssen viele Texte sein (vielleicht >10.000) damit ich eine quantitative Analyse machen kann.
Ich habe bisher schon versucht die Google API zu benutzen und mit Python (Scrapy) einen Crawler zu programmieren, aber so richtig funktioniert das nicht. Außer ein bisschen Python kann ich leider kaum Programmieren. Traurig

Hat jemand eine Idee, wie ich so einen Korpus erstellen kann?

Ich habe mir überlegt vielleicht CommonCrawl zu benutzen. Das ist ein Korpus aus mehreren Milliarden Onlinetexten, aber weiß nicht wie ich nach Schlüsselwörtern suchen könnte.


Hier könnte Weidenröschen's Signatur stehen...
ZitierenReturn to top
29.04.2015, 23:32:02,   Dieser Beitrag wurde zuletzt bearbeitet: 29.04.2015, 23:56:53 von thf
Beitrag #2
RE: Korpus aus Web-Texten
Wozu brauchst du das denn (Hausarbeit, Abschlussarbeit?)und wieviel Zeit hast du? Ich hatte für eine Hausarbeit vor längerer Zeit mal eine Art Korpusanalyse von Blogtexten durchgeführt. Nach mehreren Versuchen das automatisch zu erheben, ging mir die Zeit aus und ich habe das dann doch im wesentlichen manuell gemacht; bei der Menge, die ich brauchte ging das noch so gerade, bei 10.000 Texten macht das aber wohl eher keinen Spaß Lächel Ich denke, dass ein individueller Crawler (das war auch mein ursprünglicher Ansatz, ebenfalls in Python) da der Königsweg wäre -- allerdings ist das auch nicht ganz zeitunintensiv Zwinker Insb. ist das aber ja ein der eigentlichen Linguistik vorgelagertes (wenn auch sehr spannendes) Problem. Gibt ja auch unter dem Schlagwort "web as corpus" durchaus einige Diskussion zu dem Themenkomplex.

Wie sieht es hiermit aus http://www.webcorp.org.uk/live/? Ansonsten: Hast du dir schon mal fertige Crawler, headless Browser und sowas angesehen?

ZitierenReturn to top
30.04.2015, 11:49:23,
Beitrag #3
RE: Korpus aus Web-Texten
Die Frage lässt sich auch nicht unabhängig davon beantworten, welches Phänomen du untersuchen willst (Frage bestimmt Methode, nicht umgekehrt). Und wenn wir wissen, womit wir es zu tun haben, können wir auch eher helfen und bei bestimmten Wegen zu- oder abraten. Für eine quantitative Analyse sind auch nicht unbedingt Unmengen an Text notwendig, das hängt eher davon ab, wie häufig das Phänomen ist. (Vielleicht auch davon, was du unter „quantitativ“ verstehst.) Sprache? Mein Tipp wäre dann auch, erst mal zu schauen, ob du auf bestehende Korpora zurückgreifen kannst.

ZitierenReturn to top


Möglicherweise verwandte Themen...
ThemaVerfasserAntwortenAnsichtenLetzter Beitrag
  [CoLi] Korpus annotieren per RFTagger Woiz 5 3.127 28.07.2015, 16:19:19
Letzter Beitrag: Woiz
  [CoLi] Erkennen von Emotionen auf Basis von Texten Adrian1980 0 2.146 22.09.2014, 16:31:57
Letzter Beitrag: Adrian1980

Gehe zu:

This forum uses Lukasz Tkacz PHP Developer addons.
Forum use Krzysztof "Supryk" Supryczynski addons.