Options

Korpus aus Web-Texten

Index

Tröten statt tweeten: Kommt auf unsere Mastodon-Instanz linguisten.info.

Korpus aus Web-Texten
Korpus aus Web-Texten

Weidenröschen > 29.04.2015, 21:26:43

Hallo liebe Linguisten,

ich möchte für eine Diskursanalyse ein Web-Korpus erstellen, das aus verschiedenen Weblogs, Forenbeiträgen und sonstigen Texten aus dem Internet besteht, die alle bestimmte Schlüsselwörter beinhalten. Wichtig ist, dass es sich um Texte aus ganz verschiedenen deutschen Domains handelt, damit es statistische Relevanz besitzt und es müssen viele Texte sein (vielleicht >10.000) damit ich eine quantitative Analyse machen kann.
Ich habe bisher schon versucht die Google API zu benutzen und mit Python (Scrapy) einen Crawler zu programmieren, aber so richtig funktioniert das nicht. Außer ein bisschen Python kann ich leider kaum Programmieren. :(

Hat jemand eine Idee, wie ich so einen Korpus erstellen kann?

Ich habe mir überlegt vielleicht CommonCrawl zu benutzen. Das ist ein Korpus aus mehreren Milliarden Onlinetexten, aber weiß nicht wie ich nach Schlüsselwörtern suchen könnte.
RE: Korpus aus Web-Texten

thf > 29.04.2015, 23:32:02

Wozu brauchst du das denn (Hausarbeit, Abschlussarbeit?)und wieviel Zeit hast du? Ich hatte für eine Hausarbeit vor längerer Zeit mal eine Art Korpusanalyse von Blogtexten durchgeführt. Nach mehreren Versuchen das automatisch zu erheben, ging mir die Zeit aus und ich habe das dann doch im wesentlichen manuell gemacht; bei der Menge, die ich brauchte ging das noch so gerade, bei 10.000 Texten macht das aber wohl eher keinen Spaß :) Ich denke, dass ein individueller Crawler (das war auch mein ursprünglicher Ansatz, ebenfalls in Python) da der Königsweg wäre -- allerdings ist das auch nicht ganz zeitunintensiv ;) Insb. ist das aber ja ein der eigentlichen Linguistik vorgelagertes (wenn auch sehr spannendes) Problem. Gibt ja auch unter dem Schlagwort "web as corpus" durchaus einige Diskussion zu dem Themenkomplex.

Wie sieht es hiermit aus http://www.webcorp.org.uk/live/? Ansonsten: Hast du dir schon mal fertige Crawler, headless Browser und sowas angesehen?
RE: Korpus aus Web-Texten

suz > 30.04.2015, 11:49:23

Die Frage lässt sich auch nicht unabhängig davon beantworten, welches Phänomen du untersuchen willst (Frage bestimmt Methode, nicht umgekehrt). Und wenn wir wissen, womit wir es zu tun haben, können wir auch eher helfen und bei bestimmten Wegen zu- oder abraten. Für eine quantitative Analyse sind auch nicht unbedingt Unmengen an Text notwendig, das hängt eher davon ab, wie häufig das Phänomen ist. (Vielleicht auch davon, was du unter „quantitativ“ verstehst.) Sprache? Mein Tipp wäre dann auch, erst mal zu schauen, ob du auf bestehende Korpora zurückgreifen kannst.
Ein Thema zurück Ein Thema vor

Korpus aus Web-Texten

Index

Korpus aus Web-Texten

RE: Korpus aus Web-Texten

RE: Korpus aus Web-Texten