Hallo liebe Linguisten,
ich möchte für eine Diskursanalyse ein Web-Korpus erstellen, das aus verschiedenen Weblogs, Forenbeiträgen und sonstigen Texten aus dem Internet besteht, die alle bestimmte Schlüsselwörter beinhalten. Wichtig ist, dass es sich um Texte aus ganz verschiedenen deutschen Domains handelt, damit es statistische Relevanz besitzt und es müssen viele Texte sein (vielleicht >10.000) damit ich eine quantitative Analyse machen kann.
Ich habe bisher schon versucht die Google API zu benutzen und mit Python (Scrapy) einen Crawler zu programmieren, aber so richtig funktioniert das nicht. Außer ein bisschen Python kann ich leider kaum Programmieren. :(
Hat jemand eine Idee, wie ich so einen Korpus erstellen kann?
Ich habe mir überlegt vielleicht
CommonCrawl zu benutzen. Das ist ein Korpus aus mehreren Milliarden Onlinetexten, aber weiß nicht wie ich nach Schlüsselwörtern suchen könnte.