Hallo Simon,
meine -- sehr allgemeinen -- Empfehlungen wären:
-
das deutsche Referenzkorpus
-
die deutschen Korpora in der Leipziger Korpussammlung
-
das deutsche Unterkorpus von CommonCrawl oder
Oscar (da solltest du dir zuerst anschauen, wie von den beiden Projekten jeweils die CommonCrawl-Bereinigung lief)
-
die Korpora in der Sammlung des DWDS
Ansonsten gibt es
hier noch Links zu weiteren Korpora.
Ob die für deine statistische Analyse grundlegend brauchbar sind, hängt teilweise davon ab, ob du sie runterladen möchtest oder ob die online verfügbaren Korpus-Query-Tools genügen.
Ganz wichtig bei der Korpuswahl ist aber auch, dass du dir überlegst, was für Sprache du erforschen möchtest (aus welchen Jahrzehnten/Jahrhunderten? aus welchen Regionen/Ländern? geschrieben oder gesprochen + transkribiert? Zeitungstexte, Bücher, Posts aus sozialen Medien? und so weiter und so fort) und das Korpus oder die Korpora dann entsprechend auswählst. Inwieweit die Korpora schon in Sätze aufgeteilt sind oder ob du Sentence-Splitting selbst noch als Schritt einbauen müsstest, sollte jeweils in der Korpusdokumentation stehen.
Gutes Gelingen!