Hm, ich bin kein Phonetiker, daher ist meine Antwort cum grano salis zu betrachten.Vom rein empirischen Standpunkt betrachtet müsstest Du wohl mindestens eine Stichprobengröße haben, die es Dir erlaubt, solide Generalisierungen über die Grundgesamtheit machen zu können; das nennt sich
Repräsentativität und dazu sind von Statistikern unzählige von Büchern und Aufsätzen geschrieben und Theorien und Modelle postuliert worden, mit denen ich mich wahrlich nicht genug auskenne, um das hier referieren zu können.
Einen Versuch mache ich mal: bei einer Sprache mit 100.000 Sprechern reicht es vermutlich für diesen Zweck, wenn man 20 bis 100 Sprecher aufnimmt, bei einer Sprache mit 1.000.000 Sprechern entsprechend eher 100 als 20. Spätestens bei einer Sprache mit >50.000.000 Sprechern stellt sich dann die Frage, ob man noch von
einer Grundgesamtheit ausgehen kann, da die regionalen Unterschiede ziemlich groß sind, dass man eine Differenzierung nach Regionen einbauen sollte.
Es gibt bei surveymonkey ein kleines nettes Tool, mit dem man sich eine Idee verschaffen kann, was unter welchen Bedingungen (Grundgesamtheit, Konfidenzniveau, Fehlerspanne) als repräsentativ angesehen werden kann:
https://www.surveymonkey.de/mp/sample-size-calculator/
P.S.: Das mag trivial klingen und ist Dir vermutlich viel mehr bewusst als mir, aber im Grunde müsste man doch mindestens drei Samples (Stichproben) machen, einmal männlich-erwachsen, einmal weiblich-erwachsen, einmal heranwachsende, oder?