Tröten statt tweeten: Kommt auf unsere Mastodon-Instanz linguisten.info.
janwo > 31.10.2015, 01:05:42
thf > 31.10.2015, 09:09:00
Kevin > 01.11.2015, 03:01:22
thf > 05.12.2015, 13:17:58
janwo > 05.12.2015, 17:34:15
thf > 06.12.2015, 11:50:04
(05.12.2015, 17:34:15)janwo schrieb: Ich halte das für idiosynkratisch und dubios.
Kevin > 14.05.2016, 14:47:36
lingucat > 14.05.2016, 19:39:04
thf > 14.05.2016, 22:30:05
(14.05.2016, 14:47:36)Kevin schrieb: Hallo,
hat jemand vielleicht eine Ahnung, wie ich in einem beliebigen Text (in meinem Falle in langer niederdeutscher) die Buchstaben nach Häufigkeit anordnen kann? Ich will wissen, wie die Häufigkeitsverteilung ungefähr im Niederdeutschen ist. (Nur für mich, nicht wissenschaftlich.) Geht das irgendwie mit Word oder gibt es Online-Tools? Vielen Dank und viele Grüße,
Kevin
In [1]: from collections import Counter
In [2]: %paste
text = '''Artikel 1
All de Minschen sünd frie un gliek an Wüürd un Rechten baren. Se hebbt Vernunft un een Geweten un se schüllt sik Bröder sien.
Artikel 2
Dat, wat in düsse Verklaren över de Rechten un Frieheiten steiht, gellt för elk un een. Daar gifft dat keen Ünnerscheed vunwegen de Raas, de Farv vun de Huut, dat Geslecht, de Spraak, den Gloven, de Menen vunwegen de Politik orrer annereen Övertügen, dat natschonaal orrer soziaal Herkamen, den Riek doom, Geburt orrer sünst een Stand.
Ok dröff daar keen Ünnerscheed maakt warrn vun wegen de politsch, rechtlich orrer inter natschonaal Stand vun dat Land orrer Flach, wo een Minsch tohören deit. Dat dröff keen Ünner scheed geven, wat dit Land orrer dat Flach ünner Vullmacht steiht, keen Sülfstregeern hett orrer anners in sien Egenrecht inschränkt is.'''
## -- End pasted text --
In [3]: frequencies = Counter(character for character in text)
In [4]: frequencies.most_common()
Out[4]:
[(' ', 130),
('e', 108),
('n', 76),
('r', 58),
('t', 47),
('a', 42),
('d', 33),
('s', 27),
('i', 27),
('h', 25),
('l', 24),
('c', 19),
('k', 17),
('o', 17),
('u', 16),
(',', 14),
('g', 10),
('f', 10),
('v', 10),
('ü', 9),
('w', 8),
('\n', 7),
('.', 6),
('ö', 6),
('S', 5),
('F', 4),
('G', 4),
('m', 4),
('b', 4),
('R', 4),
('Ü', 3),
('V', 3),
('M', 3),
('A', 3),
('D', 3),
('L', 2),
('p', 2),
('H', 2),
('P', 1),
('W', 1),
('Ö', 1),
('2', 1),
('B', 1),
('ä', 1),
('1', 1),
('E', 1),
('O', 1),
('z', 1)]
In [5]: with open('declaration_faroese.txt', 'r') as fh:
....: frequencies = Counter(character for character in fh.read())
....:
In [6]: frequencies.most_common(10)
Out[6]:
[(' ', 1621),
('a', 830),
('i', 701),
('r', 675),
('n', 555),
('t', 540),
('l', 508),
('s', 388),
('g', 377),
('e', 376)]
Kevin > 15.05.2016, 03:10:28
Felix33 > 13.07.2016, 16:42:35
thf > 13.07.2016, 21:05:36
Felix33 > 14.07.2016, 13:54:47
thf > 13.11.2016, 10:34:46
(01.06.2014, 11:55:13)janwo schrieb: Ich weiß nur aus einem Fakebook-Beitrag von Dan Everett letztes Jahr, dass er diese Diagramme seit Schulzeiten nicht mehr verwendet hat und ihnen auch wohl nicht in Fachpublikationen begegnet ist. Vielleicht kann @Tobias A. Kroll etwas zur amerikanischen Perspektive beitragen?
Schorsch > 16.07.2017, 17:25:00