Un décompte d'environ onze millions de mots publié dans le dictionnaire des fréquences de Kaeding en 1897 a montré que seulement 207 formes de mots représentent plus de 50 pour cent de la langue écrite allemande en fonction de leur fréquence ( occurrence ). Une telle liste est particulièrement intéressante pour la linguistique , la cryptanalyse et la compression de texte . Il convient de souligner qu'ici la fréquence des mots (mot grammatical : forme du mot ) et non des mots (mot sémantique : mot paradigme ou lemme ) a été déterminée, de sorte que des conclusions sur la taille du vocabulaire ne sont possibles que dans une mesure limitée .
Les 207 formes de mots les plus courantes en allemand (1897, dictionnaire des fréquences de FW Kaeding)
30 formes représentent 31,8 % des mots
le, le, et, dans, à, le, que, pas, de, eux,
est, de, lui-même, avec, cela, cela, il, il, un, moi,
sur, donc, un, aussi, comme, sur, après, comme, je, pour
Ces formes (à l'exception de la forme 1 ) sont monosyllabiques et d'une longueur maximale de cinq lettres, comme prévu selon la loi de Zipf . Les particules , en particulier les conjonctions et les prépositions , ainsi que les pronoms personnels et les articles sont représentés sous forme de classes de mots , par exemple toutes les formes monosyllabiques de l'article spécifique. Comme le seul verbe semble être à la troisième personne du singulier de l'indicatif présent (est) sur. La seule forme de mot sur cette liste qui a été influencée par la réforme orthographique de 1996 est celle-ci .
70 autres formes représentent 15,3% des mots
un, mais, de, à, si, seulement, était, encore, sera, à,
a, nous, quoi, sera, sera, un, qui, sont, ou, pour,
euh, avoir, un, moi, à propos de, lui, ceci, un, vous, nous,
là, à, peut, mais, avant, ceci, moi, lui, toi, avais,
contre, de, ensemble, individu, où, doit, sans, un, peut, être
Le nom le plus courant après ce décompte est time , mais le décompte n'est généralement pas sensible à la casse, ce qui peut fausser le résultat. Une autre montre de souches verbales ont sous diverses formes.
107 autres formes représentent alors 7,25 % des mots
oui, était, maintenant, toujours, le sien, eh bien, ceci, la sienne, serait, cela,
mais, parce que qui, rien, ceci, tout, était, veut, Seigneur, beaucoup,
mon, eh bien, devrait, laisser, faire, ceci, leur, plus loin, la vie,
droit, quelque chose, aucun, le sien, si, vous, tous, grand, ans, sage,
doit, qui, serait, d'abord, une fois, l'homme, aurait, deux, vous, seul,
Messieurs, pendant, paragraphe, différent, amour, non, donc, du tout, main, monsieur,
grand, tel, avait, autre, les deux, fait, voir, entier, autre,
longtemps, qui, quoique, fait, là, venir, monde, aujourd'hui, femme,
sera, le même, entier, allemand, permet, peut-être, le mien
Say apparaît comme le premier verbe principal de la liste, tandis que know n'est pas compté séparément du nom de la couleur en blanc . La concurrence de Paragraph indique un corpus constitué en grande partie de textes juridiques.
Les cent mots les plus courants en allemand (2001, corpus Uni Leipzig, Allemagne)
Cette liste de l'Université de Leipzig remonte à 2001 et pour cette raison et aussi parce que le corpus est d'origine allemande contient toujours le mot Mark , qui a aussi d'autres significations. La langue parlée n'est pas prise en compte. Certaines formes de mots comme les articles apparaissent deux fois car la majuscule (en début de phrase) est prise en compte.
Placer 1-10
endroit
mot
1
les
2
les
3
et
4e
dans
5
les
6e
de
7e
à
8e
les
9
Avec
dix
toi-même
11-20e place
endroit
mot
11
de
12e
au
13e
Pour
14e
est
15e
dans le
16
les
17e
Pas
18e
une
19e
le
20e
une
Lieu 21-30
endroit
mot
21
comme
22e
également
23
il
24
à
25
devenir
26
en dehors
27
il
28
Possède
29
cette
30e
toi
31-40 places
endroit
mot
31
à
32
devient
33
à
34
une
35
le
36
environ
37
au
38
sont
39
encore
40
comment
41-50 places
endroit
mot
41
une
42
dessus
43
une
44
le
45
donc
46
toi
47
au
48
a été
49
pour avoir
50
juste
51-60 places
endroit
mot
51
ou alors
52
mais
53
devant
54
à
55
à
56
Suite
57
par
58
homme
59
être
60
a été
61-70 places
endroit
mot
61
être
62
Dans
63
pour cent
64
aurait
65
pouvez
66
contre
67
de
68
pouvez
69
belle
70
si
71-80 places
endroit
mot
71
avoir
72
le sien
73
marque
74
votre
75
ensuite
76
en dessous de
77
nous
78
devrait
79
je
80
une
81-90 places
endroit
mot
81
Il
82
an
83
deux
84
Années
85
celles-ci
86
cette
87
de nouveau
88
non
89
L'horloge
90
le sien
91-100 places
endroit
mot
91
été
92
Et
93
vouloir
94
entre
95
dans le
96
toujours
97
des millions
98
UNE
99
Quoi
100
mentionné
Plus de listes
Dans le corpus Duden, le nom le plus courant est « année ». Il est suivi de « Euro », « Uhr », « Pourcentage » et « Allemagne ». Le dictionnaire des fréquences de Randall Jones et Erwin Tschirner 2015 comprend l'allemand parlé et écrit. Parlé basé, entre autres, sur des programmes télévisés qui sont apparus en Allemagne. Le choix des corpus montre également que de telles listes de fréquences ont tendance à se concentrer sur l'Allemagne ; en Autriche ou en Suisse, cela se passerait différemment (« Mark » / « Euro », « Paragraph », « Germany » etc.).
Les noms, verbes, adjectifs, pronoms et nombres les plus courants
Dans le cas des noms, des verbes et des adjectifs, seules les formes de base respectives sont données. Il a été déterminé quel mot revenait fréquemment et son mot de base a été noté dans la liste. Dans le cas des pronoms, les formes majuscules de politesse n'ont pas été prises en compte. Dans les mots-nombres, les formes du nombre un ne pouvaient être distinguées de celles de l' article indéfini .
Littérature
Werner König : atlas dtv sur la langue allemande (= dtv . Volume3025 ). 10e édition revue et corrigée. Deutscher Taschenbuch-Verlag, Munich 1994, ISBN 3-423-03025-9 , fréquence des mots, p.114-115 (256 pages).
Friedrich Wilhelm Kaeding (Ed.) : Dictionnaire des fréquences de la langue allemande . Établi par un comité de travail des systèmes sténographiques allemands. (= Études de base en cybernétique et sciences humaines . Volume4 ). Schnelle, Quickborn près de Hambourg 1963, p.648-671 (impression en fac-similé de l'édition originale, auto-éditée par l'éditeur, Steglitz près de Berlin 1897. 55 pages ; supplément au volume 4).
1ère partie : nombre de mots et de syllabes (reproduction partielle).
Partie 2 : Compter les lettres (extrait de l'addenda).
Helmut Meier : Statistiques de langue allemande . Avec une préface de Lutz Mackensen . Georg Olms, Hildesheim 1967.
Volume 1 : Éléments constitutifs d'une statistique linguistique comparative. 2e édition augmentée et améliorée, XIII, 406 pp.
Volume 2 : Valeurs de fréquence relative pour les 512 formes de mots allemands les plus courantes, 150 pp.
Helmut Meier : Statistiques de la langue allemande . 2e édition augmentée. 2 tomes en 1 tome. Georg Olms, Hildesheim 1978 (422 et 150 pages).
Arno Ruoff (Ed.) : Dictionnaire fréquentiel de la langue parlée. Trié par parties du discours par ordre alphabétique, décroissant par ordre alphabétique et par fréquence . Avec la collaboration de Harald Fuchs (= Idiomatica . Volume8 ). 2e édition inchangée. Niemeyer, Tübingen 1990, ISBN 3-484-24008-3 (517 pages).
Günther Thomé, Dorothea Thomé : Mots fréquents. Concept d'orthographe de base. Ce qui est facile Ce qui est difficile? 3e édition augmentée (éco-production complète). Oldenburg : isb-Fachverlag 2021 ( ISBN 978-3-942122252 , 68 pages couleur, 6,80 €, extrait de lecture sur : www.isb-oldenburg.de).