Dictionnaire numérique de la langue allemande

Le dictionnaire numérique de la langue allemande ( DWDS ), également le mot système d'information pour la langue allemande d'hier et d'aujourd'hui , est un projet de l' Académie des sciences de Berlin-Brandebourg , dont le but est de créer un système de dictionnaire numérique basé sur de très grands corpus de textes électroniques .

Il s'appuie sur le dictionnaire en six volumes de l'allemand contemporain (WDG) et le relie à ses propres ressources de textes et de dictionnaires. Il fournit à l'utilisateur les dernières orthographes , prononciation sous forme de fichiers audio et une variété d'informations sur la forme, l'utilisation et la signification de ses mots-clés .

Composants

Dans la version actuelle du DWDS, le système d'information sur les mots, quatre types d'informations lexicales sont liés: les articles de dictionnaire du WDG, les informations générées automatiquement sur les synonymes , les hyponymes , les hyperonymes du WDG, les exemples de texte du corpus de base DWDS et les statistiques les informations de cooccurrence du corpus central (les soi-disant collocations , qui indiquent la fréquence d'occurrence des mots voisins).

dictionnaire

Le dictionnaire de l'allemand contemporain (WDG) a été développé à Berlin (Est) à l'Académie allemande des sciences (à partir du 7 octobre 1972: Académie des sciences de la RDA ) entre 1952 et 1977 sous la direction de Ruth Klappenbach . Le WDG comprend plus de 4 500 pages et contient 60 000 ou, si les mots composés sont ajoutés, 121 000 mots-clés. De février 2002 à mars 2004, le WDG a été enregistré numériquement, structuré et préparé pour la recherche sous la direction de l' Académie des sciences et des sciences humaines de Berlin-Brandebourg . Le corpus de textes a été compilé et enrichi avec le soutien de la Fondation allemande pour la recherche (DFG) entre 2000 et 2003 et est disponible comme ouvrage de référence sur un site Internet depuis mars 2003 .

Corpus de texte

Les corpus de texte pour le DWDS sont continuellement développés. En mai 2018, ils comprennent 13 milliards de mots de texte continus et se composent de deux grands sous-corpus: le corpus principal et le corpus supplémentaire.

  • Le corpus de base DWDS comprend environ 100 millions de mots de texte; il est réparti uniformément sur tout le 20e siècle et est équilibré selon les types de texte . Le corpus est basé sur quatre types de textes: fiction (28,42%), journaux (27,36%), textes scientifiques spécialisés (23,15%) et textes pratiques (21,05%). Un équilibre temporel complet n'ayant pu être atteint pour les textes transcrits de la langue parlée, il est disponible sous forme de corpus indépendant sous corpus spéciaux. Le corpus de base DWDS est le premier corpus de référence de la langue allemande du 20e siècle et est au moins égal en qualité au British National Corpus (BNC), qui était auparavant la norme .
  • Le DWDS a conclu des accords d'utilisation avec plus de 20 éditeurs et de nombreux auteurs publics et privés sur des textes soumis à des droits. B. mettre à disposition des travaux de Thomas et Heinrich Mann , Martin Walser , Heinrich Böll , Jürgen Habermas ou Victor Klemperer pour la recherche sur Internet.
  • Le corpus supplémentaire comprend plus de 1,5 milliard de mots de texte dans environ 3,5 millions de documents. Il s'agit moins d'une question d'équilibre que de taille et d'actualité et se compose essentiellement de sources de journaux de 1980 à 2006. Toutes les sources peuvent être référencées bibliographiquement, et une attention a été portée au contenu et à la qualité de la préparation.

Relations paradigmatiques

Plus de 65 000 synonymes, termes génériques et subordonnés ont été extraits des définitions du WDG à l'aide de programmes d'analyse automatique. En plus d'être utilisé comme dictionnaire de synonymes et thésaurus , ce type d'informations ne peut plus seulement être utilisé pour naviguer électroniquement dans le WDG, mais peut également être parcouru «sémantiquement». Par exemple, l'un des mots-clés insecte directement à son synonyme insecte saute, mais également à tous les termes subordonnés tels que fourmi , puce , criquet pèlerin ou skieurs nautiques .

Collocations

Les collocations statistiques déterminées dans le corpus principal sont affichées graphiquement. Les collocations sont basées sur des mesures d'association statistique ( information mutuelle et t-score):

Graphique de colocalisation pour "cible"

Corpus publiquement consultables

Les corpus du DWDS peuvent être recherchés gratuitement. Cependant, en raison des accords d'utilisation avec les concédants de droits, un enregistrement préalable est nécessaire pour un grand nombre de textes. Plus de 10 000 utilisateurs sont enregistrés dans le système d'information Word DWDS.

  • Corps de noyau DWDS
  • Corpus Der Tagesspiegel (1996-2005)
  • Korpus Berliner Zeitung (1946–1993), créé dans le cadre du projet de portail de presse de la RDA
  • Corpus de Berliner Zeitung (1994-2005)
  • Corpus de périodiques juifs des XIXe et XXe siècles (coopération avec le projet Compact Memory financé par DFG ) avec un total de 25 millions de mots de texte.
  • Corpus GDR (9 millions de mots de texte). Le corpus de la RDA comprend des textes de la période de 1949 à 1990 parus en RDA ou écrits par des écrivains de la RDA et publiés en République fédérale. Le corpus GDR est élargi en collaboration avec l' Université Humboldt de Berlin .
  • Corpus de la Nouvelle Allemagne (1946–1990)
  • Corpus Die ZEIT (1946–2016), limité aux textes disponibles numériquement et en ligne
  • Corpus de la langue parlée . Cela comprend des transcriptions de l'ensemble du 20e siècle avec un volume d'environ 2,5 millions de mots de texte. Celles-ci comprennent des collections de discours, entre autres. par Kaiser Wilhelm II. , Hitler , Ulbricht et Honecker , des discours radiophoniques de 1929 à 1944 ( environ 80 heures de matériel audio ont été transcrits en coopération avec les archives de radiodiffusion allemandes ), ainsi que des extraits de procès-verbaux du Parlement autrichien et du Bundestag Quatuor littéraire .

Révision d'articles typiques de l'époque

La substance du dictionnaire DWDS est basée sur le dictionnaire de l'allemand contemporain. Environ 2600 des 90 000 entrées dans le WDG avec un contenu ou des formulations typiques de la GDR ont été révisées par le groupe de projet DWDS. Un groupe de lexicographes a formulé les paraphrases de sens et les exemples de compétences dans un langage plus neutre ou, s'ils illustrent un usage réel spécifique à la RDA, marqué en conséquence. Cette révision a affecté environ 2500 entrées ou lectures supplémentaires .

liens web

Preuve individuelle

  1. ^ Site Web de l'Académie des Sciences de Berlin-Brandebourg ; Récupéré le 19 août 2015.
  2. ^ Dictionnaire DWDS. Récupéré le 4 juillet 2017 .