Récupération de l'information

Recherche d' informations [ ˌɪnfɚˈmeɪʃən ɹɪˈtɹiːvəl ] ( IR ) concerne la récupération d' informations , principalement en les récupérant à partir de bases de données. Le département s'occupe de recherches assistées par ordinateur pour des contenus complexes (c'est-à-dire pas par exemple pour des mots individuels) et relève des domaines des sciences de l' information , de l' informatique et de la linguistique informatique .

Les textes complexes ou les données d'images qui sont stockées dans de grandes bases de données ne sont initialement pas accessibles ou récupérables pour des personnes extérieures. Le mot récupération signifie en allemand récupération ou récupération . L'IR consiste donc à retrouver des informations existantes . Ce serait quelque chose de différent de découvrir de nouvelles structures : Cela fait partie de la découverte de connaissances dans les bases de données avec le data mining et le text mining .

La récupération de documents est étroitement liée , qui vise principalement les documents (textes) en tant qu'informations à déterminer.

champ d'application

Les méthodes IR sont utilisées, par exemple, dans les moteurs de recherche Internet (tels que Google ). Ils sont également utilisés dans les bibliothèques numériques (par exemple pour rechercher de la littérature) et dans les moteurs de recherche d'images. Les systèmes de réponse ou les filtres anti - spam utilisent également des techniques IR.

Il est difficile de comprendre des informations complexes :

  • Incertitude : Dans une base de données, il se peut qu'aucune information sur le contenu des documents contenus (textes, images, films, musique, etc.) n'ait été enregistrée. Si vous demandez au système, vous obtenez des réponses inadéquates, incorrectes ou pas du tout. Il y a un manque de textes, par exemple. Par exemple, des descriptions d' homographes (mots qui s'épellent de la même manière ; par exemple banque - institution financière, siège) et des synonymes (banque et institution financière).
  • Imprécision : L'utilisateur ne peut pas mettre le type d'information qu'il recherche dans des termes de recherche précis et ciblés (comme en SQL dans les bases de données relationnelles ). Sa requête de recherche contient donc des conditions trop vagues.
Modèle schématique de recherche d'information (source : Dominik Kuropka )

En général, deux groupes de personnes (qui se chevauchent éventuellement) sont impliqués dans l'IR (voir figure à droite).

Le premier groupe de personnes sont les auteurs des informations stockées dans un système IR, qu'ils stockent eux-mêmes ou qu'ils ont lues à partir d'autres systèmes d'information (comme le pratiquent, par exemple, les moteurs de recherche Internet ). Les documents placés dans le système sont convertis par le système IR sous une forme favorable au traitement (représentation des documents) conformément au modèle interne au système de représentation des documents.

Le deuxième groupe d'utilisateurs, les utilisateurs, a des objectifs ou des tâches spécifiques qui sont aigus au moment où ils travaillent sur le système IR et pour lesquels ils manquent d'informations pour les résoudre. Les utilisateurs veulent répondre à ces besoins d'information à l'aide du système. Pour ce faire, ils doivent formuler leurs besoins d'information sous une forme adéquate sous forme d'enquêtes.

La forme sous laquelle les besoins d'information doivent être formulés dépend du modèle utilisé pour représenter les documents. La manière dont se déroule le processus de modélisation des besoins en informations en tant qu'interaction avec le système (par exemple, en tant que simple entrée de termes de recherche) est déterminée par le modèle de l'interaction.

Une fois les demandes formulées, il incombe au système IR de comparer les demandes avec les documents définis dans le système à l'aide des représentations de documents et de renvoyer aux utilisateurs une liste des documents correspondant aux demandes. L'utilisateur est maintenant confronté à la tâche d'évaluer les documents trouvés pour leur pertinence par rapport à la solution en fonction de leur tâche. Les résultats sont les évaluations des documents.

Les utilisateurs ont alors trois options :

  • Vous pouvez apporter des modifications aux représentations des documents (généralement uniquement dans un cadre étroit) (par exemple en définissant de nouveaux mots-clés pour l'indexation d'un document).
  • Ils affinent leurs requêtes formulées (principalement pour limiter davantage le résultat de la recherche)
  • Ils modifient leurs besoins en informations car, après avoir effectué la recherche, ils constatent qu'ils ont besoin d'informations supplémentaires qui n'étaient pas auparavant classées comme pertinentes pour résoudre leurs tâches.

La séquence exacte des trois formes de modification est déterminée par le modèle de l'interaction. Par exemple, il existe des systèmes qui aident l'utilisateur à reformuler la requête en reformulant automatiquement la requête à l'aide d'évaluations de documents explicites (c'est-à-dire, une certaine forme de rétroaction communiquée au système par l'utilisateur).

histoire

Le terme « recherche d'informations » a été utilisé pour la première fois en 1950 par Calvin N. Mooers . Vannevar Bush a décrit dans l'essai As We May Think dans l' Atlantic Monthly en 1945 comment on pourrait révolutionner l'utilisation des connaissances existantes grâce à l'utilisation de réserves de connaissances. Sa vision s'appelait Memex . Ce système devrait stocker tous les types de supports de connaissances et permettre des recherches et une navigation ciblées des documents au moyen de liens. Bush pensait déjà à utiliser des moteurs de recherche et des outils de récupération.

La science de l'information a reçu un élan décisif des chocs de Spoutnik . D'une part, le satellite russe a rappelé aux Américains leur propre retard dans la recherche spatiale, que le programme Apollo a réussi à éliminer. D'un autre côté - et c'était le point crucial pour les sciences de l'information - il a fallu six mois pour déchiffrer le code du signal du Spoutnik. Et ce bien que le code de décryptage ait longtemps été lu dans un magazine russe qui se trouvait déjà dans les bibliothèques américaines.

Plus d'informations ne conduit pas à plus d'informations. Au contraire. Le soi-disant rapport Weinberg est un avis d'expert sur ce problème commandé par le président. Le rapport Weinberg fait état d'une "explosion d'informations" et explique que des experts sont nécessaires pour faire face à cette explosion d'informations. Donc informaticien. Dans les années 1950, Hans Peter Luhn a travaillé sur des méthodes de statistiques de texte qui représentent une base pour la synthèse et l'indexation automatiques. Son objectif était de créer des profils d'informations individuels et de mettre en évidence les termes de recherche. L'idée du service push est née.

Eugene Garfield a travaillé sur des index de citations dans les années 1950 pour refléter les différentes manières de transmettre l'information dans les magazines. Pour ce faire, il a copié des tables des matières. En 1960, il fonda l' Institute for Scientific Information (ISI), l'un des premiers systèmes commerciaux de recherche documentaire.

SALTON, Gérard; MCGILL, Michael J. Introduction à la recherche d'informations moderne. mcgraw-hill, 1983.

Allemagne

En Allemagne, Siemens a développé deux systèmes, GOLEM (méthode de détermination à grande mémoire et organisée par liste) et PASSAT (programme de sélection automatique de mots-clés à partir de textes). PASSAT fonctionne avec l'exclusion des mots vides , forme les racines des mots à l' aide d' un dictionnaire et pondère les termes de recherche.

Les sciences de l'information sont établies depuis les années 1960.

Premiers services d'information commerciale

DIALOG est un système interactif entre l'homme et la machine développé par Roger K. Summit. Il est à vocation économique et a été mis en ligne en 1972 via les bases de données gouvernementales ERIC et NTIS. Le projet ORIBIT (aujourd'hui Questel-Orbit) a été conduit par la recherche et le développement sous la direction de Carlos A. Cuadra. En 1962, le système de récupération CIRC a été mis en ligne et divers tests ont été effectués sous le nom de code COLEX. COLEX est le prédécesseur direct d'Orbit, qui a été mis en ligne en 1967 en mettant l'accent sur la recherche de l' US Air Force . Plus tard, l'accent est mis sur l'information médicale. Le système de recherche MEDLINE a été mis en ligne en 1974 pour la base de données bibliographique médicale MEDLARS. OBAR est un projet initié par l'Ohio Bar Association en 1965. Il aboutit au système LexisNexis et enregistre principalement les informations juridiques. Le système est basé sur la recherche en texte intégral, qui fonctionne de manière optimale pour les jugements de l'Ohio.

Outils de recherche sur le World Wide Web

Avec Internet, la recherche d'informations devient un phénomène de masse. Un précurseur fut le système WAIS , répandu à partir de 1991 , qui permettait la récupération distribuée sur Internet. Les premiers navigateurs Web NCSA Mosaic et Netscape Navigator prenaient en charge le protocole WAIS avant l' émergence des moteurs de recherche Internet et, plus tard, se sont également tournés vers l'indexation des documents non HTML. Les moteurs de recherche les plus connus et les plus populaires sont actuellement Google et Bing . Les moteurs de recherche courants pour les intranets sont Autonomy, Convera, FAST, Verity et le logiciel open source Apache Lucene .

Concepts de base

Besoins en informations

Le besoin d'informations est le besoin de connaissances pertinentes pour l'action et peut être spécifique et axé sur les problèmes. S'il existe un besoin spécifique d'information, des informations factuelles sont requises. Par exemple, "Quelle est la capitale de la France ?". La réponse "Paris" couvre complètement les besoins d'information. Il en va différemment des besoins d'information axés sur les problèmes. Plusieurs documents sont nécessaires ici pour répondre au besoin. De plus, il ne sera jamais possible de répondre complètement à l'exigence d'information axée sur les problèmes. Si nécessaire, les informations reçues peuvent même entraîner une nouvelle exigence ou une modification de l'exigence initiale. Lorsqu'une information est requise, l'utilisateur est abstrait. C'est-à-dire que le fait objectif est pris en compte.

Besoin d'informations

Le besoin d'information reflète les besoins spécifiques de l'utilisateur qui fait la demande. Il s'agit des besoins subjectifs de l'utilisateur.

Indexation et recherche d'informations

Afin de pouvoir formuler une requête de recherche aussi précisément que possible, il faut en fait savoir ce que l'on ne sait pas. Vous devez donc avoir des connaissances de base pour rédiger une requête de recherche adéquate. De plus, la requête de recherche en langage naturel doit être convertie en une variante lisible par le système de recherche. Voici quelques exemples de formulations de requêtes de recherche dans diverses bases de données. Nous recherchons des informations sur l'acteur "Johnny Depp" dans le film "Chocolat".

LexisNexis : HEADLINE :( "Johnny Depp" avec 5 "Chocolat")

DIALOGUE : (Johnny ADJ Depp ET Chocolat) ti

Google : "Chocolat" "Johnny Depp"

L'utilisateur précise le fonctionnement du processus de recherche, notamment par la manière dont la requête de recherche est formulée dans le système utilisé dans chaque cas. Une distinction doit être faite entre les systèmes orientés mots et concepts. Les systèmes orientés concept peuvent reconnaître les ambiguïtés des mots (par exemple Java = l'île, Java = le café ou Java = le langage de programmation). L'unité de documentation (DE) est adressée via la requête de recherche. Le DE représente la valeur ajoutée informationnelle des documents, c'est-à-dire que dans le DE, les informations sur l'auteur, l'année, etc. sont reproduites sous forme condensée. Selon la base de données, soit le document entier, soit seulement des parties de celui-ci sont enregistrés.

Unité de référence documentaire et unité de documentation

Ni l'Unité de Référence Documentaire (DBE) ni l'Unité de Documentation (DE) ne sont les documents originaux. Les deux ne sont que des représentants du même dans la base de données. Tout d'abord, l'adéquation d'un document à la documentation est vérifiée. Cela se fait à l'aide de catalogues de critères en termes de forme et de contenu. Si un objet s'avère documentable, un DBE est créé. C'est là que la forme sous laquelle le document est enregistré est décidée. Les chapitres ou pages individuels sont-ils considérés comme DBE ou le document dans son ensemble ? Vient ensuite le processus d'information pratique. Les DBE sont formellement décrits et le contenu condensé. Cette valeur ajoutée informationnelle se retrouve ensuite dans le DE, qui fait office de représentant du DBE. Le DE représente le DBE et est donc à la fin du processus de documentation. Le DE est utilisé par l'utilisateur pour décider s'il peut utiliser le DBE et le demander ou non. La recherche d'informations et l'indexation d'informations sont coordonnées l'une avec l'autre.

Modèles cognitifs

Ceux-ci font partie de la science de l'information empirique, car ils se rapportent aux connaissances antérieures, au contexte socio-économique, aux compétences linguistiques, etc. des utilisateurs et les utilisent pour analyser les besoins d'information, l'utilisation et les utilisateurs.

Services pull et push

La recherche d'informations décrit Marcia J. Bates Berry Picking (dt. Berry picking ). Il ne suffit pas de rechercher des baies ou des informations sur un arbuste ou une base de données pour que le panier soit plein. Plusieurs bases de données doivent être interrogées et la requête de recherche doit être constamment modifiée en fonction de nouvelles informations. Les services Pull sont disponibles partout où l'utilisateur peut rechercher activement des informations. Les services push fournissent à l'utilisateur des informations basées sur un profil d'informations stocké. Ces services de profil, appelés alertes, enregistrent les requêtes de recherche formulées avec succès et informent l'utilisateur de l'arrivée de nouveaux documents pertinents.

Obstacles à l'information

Divers facteurs entravent la circulation de l'information. Ces facteurs incluent le temps, le lieu, la langue, les lois et le financement.

Rappel et précision

Le rappel décrit l'exhaustivité du nombre de hits affichés. La précision, quant à elle, calcule l'exactitude des documents à partir du nombre de résultats pour une requête de recherche. La précision décrit la proportion de tous les documents pertinents dans les documents sélectionnés d'une requête de recherche et est donc la mesure des documents contenus dans la liste des résultats qui sont significatifs par rapport à la tâche. Le rappel, quant à lui, décrit la proportion de tous les documents pertinents dans le nombre total de documents pertinents dans la collection de documents. C'est la mesure de l'exhaustivité d'une liste de résultats. Les deux mesures constituent des chiffres clés décisifs pour un système de recherche d'informations. Un système idéal sélectionnerait tous les documents pertinents d'une collection de documents dans une requête de recherche, à l'exclusion des documents qui ne s'appliquent pas.

Rappeler:

Précision:

a = résultats de recherche pertinents trouvés

b = trouvé, non pertinent DE / ballast

c = DE pertinents qui n'ont pas été trouvés / perte

"C" ne peut pas être mesuré directement, car vous ne pouvez pas savoir combien de DE n'ont pas été trouvés à moins de connaître le contenu de la base de données ou le DE qui aurait dû être affiché en raison de la requête de recherche. Le rappel peut être augmenté au détriment de la précision et vice versa. Cependant, cela ne s'applique pas à une question de fait. Le rappel et la précision ne font qu'un ici.

Pertinence et pertinence

Les connaissances peuvent être pertinentes, mais ne doivent pas nécessairement l'être. La pertinence signifie qu'un document a été produit de manière appropriée sous la requête de recherche qui a été formulée. Cependant, si l'utilisateur connaît déjà le texte ou ne veut pas le lire parce qu'il n'aime pas l'auteur ou n'a pas envie de lire un article dans une autre langue, le document n'est pas pertinent. Pertinence inclut le point de vue subjectif de l'utilisateur.

Besoins d'informations objectives Besoin subjectif d'information (= demande d'information)
→ pertinence → pertinence
Un document est pertinent pour la satisfaction d'une exigence d'information s'il objectivement : Un document est pertinent pour la satisfaction d'un besoin d'information s'il est subjectivement :
Sert à préparer une décision Sert à préparer une décision
Combler un manque de connaissances Combler un manque de connaissances
Une fonction d'alerte précoce remplie Une fonction d'alerte précoce remplie

Les conditions préalables à une recherche d'informations réussie sont la bonne connaissance, au bon moment, au bon endroit, dans la bonne mesure, sous la bonne forme, avec la bonne qualité. Où « correct » signifie que cette connaissance est soit pertinente, soit pertinente.

utilité

La connaissance est utile lorsque l'utilisateur en tire de nouvelles connaissances pertinentes pour l'action et les met en pratique.

Aspects pertinents

La pertinence est la relation entre la requête de recherche par rapport au sujet et les aspects du système.

Approche binaire

L'approche binaire stipule qu'un document est pertinent ou non pertinent. En réalité, ce n'est pas nécessairement le cas. On parle ici davantage de « régions de pertinence ».

Distributions de pertinence

A cet effet, des chaînes thématiques peuvent être créées, par exemple. Un sujet peut apparaître dans plusieurs chaînes. Plus un sujet revient fréquemment, plus sa valeur de pondération est élevée. Si le sujet apparaît dans toutes les chaînes, sa valeur est 100 ; il n'apparaît dans aucune chaîne, à 0. Les investigations ont révélé trois distributions différentes. Il est à noter que ces distributions ne se produisent qu'avec de plus grandes quantités de documents. Avec de plus petites quantités de documents, il peut n'y avoir aucune régularité du tout.

Distribution binaire

Aucun classement par pertinence n'est possible avec la distribution binaire.

Distribution logistique inverse

  • : Rang
  • : nombre d'Euler
  • : Constant

Distribution infométrique

  • : Rang
  • : Constant
  • : valeur concrète entre 1 et 2

La distribution infométrique dit : Si le document placé en premier a une pertinence de un (à ), alors le document placé en deuxième a une pertinence de 0,5 (à ) ou 0,25 (à ).

Documents

Il faut rappeler une fois de plus qu'en sciences de l'information une distinction est faite entre le document original, le DBE et le DE. Mais quand « quelque chose » est-il réellement un document ? Celle-ci est décidée par quatre critères : la matérialité (y compris la présence numérique), l'intentionnalité (le document a un certain sens, un sens), l'élaboration et la perception.

« Ils doivent être transformés en documents » Michael K. Buckland

Objets textuels et non textuels

Les objets peuvent apparaître sous forme de texte, mais ce n'est pas obligatoire. Les images et les films sont des exemples de documents non textuels. Les objets textuels et non textuels peuvent apparaître sous forme numérique et non numérique. S'ils sont numériques et que plus de deux formes de médias se rencontrent (par exemple, un document est constitué d'une séquence vidéo, d'une séquence audio et d'images), on les appelle multimédia. Les objets non numériques ont besoin d'un représentant numérique dans la base de données, comme une photo.

Documents textuels officiellement publiés

Tous les documents qui sont passés par un processus de publication formel sont appelés documents de texte officiellement publiés. Cela signifie que les documents ont été vérifiés (par exemple par un éditeur) avant leur publication. La littérature dite « grise » pose problème, elle a été vérifiée mais pas publiée.

Il existe plusieurs niveaux de documents officiellement publiés. Au commencement il y a l'œuvre, la création de l'auteur. Suivie de l'expression de ce travail, la réalisation concrète (par exemple différentes traductions). Cette prise de conscience se manifeste (par exemple dans un livre). Au bas de cette chaîne se trouve l'article, l'exemplaire individuel. Habituellement, le DBE vise la manifestation. Cependant, des exceptions sont possibles.

Textes publiés de manière informelle

Les textes publiés de manière informelle comprennent principalement des documents qui ont été publiés sur Internet. Ces documents ont été publiés mais non vérifiés.

Les wikis, par exemple, sont un niveau intermédiaire entre les textes publiés de manière formelle et informelle. Ceux-ci sont publiés et vérifiés en coopération.

Textes inédits

Il s'agit de lettres, de factures, de rapports internes, de documents sur l'intranet ou l'extranet. Tous les documents qui n'ont jamais été rendus publics.

Documents non textuels

Il existe deux groupes de documents non textuels. D'une part, les documents numériquement disponibles ou numérisables tels que films, images et musique et, d'autre part, les documents non numériques et non numérisables. Ces derniers incluent des faits tels que les substances chimiques et leurs propriétés et réactions, les patients et leurs symptômes et les objets de musée. La plupart des documents non numérisables proviennent des disciplines de la chimie, de la médecine et de l'économie. Ils sont représentés dans la base de données par le DE et sont souvent également représentés par des images, des vidéos et des fichiers audio.

Typologie des systèmes de récupération

Structure des textes

Une distinction est faite entre les textes structurés, faiblement structurés et non structurés. Les textes faiblement structurés comprennent tous les types de documents texte qui ont une certaine structure. Cela comprend les numéros de chapitre, les titres, les sous-titres, les illustrations, les numéros de page, etc. Des données structurées peuvent être ajoutées aux textes via une valeur ajoutée informationnelle. Les textes non structurés apparaissent rarement dans la réalité. Les sciences de l'information s'intéressent principalement aux textes faiblement structurés. Il convient de noter qu'il ne s'agit que de structures formelles et non syntaxiques. Il y a un problème avec le contexte du contenu.

" L'homme a vu la pyramide sur la colline avec le télescope. " Cette phrase peut être interprétée de quatre manières. Pour cette raison, certains fournisseurs préfèrent les indexeurs humains, car ils peuvent reconnaître le contexte et le traiter correctement.

Les systèmes de recherche documentaire peuvent fonctionner avec ou sans contrôle terminologique. Si vous travaillez avec le contrôle terminologique, vous avez la possibilité d'indexer à la fois intellectuellement et automatiquement. Les systèmes de récupération qui fonctionnent sans contrôle terminologique traitent le texte en clair ou le processus s'exécute automatiquement.

Systèmes de recherche et contrôle terminologique

Le contrôle terminologique ne signifie rien de plus que l'utilisation d'un vocabulaire contrôlé. Cela se fait à l'aide de langages de documentation (classifications, méthode des mots-clés, thésaurus, ontologies). L'avantage est que le chercheur et l'indexeur ont les mêmes expressions et options de formulation. Par conséquent, il n'y a pas de problèmes avec les synonymes et les homonymes. Les inconvénients du vocabulaire contrôlé sont, par exemple, le manque de considération des développements linguistiques et le problème que ces langues artificielles ne sont pas utilisées correctement par chaque utilisateur. Bien entendu, le prix joue également un rôle. L'indexation intellectuelle est beaucoup plus chère que l'automatique.

Au total, quatre cas peuvent être distingués :

Chercheur Indexeur
Vocabulaire contrôlé → professionnels Vocabulaire contrôlé
Langage naturel → Le vocabulaire contrôlé fonctionne en arrière-plan en élargissant les requêtes de recherche à l'aide de termes génériques et subordonnés Langage naturel → Le vocabulaire contrôlé fonctionne en arrière-plan en élargissant les requêtes de recherche à l'aide de termes génériques et subordonnés
Langue naturelle → système fait le travail de traduction Vocabulaire contrôlé
Vocabulaire contrôlé Vocabulaire du langage naturel

Dans le cas de la variante sans contrôle terminologique, il est préférable de travailler avec les textes intégraux. Cependant, cela ne fonctionne qu'avec de très petites bases de données. Les utilisateurs doivent être familiarisés avec la terminologie des documents. Le processus avec maîtrise terminologique nécessite un traitement information-linguistique (Natural Language Processing = NLP) des documents.

Traitement de texte linguistique de l'information

Le traitement de texte linguistique d' information est effectué comme suit. Le système d'écriture est d'abord reconnu. Par exemple, est-ce un système d'écriture latin ou arabe. Ceci est suivi par la reconnaissance vocale. Désormais, le texte, la mise en page et la navigation sont séparés les uns des autres. Il y a deux options à ce stade. D'une part, la décomposition des mots en n-grammes ou reconnaissance de mots. Quelle que soit la méthode que vous choisissez, le marquage des mots d'arrêt, la reconnaissance et la correction des erreurs de saisie ainsi que la reconnaissance des noms propres et la formation de formes de base ou de radical suivent. Les composés sont décomposés, les homonymes et les synonymes sont reconnus et comparés et l'environnement sémantique ou l'environnement est examiné pour la similitude. Les deux dernières étapes sont la traduction du document et la résolution de l'anaphore. Il peut être nécessaire que le système contacte l'utilisateur pendant le processus.

Modèles de récupération

Il existe plusieurs modèles de récupération concurrents, mais ils ne doivent pas nécessairement s'exclure mutuellement. Ces modèles incluent le modèle booléen et le modèle booléen étendu . Le modèle spatial vectoriel et le modèle probabiliste sont des modèles basés sur les statistiques textuelles . Les modèles topologiques de liens incluent l' algorithme de Kleinberg et le PageRank . Enfin, il y a le modèle de réseau et les modèles utilisateur / utilisation , qui examinent l' utilisation du texte et l'utilisateur à leur emplacement spécifique.

Modèle booléen

George Boole a publié sa "Boolean Logic" et sa vision binaire des choses en 1854. Son système a trois fonctions ou opérateurs : ET, OU et NON. Le tri par pertinence n'est pas possible avec ce système. Afin de permettre le classement par pertinence, le modèle booléen a été élargi pour inclure des valeurs de pondération et les opérateurs ont dû être réinterprétés.

Statistiques de texte

Les termes apparaissant dans le document sont analysés dans les statistiques du texte. Les facteurs de pondération ici sont appelés WDF et IDF.

Fréquence intra -document (WDF) : nombre de termes apparaissant / nombre de tous les mots

Le WDF décrit la fréquence d'un mot dans un document. Plus un mot apparaît souvent dans un document, plus son PDF est grand

Inverse document Frequency English Inverse document Frequency Weight (IDF) Nombre total de documents dans la base de données / nombre de documents avec le terme

L'IDF décrit la fréquence à laquelle un document avec un certain terme apparaît dans une base de données. Plus un document avec un certain terme apparaît dans la base de données, plus son IDF est petit.

Les deux modèles classiques de statistiques de texte sont le modèle spatial vectoriel et le modèle probabiliste. Dans le modèle spatial vectoriel, les n mots couvrent un espace à n dimensions. La similitude des mots entre eux est calculée en utilisant l'angle de leurs vecteurs entre eux. Le modèle probabiliste calcule la probabilité qu'un document corresponde à une requête de recherche. Sans informations supplémentaires, le modèle probabiliste est similaire à l'IDF.

Lier des modèles topologiques

Les documents sont liés les uns aux autres et entre eux dans le WWW. Ils forment ainsi un espace à partir de la gauche. L' algorithme de Kleinberg appelle ces liens « Hub » (liens sortants) et « Autorité » (liens entrants). Les valeurs de pondération découlent de la mesure dans laquelle les hubs rencontrent les « bonnes » autorités et les autorités sont liées par les « bons » hubs. Un autre modèle linktopologique est le PageRank de Sergey Brin et Lawrence Page. Il décrit la probabilité qu'un utilisateur surfant au hasard trouve une page.

Modèle de cluster

Les processus de cluster tentent de classer les documents afin que des documents similaires ou liés soient combinés dans un pool de documents commun. Cela accélère le processus de recherche, puisque tous les documents pertinents peuvent, dans le meilleur des cas, être sélectionnés avec un seul accès. En plus des similitudes de documents, les synonymes jouent également un rôle important en tant que mots sémantiquement similaires. Une recherche du terme « mot » devrait également présenter une liste de résultats pour un commentaire, une remarque, une affirmation ou un terme.

Les problèmes découlent de la manière dont les documents sont résumés :

  • Les clusters doivent être stables et complets.
  • Le nombre de documents dans un cluster et donc la liste de résultats qui en résulte peuvent être très élevés dans le cas d'une documentation spéciale avec des documents homogènes. Dans le cas contraire, le nombre de clusters peut augmenter jusqu'au cas extrême où le cluster n'est constitué que d'un document chacun.
  • Le taux de chevauchement des documents qui se trouvent dans plus d'un cluster peut difficilement être contrôlé.

Modèle d'utilisation de l'utilisateur

Dans le modèle d'utilisation des utilisateurs, la fréquence d'utilisation d'un site Web est un critère de classement. De plus, des informations de base, par exemple sur l'emplacement de l'utilisateur, sont incluses dans les enquêtes géographiques.

Les recherches systématiques entraînent des boucles de rétroaction. Celles-ci s'exécutent automatiquement ou l'utilisateur est invité à plusieurs reprises à marquer les résultats comme pertinents ou non pertinents avant que la requête de recherche ne soit modifiée et répétée.

Web de surface et Web profond

Le web de surface est sur le web et accessible gratuitement à tous les utilisateurs. Dans le deep web, par exemple, il existe des bases de données dont les interfaces de recherche sont accessibles via le web de surface. Cependant, vos informations sont généralement payantes. Il existe trois types de moteurs de recherche. Les moteurs de recherche comme Google fonctionnent de manière algorithmique, le projet Open Directory est un catalogue Web créé intellectuellement et les méta-moteurs de recherche obtiennent leur contenu de plusieurs autres moteurs de recherche qui s'adressent les uns aux autres. En règle générale, les catalogues Web créés intellectuellement utilisent uniquement la page d'entrée d'un site Web comme source de référence pour le DBE. Chaque site Web est utilisé dans les moteurs de recherche algorithmiques.

Architecture d'un système de récupération

Il existe des supports de stockage numériques et non numériques, tels que des cartes des pentes, des catalogues de bibliothèque et des cartes de visite. Les supports de stockage numériques sont développés par l'informatique et constituent un domaine d'activité en sciences de l'information. Une distinction est faite entre la structure du fichier et sa fonction. De plus, il existe des interfaces entre le système de récupération et les documents et leurs utilisateurs. En ce qui concerne l'interface entre le système et le document, une distinction est à nouveau faite entre trois domaines. Trouver des documents, ce qu'on appelle l'exploration, vérifier ces documents trouvés pour les mises à jour et les classer dans un schéma de champ. Les documents sont soit enregistrés intellectuellement soit automatiquement et traités ultérieurement. Les DE sont enregistrés deux fois. Une fois sous forme de fichier document et également sous forme de fichier inversé, destiné à faciliter l'accès au fichier document sous forme de registre ou d'index. L'utilisateur et le système entrent en contact de la manière suivante. L'utilisateur écrit

  1. une formulation d'enquête
  2. une liste de résultats, peut
  3. afficher et traiter les unités de documentation
  4. plus loin localement.

Jeux de caractères

En 1963, le code ASCII (American Standard Code for Information Interchange) a été créé. Son code à 7 bits pouvait capturer et mapper 128 caractères. Il a ensuite été étendu à 8 bits (= 256 caractères). Le plus grand jeu de caractères à ce jour, Unicode, comprend 4 octets, soit 32 bits, et est destiné à mapper tous les caractères réellement utilisés dans le monde. L' ISO 8859 (Organisation internationale de normalisation) réglemente également les variantes spécifiques à la langue, telles que le « ß » dans la langue allemande.

Inclusion de nouveaux documents dans la base de données

De nouveaux documents peuvent être ajoutés à la base de données à la fois intellectuellement et automatiquement. Lorsque de nouveaux documents sont enregistrés intellectuellement, un indexeur est responsable et décide quels documents doivent être enregistrés et comment. Le processus automatique est effectué par un « robot » ou un « crawler ». La base est un ensemble connu de documents Web, ce qu'on appelle une « liste de semences ». Les liens de tous les sites Web qui contiennent cette liste sont désormais sous la responsabilité du robot d'exploration. L'URL des pages respectives est vérifiée pour voir si elle existe déjà dans la base de données ou non. De plus, les miroirs et les doublons sont reconnus et supprimés.

Crawler

Meilleur premier robot d'exploration

L'un des meilleurs robots d'exploration est le robot d'indexation de page. Il trie les liens en fonction du nombre et de la popularité des pages entrantes. Deux autres sont la recherche de poissons et le robot de recherche de requins. Le premier limite son travail aux zones du Web où se concentrent les pages pertinentes. Shark Search Crawler affine cette méthode en extrayant des informations supplémentaires, par exemple des textes d'ancrage, afin de porter un jugement de pertinence. Chaque opérateur de site a la possibilité de verrouiller son site contre les robots.

Explorer le Web profond

Pour qu'un robot d'exploration fonctionne avec succès dans le Web profond, il doit répondre à diverses exigences. D'une part, il doit « comprendre » le masque de recherche de la base de données afin de pouvoir formuler une requête de recherche adéquate. De plus, il doit comprendre les listes de résultats et être capable d'afficher des documents. Cependant, cela ne fonctionne qu'avec les bases de données gratuites. Il est important que les robots d'exploration du Deep Web puissent formuler des arguments de recherche de telle sorte que tous les documents de la base de données soient affichés. S'il y a un champ d'année dans le masque de recherche, le robot d'exploration devra interroger toutes les années afin d'accéder à tous les documents. Une stratégie adaptative est la plus logique pour les champs de mots-clés. Une fois les données enregistrées, le crawler n'a plus qu'à enregistrer les mises à jour des pages trouvées. Il existe plusieurs façons de maintenir le DE aussi à jour que possible. Soit les pages sont visitées régulièrement au même intervalle, ce qui dépasserait pourtant de loin les ressources et sont donc impossibles, soit la visite est aléatoire, ce qui fonctionne cependant de manière assez sous-optimale. Une troisième option serait de visiter en fonction des priorités. Par exemple, selon la fréquence de leurs modifications (centrée sur la page) ou la fréquence de leurs vues ou téléchargements (centrée sur l'utilisateur). Les autres tâches du robot d'exploration consistent à détecter les spams, les doublons et les miroirs. Les doublons sont généralement reconnus en comparant les chemins. Éviter le spam est un peu plus difficile car le spam est souvent caché.

Robot FIFO (premier entré, premier sorti)

Pour le FIFO - les robots du robot d'exploration en largeur d'abord que tous les liens sont d'un côté, cela s'exécute davantage, suivez les liens vers les pages trouvées et le robot d'exploration en profondeur d'abord. Dans la première étape, cela fonctionne comme le robot d'exploration en largeur, mais dans la deuxième étape, il sélectionne les liens à suivre et ceux qui ne le sont pas.

Robots thématiques

Les robots thématiques sont spécialisés dans une discipline et conviennent donc aux experts en la matière. Les pages qui ne sont pas pertinentes sur le plan thématique sont identifiées et « tunnelées ». Néanmoins, les liens sur ces pages tunnelées sont suivis afin de trouver d'autres pages pertinentes. Les distillateurs , quant à eux, trouvent un bon point de départ pour les robots en utilisant des taxonomies et des exemples de documents. Les classificateurs déterminent si ces pages sont pertinentes. L'ensemble du processus est semi-automatique, car les taxonomies et les exemples de documents doivent être mis à jour régulièrement. De plus, une définition des termes est requise.

Enregistrer et indexer

Les documents trouvés sont copiés dans la base de données. Deux fichiers sont créés pour cela, d'une part le fichier document et d'autre part un fichier inversé . Dans le fichier inversé, tous les mots ou phrases sont triés et répertoriés selon l'alphabet ou un autre critère de tri. L'utilisation d'un index de mots ou d'un index de phrases dépend du champ. Dans le cas d'un champ auteur, par exemple, l'index de phrase est bien meilleur que l'index de mot. Le fichier inversé contient des informations sur la position des mots ou des phrases dans le document et des informations structurelles. Les informations structurelles peuvent être utiles pour le classement par pertinence. Si, par exemple, il est indiqué qu'un mot a été écrit plus gros, cela peut également être pondéré plus haut. Les mots et les phrases sont écrits dans le bon ordre et classés à l'envers. Cela permet une structure de lien ouverte. Le fichier inversé est enregistré dans un index de base de données .

Classification des modèles de récupération

Une classification bidimensionnelle des modèles IR est illustrée dans la figure ci-dessous. Les propriétés suivantes peuvent être observées dans les différents modèles en fonction de leur classement dans la matrice :

Classification des modèles IR (source : Dominik Kuropka )
  • Dimension : fondement mathématique
    • Les modèles algébriques représentent des documents et des requêtes sous forme de vecteurs, de matrices ou de tuples, qui sont convertis en une mesure de similarité unidimensionnelle à l'aide d'un nombre fini d'opérations arithmétiques algébriques afin de calculer des similarités par paires.
    • Les modèles théoriques ensemblistes sont caractérisés par le fait qu'ils mappent des documents en langage naturel à des ensembles et que la détermination de la similitude des documents (principalement) peut être retracée à l'application d'opérations ensemblistes.
    • Les modèles probabilistes considèrent le processus de recherche de documents ou la détermination de similitudes de documents comme une expérience aléatoire à plusieurs étapes . Afin de cartographier les similitudes entre les documents, des probabilités et des théorèmes probabilistes (en particulier le théorème de Bayes ) sont utilisés.
  • Dimension : propriétés du modèle
    • Les modèles avec interdépendances de termes immanentes se caractérisent par le fait qu'ils prennent en compte les interdépendances existantes entre les termes et donc - contrairement aux modèles sans interdépendances de termes - ils ne reposent pas sur l'hypothèse implicite que les termes sont orthogonaux ou indépendants les uns des autres. Les modèles avec le terme interdépendances immanentes diffèrent des modèles avec le terme interdépendances transcendantes en ce que l'étendue d'une interdépendance entre deux termes est dérivée de l'inventaire des documents d'une manière déterminée par le modèle - c'est-à-dire inhérente au modèle. Dans cette classe de modèles, l'interdépendance entre deux termes est dérivée directement ou indirectement de la co-occurrence des deux termes. La cooccurrence s'entend de l'occurrence conjointe de deux termes dans un document. Cette classe de modèle est basée sur l'hypothèse que deux termes sont interdépendants s'ils apparaissent souvent ensemble dans les documents.
    • Les modèles sans interdépendance de termes sont caractérisés par le fait que deux termes différents sont considérés comme complètement différents et en aucun cas liés l'un à l'autre. Ce fait est souvent appelé dans la littérature l'orthogonalité des termes ou l'indépendance des termes.
    • Comme pour les modèles avec interdépendances de termes immanentes, les modèles avec interdépendances de termes transcendantes ne reposent sur aucune hypothèse concernant l'orthogonalité ou l'indépendance des termes. Contrairement aux modèles avec interdépendances de termes immanentes, les interdépendances entre les termes dans les modèles avec interdépendances de termes transcendantes ne peuvent pas être dérivées exclusivement de l'inventaire des documents et du modèle. Cela signifie que la logique sous-jacente au terme interdépendances est modélisée comme allant au-delà du modèle (transcendant). Cela signifie que dans les modèles avec interdépendances de terme transcendantes, l'existence d'interdépendances de terme est explicitement modélisée, mais que l'expression spécifique d'une interdépendance de terme entre deux termes doit être spécifiée directement ou indirectement de l'extérieur (par exemple par une personne).

La recherche d'informations est liée à divers autres domaines, par ex. B. Théorie des probabilités de la linguistique computationnelle .

Littérature

liens web

Preuve individuelle

  1. Information Retrieval 1, Basics, Models and Applications , Andreas Henrich, Version: 1.2 (Rev: 5727, date du 7 janvier 2008), Otto-Friedrich-Universität Bamberg, Chair for Media Informatics, 2001 - 2008