Guide Master Informatique

Lexique

Termes scientifiques, technologiques et d'organisation pédagogique liés depuis les fiches UE.

Affinage (fine-tuning)

Étape d'entraînement complémentaire qui adapte un modèle déjà pré-entraîné à une tâche ou un domaine spécifique, généralement avec un volume de données plus restreint.

Affinage efficient (PEFT)

Ensemble de méthodes (PEFT, Parameter-Efficient Fine-Tuning) qui adaptent un grand modèle pré-entraîné en n'ajustant qu'un petit nombre de paramètres, au lieu de tous les ré-entraîner, réduisant fortement les coûts en calcul et en mémoire. LoRA et Prefix Tuning en sont des exemples.

Agent autonome

Entité logicielle ou robotique capable de percevoir son environnement, de décider et d'agir de façon indépendante pour atteindre ses objectifs, sans intervention humaine continue.

Aide à la décision

Ensemble de méthodes et d'outils visant à assister un humain ou une organisation dans le choix d'une action à partir de données, modèles et critères explicites.

Algorithme de Las Vegas

Algorithme probabiliste dont le résultat est toujours correct, mais dont le temps d'exécution est aléatoire (par opposition aux algorithmes de Monte-Carlo, rapides mais parfois faux).

Algorithme génétique

Métaheuristique d'optimisation inspirée de l'évolution naturelle : une population de solutions candidates évolue par sélection, croisement et mutation au fil des générations pour converger vers une bonne solution.

Alignement de séquences

Mise en correspondance de deux séquences (chaînes de caractères, séquences biologiques) afin d'en mesurer la similarité, en autorisant insertions, suppressions et substitutions.

Analyse en composantes principales (ACP)

Méthode statistique de réduction de dimension qui transforme un grand nombre de variables corrélées en un plus petit nombre de variables synthétiques (composantes principales), tout en conservant le maximum d'information.

Analyse formelle de concepts

Méthode de structuration de connaissances qui organise les relations entre objets et attributs sous forme de treillis de concepts.

Apache Hop

Outil open source d'intégration de données (ETL/ELT) permettant de concevoir visuellement des flux d'extraction, de transformation et de chargement de données.

Apache Spark

Moteur de traitement distribué de données à grande échelle, exécutant des calculs en mémoire sur des grappes de machines ; utilisé pour le traitement par lots, le streaming et l'apprentissage automatique.

API / API REST

Une API (interface de programmation applicative) expose des fonctions d'un service à d'autres programmes. Le style REST organise ces échanges autour de ressources accessibles via le protocole HTTP.

Apprentissage auto-supervisé

Méthode d'apprentissage où le modèle génère lui-même ses signaux d'entraînement à partir de données non annotées (par exemple en masquant une partie de l'information à retrouver), souvent utilisée pour le pré-entraînement de grands modèles.

Apprentissage automatique

Branche de l'intelligence artificielle dans laquelle un système apprend à réaliser une tâche à partir de données d'exemple plutôt qu'à partir de règles programmées explicitement.

Apprentissage non supervisé

Forme d'apprentissage automatique où le modèle découvre seul des structures ou régularités dans des données non annotées, par exemple en regroupant des observations similaires (clustering).

Apprentissage par renforcement

Paradigme d'apprentissage dans lequel un agent apprend à agir dans un environnement en maximisant une récompense cumulée, par essais et erreurs successifs.

Apprentissage par renforcement à partir de retours humains (RLHF)

Technique d'alignement des modèles de langage consistant à les affiner à partir de préférences exprimées par des humains, afin de rendre leurs réponses plus utiles, sûres et conformes aux attentes.

Apprentissage profond

Sous-domaine de l'apprentissage automatique fondé sur des réseaux de neurones à plusieurs couches, capables d'apprendre des représentations de plus en plus abstraites des données.

Apprentissage supervisé

Forme d'apprentissage automatique où le modèle apprend à partir d'exemples déjà annotés (entrée associée à la sortie attendue), par exemple pour la classification ou la régression.

Arbre de décision

Modèle prédictif qui prend des décisions par une suite de tests organisés en arbre, jusqu'à produire une classe ou une valeur.

Architecture encodeur-décodeur

Architecture de réseau de neurones en deux blocs : un encodeur qui transforme l'entrée (texte, image, séquence) en une représentation interne, et un décodeur qui génère la sortie à partir de cette représentation. Très utilisée en traduction automatique et en génération de texte.

Automate fini

Modèle de calcul abstrait constitué d'un nombre fini d'états et de transitions entre ces états, utilisé notamment pour reconnaître des motifs dans du texte ou décrire le comportement de systèmes.

BART / mBART

BART est un modèle Transformer encodeur-décodeur pré-entraîné par débruitage, employé pour le résumé, la traduction et la génération de texte ; mBART en est la version multilingue.

BERT

Modèle de langage fondé sur l'architecture Transformer (encodeur), pré-entraîné de façon bidirectionnelle. Il produit des représentations contextuelles du texte, utilisées pour la classification, l'extraction d'information ou la recherche.

Biais (en IA)

Tendance systématique d'un modèle d'IA à produire des résultats déséquilibrés ou injustes, souvent héritée des données d'entraînement, et qui pose des questions d'équité et d'éthique.

Biométrie

Ensemble de techniques de reconnaissance des individus à partir de caractéristiques physiologiques (visage, empreintes digitales) ou comportementales (démarche, gestes, voix).

Boost.MPI

Interface C++ de la bibliothèque Boost pour programmer des applications distribuées reposant sur le standard MPI.

Boosting

Technique d'apprentissage ensembliste qui combine plusieurs modèles simples (souvent peu performants pris isolément), entraînés successivement de façon à corriger les erreurs des précédents, pour obtenir un modèle global plus performant.

C++

Langage de programmation compilé, extension orientée objet du langage C, offrant un contrôle fin de la mémoire et de hautes performances ; utilisé notamment en calcul intensif et en systèmes.

Chémoinformatique

Discipline à l'interface de la chimie et de l'informatique qui applique des méthodes algorithmiques et d'apprentissage à la représentation, la recherche et la prédiction de propriétés des molécules.

Clustering (partitionnement de données)

Technique d'apprentissage non supervisé qui regroupe des données en sous-ensembles (« clusters ») de telle sorte que les éléments d'un même groupe se ressemblent davantage qu'avec ceux des autres groupes.

Cohérence textuelle

Propriété d'un texte dont les phrases s'enchaînent de façon logique et sémantiquement liée ; objectif important pour le résumé et la génération automatiques de textes longs.

Complexité algorithmique

Étude des ressources (temps de calcul, mémoire) nécessaires à un algorithme pour résoudre un problème, souvent exprimée en fonction de la taille des données en entrée.

Complexité amortie

Façon d'analyser le coût moyen d'une opération sur une séquence d'exécutions, plutôt que son coût dans le pire des cas pris isolément, ce qui donne une image plus fidèle de l'efficacité réelle d'une structure de données.

Conteneurisation

Technique qui permet d'empaqueter une application avec tout son environnement d'exécution dans une unité légère et portable (« conteneur », par exemple avec Docker), facilitant son déploiement et sa mise à l'échelle (notamment avec Kubernetes).

CRISP-DM

Méthodologie de conduite de projets de science des données, structurée autour de la compréhension métier, de la compréhension et préparation des données, de la modélisation, de l'évaluation et du déploiement.

Cryptographie

Discipline qui étudie les techniques permettant de protéger des informations (chiffrement, signatures, fonctions de hachage...) afin d'en garantir la confidentialité, l'intégrité et l'authenticité.

D3.js

Data-Driven Documents : bibliothèque JavaScript de visualisation de données qui lie des données à des éléments du DOM (SVG/HTML) pour produire des graphiques interactifs et personnalisés dans le navigateur.

DBpedia

Base de connaissances issue de l'extraction automatique des données structurées de Wikipédia, publiée en RDF et interrogeable en SPARQL ; ressource majeure du Web des données liées.

DBSCAN

Algorithme de clustering basé sur la densité, qui regroupe les points proches les uns des autres dans des régions denses et identifie les points isolés comme du bruit, sans avoir à fixer le nombre de groupes à l'avance.

DeepSeek

Famille de grands modèles de langage (LLM) génératifs à poids ouverts développée par DeepSeek, incluant des modèles spécialisés dans le raisonnement.

Descente de gradient

Algorithme d'optimisation itératif qui ajuste les paramètres d'un modèle dans la direction qui réduit le plus rapidement une fonction de coût, à partir de son gradient.

Distillation de modèle

Technique de compression qui entraîne un modèle plus petit (« élève ») à reproduire le comportement d'un modèle plus grand (« enseignant »), afin de réduire les besoins en mémoire et en calcul.

Données de santé

Données relatives à l'état de santé, aux soins ou au suivi médical d'une personne, dont l'exploitation impose des exigences fortes de confidentialité, de sécurité et de gouvernance.

Décision dans le risque

Cadre de la théorie de la décision où les conséquences des choix sont incertaines mais suivent une distribution de probabilités connue ; on y modélise les préférences (aversion ou attrait pour le risque) et on cherche les décisions optimales.

Elasticsearch

Moteur de recherche et d'analyse distribué, orienté documents, capable d'indexer et d'interroger de gros volumes de données en quasi temps réel ; cœur de la pile ELK.

Entité nommée

Expression textuelle désignant un objet identifiable comme une personne, un lieu, une organisation, une date ou une valeur numérique.

Entrepôt de données

Base de données décisionnelle qui centralise et historise de grands volumes de données issues de sources hétérogènes, organisée pour l'analyse multidimensionnelle (OLAP) et le reporting.

Estimateur

En statistique, règle ou formule permettant de calculer, à partir d'un échantillon de données, une approximation (« estimation ») d'une grandeur inconnue de la population dont l'échantillon est issu.

ETL (extract, transform, load)

Processus qui consiste à extraire des données de différentes sources, à les transformer (nettoyage, mise en forme) puis à les charger dans un système cible, typiquement un entrepôt de données.

Flot maximum

Problème d'optimisation sur réseau consistant à faire circuler la plus grande quantité possible de flux d'une source vers un puits sous contraintes de capacité.

Fouille de données (data mining)

Ensemble de techniques permettant d'explorer de grands volumes de données afin d'en extraire des motifs, tendances ou connaissances utiles non visibles de prime abord.

GPT

Famille de grands modèles de langage de type Transformer (décodeur) entraînés à prédire le mot suivant. Ils servent à la génération de texte et aux tâches conversationnelles.

GPU

Processeur graphique massivement parallèle, exploité pour accélérer les calculs intensifs, notamment l'entraînement et l'inférence des réseaux de neurones profonds.

Grand modèle de langage (LLM)

Modèle de traitement du langage entraîné sur d'immenses quantités de texte, capable de comprendre et générer du langage naturel (par exemple GPT, BERT, Llama, Mistral).

GraphQL

Langage de requête pour API permettant au client de demander précisément les données dont il a besoin en une seule requête, en alternative aux API REST classiques.

Génomique

Domaine qui étudie l'ensemble du matériel génétique d'un organisme et les données issues de son séquençage, notamment pour comprendre des variations biologiques ou médicales.

Génération aléatoire

Production d'objets ou d'échantillons au hasard selon une distribution donnée, par exemple uniforme, tout en respectant des contraintes de structure.

Génération augmentée par recherche (RAG)

Technique qui combine un modèle de langage avec un système de recherche documentaire : avant de répondre, le modèle va chercher des informations pertinentes dans une base externe pour fonder sa réponse sur des sources fiables et à jour.

Géométrie algorithmique

Branche de l'algorithmique consacrée à la conception d'algorithmes efficaces pour des problèmes géométriques : enveloppe convexe, intersections de segments, plus proche paire de points, triangulations, etc.

Heuristique / méta-heuristique

Méthode de résolution qui ne garantit pas de trouver la solution optimale, mais permet d'obtenir rapidement une bonne solution approchée à un problème difficile ; les méta-heuristiques (algorithmes génétiques, recuit simulé...) sont des stratégies générales applicables à de nombreux problèmes.

HITS

Algorithme d'analyse de graphes du Web qui attribue aux pages des scores d'autorité et de hub selon la structure des liens.

Hypothèse du monde ouvert

Principe de raisonnement des bases de connaissances selon lequel l'absence d'une information ne signifie pas qu'elle est fausse, mais seulement qu'elle est inconnue (par opposition à l'hypothèse du monde clos des bases de données classiques).

IA explicable

Domaine de recherche qui vise à rendre compréhensibles et interprétables par l'humain les décisions produites par des modèles d'intelligence artificielle, souvent complexes par nature.

Imagerie médicale

Ensemble des techniques produisant des images du corps humain à des fins de diagnostic, de suivi ou de recherche, comme l'IRM, le scanner ou l'échographie.

Ingénierie de prompt

Pratique consistant à concevoir et formuler avec soin les instructions (« prompts ») données à un modèle de langage afin d'obtenir les réponses les plus pertinentes possibles.

Interaction humain-machine (IHM)

Domaine qui étudie la conception et l'évaluation des interfaces entre humains et systèmes informatiques, en tenant compte des usages, tâches et contextes.

Internet des objets (IoT)

Réseau d'objets physiques (capteurs, équipements) connectés et capables de collecter et d'échanger des données, soulevant des enjeux de volumétrie, de traitement temps réel et de sécurité.

Interopérabilité

Capacité de systèmes ou logiciels distincts à échanger des données et à les interpréter correctement grâce à des formats, protocoles ou référentiels communs.

Intervalle de confiance

Plage de valeurs, calculée à partir d'un échantillon, dans laquelle on estime qu'une grandeur de la population se situe avec un niveau de certitude donné (par exemple 95 %).

Java

Langage de programmation orienté objet, compilé vers une machine virtuelle (JVM) pour la portabilité, largement utilisé pour les applications d'entreprise et l'enseignement de la programmation.

Jupyter

Environnement de notebooks interactifs mêlant code, résultats, visualisations et texte, très utilisé en science des données et pour l'enseignement de la programmation.

K-means

Algorithme de clustering qui partitionne des données en k groupes en cherchant itérativement des centres (« centroïdes ») qui minimisent la distance entre chaque point et le centre de son groupe.

Kibana

Interface de visualisation de la pile ELK : tableaux de bord, graphiques et exploration interactive des données indexées dans Elasticsearch.

Llama

Famille de grands modèles de langage (LLM) génératifs à poids ouverts développée par Meta, fondée sur l'architecture Transformer (décodeur).

Logique du premier ordre

Extension de la logique propositionnelle qui permet de raisonner sur des objets, leurs propriétés et leurs relations à l'aide de quantificateurs (« pour tout », « il existe »).

Logique modale

Système logique qui enrichit la logique classique par des opérateurs exprimant des notions comme la nécessité, la possibilité, la connaissance ou le temps, souvent interprétés à l'aide de structures de Kripke.

Logique propositionnelle

Système logique qui étudie le raisonnement à partir de propositions (énoncés vrais ou faux) combinées par des connecteurs comme « et », « ou » et « non ».

Logstash

Outil d'ingestion de données de la pile ELK : il collecte des données de sources variées, les transforme (filtrage, enrichissement) puis les transmet, typiquement vers Elasticsearch.

LongFormer

Variante du Transformer conçue pour traiter des textes longs grâce à un mécanisme d'attention parcimonieux, réduisant le coût quadratique de l'attention classique.

LoRA

Low-Rank Adaptation : technique d'affinage efficient d'un grand modèle qui gèle les poids d'origine et n'apprend que de petites matrices de rang faible ajoutées au modèle, ce qui réduit considérablement le nombre de paramètres à entraîner.

LSTM

Long Short-Term Memory : type de réseau de neurones récurrent doté de portes mémorisant l'information sur de longues séquences, longtemps utilisé en traitement du langage et des séries temporelles.

Machine de Turing

Modèle théorique de calcul défini par Alan Turing, servant de référence pour formaliser la notion d'algorithme et étudier la calculabilité et la complexité des problèmes.

Machine à vecteurs de support (SVM)

Algorithme d'apprentissage supervisé qui sépare des données en catégories en cherchant la frontière (« hyperplan ») qui maximise la marge entre les groupes.

Maximum de vraisemblance

Méthode d'estimation statistique qui choisit, parmi les valeurs possibles d'un paramètre, celle qui rend les données observées les plus probables.

MDX (MultiDimensional eXpressions)

Langage de requête dédié aux bases de données multidimensionnelles (cubes OLAP), permettant d'interroger et de calculer des agrégats selon plusieurs dimensions d'analyse.

Minimax

Algorithme de décision pour les jeux à deux joueurs à somme nulle : il explore l'arbre des coups possibles en supposant que chaque joueur joue de façon optimale (l'un maximise le score, l'autre le minimise).

Mistral

Famille de grands modèles de langage (LLM) génératifs à poids ouverts développée par Mistral AI, réputée pour de bonnes performances à taille de modèle réduite.

Modèle de diffusion

Famille de modèles génératifs qui apprennent à transformer progressivement du bruit aléatoire en données réalistes (images, sons), par un processus inverse de débruitage successif.

Modèle de fondation

Grand modèle entraîné sur de très vastes ensembles de données, conçu pour être ensuite adapté (par affinage) à de nombreuses tâches différentes plutôt qu'à un seul usage.

Modèle de Markov caché

Modèle probabiliste de séquences dans lequel un système évolue entre des états non observables directement, mais qui produisent des observations permettant d'en déduire l'état le plus probable.

MongoDB

Système de gestion de bases de données NoSQL orienté documents, stockant les données au format JSON/BSON sans schéma rigide, adapté aux données semi-structurées.

Moteur d'inférence

Composant logiciel qui applique des règles logiques à une base de connaissances pour en déduire de nouveaux faits implicites (raisonnement automatique).

Mécanisme d'attention

Composant architectural des réseaux de neurones qui permet au modèle de pondérer dynamiquement l'importance de chaque élément d'une séquence d'entrée lorsqu'il produit une sortie, permettant de capturer des dépendances à longue distance.

Méthode de Monte-Carlo

Méthode numérique fondée sur le tirage aléatoire répété d'échantillons pour estimer une grandeur ou résoudre un problème. Un algorithme de Monte-Carlo donne un résultat correct avec une certaine probabilité.

Méthode du simplexe

Algorithme classique de résolution de programmes linéaires, qui explore les sommets du polytope des solutions admissibles pour trouver un optimum.

Méthodes à noyaux

Famille de méthodes d'apprentissage (dont les SVM) qui projettent implicitement les données dans un espace de plus grande dimension via une fonction noyau, afin d'y séparer linéairement des classes non linéairement séparables.

Métriques d'évaluation

Mesures quantitatives permettant d'évaluer les performances d'un modèle de classification : la précision (proportion de prédictions correctes parmi les prédictions positives), le rappel (proportion de positifs réels correctement détectés) et la F-mesure (moyenne harmonique de la précision et du rappel).

Negamax

Variante de l'algorithme Minimax pour les jeux à somme nulle qui exploite la symétrie des scores entre les deux joueurs (le maximum pour l'un est l'opposé du minimum pour l'autre) afin de simplifier l'implémentation.

NLTK

Bibliothèque Python pour le traitement automatique des langues, utilisée notamment pour manipuler des corpus, tokeniser des textes et expérimenter des méthodes linguistiques.

NoSQL

Famille de systèmes de gestion de bases de données qui s'affranchissent du modèle relationnel classique (tables, SQL) pour offrir une plus grande flexibilité de schéma et une meilleure scalabilité horizontale, au prix parfois d'une cohérence assouplie.

NP-complétude

Classe de problèmes de décision pour lesquels aucun algorithme polynomial n'est connu, mais dont la solution peut être vérifiée en temps polynomial ; un problème NP-complet est aussi difficile que tout autre problème de la classe NP, et toute avancée sur l'un s'étend à tous.

NumPy

Bibliothèque Python de calcul numérique fournissant des tableaux multidimensionnels performants et les opérations vectorielles/matricielles associées ; socle de l'écosystème scientifique Python.

OLAP

Ensemble de techniques d'analyse de données multidimensionnelles (par exemple ventes par produit, région et période) permettant d'explorer rapidement de grands volumes de données sous différents angles.

Ontologie

Représentation formelle d'un ensemble de concepts d'un domaine et des relations qui les lient, utilisée pour structurer et partager des connaissances de façon exploitable par des machines.

OpenCV

Bibliothèque logicielle de vision par ordinateur fournissant des algorithmes pour le traitement d'images, la vidéo, la détection et l'analyse visuelle.

OpenMP

Interface de programmation pour le calcul parallèle sur machines à mémoire partagée, souvent utilisée en C, C++ ou Fortran.

PageRank

Algorithme qui évalue l'importance d'une page Web en fonction du nombre et de la qualité des liens qui pointent vers elle, popularisé par le moteur de recherche Google.

Pare-feu

Dispositif de sécurité réseau qui filtre le trafic entrant et sortant selon des règles définies, afin de protéger un système ou un réseau contre les accès non autorisés.

Patron de conception

Solution de conception logicielle récurrente et documentée, utilisée pour résoudre un problème fréquent d'architecture ou d'organisation du code.

Pattern mining

Ensemble de méthodes visant à découvrir des motifs fréquents, discriminants ou pertinents dans des données, souvent sous contraintes ou selon des mesures d'intérêt.

Pharmacologie

Science qui étudie les interactions entre les substances actives (médicaments) et les organismes vivants : mécanismes d'action, effets et devenir dans l'organisme.

Physiologie

Discipline qui étudie le fonctionnement normal des organismes vivants et de leurs systèmes, par exemple cardiovasculaire, respiratoire, nerveux ou musculaire.

Pile ELK

Ensemble Elasticsearch + Logstash + Kibana, combiné pour l'ingestion, l'indexation, la recherche et la visualisation de données (journaux, métriques, reporting).

Planification (en IA)

Domaine de l'intelligence artificielle visant à déterminer automatiquement une séquence d'actions permettant à un agent d'atteindre un objectif à partir d'un état initial, sous contraintes.

Plongement lexical (embedding)

Représentation d'un mot, d'une phrase ou d'une donnée sous forme de vecteur numérique, construite de façon à ce que des éléments proches en sens soient proches dans l'espace vectoriel (par exemple Word2Vec, GloVe).

Prefix Tuning

Technique d'affinage efficient d'un grand modèle de langage : les poids du modèle restent figés et l'on n'apprend qu'un court ensemble de vecteurs (un « préfixe ») ajouté en entrée de chaque couche pour orienter le modèle vers une tâche.

Preuve de théorèmes

Approche de vérification formelle consistant à établir, à l'aide d'un assistant ou d'un démonstrateur, une preuve mathématique rigoureuse qu'un système ou un énoncé satisfait une spécification.

Processus de décision markovien (MDP)

Cadre mathématique qui modélise la prise de décision séquentielle dans un environnement incertain, à la base de nombreux algorithmes d'apprentissage par renforcement.

Processus de décision markovien partiellement observable (POMDP)

Extension du processus de décision markovien (MDP) dans laquelle l'agent n'observe pas directement l'état du système mais seulement des indices partiels, ce qui l'amène à raisonner sur une distribution de probabilité appelée état de croyance.

Profilage

Construction automatique d'un profil d'utilisateur à partir de ses données et comportements, utilisée par de nombreuses applications web (commerce électronique, médias sociaux) et porteuse de risques pour la vie privée.

Programmation distribuée

Paradigme dans lequel plusieurs processus ou machines coopèrent en échangeant des messages pour résoudre un problème commun.

Programmation dynamique

Technique algorithmique qui résout un problème en le décomposant en sous-problèmes plus simples, dont les solutions sont mémorisées et réutilisées pour éviter de les recalculer plusieurs fois.

Programmation linéaire

Technique d'optimisation qui consiste à maximiser ou minimiser une fonction linéaire sous un ensemble de contraintes linéaires.

Programmation vectorielle

Technique d'optimisation qui exploite des instructions processeur capables d'appliquer la même opération à plusieurs données simultanément.

Protégé

Éditeur d'ontologies de référence pour le Web sémantique, permettant de créer des ontologies OWL et d'exploiter un moteur d'inférence. Des bibliothèques comme OWL API (Java) ou owlready2 (Python) permettent de les manipuler par programme.

PSPACE

Classe de complexité regroupant les problèmes résolubles avec une quantité de mémoire (espace) polynomiale. Elle contient NP et sert à classer des problèmes difficiles, notamment en planification et en jeux.

Python

Langage de programmation interprété, polyvalent et lisible, dominant en science des données et en intelligence artificielle grâce à son riche écosystème de bibliothèques (NumPy, pandas, PyTorch, scikit-learn…).

PyTorch

Bibliothèque open source d'apprentissage profond, largement utilisée pour construire, entraîner et déployer des réseaux de neurones grâce à ses tenseurs et à la différentiation automatique.

Quantification (quantization)

Technique qui réduit la précision numérique des paramètres d'un modèle (par exemple de 32 à 8 bits) afin de diminuer sa taille et accélérer son exécution, au prix d'une légère perte de précision.

Recherche de motif

Problème algorithmique consistant à localiser toutes les occurrences d'un mot (motif) dans un texte. À la base de nombreux outils : recherche dans un document, indexation, bio-informatique.

Redescription

Méthode de fouille de données qui cherche plusieurs descriptions différentes caractérisant un même ensemble d'objets, afin de comparer ou relier des points de vue.

Représentation des connaissances

Domaine de l'IA qui étudie comment formaliser et stocker les connaissances du monde réel sous des formes exploitables par les machines, notamment via les ontologies, les bases de connaissances et les graphes de connaissance.

RGPD

Règlement Général sur la Protection des Données (en anglais GDPR) : règlement européen entré en vigueur en 2018 qui encadre la collecte, le traitement et le stockage des données personnelles des citoyens de l'Union européenne, imposant des obligations aux entreprises et des droits aux personnes concernées.

Réalité virtuelle

Technologie créant un environnement numérique immersif avec lequel l'utilisateur interagit, souvent au moyen de casques, capteurs ou interfaces spécialisées.

Réduction de dimension

Ensemble de techniques qui réduisent le nombre de variables décrivant des données tout en préservant au mieux leur structure, afin de faciliter leur visualisation, leur traitement ou leur stockage.

Régression linéaire

Méthode statistique qui modélise la relation entre une variable à expliquer et une ou plusieurs variables explicatives par une fonction linéaire, afin de décrire ou de prédire des valeurs.

Régularisation

Ensemble de techniques qui contraignent un modèle pendant son apprentissage afin de limiter le surapprentissage et d'améliorer sa capacité à généraliser.

Réseau antagoniste génératif (GAN)

Architecture composée de deux réseaux de neurones mis en compétition — un générateur qui crée des données et un discriminateur qui tente de les distinguer des vraies — utilisée pour générer des données réalistes (images, sons, etc.).

Réseau bayésien

Modèle graphique qui représente, à l'aide d'un graphe, les dépendances probabilistes entre plusieurs variables, permettant de raisonner sous incertitude.

Réseau de neurones

Modèle de calcul inspiré du fonctionnement des neurones biologiques, organisé en couches d'unités interconnectées dont les paramètres sont ajustés lors de l'apprentissage.

Réseau de neurones convolutif (CNN)

Type de réseau de neurones particulièrement adapté au traitement d'images, qui applique des filtres de convolution pour détecter automatiquement des motifs visuels (contours, textures, formes).

Réseau de neurones récurrent (RNN)

Type de réseau de neurones conçu pour traiter des séquences (texte, signal, série temporelle) en conservant une mémoire interne des éléments précédents.

Réseau de neurones sur graphes (GNN)

Type de réseau de neurones conçu pour traiter directement des données structurées en graphes (réseaux sociaux, molécules, cartes routières...) en exploitant les relations entre les nœuds.

Rétropropagation

Algorithme d'entraînement des réseaux de neurones qui calcule le gradient de la fonction de coût par rapport à chaque paramètre en propageant l'erreur de la couche de sortie vers les couches d'entrée, couche par couche.

Satisfaction de contraintes

Type de problème consistant à trouver des valeurs pour un ensemble de variables de façon à respecter simultanément un ensemble de contraintes données (emplois du temps, planification, puzzles...).

Sciences cognitives

Champ pluridisciplinaire qui étudie les mécanismes de la pensée, de la perception, de la mémoire, de l'apprentissage, du langage et de la décision.

scikit-learn

Bibliothèque Python de référence pour l'apprentissage automatique classique : classification, régression, clustering, prétraitement et évaluation de modèles.

SciPy

Bibliothèque Python d'algorithmes scientifiques bâtie sur NumPy : optimisation, algèbre linéaire, statistiques, traitement du signal, interpolation, etc.

Segmentation d'image

Opération qui consiste à découper une image en régions homogènes (par exemple les différents objets ou zones qu'elle contient), afin d'en faciliter l'analyse.

spaCy

Bibliothèque Python de traitement automatique des langues orientée production, fournissant des outils pour l'analyse morphosyntaxique, les entités nommées et les pipelines NLP.

Stochastique

Qualifie un phénomène régi par le hasard, décrit au moyen de probabilités. Un processus stochastique est une suite de variables aléatoires modélisant l'évolution d'un système incertain ; la dominance stochastique est un critère permettant de comparer deux distributions de gains ou de risques.

Surapprentissage

Phénomène où un modèle apprend trop précisément les particularités de ses données d'entraînement, au point de mal généraliser à de nouvelles données.

SWRL

Semantic Web Rule Language : langage de règles du Web sémantique permettant d'exprimer des inférences sur des ontologies OWL, au-delà de ce que OWL seul peut déduire.

Système d'information

Ensemble organisé de ressources humaines, logicielles, matérielles et informationnelles permettant de collecter, traiter, stocker et diffuser des informations.

Systèmes multi-agents

Paradigme de l'IA dans lequel plusieurs agents autonomes interagissent dans un environnement partagé, chacun avec ses propres perceptions, objectifs et capacités d'action, pour résoudre collectivement des problèmes complexes ou simuler des comportements émergents.

Sémiologie médicale

Étude des signes et symptômes permettant de caractériser une situation clinique et de guider le raisonnement médical.

Séparation et évaluation

Méthode de résolution de problèmes d'optimisation combinatoire qui découpe l'espace de recherche en sous-problèmes et élimine ceux qui ne peuvent pas améliorer la meilleure solution connue.

T5

Text-to-Text Transfer Transformer : modèle Transformer séquence-à-séquence (encodeur-décodeur) qui formule toute tâche de traitement du langage comme la transformation d'un texte d'entrée en un texte de sortie.

Table de hachage

Structure de données qui associe des clés à des valeurs en utilisant une fonction de hachage pour calculer l'emplacement de stockage, ce qui permet en moyenne un accès très rapide aux données.

Test d'hypothèse

Procédure statistique qui permet de décider, à partir de données observées, s'il faut rejeter ou non une hypothèse formulée sur une population (par exemple « ces deux groupes ont la même moyenne »).

Threading Building Blocks (oneTBB)

Bibliothèque C++ facilitant la programmation parallèle par tâches sur machines multicœurs.

Théorie des jeux

Domaine mathématique qui étudie les interactions stratégiques entre agents rationnels, où le gain de chacun dépend des décisions des autres ; elle fournit des outils comme l'équilibre de Nash pour analyser coopération, compétition et négociation.

Théorème central limite

Résultat fondamental de statistique selon lequel la moyenne d'un grand nombre d'observations indépendantes tend à suivre une loi normale, quelle que soit la distribution d'origine des données.

Traduction automatique

Tâche du traitement automatique des langues consistant à traduire automatiquement un texte d'une langue vers une autre, aujourd'hui principalement traitée par des modèles neuronaux de type encodeur-décodeur.

Traitement automatique des langues (TAL)

Discipline qui étudie et conçoit des méthodes informatiques pour analyser, comprendre et générer le langage humain (texte ou parole) : traduction automatique, résumé, analyse de sentiments, dialogue, etc.

Traitement du signal

Discipline qui étudie l'analyse, la transformation et l'interprétation de signaux (sons, images, mesures physiques...) à l'aide de méthodes mathématiques et informatiques.

Transducteur fini

Automate fini produisant une sortie pendant la lecture d'une entrée, utilisé par exemple pour modéliser des transformations de chaînes ou des analyses lexicales.

Transformer

Architecture de réseau de neurones fondée sur le mécanisme d'attention, devenue la base des grands modèles de langage (comme BERT ou GPT) et de nombreuses applications en traitement du langage et de l'image.

Transformée de Fourier

Outil mathématique qui décompose un signal (son, image, etc.) en une somme de composantes oscillantes élémentaires, permettant d'en analyser le contenu fréquentiel.

Triple store

Base de données spécialisée dans le stockage et l'interrogation de triplets RDF (sujet–prédicat–objet), interrogeable en SPARQL ; support de déploiement des données du Web sémantique.

Télémédecine

Pratique médicale réalisée à distance grâce à des outils numériques permettant l'échange sécurisé d'informations entre patients et professionnels de santé.

Union-Find

Structure de données qui gère efficacement des ensembles disjoints d'éléments, permettant notamment de tester rapidement si deux éléments appartiennent au même groupe et de fusionner des groupes.

Uplift modeling

Famille de méthodes qui évaluent l'effet différentiel d'une action ou d'un traitement sur des individus ou sous-populations, plutôt que de prédire seulement un résultat brut.

Validation croisée

Technique d'évaluation d'un modèle qui consiste à diviser le jeu de données en plusieurs sous-ensembles, à entraîner le modèle sur certains et à le tester sur les autres, de manière rotative, afin d'obtenir une estimation robuste de ses performances.

Vie privée et anonymisation

Ensemble des enjeux et techniques visant à protéger les informations personnelles, notamment face au profilage des utilisateurs : minimisation, anonymisation et pseudonymisation des données.

Vision par ordinateur

Discipline qui développe des méthodes permettant à un ordinateur d'analyser, d'interpréter et de comprendre le contenu d'images ou de vidéos (détection d'objets, reconnaissance, segmentation...).

Vérification de modèles (model checking)

Technique de vérification formelle qui explore automatiquement et exhaustivement l'ensemble des états d'un système pour prouver qu'il satisfait une propriété (sûreté, vivacité) ou exhiber un contre-exemple.

Vérification formelle

Ensemble de méthodes mathématiques permettant de prouver rigoureusement qu'un système (logiciel, matériel ou protocole) satisfait une spécification donnée, par exemple via le model checking ou la preuve de théorèmes.

Web sémantique

Ensemble de standards et de technologies (RDF, RDFS, OWL, SPARQL...) visant à décrire et relier les données du Web de façon structurée, pour les rendre compréhensibles et interrogeables par des machines.

WordNet

Réseau lexical qui organise les mots en ensembles de sens reliés par des relations sémantiques, souvent utilisé en traitement automatique des langues.

Échantillonnage

Procédé consistant à sélectionner un sous-ensemble représentatif d'éléments (ou à tirer des valeurs selon une distribution) afin d'estimer des propriétés d'un ensemble plus vaste ou d'alimenter une méthode probabiliste.

Élagage (pruning)

Technique d'optimisation qui supprime les connexions ou unités les moins utiles d'un réseau de neurones afin de le rendre plus léger et plus rapide, sans trop dégrader ses performances.

Élagage alpha-bêta

Optimisation de l'algorithme Minimax qui élague les branches de l'arbre de jeu ne pouvant pas influencer la décision finale, réduisant fortement le nombre de positions à explorer sans changer le résultat.

Émergence (capacités émergentes)

Apparition, à grande échelle, de capacités d'un modèle qui n'étaient pas présentes à plus petite taille et qui n'ont pas été explicitement programmées. Phénomène souvent observé avec les grands modèles de langage.

Éthique computationnelle

Champ qui étudie la conception de systèmes informatiques et d'IA respectant des principes moraux et sociétaux (équité, transparence, responsabilité, respect de la vie privée), ainsi que la façon de formaliser et d'évaluer ces principes.