/01
Fondamentaux IA
- Intelligence Artificielle (IA)
- Ensemble de techniques permettant à un ordinateur d'effectuer des tâches qui requièrent normalement l'intelligence humaine : reconnaître des images, comprendre le langage, prendre des décisions. Pour une PME, l'IA est un outil opérationnel concret, pas de la science-fiction.
- Machine Learning (ML)
- Branche de l'IA où les algorithmes apprennent à partir de données sans être explicitement programmés pour chaque règle. Un modèle ML s'améliore avec l'expérience. Exemple : un algorithme qui apprend à détecter les fraudes en analysant des milliers de transactions passées.
- Deep Learning
- Sous-domaine du Machine Learning utilisant des réseaux de neurones artificiels à plusieurs couches. Particulièrement efficace pour reconnaître des images, comprendre la voix et traiter du texte. C'est la technologie qui alimente ChatGPT, les assistants vocaux et la vision par ordinateur.
- Modèle IA
- Programme mathématique entraîné sur des données pour réaliser une tâche précise (classifier, prédire, générer). Un modèle IA est le résultat final d'un projet de Machine Learning. Il peut être utilisé en production via une API ou intégré directement dans un logiciel métier.
- Algorithme
- Suite d'instructions précises qu'un ordinateur exécute pour résoudre un problème. En IA, les algorithmes apprennent des patterns dans les données pour prendre des décisions. Ce n'est pas magique : un algorithme ne fait que ce qu'il a appris à faire à partir des données qu'on lui a fournies.
- Inférence
- Phase pendant laquelle un modèle IA déjà entraîné est utilisé pour produire des résultats sur de nouvelles données. S'oppose à l'entraînement (phase d'apprentissage). L'inférence est ce qui se passe quand votre chatbot répond ou quand votre modèle de prévision génère une prédiction.
- Entraînement (Training)
- Processus pendant lequel un modèle IA apprend à partir de données historiques. Le modèle ajuste ses paramètres internes pour minimiser les erreurs sur les données d'entraînement. Cette phase est coûteuse en calcul et en temps — elle peut durer de quelques minutes à plusieurs semaines.
- Biais algorithmique
- Erreur systématique dans les prédictions d'un modèle IA causée par des données d'entraînement non représentatives ou des choix de conception biaisés. Exemple : un outil de recrutement IA entraîné sur des données historiquement biaisées défavorise certains profils. La détection et correction des biais est une obligation éthique et légale.
/02
LLM & IA Générative
- LLM (Large Language Model)
- Modèle de langage de très grande taille entraîné sur d'immenses corpus de texte. GPT-4, Claude, Mistral et Llama sont des LLM. Ils comprennent et génèrent du texte de façon cohérente. Pour les entreprises, les LLM servent à automatiser la rédaction, l'analyse documentaire et le support client.
- RAG (Retrieval-Augmented Generation)
- Architecture combinant un LLM avec une recherche dans vos documents internes. Au lieu de répondre uniquement depuis sa mémoire, le modèle cherche d'abord les informations pertinentes dans votre base documentaire avant de répondre. Résultat : des réponses précises, à jour et basées sur vos données propriétaires.
- Fine-tuning
- Technique consistant à ré-entraîner un LLM existant sur vos données spécifiques pour le spécialiser sur votre domaine métier. Permet d'obtenir un modèle qui parle comme votre entreprise, connaît vos produits et respecte votre terminologie. Plus coûteux que le RAG, mais justifié pour des usages à très haute fréquence.
- Prompt Engineering
- Art de rédiger des instructions précises pour obtenir les meilleurs résultats d'un LLM. Un bon prompt inclut le contexte, le rôle souhaité, le format de sortie et des exemples. C'est une compétence clé pour maximiser la valeur des LLM en entreprise sans modifier le modèle lui-même.
- Embedding (Vecteur de représentation)
- Représentation mathématique d'un texte, d'une image ou d'un son sous forme de vecteur numérique. Deux concepts sémantiquement proches ont des vecteurs proches. Les embeddings sont la brique fondamentale des moteurs de recherche sémantique et du RAG.
- Vector Database (Base vectorielle)
- Base de données spécialisée pour stocker et rechercher efficacement des embeddings (vecteurs). Permet de retrouver les documents les plus similaires à une requête en quelques millisecondes, même sur des millions de documents. Pinecone, Weaviate, pgvector et Qdrant sont les solutions les plus populaires.
- Token
- Unité de texte traitée par un LLM, approximativement ¾ d'un mot en anglais ou ½ mot en français. Les LLM facturent à l'usage en tokens. GPT-4 Turbo traite jusqu'à 128 000 tokens par requête (environ 90 000 mots). Le coût d'usage est généralement inférieur à 0,01€ pour une requête standard.
- Hallucination
- Phénomène où un LLM génère des informations fausses mais présentées avec confiance. Les LLM peuvent inventer des faits, des citations ou des chiffres qui semblent plausibles mais sont incorrects. Le RAG réduit considérablement les hallucinations en ancrant les réponses dans des sources vérifiables.
- Agent IA
- Programme IA capable de prendre des décisions et d'exécuter des actions de façon autonome pour accomplir un objectif. Un agent peut naviguer sur le web, lire des emails, exécuter du code, appeler des APIs. Les agents IA transforment les LLM en assistants qui agissent, pas seulement en assistants qui parlent.
- Context Window (Fenêtre de contexte)
- Quantité maximale de texte (en tokens) qu'un LLM peut traiter en une seule requête. GPT-4 Turbo : 128k tokens. Claude 3 : 200k tokens. Une fenêtre de contexte large permet d'analyser des documents entiers (contrats, rapports annuels) sans les découper.
/03
Data Engineering
- Data Warehouse
- Entrepôt de données structurées et historiques, optimisé pour l'analyse et le reporting. Contrairement à une base de données transactionnelle, il est conçu pour les requêtes analytiques complexes sur de grandes volumes. Snowflake, BigQuery et Redshift sont les solutions cloud leaders.
- Data Lake
- Stockage centralisé de données brutes dans leur format natif (fichiers, logs, images, JSON). Contrairement au Data Warehouse, les données ne sont pas transformées à l'entrée. Idéal pour conserver toutes les données avant de savoir exactement comment les utiliser. AWS S3, Azure Data Lake et GCS sont les supports classiques.
- ETL (Extract, Transform, Load)
- Processus d'intégration de données en 3 étapes : Extraction depuis les sources (ERP, CRM, fichiers), Transformation (nettoyage, normalisation, enrichissement), Chargement dans la destination (Data Warehouse). L'ETL est le cœur de toute architecture data moderne.
- Pipeline de données
- Flux automatisé qui transporte et transforme des données d'une source à une destination. Un pipeline garantit que vos tableaux de bord et modèles IA reçoivent toujours des données fraîches et fiables. Airflow, Prefect et dbt sont les outils standards pour construire et orchestrer ces pipelines.
- dbt (Data Build Tool)
- Outil open source qui permet de transformer des données dans un Data Warehouse en écrivant des requêtes SQL versionnées et testées. dbt génère automatiquement la documentation et la lignage des données. Devenu le standard industrie pour la couche de transformation dans les architectures data modernes.
- Data Quality (Qualité des données)
- Mesure dans laquelle les données sont exactes, complètes, cohérentes et à jour. Une IA n'est fiable que si ses données d'entraînement le sont. Les 5 dimensions de qualité : exactitude, exhaustivité, cohérence, fraîcheur, unicité. Un audit de qualité données est systématiquement réalisé lors de notre Diagnostic.
- Feature Engineering
- Processus de sélection et transformation des variables brutes en caractéristiques (features) pertinentes pour entraîner un modèle ML. C'est souvent la tâche la plus déterminante dans un projet ML — de meilleures features compensent un algorithme plus simple et donnent de meilleurs résultats.
- Data Mesh
- Approche organisationnelle de la data où chaque domaine métier (ventes, logistique, finance) est responsable de ses propres données comme d'un produit. S'oppose à l'architecture centralisée avec une équipe data unique. Adaptée aux ETI avec plusieurs business units ayant des besoins data distincts.
- Lakehouse
- Architecture combinant les avantages du Data Lake (stockage flexible, données brutes) et du Data Warehouse (performance analytique, transactions ACID). Databricks Delta Lake et Apache Iceberg sont les implémentations principales. Tendance dominante pour les nouvelles architectures data en 2024-2025.
- Streaming Data
- Traitement de données en temps réel au fur et à mesure de leur génération, par opposition au traitement par lots (batch). Utile pour la détection de fraude en temps réel, les alertes de production ou les recommandations instantanées. Apache Kafka est le système de streaming de données le plus utilisé.
/04
ML Avancé
- MLOps
- Ensemble de pratiques pour déployer, surveiller et maintenir des modèles IA en production de façon fiable. MLOps applique les principes DevOps à l'IA : versioning des modèles, tests automatisés, déploiement continu, surveillance des performances. Sans MLOps, les modèles IA se dégradent silencieusement en production.
- Overfitting (Surapprentissage)
- Défaut d'un modèle qui a trop bien mémorisé les données d'entraînement et ne généralise pas bien sur de nouvelles données. Un modèle overfitté performe excellemment en test mais échoue en production. La validation croisée et la régularisation sont les techniques standard pour le prévenir.
- Transfer Learning
- Technique réutilisant un modèle entraîné sur une tâche générale pour l'adapter à une tâche spécifique avec peu de données. Permet de bénéficier de l'intelligence des grands modèles (GPT, BERT) pour vos cas d'usage métier avec seulement quelques centaines d'exemples au lieu de millions.
- NLP (Natural Language Processing)
- Branche de l'IA traitant le langage humain : texte et voix. Le NLP permet de classer des emails, extraire des informations de contrats, analyser le sentiment client, traduire des documents ou générer du texte. C'est la technologie sous-jacente de tous les assistants conversationnels.
- Reinforcement Learning (Apprentissage par renforcement)
- Paradigme d'apprentissage où un agent apprend par essais-erreurs en recevant des récompenses ou pénalités. Utilisé pour optimiser des processus complexes : ordonnancement de production, gestion de stocks, pricing dynamique. RLHF (Reinforcement Learning from Human Feedback) est la technique qui aligne les LLM sur les préférences humaines.
- AutoML
- Automatisation du processus de sélection et d'optimisation d'algorithmes ML. Des outils comme AWS AutoML ou Google AutoML testent automatiquement des dizaines de configurations et sélectionnent la meilleure. Accélère le développement pour les cas d'usage standard, mais les experts restent nécessaires pour les projets complexes.
/05
Gouvernance & Conformité
- AI Act (Règlement IA européen)
- Règlement européen entré en vigueur en 2024 qui classe les systèmes IA par niveau de risque et impose des obligations de conformité. Les PME utilisant des IA à risque élevé (RH, crédit, santé) doivent documenter leurs systèmes et garantir la transparence. Les premières obligations s'appliquent dès 2025.
- RGPD et IA
- Le RGPD s'applique pleinement aux projets IA traitant des données personnelles. Points clés : droit à l'explication des décisions automatisées, minimisation des données utilisées pour l'entraînement, base légale pour le traitement, et conservation limitée. Toute IA entraînée sur des données clients doit être conforme.
- Explicabilité IA (XAI)
- Capacité à expliquer pourquoi un modèle IA a pris une décision particulière en termes compréhensibles par un humain. Obligatoire dans certains secteurs (crédit, RH, santé) et nécessaire pour l'adoption par les équipes métier. LIME, SHAP et les règles d'attribution sont les techniques standard.
- Dette technique IA
- Accumulation de problèmes techniques dans un système IA qui ralentissent sa maintenance et son évolution. Sources : code non testé, modèles non versionnés, pipelines fragiles, absence de monitoring. La dette technique IA est l'un des risques principaux identifiés lors d'une due diligence M&A tech.
- Shadow IT IA
- Utilisation non contrôlée d'outils IA par les employés sans validation de la DSI (ex : partage de données confidentielles dans ChatGPT). Risque majeur pour la sécurité et la conformité RGPD. Un audit Shadow IT IA fait partie de notre Diagnostic pour identifier les usages non encadrés.
- Maturité IA
- Niveau de développement des capacités IA d'une organisation, mesuré sur 5 niveaux : Aware (conscient), Active (premières expérimentations), Operational (projets en production), Systemic (IA intégrée dans les processus clés), Transformative (IA comme avantage concurrentiel structurel). Notre Diagnostic positionne votre entreprise sur cette échelle.