Maths: ce qu'il faut savoir en probas pour faire de l'IA

Author Profile - Paul Claret

By Paul Claret

10 minutes read - 11/12/24

Les probabilités et les statistiques jouent un rôle fondamental en intelligence artificielle (IA). Que ce soit pour faire des prédictions, modéliser l’incertitude ou analyser des données, ces outils mathématiques sont partout. Si vous n’êtes pas un expert en probabilités, ne vous inquiétez pas : nous allons voir ensemble les bases et comprendre pourquoi elles sont si importantes en IA.

Et même si vous détestez cela, la plupart des frameworks modernes comme TensorFlow ou PyTorch les gèrent pour vous. Dans la suite de mes articles et cours, ces notions sont abordées succinctement, mais il reste bénéfique de les comprendre. Cependant, vous pouvez tout à fait progresser en IA sans une maîtrise approfondie des probabilités ou des statistiques.

Pasted image 20241211101300.png

1. Pourquoi les probabilités en IA ?

L’IA travaille souvent avec des données incomplètes ou incertaines. Les probabilités permettent de modéliser cette incertitude et de prendre des décisions dans des contextes où tout n’est pas parfaitement clair.

Exemples :

Les probabilités permettent de quantifier cette incertitude et de la gérer mathématiquement.


2. Les concepts fondamentaux des probabilités

Voici les notions clés à connaître :

a) Probabilité d’un événement

La probabilité est un nombre compris entre 0 et 1 qui mesure la chance qu’un événement se produise.

Exemple :

Pasted image 20241211105241.png

b) Loi des probabilités

La loi des probabilité nous indique que la somme des probabilités de tous les événements possibles dans une expérience est toujours égale à 1.

Pasted image 20241211105044.png Dans ce schéma, l’ensemble des probabilité est le fond bleu claire. Les probabilités de ces éléments prennent au final toute la place. Il n’y a pas de il peut tomber sur la trance… Les possibilités sont 1 à 6 rien d’autre. Et la somme des probabilités de chaque événement donne forcement 1.

c) Probabilité conditionnelle

La probabilité conditionnelle mesure la chance qu’un événement \(A\) se produise, sachant qu’un autre événement \(B\) est déjà arrivé.

Formule : \[ P(A|B) = \frac{P(A \cap B)}{P(B)} \] Cela se lit : - “La probabilité de \(A\), sachant \(B\), est égale à la probabilité que \(A\) et \(B\) se produisent ensemble, divisée par la probabilité de \(B\).”

Pasted image 20241211175737.png Pour les probabilités conditionnelles, il est souvent plus simple de regarder l’arbre des probabilités: Pasted image 20241211175805.png

Exemple :
Si on sait qu’il pleut, quelle est la probabilité qu’il y ait des embouteillages ? La pluie \(A\) augmente probablement la chance d’embouteillages \(B\), donc \(P(B|A) > P(B)\).

d) Indépendance

Deux événements \(A\) et \(B\) sont indépendants si : \[ P(A \cap B) = P(A) \cdot P(B) \] Cela signifie que la probabilité que \(A\) et \(B\) se produisent ensemble ne dépend pas de l’un ou de l’autre. Cela se lit aussi que la probabilité qu’il pleuve et qu’il y ai des embouteillages est le produit des deux.

Pasted image 20241211174556.png Attention à ne pas confondre l’indépendance et le fais que deux événement soient disjoints. Disjoint implique que les évènements sont exclusifs. Si je fais un 6 avec mon dé, je n’ai pas fait un 5 ou 4,3,2,1. Mais si je fais deux lancé, le fait de faire un 6 au premier lancé, n’a aucune influence sur le deuxième lancé (j’ai toujours la même probabilité de faire un 6).

Example: Dans un monde hypothétique où la pluie n’affecte pas le trafic, \(P(A∣B)=P(A)\), ce qui implique que les deux événements sont indépendants. Mais dans la réalité, pluie et embouteillages sont souvent liés, donc ils ne sont pas indépendants.

e) Loi de Bayes

La loi de Bayes est essentielle pour l’IA, notamment dans les modèles probabilistes comme les réseaux bayésiens ou les classificateurs bayésiens.

Formule : \[ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} \]

Elle permet d’inverser une probabilité conditionnelle. Par exemple, si on connaît \(P(B|A)\), on peut calculer \(P(A∣B)\).

Pasted image 20241211175614.png

Exemple :
En diagnostic médical : si on connaît la probabilité qu’un patient malade ait un symptôme (\(P(Symptôme|Maladie)\)), on peut estimer la probabilité qu’un patient ayant le symptôme soit malade (\(P(Maladie|Symptôme)\)). Remarque pour ceux qui sont perdus: Comprendre ces concepts est très bien mais dans ce cours si vous suivez la roadmap, ce n’est pas grave de ne pas comprendre ces choses. On les utilise très peu et même en tant qu’ingénieur. C’est juste très pratique.


3. Statistiques : Comprendre et analyser les données

Les probabilité traitent comme on la vu, de la chance qu’un événement se produise. Elle ne dit pas comment on sait que la probabilité de faire pile ou face est de 1/2. Cela vient du domaine des statistiques. Les statistiques permettent de résumer et d’analyser des ensembles de données. Voici les bases utiles :

a) Mesures de tendance centrale

Exemple :
Pour les notes \(10,12,15,15,1810, 12, 15, 15, 18\) :

Pasted image 20241211103843.png Les notes ci-dessus et le schéma ne sont pas lié. Le schéma montre juste la différence entre médiane et moyenne.

b) Mesures de dispersion

Elles indiquent comment les données sont réparties autour de la moyenne.

Pasted image 20241211104421.png

Plus ces valeurs sont élevées, plus les données sont dispersées.

c) Distribution des données

La loi normale (ou courbe de Gauss) est une des distributions les plus importantes. Elle est caractérisée par :

Exemple :
Les tailles des hommes et femmes suivent approximativement une distribution normale. Pasted image 20241211104649.png


4. Applications en IA

Les probabilités et statistiques sont omniprésentes dans les algorithmes d’IA. Voici quelques exemples :

a) Apprentissage supervisé

Les modèles de régression et de classification utilisent des concepts probabilistes pour prédire des valeurs ou des catégories.

Exemple :

b) Apprentissage non supervisé

Les algorithmes comme les modèles de mélange gaussien (GMM) utilisent des distributions probabilistes pour regrouper des données.

c) Réseaux bayésiens

Ces modèles graphiques représentent des relations de dépendance probabiliste entre des variables. Ils sont utilisés en diagnostic médical, robotique ou traitement du langage naturel.

d) Réseaux neuronaux et incertitude

Les probabilités interviennent aussi dans des concepts avancés, comme les Dropout layers qui introduisent une incertitude artificielle pour éviter le sur-apprentissage.


5. Faut-il être expert en probabilités pour faire de l’IA ?

Vraiment pas nécessairement ! Il est utile de connaître les bases pour comprendre le fonctionnement des algorithmes et interpréter leurs résultats. Cependant, de nombreux outils modernes (comme TensorFlow ou PyTorch) implémentent ces concepts en arrière-plan, permettant de se concentrer sur le développement de solutions.

Si vous voulez approfondir, voici quelques notions avancées qui peuvent être utiles :


Conclusion

Les probabilités et les statistiques constituent le socle de nombreux algorithmes d’IA. Même si elles peuvent sembler abstraites, leur compréhension est essentielle pour modéliser l’incertitude et analyser les données. L’objectif n’est pas d’être un expert en calculs probabilistes, mais de saisir les concepts fondamentaux pour mieux appréhender le fonctionnement des modèles et interpréter leurs performances.

Avec de la pratique et des exemples concrets, vous verrez que ces notions deviendront naturelles et, surtout, extrêmement utiles dans votre parcours en intelligence artificielle.

Vous voulez apprendre l'IA en autonomie ?

Si vous êtes nouveau sur mon site, je vous invite à aller voir ma page sur Roadmap IA qui regroupe tous mes articles dans l'ordre pour vous facilitez l'apprentissage.