banner
Maison / Blog / Démystifier la régression logistique : un guide simple
Blog

Démystifier la régression logistique : un guide simple

Jul 01, 2023Jul 01, 2023

WeiQin Chuah

Suivre

Devenir humain : magazine sur l'intelligence artificielle

--

Écouter

Partager

Dans le monde de la science des données et de l’apprentissage automatique, la régression logistique est un algorithme puissant et largement utilisé. Malgré son nom, cela n’a rien à voir avec la gestion logistique ou le déplacement de marchandises. Il s'agit plutôt d'un outil fondamental pour les tâches de classification, nous aidant à prédire si quelque chose appartient à l'une des deux catégories suivantes, comme oui/non, vrai/faux ou spam/pas de spam. Dans ce blog, nous allons décomposer le concept de régression logistique et l'expliquer le plus simplement possible.

La régression logistique est un type d'algorithme d'apprentissage supervisé. Le terme « régression » peut être trompeur, car il n’est pas utilisé pour prédire des valeurs continues comme dans la régression linéaire. Au lieu de cela, il traite de problèmes de classification binaire. En d’autres termes, il répond à des questions auxquelles on peut répondre par un simple « oui » ou « non ».

Imaginez que vous êtes responsable des admissions dans une université et que vous souhaitez prédire si un étudiant sera admis en fonction de ses résultats aux tests. La régression logistique peut vous aider à faire cette prédiction !

La fonction sigmoïde est au cœur de la régression logistique. Cela peut paraître complexe, mais il s'agit simplement d'une fonction mathématique qui réduit toute entrée à une valeur comprise entre 0 et 1.

La formule de la fonction sigmoïde est :

Où:

Visualisons-le :

Comme vous pouvez le voir, la fonction sigmoïde mappe les grandes valeurs positives de z proches de 1 et les grandes valeurs négatives proches de 0. Lorsque z = 0, sigmoïde(z)est exactement 0,5.

Maintenant, nous comprenons la fonction sigmoïde, mais comment nous aide-t-elle à faire des prédictions ?

Dans la régression logistique, nous attribuons un score à chaque point de données, qui est le résultat d'une combinaison linéaire des caractéristiques d'entrée. Ensuite, on fait passer ce score par la fonction sigmoïde pour obtenir une valeur de probabilité comprise entre 0 et 1.

Mathématiquement, le score z est calculé comme suit :

Où:

Une fois que nous avons la probabilité sigmoïde (z), nous pouvons l'interpréter comme la probabilité que le point de données appartienne à la classe positive (par exemple, admission).

Puisque la régression logistique nous donne des probabilités, nous devons prendre une décision basée sur ces probabilités. Pour ce faire, nous fixons un seuil, généralement à 0,5. Si sigmoïde (z) est supérieur ou égal à 0,5, on prédit la classe positive ; sinon, nous prédisons la classe négative.

En résumé, la régression logistique est un algorithme simple mais efficace pour les problèmes de classification binaire. Il utilise la fonction sigmoïde pour mapper les scores aux probabilités, ce qui facilite l'interprétation des résultats.

N'oubliez pas que la régression logistique n'est qu'un élément du vaste et passionnant domaine de l'apprentissage automatique, mais c'est un élément crucial de votre parcours en science des données. Bon classement !

1. Régression logistique pour la classification binaire : la régression logistique est un algorithme puissant utilisé pour les tâches de classification binaire. Il permet de prédire si quelque chose appartient à l'une des deux catégories, ce qui le rend idéal pour les scénarios oui/non, vrai/faux ou spam/non spam.

2. Fonction sigmoïde : Au cœur de la régression logistique se trouve la fonction sigmoïde, qui mappe les valeurs d'entrée à des probabilités comprises entre 0 et 1. Cette fonction est essentielle pour convertir la combinaison linéaire des caractéristiques d'entrée en un score de probabilité.

3. Interprétation des probabilités : contrairement aux autres méthodes de régression, la régression logistique produit des probabilités au lieu de valeurs continues. Ces probabilités représentent la probabilité qu'un point de données appartienne à la classe positive, permettant une compréhension claire des prédictions du modèle.

4. Définition du seuil : pour effectuer des prédictions réelles, un seuil est défini (généralement 0,5). Si la probabilité prédite est supérieure ou égale au seuil, la classe positive est prédite ; sinon, la classe négative est prédite. L'ajustement du seuil peut avoir un impact sur le compromis entre la précision et le rappel du modèle.