Cheatsheet Pandas en Python

Chargement de données import pandas as pd# Lire un fichier CSVdf = pd.read_csv(csv_file_path, sep=’,’) Manipulation de colonnes # Retirer une colonnedf_sans_colonne2 = df.drop(columns=’colonne2′)# Retirer plusieurs colonnesdf_sans_colonnes23 = df.drop(columns=[‘colonne2’, ‘colonne3’])# Ajouter une colonnedf[‘Date’] = today# Renommer une colonnedf_renomme = df.rename(columns={‘ancien_nom’: ‘nouveau_nom’})# Ajouter une colonne calculéedf[‘containsCategory’] = df[‘decodedURL’].apply(contains_category_in_url) Manipulation de lignes # Lire la suite…

Variables dummy : Comprendre et utiliser les variables fictives en analyse de données

Les variables dummy, aussi appelées variables fictives ou indicatrices, sont des outils essentiels en statistique et en science des données. Elles permettent de transformer des variables qualitatives (catégorielles) en variables quantitatives (numériques), facilitant ainsi leur utilisation dans des modèles de régression et d’autres méthodes statistiques. Cet article explique ce que Lire la suite…

Tout savoir sur la régression logistique : définition, fonctionnement et applications

Introduction à la régression logistique La régression logistique est une méthode statistique utilisée pour modéliser la probabilité qu’un événement se produise en fonction de variables explicatives. Contrairement à la régression linéaire, qui prédit une valeur continue, la régression logistique est utilisée pour des variables dépendantes catégorielles binaires (oui/non, succès/échec). Fonctionnement Lire la suite…

Le rapport de chance en probabilité

Rapport de Chance en Probabilité Le rapport de chance, aussi appelé odds ratio en anglais, est une mesure statistique utilisée en probabilité et en analyse des données pour évaluer l’association entre deux événements. Il est particulièrement utilisé en épidémiologie et en recherche clinique pour déterminer la force de l’association entre Lire la suite…