5 scripts Python utiles pour les scientifiques des données occupées


Image de l’auteur | idéogramme
# Introduction
Si vous passez plus de temps à lutter avec des formats de fichiers et un nettoyage des données que d’analyser les données, vous n’êtes pas seul. La plupart des professionnels des données gaspillent 60 à 80% de leur temps sur des tâches répétitives qui éloignent l’attention de plus difficiles et importants.
Dans cet article, j’ai mis en place quelques scripts Python utiles ci-dessous pour simplifier les tâches ennuyeuses mais essentielles dans les flux de travail de données typiques.
🔗 Lien vers le code sur github
# 1. Vérificateur de qualité des données
Le point de douleur: L’ouverture d’un nouvel ensemble de données semble souvent écrasante. Y a-t-il des valeurs manquantes? Doublons? Types de données étranges? Vous finissez par écrire le même code exploratoire encore et encore, ou pire, découvrir des problèmes de données après des heures d’analyse.
Ce que fait le script: Un simple script Python pour traiter une dataframe donnée et générer un rapport de qualité concise de données avec des informations sur les valeurs, les doublons, les valeurs aberrantes, etc. Enregistre ensuite tout dans un fichier texte lisible que vous pouvez vous référer au besoin.
Comment ça marche: Le script vérifie systématiquement les problèmes de qualité des données courants – doublons, valeurs manquantes, types de données incorrects – en utilisant des méthodes intégrées de Pandas, des pourcentages et des statistiques de calcul, puis des formats dans un rapport propre. Il utilise la méthode interquartile (IQR) pour la détection des valeurs aberrantes, qui fonctionne de manière fiable sur différentes distributions de données.
⏩ Obtenez le script de vérification de la qualité des données
# 2. Mésurature de fichiers intelligents
Le point de douleur: Vos données sont dans les fichiers CSV, les feuilles Excel et les exportations JSON dispersées sur les dossiers. Les combiner manuellement signifie ouvrir chaque fichier, vérifier l’alignement de la colonne, copier-coopage et prier rien ne se casse. Oui, et une colonne incompatible suffit pour tout ruiner.
Ce que fait le script: Trouve et combine automatiquement tous les fichiers de données dans un dossier, quel que soit le format (CSV, Excel, JSON). Gère gracieusement les décalages des colonnes et les suites des données provenant de quel fichier source.
Comment ça marche: Le script parcourt un répertoire, identifie les types de fichiers pris en charge, utilise le lecteur Pandas approprié pour chaque format et concatène tout en utilisant la logique de fusion robuste de Pandas. Il ajoute une colonne source afin que vous puissiez toujours retracer les données à son origine.
⏩ Obtenez le script de fusion de fichiers intelligents
# 3. Profiler de jeu de données
Le point de douleur: Comprendre un nouvel ensemble de données nécessite d’écrire des dizaines de lignes de code exploratoire: describe()
, value_counts()
matrices de corrélation, analyse de la valeur manquante. Au moment où vous finirez d’explorer, vous avez probablement oublié ce que vous essayiez d’analyser.
Ce que fait le script: Génère un profil d’ensemble de données complet en secondes, y compris les statistiques sommaires, les cartes thermiques de corrélation, les pannes catégorielles et les suggestions d’optimisation de la mémoire. Crée des visualisations utiles pour la documentation et les rapports.
Comment ça marche: Le script sépare les colonnes numériques et catégorielles, applique des méthodes d’analyse appropriées à chaque type, génère des visualisations à l’aide de SeaBorn et Matplotlib, et fournit également des recommandations d’optimisation exploitables basées sur des modèles de données.
⏩ Obtenez le script de profileur de données de données
# 4. Gestionnaire de version de données
Le point de douleur: Vous apportez des modifications à votre ensemble de données, réalisez que quelque chose s’est mal passé et que vous n’avez aucun moyen de revenir. Ou vous devez montrer à un client à quoi ressemblaient les données la semaine dernière, mais vous avez remplacé le même fichier. Le contrôle de la version pour les données est souvent difficile. Il existe des outils pour simplifier le contrôle des versions de données. Mais les scripts Python simples sont également plus simples et efficaces.
Ce que fait le script: Enregistre automatiquement les versions horodatrices de vos dataframes avec des descriptions, suit les hachages de fichiers pour détecter les modifications et vous permet de revenir sur toute version précédente instantanément. Comprend des outils de nettoyage pour gérer l’espace de stockage.
Comment ça marche: Le script crée un système de sauvegarde structuré avec journalisation des métadonnées. Il utilise le hachage MD5 pour détecter les modifications réelles (éviter les sauvegardes en double), conserve un journal CSV de toutes les versions avec des horodatages et des descriptions, et fournit des méthodes simples pour répertorier et restaurer toute version précédente.
⏩ Obtenez le script Data Version Manager
# 5. Exportateur de données multi-formats
Le point de douleur: Différentes personnes veulent des données dans différents formats. Les analystes veulent probablement des feuilles de calcul propres avec des en-têtes formatés. L’équipe de développement a besoin de JSON avec des métadonnées. L’administrateur de la base de données veut SQLite. Vous finissez par créer manuellement chaque format avec différents paramètres et règles de formatage.
Ce que fait le script: Exporte simultanément vos données traitées vers plusieurs formats professionnels. Crée des fichiers Excel formatés avec plusieurs feuilles, des JSON structurés avec des métadonnées, des fichiers CSV nettoyés et des bases de données SQLite avec des schémas appropriés.
Comment ça marche: Le script utilise des techniques d’optimisation spécifiques au format: les fichiers Excel obtiennent des en-têtes de style et des colonnes de taille automatique, les exportations JSON incluent les métadonnées et les informations de type de données appropriées, les fichiers CSV sont nettoyés pour éviter les conflits de délimiteur, et les bases de données SQLite incluent des tables de métadonnées pour une documentation complète.
⏩ Obtenez le script d’exportateur multi-format
# Emballage
J’espère que vous avez trouvé ces scripts utiles. Nous avons couvert cinq scripts pratiques qui gèrent les parties les plus longues du travail de données:
- Le vérificateur de qualité des données analyse automatiquement les ensembles de données pour les valeurs, les doublons et les valeurs aberrantes manquantes
- La fusion de fichiers intelligents combine les fichiers CSV, Excel et JSON à partir de n’importe quel dossier
- Dataset Profiler génère des statistiques, des corrélations et des visualisations instantanées
- Data Version Manager enregistre et suit les modifications de vos ensembles de données avec un recul facile
- L’exportateur multi-format crée simultanément des sorties professionnelles Excel, JSON, CSV et SQLite
Chaque script s’attaque à un goulot d’étranglement de workflow spécifique et peut être utilisé indépendamment ou ensemble. Vous pouvez ajouter autant de fonctionnalités que nécessaire pour l’améliorer!
La meilleure partie? Vous pouvez commencer à utiliser l’un de ces scripts immédiatement. Choisissez celui qui résout votre plus grand point de douleur actuel, essayez-le sur un exemple de données, puis décidez si cela est utile. Codage heureux!
Bala Priya C est développeur et écrivain technique d’Inde. Elle aime travailler à l’intersection des mathématiques, de la programmation, de la science des données et de la création de contenu. Ses domaines d’intérêt et d’expertise incluent DevOps, la science des données et le traitement du langage naturel. Elle aime lire, écrire, coder et café! Actuellement, elle travaille sur l’apprentissage et le partage de ses connaissances avec la communauté des développeurs en créant des tutoriels, des guides pratiques, des pièces d’opinion, etc. Bala crée également des aperçus de ressources engageants et des tutoriels de codage.