(P) Gestion des valeurs manquantes dans l’ensemble de données

 (P) Gestion des valeurs manquantes dans l’ensemble de données


J’utilise ce Ensemble de données pour un projet de régression, et l’objectif est de prédire le score de risque du bénéficiaire (bene_avg_risk_scre). Maintenant, pour protéger les identités des bénéficiaires et protéger ces informations, CMS a expurgé tous les éléments de données de ce fichier où l’élément de données représente moins de 11 bénéficiaires. Pour cette raison, il existe de nombreuses fonctionnalités avec beaucoup de valeurs manquantes comme indiqué ci-dessous dans l’image.

Fondamentalement, si l’élément de données est représenté par moins de 11 bénéficiaires, ils ont expurgé cette cellule. Ainsi, toutes les entrées non nuls dans cette colonne sont> = 11, et toutes les valeurs manquantes soient censées <11 avant la rédaction (c'est ma compréhension jusqu'à présent). Une technique d'imputation à laquelle je pouvais penser était de supposer une distribution uniforme discrète pour les variables, allant de 1 à 10 et imputée avec la moyenne de ladite distribution (5 ou 6). Mais évidemment, ce n'est pas une bonne idée car je ne prends pas en compte de l'asymétrie / le fait que les données auraient pu être biaisées à des nombres plus petits / plus grands. Comment imputer ces colonnes dans un tel cas? Je ne veux pas laisser tomber ces colonnes. Toute aide sera appréciée, Tia!

Fonctionnalités avec des valeurs manquantes

soumis par / u / suffisamment inspector9002
(lien) (Commentaires)



Source link

Related post