(P) ensemble de données petit et déséquilibré – que faire

 (P) ensemble de données petit et déséquilibré – que faire


Bonjour à tous!

Je suis actuellement dans la 1ère année de mon doctorat, et mon PI m’a demandé d’appliquer des algorithmes ML à un ensemble de données (n = 106, w / n = 21 dans la classe positive). Comme vous pouvez le voir, les mesures de performance sont assez pauvres, et je ne sais pas comment procéder …

J’ai recherché à la fois dans ce SUBREDDIT et Internet, et j’ai essayé d’utiliser LOOCV et Stratified K-Fold comme méthodes de validation croisée. Cependant, les résultats sont constamment décevants avec les deux approches. Cela pourrait-il être dû à une fuite de données? Ou est-il simplement inapproprié d’appliquer ML à ce type de jeu de données?

Informations supplémentaires:
Je suis dans le domaine biomédical / bioinformatique (travail avec des ensembles de données de cancer ou de maladies infectieuses). Ces patients proviennent d’un petit groupe spécialisé (adultes atteints de maladies respiratoires qui sont également immunodéprimés). Certaines études similaires ont utilisé de petits ensembles de données (par exemple, n = 50), tandis que d’autres ont réussi à travailler avec des échantillons plus grands (n = 600–800).
Pourriez-vous me donner des conseils ou des idées? (Aussi, désolé pour les Gramatics, l’anglais n’est pas ma première langue). Tia!

https://preview.redd.it/fc20Uero50jf1.png?width=655&format=png&auto=webp&s=1ed35c046f9c2bfe030e0c3bfe8c4cdcf7afb852

soumis par / U / Practical-Pin8396
(lien) (Commentaires)



Source link

Related post