(P) Mes résultats de détection de botnet IoT sont-ils trop bons pour être vrais?

Salut à tous, je travaille sur la détection de botnet IoT en utilisant ML supervisé. Les données d’origine sont très déséquilibrées (~ 3 millions d’échantillons d’attaque contre 370 bénignes). Pour l’entraînement, j’ai utilisé 185 flux d’attaque normaux + 185. Pour les tests: 185 Normal vs 2 934 262 flux d’attaque (2 934 447 au total). Malgré ce déséquilibre extrême, les modèles donnent des résultats presque parfaits (F1, précision, rappel ≈ 1,0; AUC> 0,99). Par exemple, SVM ne classe mal que 2 flux bénins et une petite fraction d’attaques. Ces résultats sont-ils significatifs ou cette configuration est-elle insignifiante? Dois-je évaluer cela différemment? Tout aperçu est le bienvenu. soumis par / u / no_raspberry_6866 |