Comment apprendre les mathématiques pour les sciences des données: une feuille de route pour les débutants



Image de l’auteur | Idéogramme
Vous n’avez pas besoin d’un diplôme de mathématiques ou d’informatique rigoureux pour accéder à la science des données. Mais vous devez comprendre les concepts mathématiques derrière les algorithmes et les analyses que vous utiliserez quotidiennement. Mais pourquoi est-ce difficile?
Eh bien, la plupart des gens abordent les mathématiques en sciences des données à l’envers. Ils entrent directement dans la théorie abstraite, sont submergés et quittent. La vérité? Presque tous les mathématiques dont vous avez besoin pour la science des données s’appuient sur des concepts que vous connaissez déjà. Il vous suffit de connecter les points et de voir comment ces idées résolvent de vrais problèmes.
Cette feuille de route se concentre sur les fondations mathématiques qui comptent réellement dans la pratique. Pas de trous de lapin théoriques, pas de complexité inutile. J’espère que vous trouverez cela utile.
Partie 1: Statistiques et probabilité
Les statistiques ne sont pas facultatives en science des données. C’est essentiellement comment vous séparez le signal du bruit et faites des réclamations que vous pouvez défendre. Sans pensée statistique, vous faites simplement des suppositions éclairées avec des outils de fantaisie.
Pourquoi c’est important: chaque ensemble de données raconte une histoire, mais les statistiques vous aident à déterminer quelles parties de cette histoire sont réelles. Lorsque vous comprenez les distributions, vous pouvez repérer instantanément des problèmes de qualité des données. Lorsque vous connaissez des tests d’hypothèse, vous savez si vos résultats de test A / B signifient réellement quelque chose.
Ce que vous apprendrez: commencez par des statistiques descriptives. Comme vous le savez peut-être déjà, cela comprend les moyens, les médianes, les écarts-types et les quartiles. Ce ne sont pas seulement des numéros de résumé. Apprenez à visualiser les distributions et à comprendre quelles formes différentes vous disent sur le comportement de vos données.
La probabilité vient ensuite. Apprenez les bases de la probabilité et de la probabilité conditionnelle. Le théorème de Bayes pourrait sembler un peu difficile, mais c’est juste une façon systématique de mettre à jour vos croyances avec de nouvelles preuves. Ce modèle de réflexion apparaît partout, de la détection des spams au diagnostic médical.
Les tests d’hypothèse vous donnent le cadre pour faire des affirmations valides et prouvables. Apprenez des tests en T, des tests du chi carré et des intervalles de confiance. Plus important encore, comprenez ce que les valeurs p signifient réellement et lorsqu’elles sont utiles et trompeuses.
Ressources clés:
Composant de codage: utilisez Scipy.stats et Pandas de Python pour la pratique pratique. Calculez les statistiques sommaires et exécutez les tests statistiques pertinents sur les ensembles de données du monde réel. Vous pouvez commencer avec des données propres à partir de sources comme les ensembles de données intégrés de SeaBorn, puis d’obtenir des données réelles en désordre.
Partie 2: Algèbre linéaire
Chaque algorithme d’apprentissage automatique que vous utilisez repose sur l’algèbre linéaire. Le comprendre transforme ces algorithmes à partir de mystérieuses boîtes noires en outils que vous pouvez utiliser en toute confiance.
Pourquoi c’est essentiel: vos données sont en matrices. Ainsi, chaque opération que vous effectuez – filtrage, transformation, modélisation – utilise l’algèbre linéaire sous le capot.
Concepts de base: concentrez-vous d’abord sur les vecteurs et les matrices. Un vecteur représente un point de données dans l’espace multidimensionnel. Une matrice est une collection de vecteurs ou une transformation qui déplace les données d’un espace à un autre. La multiplication matricielle n’est pas seulement l’arithmétique; C’est ainsi que les algorithmes se transforment et combinent des informations.
Les valeurs propres et les vecteurs propres révèlent les modèles fondamentaux de vos données. Ils sont derrière l’analyse des composants principaux (ACP) et de nombreuses autres techniques de réduction de la dimensionnalité. Ne mémorisez pas les formules; Comprenez que les valeurs propres vous montrent les directions les plus importantes de vos données.
Application pratique: implémentez les opérations matricielles dans Numpy avant d’utiliser des bibliothèques de niveau supérieur. Créez une régression linéaire simple en utilisant uniquement des opérations de matrice. Cet exercice consolidera votre compréhension de la façon dont les mathématiques deviennent du code de travail.
Ressources d’apprentissage:
Essayez cet exercice: prenez l’ensemble de données IRIS super simple et effectuez manuellement l’ACP à l’aide de eigeNenComposition (code utilisant Numpy à partir de zéro). Essayez de voir comment les mathématiques réduisent quatre dimensions à deux tout en préservant les informations les plus importantes.
Partie 3: Calcul
Lorsque vous formez un modèle d’apprentissage automatique, il apprend les valeurs optimales des paramètres par optimisation. Et pour l’optimisation, vous avez besoin de calcul en action. Vous n’avez pas besoin de résoudre des intégrales complexes, mais la compréhension des dérivés et des gradients est nécessaire pour comprendre comment les algorithmes améliorent leurs performances.

Image de l’auteur | Idéogramme
La connexion d’optimisation: chaque fois qu’un modèle s’entraîne, il utilise le calcul pour trouver les meilleurs paramètres. La descente de gradient suit littéralement le dérivé pour trouver des solutions optimales. Comprendre ce processus vous aide à diagnostiquer les problèmes de formation et à régler efficacement les hyperparamètres.
Domaines clés: Focus sur les dérivés et gradients partiels. Lorsque vous comprenez qu’un dégradé pointe dans le sens d’une augmentation la plus abrupte, vous comprenez pourquoi la descente de gradient fonctionne. Vous devrez vous déplacer dans la direction de la diminution la plus raide pour minimiser la fonction de perte.
N’essayez pas d’envelopper votre tête dans l’intégration complexe si vous trouvez cela difficile. Dans les projets de science des données, vous travaillerez avec les dérivés et l’optimisation pour la plupart. Le calcul dont vous avez besoin consiste davantage à comprendre les taux de changement et à trouver des points optimaux.
Ressources:
Pratique: essayez de coder la descente de gradient à partir de zéro pour un modèle de régression linéaire simple. Utilisez Numpy pour calculer les gradients et mettre à jour les paramètres. Regardez comment l’algorithme converge vers la solution optimale. Une telle pratique pratique renforce l’intuition qu’aucune théorie ne peut fournir.
Partie 4: Quelques sujets avancés dans les statistiques et l’optimisation
Une fois que vous êtes à l’aise avec les principes fondamentaux, ces domaines aideront à améliorer votre expertise et à vous présenter des techniques plus sophistiquées.
Théorie de l’information: l’entropie et les informations mutuelles vous aident à comprendre la sélection des fonctionnalités et l’évaluation du modèle. Ces concepts sont particulièrement importants pour les modèles basés sur les arbres et présentent l’ingénierie.
Théorie de l’optimisation: Au-delà de la descente de gradient de base, la compréhension de l’optimisation convexe vous aide à choisir des algorithmes appropriés et à comprendre les garanties de convergence. Cela devient super utile lorsque vous travaillez avec des problèmes du monde réel.
Statistiques bayésiennes: aller au-delà des statistiques fréquentistes à la pensée bayésienne ouvre de puissantes techniques de modélisation, en particulier pour gérer l’incertitude et incorporer des connaissances antérieures.
Apprenez ces sujets projetés par projection plutôt que isolément. Lorsque vous travaillez sur un système de recommandation, plongez plus profondément dans la factorisation de la matrice. Lors de la construction d’un classificateur, explorez différentes techniques d’optimisation. Cet apprentissage contextuel colle mieux qu’une étude abstraite.
Partie 5: Quelle devrait être votre stratégie d’apprentissage?
Commencez par des statistiques; Il est immédiatement utile et renforce la confiance. Passez 2-3 semaines à se mettre à l’aise avec les statistiques descriptives, la probabilité et les tests d’hypothèse de base à l’aide de ensembles de données réels.
Passez à l’algèbre linéaire ensuite. La nature visuelle de l’algèbre linéaire le rend attrayant, et vous verrez des applications immédiates dans la réduction de la dimensionnalité et les modèles d’apprentissage automatique de base.
Ajoutez un calcul progressivement lorsque vous rencontrez des problèmes d’optimisation dans vos projets. Vous n’avez pas besoin de maîtriser le calcul avant de commencer l’apprentissage automatique – apprenez-le comme vous en avez besoin.
Conseils les plus importants: code à côté de chaque concept mathématique que vous apprenez. Les mathématiques sans application sont juste une théorie. Les mathématiques avec une utilisation pratique immédiate deviennent une intuition. Créez de petits projets qui présentent chaque concept: une analyse statistique simple mais utile, une implémentation de l’ACP, une visualisation de descente de gradient.
Ne visez pas la perfection. Visez les connaissances fonctionnelles et la confiance. Vous devriez être en mesure de choisir entre des techniques en fonction de leurs hypothèses mathématiques, de consulter la mise en œuvre d’un algorithme et de comprendre le calcul derrière lui, etc.
Emballage
L’apprentissage des mathématiques peut certainement vous aider à grandir en tant que scientifique des données. Cette transformation ne se produit pas grâce à la mémorisation ou à la rigueur académique. Cela se produit grâce à une pratique cohérente, à l’apprentissage stratégique et à la volonté de connecter les concepts mathématiques à de vrais problèmes.
Si vous obtenez une chose de cette feuille de route, c’est celle-ci: les mathématiques dont vous avez besoin pour la science des données sont apprenables, pratiques et immédiatement applicables.
Commencez par des statistiques cette semaine. Code à côté de chaque concept que vous apprenez. Construisez de petits projets qui présentent votre compréhension croissante. En six mois, vous vous demanderez pourquoi vous avez déjà pensé que les mathématiques derrière les sciences des données étaient intimidantes!
Bala Priya C est développeur et écrivain technique d’Inde. Elle aime travailler à l’intersection des mathématiques, de la programmation, de la science des données et de la création de contenu. Ses domaines d’intérêt et d’expertise incluent DevOps, la science des données et le traitement du langage naturel. Elle aime lire, écrire, coder et café! Actuellement, elle travaille sur l’apprentissage et le partage de ses connaissances avec la communauté des développeurs en créant des tutoriels, des guides pratiques, des pièces d’opinion, etc. Bala crée également des aperçus de ressources engageants et des tutoriels de codage.
Source link