Projet de science des donnees
Bvant le début de chaque projet, il est important de poser des questions pour vous aider à comprendre sur quoi vous allez travailler au cours des prochaines semaines, voire des prochains mois. Des questions telles que ce que nous essayons d'accomplir, pourquoi essayons-nous d'accomplir et comment cela va-t-il bénéficier à l'utilisateur final sont-elles vraiment importantes à poser au début du projet car elles sont essentielles pour obtenir des résultats positifs et apporter de la clarté aux le problème que vous essayez de résoudre.
Voici une liste des questions que vous devriez poser avant le début de votre projet scientifique de données:
- Qui est le client, dans quel domaine d'activité se trouve le client ?
Comprendre dans quel domaine commercial se trouve le client, comment il opère, ce qui compte pour lui, quelles variables clés sont utilisées pour définir le succès dans cet espace vous permettra de créer une solution qui a un impact direct sur ce qui est important pour le client.
2. Quel problème commercial essayons-nous de résoudre ?
Le livre Fundamentals of Machine Learning For Predictive Data Analytics décrit parfaitement cela :
Les organisations n'existent pas pour faire de l'analyse prédictive des données. Les organisations existent pour faire des choses comme gagner plus d'argent, gagner de nouveaux clients, vendre plus de produits ou réduire les pertes dues à la fraude. Malheureusement, les modèles d'analyse prédictive que nous pouvons construire ne font rien de tout cela. Les modèles que les praticiens de l'analyse construisent font simplement des prédictions basées sur des modèles extraits d'ensembles de données historiques. Ces prédictions ne résolvent pas les problèmes commerciaux ; ils fournissent plutôt des informations qui aident l'organisation à prendre de meilleures décisions pour résoudre ses problèmes commerciaux.
Une étape clé de tout projet d'analyse de données consiste donc à comprendre le problème commercial que l'organisation souhaite résoudre et, sur cette base, à déterminer le type d'informations qu'un modèle d'analyse prédictive peut fournir pour aider l'organisation à résoudre ce problème. Cela définit la solution d'analyse que le praticien de l'analyse s'efforcera de créer à l'aide de l'apprentissage automatique .
Si l'objectif de votre entreprise est de réduire le taux de désabonnement des clients, une solution possible pourrait consister à créer un modèle de prédiction qui identifierait les clients les plus susceptibles de se désabonner dans un proche avenir.
3. Comment va-t-il être consommé par le client ?
Comprendre comment votre client utilisera la sortie de votre modèle vous permettra de créer votre travail qui lui est destiné. Par exemple, construisez-vous des modèles qui servent les utilisateurs internes et influencent la stratégie de l'entreprise, ou construisez-vous des modèles qui s'adressent aux clients.
4. Quel est l'impact économique de ce projet ?
Mettre un montant d'argent dans un projet est l'une des choses les plus difficiles à faire. Mais savoir comment votre produit de données générera des revenus ou réduira les coûts pour le client vous permet de faire preuve de leadership et de vous soutenir tout au long du projet.
5. Quel type de décisions notre fonctionnalité de science des données entraînera-t-elle ?
Quel est le modèle qui va leur donner les moyens de faire ce qu'ils ne pouvaient pas faire auparavant.
6. Quelle métrique allons-nous utiliser pour qualifier ce projet de réussite et comment allons-nous le mesurer ?
Avoir un objectif spécifique en tête vous assurera que votre projet a un résultat final et que vous n'y travaillez pas indéfiniment. Quantifiez quelle amélioration des valeurs des métriques est utile pour le scénario client (par exemple, réduire les coûts de main-d'œuvre de 20 %). La mesure doit être SMART ( S pécifique, M esurable, A chievable, R Elevant et T liés ime-). Par exemple : atteignez une précision de 20 % de la prédiction de l'attrition des clients d'ici la fin de ce projet de 3 mois afin que nous puissions offrir des promotions pour réduire l'attrition .
Imaginez un dialogue entre un data scientist (DS) et un chef de produit (PM) sur l'introduction d'une nouvelle fonctionnalité ML dans l'application conçue pour offrir une meilleure visibilité aux opérations d'entrepôt. Supposons que le chef de produit connaisse bien l'espace de l'entrepôt et ait déjà une fonctionnalité en tête.
DS : Je pense que le client ABC est confronté à un problème. Pouvez-vous m'aider à comprendre quel est le problème?
PM : Bien sûr. ABC lutte constamment pour atteindre son objectif de commandes quotidiennes.
DS : Qu'est-ce qu'un objectif de commande quotidien ?
PM : Les entrepôts fixent généralement un objectif de commande au début de la journée qu'ils essaient d'expédier avant la fin de leur journée. Par exemple, au début de la journée, un opérateur de l'entrepôt fixera un objectif de commande, disons 45 000 commandes, dont il a besoin pour sortir et expédier avant la fin de la journée.
DS : Compris ! Et pourquoi atteindre cet objectif quotidien est-il important pour eux ?
PM : Bonne question. Ne pas atteindre leur objectif de commande pour la journée signifie ne pas livrer leurs clients à temps, ce qui peut entraîner des coûts d'assistance supplémentaires, des dommages à la réputation et un désabonnement pour notre client. Et pour faciliter la vie du client, je propose de publier une fonctionnalité ML dans l'application qui aide notre client à mieux savoir s'il est sur la bonne voie pour atteindre son objectif de commande aujourd'hui en fonction de ses performances actuelles .
DS : Je vois. Et pourquoi pensez-vous que cette fonctionnalité leur est utile ? Quels types de décisions cela entraînera-t-il ?
PM : Bonne question. L'un des cas d'utilisation les plus importants est qu'il permettra aux opérateurs de l'entrepôt d'allouer la main-d'œuvre en conséquence dès le début. Par exemple, si notre prévision de commande expédiée pour la journée est inférieure à leur objectif quotidien, ils peuvent augmenter le nombre de travailleurs pour faire avancer les choses plus rapidement. Cela les aide donc à mener leurs opérations quotidiennes plus efficacement.
DS : Comment va-t-il être consommé par le client ?
DS : Ah, c'est un bon visuel — ça me rend les choses très claires. Cela va donc être une fonctionnalité en temps réel où nous mettons à jour les prévisions générées pour la journée toutes les heures ?
PM : Oui. C'est correct.
DS : Une autre question : qu'utilisent-ils actuellement et quelle est la valeur de référence (actuelle) de cette métrique ?
PM : Ils n'utilisent actuellement rien, et c'est pourquoi cette fonctionnalité apportera beaucoup de clarté à leurs opérations.
DS : Quel est l'impact économique de ce projet ? Et quels sont les critères de réussite ?
PM : Excellente question. Eh bien, si nos prévisions ont une erreur absolue moyenne de moins de 30% à la fin de cette période de 2 mois, nous pouvons appeler la première itération de ce projet terminée. En ce qui concerne l'impact économique, mon estimation approximative est que cette fonctionnalité leur permettra également d'optimiser leurs décisions de planification et d'allocation des ressources, ce qui les aidera à réduire la dépendance au travail et à réduire les coûts de 30%. Je vais devoir faire plus d'enquêtes et analyser quelques chiffres pour obtenir le montant exact en dollars.
DS : Ah, il semble que cette fonctionnalité augmentera l'efficacité de nombreux services pour notre client. Permettez-moi d'examiner les données, puis de prendre toutes ces informations et de créer un plan approximatif sur la façon dont je vais mener à bien ce projet, et de les partager avec vous et l'équipe pour obtenir des commentaires.
PM : Génial ! Merci.
Dans son livre Anticipate Failure , Lak Ananth a déclaré que « Chaque entreprise commence par cette composante du problème, de la solution et de la raison pour laquelle est-ce une entreprise convaincante ». De même, un projet de science des données doit commencer par une hypothèse du problème client que nous essayons de résoudre, pourquoi nous essayons de le résoudre et quel en sera l'impact.