Modèle prédictif de churn

Le graphique suivant montre à quoi ressemble l`année modélisée: les deux approches les plus populaires de la modélisation de désabonnement sont les techniques d`apprentissage automatique et l`analyse de survie, qui exigent chacune des structures de données distinctes et des procédures de sélection de fonctionnalités. En fin de compte, il n`y a pas de méthode de désabonnement unique qui est prouvée à travailler dans la plupart des situations; les modèles d`apprentissage automatique ou la régression de survie pourraient être appropriés en fonction de l`application. Avec les données d`entité enroulées pour chaque utilisateur, nous avons formé un modèle à l`aide de l`algorithme d`apprentissage automatique des arbres de décision boosté par gradient. Nous avons effectué une étude historique de six mois de la prédiction de désabonnement formation du modèle sur des dizaines de fonctionnalités (c.-à-d. les comportements d`utilisateur et d`application observables). Notre objectif était d`obtenir un niveau élevé de précision dans la prédiction du désabonnement, ainsi que des informations sur les facteurs qui l`influencent. La zone sous courbe pour notre modèle optimisé est 0,8461, ce qui suggère un bon modèle précis. Les choses changent fondamentalement avec le temps. Les modèles observés dans notre train ont peut-être changé dans l`ensemble de test, puisque celui-ci utilise des données plus fraîches. Même si cet effet peut être assez petit, il existera cependant toujours lorsqu`il s`agit de données dépendantes du temps (et de la stratégie de fractionnement de train/test), et c`est quelque chose qui doit être pris en compte lors de la création de ces modèles. Une bonne vérification de la santé mentale de tout modèle mathématique est si la description du modèle du monde correspond raisonnablement à notre compréhension de la façon dont le monde se comporte. L`intrigue ci-dessus montre la croissance comme étant beaucoup plus lisse que toutes les données réelles du monde.

Il atteint également un plateau dans lequel la croissance s`arrête. Nous avons maintenant un modèle descriptif pour le churn. Un modèle descriptif résume ce qui s`est passé, mais il est limité si nous voulons comprendre les tendances dans le churn. Avec un modèle descriptif, la seule chose que nous pouvons dire, c`est: «nous avons perdu 10% de nos clients ce mois-ci.» Dans l`exemple ci-dessus, nous pouvons voir que la régression logistique et la forêt aléatoire ont mieux performé que l`arborescence de décision pour l`analyse du désintérêt des clients pour ce jeu de données particulier. En regardant en arrière 60 jours dans les données des clients, nous avons roulé vers le haut des envois de message et l`application s`ouvre dans des fenêtres graduées avec des informations supplémentaires telles que la plate-forme d`appareil et l`ID d`application. Nous avons ensuite étiqueté chaque utilisateur comme ayant baratté ou non Baré selon qu`ils ouvrent l`application dans les 30 prochains jours. Cette requête ajoute plusieurs fonctionnalités au jeu de données de train (contenant la variable cible). Une intuition est que plus une personne est active, moins elle est susceptible de se barde. Ensuite, nous utilisons les statistiques récapitulatives de ces derniers pour estimer les μ et σ pour nos modèles.

Dit bericht is geplaatst in Geen categorie. Bookmark de permalink.