Analyses des resultats
Comparaison des permutations de chaque package
- Avec les permutations via mlr la variable Sex est nettement moins importante qu’avec les deux autres methodes : la fonction mlr:::doPermutationImportance entraine le modele sur un jeu de donnees et les previsions sont realisees sur ces memes donnees, les mesures d’AUC sont donc biaisees et on ne peut que deconseiller cette approche
- DALEX permet de calculer facilement l’importance des variables de tout modele (pas seulement ceux de mlr ou caret) mais il ne realise que 10 permutations par defaut ce qui donne une mesure assez variable, il vaut mieux repliquer la mesure quelques dizaines de fois et prendre la moyenne des resultats (ce qu’on a fait)
Importance des variables
- Les variables “Sex”, “Pclass” et “Age” sont classees a l’identique par les trois approches.
- Les valeurs de perte d’AUC sont proches entre DALEX et les permutations manuelles sauf pour la variable “Fare” : les package mlr et caret n’ont pas les m?mes parametres par defaut pour la methode ranger (foret aleatoire), en particulier le modele de caret ne trouve pas la variable “Fare” tres influente …
Exemples d’application pratique
- Quand une mesure specifique de l’importance des variables n’est pas convaincante, par exemple la “Variable Importance in Projection” de la regression PLS qui est tres artificielle
- Quand on veut comparer equitablement l’importance des variables de deux modeles on doit la mesurer avec la meme methode. On peut vouloir comparer par exemple un modele de regression logistique en production et un modele en developpement construit avec de nouvelles variables et une autre methode (boosting d’arbres, …).