Row

Modele et permutations avec mlr

Variable perte_auc pct_importance
Sex Sex -0.1990305 43
Fare Fare -0.0648953 14
Pclass Pclass -0.0618330 13
Age Age -0.0591254 13
Embarked Embarked -0.0374797 8
SibSp SibSp -0.0195997 4
Parch Parch -0.0202082 4

Modele avec caret et permutations avec DALEX

Variable perte_auc pct_importance
Sex -0.1907766 68
Pclass -0.0379973 14
Age -0.0163009 6
Embarked -0.0135051 5
Parch -0.0094528 3
SibSp -0.0074802 3
Fare -0.0046436 2

Modele avec mlr et permutations a la main

Variable perte_auc pct_importance
Sex 0.1867356 60
Pclass 0.0434775 14
Fare 0.0320609 10
Age 0.0190613 6
Parch 0.0114388 4
SibSp 0.0097228 3
Embarked 0.0093705 3

Analyses des resultats

Comparaison des permutations de chaque package

  • Avec les permutations via mlr la variable Sex est nettement moins importante qu’avec les deux autres methodes : la fonction mlr:::doPermutationImportance entraine le modele sur un jeu de donnees et les previsions sont realisees sur ces memes donnees, les mesures d’AUC sont donc biaisees et on ne peut que deconseiller cette approche
  • DALEX permet de calculer facilement l’importance des variables de tout modele (pas seulement ceux de mlr ou caret) mais il ne realise que 10 permutations par defaut ce qui donne une mesure assez variable, il vaut mieux repliquer la mesure quelques dizaines de fois et prendre la moyenne des resultats (ce qu’on a fait)

Importance des variables

  • Les variables “Sex”, “Pclass” et “Age” sont classees a l’identique par les trois approches.
  • Les valeurs de perte d’AUC sont proches entre DALEX et les permutations manuelles sauf pour la variable “Fare” : les package mlr et caret n’ont pas les m?mes parametres par defaut pour la methode ranger (foret aleatoire), en particulier le modele de caret ne trouve pas la variable “Fare” tres influente …

Exemples d’application pratique

  • Quand une mesure specifique de l’importance des variables n’est pas convaincante, par exemple la “Variable Importance in Projection” de la regression PLS qui est tres artificielle
  • Quand on veut comparer equitablement l’importance des variables de deux modeles on doit la mesurer avec la meme methode. On peut vouloir comparer par exemple un modele de regression logistique en production et un modele en developpement construit avec de nouvelles variables et une autre methode (boosting d’arbres, …).