Accueil > Forum TERATEC > Atelier 3

Forum TERATEC 2016
Atelier 3 - Mercredi 29 juin de 9h00 à 12h30
Algorithmes et outils pour applications Big Data

Relever le défi des traitements Big Data : un algorithme distribué de forêt aléatoire
Marc WOLFF, ingénieur d'application, MATHWORKS

Résumé : Le machine learning est une discipline désormais bien connue et très utilisée pour la valorisation de données et l’aide à la décision. Parmi les algorithmes de machine learning, les forêts aléatoires rencontrent un vif succès en raison de leur efficacité et de leur simplicité d’interprétation. Cependant, entraîner des modèles de type forêt aléatoire sur des jeux de données de très grande dimension représente un réel challenge technique. Nous présentons ici un algorithme de forêt aléatoire permettant de relever ce défi et de réaliser des traitements de machine learning sur des problèmes Big Data.

Les forêts aléatoires sont obtenues par assemblage d’un grand nombre d’arbres de décision (généralement plusieurs centaines). Une approche fréquemment utilisée pour accélérer l’entraînement de forêts aléatoires consiste à réaliser en parallèle l’entraînement des arbres de décision sous-jacents. Bien qu’efficace sur des jeux de données traditionnels, cette méthode n’est pas adaptée dans un cadre Big Data puisqu’elle nécessite de charger et de répliquer plusieurs fois les données traitées. Une approche plus appropriée consiste à développer un algorithme d’arbre décisionnel capable de traiter d’importantes volumétries de données. Ce faisant, nous obtenons automatiquement un modèle de type forêt aléatoire paré pour le Big Data en combinant plusieurs arbres de décision.

Afin d’exploiter la puissance de traitement d’un cluster de calcul et d’opérer sur des données distribuées en mémoire, l’algorithme d’arbre de décision parallèle proposé s’appuie sur du parallélisme de type SPMD (Single Program Multiple Data) et sur l’API MPI (Message Passing Interface) mise à disposition dans MATLAB. Nous présenterons enfin les résultats obtenus par cette approche, aussi bien en termes de performances que de volumétrie de données supportée.

Biographie : Marc Wolff est ingénieur d’application spécialisé en calcul parallèle et Big Data au sein de MathWorks. Après un master en calcul scientifique à l’Université de Strasbourg, Marc a poursuivi ses études par un doctorat en mathématiques appliquées au CEA (Commissariat à l’Energie Atomique). Au cours de sa thèse, il a contribué au développement de codes de simulation s’exécutant sur des infrastructures figurant parmi les plus grands supercalculateurs mondiaux.

Inscrivez-vous dès à présent et obtenez votre badge en cliquant ici

  • Le Forum TERATEC est strictement réservé aux professionnels.
  • Participation gratuite aux conférences et aux ateliers (sous réserve des places disponibles).
  • L'enregistrement en ligne est obligatoire. Le plan Vigipirate étant porté à son niveau le plus élevé, il est obligatoire de s'inscrire en ligne préalablement et de venir muni(e) d'une pièce d'identité pour pouvoir participer au Forum TERATEC.
  • Le badge délivré vous donnera accès gracieusement à l'ensemble des évènements du Forum TERATEC

Pour toute autre information concernant les ateliers techniques, prière de contacter :

Jean-Pascal JEGU
Tél : +33 (0)9 70 65 02 10 - Mob.: +33 (0)6 11 44 49 59
jean-pascal.jegu@teratec.fr
Campus TERATEC
2, rue de la Piquetterie
91680 BRUYERES-LE-CHATEL
France

© Teratec - Tous droits réservés - Mentions légales