Les 3 minutes Analytics : Comment créer un Group By dans KNIME ?

GroupBy KNIME

Bonjours à tous ! Prêt à suivre notre nouvel article de notre série Les 3 Minutes Analytics KNIME ? C’est parti ! A la fin de ce tutoriel, vous saurez manipuler le Group By. En effet, l’objectif de ce tutoriel est de vous aider à comprendre comment manipuler ce node GroupBy dans KNIME.

Pour rappel, vous suivez le parcours 2. Les différents modules du parcours 1 vous ont permis de devenir un KNIME beginner avec les fonctionnalités de base. Place au parcours 2 pour devenir un KNIME rookie.

🎞 Mydral vous propose également de découvrir en vidéo ce tutoriel :

 

 

Dans illustrer mon tutoriel, j’utilise un fichier CSV qui concerne les commandes d’une entreprise appelée Sport Up, et le node GroupBy. L’objectif de cet exemple est de connaitre le client qui commande le plus de fois et le nombre de clients uniques par territoire.

 

Etape 1 : Le Node GroupBy

 

Je remarque que sous mon node GroupBy, il y a un message d’alerte.

Node GroupBy KNIME

Ce message  m’informe qu’il doit être configuré. Clic droit -> Configure.

Lors de l’ouverture du panneau de configuration, celui-ci se divise en deux parties.

La première partie affiche les onglets et deux colonnes. La colonne de gauche donne la liste de vos colonnes que vous pouvez glisser dans la colonne de droite pour les grouper. Ici, la colonne Territory Name est la colonne qui va être groupée.

GroupBy Node KNIME

Etape 2 : les paramètres avancés du node GroupBy

 

La seconde partie concerne les paramètres avancés tels que :

Colunm Naming : choix du nom des colonnes qui seront agrégées

Enable Hiligting : pour mettre en lumière vos colonnes

Process in memory : donne une meilleure performance sur les petits jeux de donnée

Retain row order : garde l’ordre du jeu de donnée

Maximum unique values per group : évite la surcharge de mémoire

Value delimiter : est la valeur qui délimite

 

Node GroupBy KNIME

 

Dans cet exemple, je n’ai rien changé aux paramètres avancés.

Ensuite, il y a trois possibilités d’agréger des valeurs, manuellement comme dans cet exemple, par pattern ou par type.

Sur l’onglet Manual Aggregation, je vais choisir Customer ID deux fois, chaque ligne va avoir une agrégation.

La première ligne sera avec Mode pour m’indiquer le client qui a passé le plus de commandes par territoire et la seconde ligne est Unique count afin de connaitre le nombre unique de clients par territoire.

Manipuler un node GroupBy KNIME

 

Selon certaines agrégations il est possible d’inclure les valeurs manquantes en cochant la case à droite de l’agrégation choisie.

Pour choisir l’agrégation de Customer ID, je dois dérouler le menu avec un clic comme dans l’exemple ci-dessous :

Node GroupBy KNIME

 

Il est possible de chercher des informations sur une agrégation, vous trouverez son descriptif dans l’onglet Description en haut à côté de l’onglet Settings.

 

Node GroupBy KNIME

 

Une fois la configuration terminée, je l’exécute et demande à voir son résultat avec Group Table.

 

Etape finale ! Voici le résultat :

 

Node GroupBy KNIME

En Australie le client qui passe le plus de commande est le numéro 29488 et il y a 3625 clients uniques.

Merci d’avoir suivi cet article, j’espère qu’il vous a été utile. Pour rappel, les 3 Minutes Analytics sont une série de parcours et de différents modules pour maîtriser les fonctions principales de la solution KNIME.

Votre avis nous intéresse ! Quatre parcours de KNIME Beginner à KNIME expert vous attendent. Parlez-nous de votre parcours KNIME en commentaires !

Suivez-nous sur les réseaux sociaux : LinkedIn & Twitter !

Laissez un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.