Tools & Stacks

Seaborn Python MissingNo Pandas Matplotlib Numpy json Scipy Analyse statistique Sklearn Jupyter-Notebook mlextend
portfolio thumbnail

Concevez une application au service de la santé publique

Détail du projet

Problématique

 

Utiliser les données de la fondation Open Food Fact pour concevoir une application au service de la santé publique.

 

 

Notre idée : AlertGène

Une application permettant de scanner le code-barre d'un produit pour détecter facilement les allergènes présents et se faire recommander des produits similaires sans allergènes et si possible de meilleure qualité nutritionelles.

 

Dans ce but nous avons réalisé diverses analyses statistiques pour vérifier le lien entre qualité nutritionelle et présence d'allergènes.

 

Analyses Univariées

 

allergens_tags : 

 

Affichage des allergènes les plus fréquents et des ensembles les plus fréquents.

 

Le graphique ci-dessus montre pour certains produits (en abscisse) la présence (orange) ou l'absence (bleu) des allergènes les plus fréquents.

 

 

allergens_n :

Le nombre d'allergènes présent dans un produit.

 

 

 

Le même travail a été réalisé sur les traces, si leur affichage n'est pas obligatoire dans la liste des ingrédients, les industriels prennent leur précaution et notre application devra donc laisser le choix final au consommateur.

 

 

Nova Group

 

Classement qui indique le taux de transformation des aliments, plus le groupe est faible, plus l'aliment est proche de ses matières premières.

 

 

 

Nutriscore_score

 

Représente la qualité nutritionelle d'un produit. Il s'agit d'un score allant de -15 à 40 basé sur la proportion des différents nutriments dans le produit. Nous avons toutefois modifié l'échelle pour travailler avec un score de 0 à 100.

 

 

Comme on pouvait s'en douter au vu du graphique ci-dessus, les différents tests statistiques (Shapiro-Wilk, Anderson-Darling, Kolmogorov-Smirnoff) ont montrés que ce score ne suit pas une distribution normale. Le QQ-plot réalisé montre bien que la distribution est bimodale.

 

 

 

Analyses Bivariées

 

 

allergens_n et nova_group

L'ultra-transformation des produits alimentaires entraîne-t-elle une augmentation de la présence d'allergènes ?

 

 

 

Il semblerait bien qu'il y ait un lien entre ces deux variables, avec une faible corrélation r=0.243...

 

Nous ne pouvons pas réaliser d'ANOVA sur ces données car les hypothèses ne sont pas validées, le test de Levene montre que nos groupes ont des variances différentes et celui de Kolmogorov-Smirnov qu'aucun d'entre eux n'est normalement distribué. Toutefois nous avons pu réalisé un test non parametric de Kruskal-Wallis qui a démontré une différence de médiane entre ces groupes.

 

 

allergens_n et nutriscore_score

 

L'idée de notre application est d'identifier les produits contenant des allergènes et de recommander à l'utilisateur des produits similaires en termes de qualités nutritionnelles.

Il est donc intéressant de se pencher sur les liens entre nombre d'allergènes et qualité nutritionnelle des produits.

 

On peut montrer qu'il n'existe pas de relation linéaire entre ces deux variables avec un R² de 0.

 

 

 

Analyses Multivariées

 

Corrélations

 

 

Ce graphique ne montre aucune corrélation importante autre que celles attendues, par exemple les graisses instaturées et les graisses où encore le nutriscore et les graisses.

 

 

Pairplots

 

Ces graphiques peuvent être intéressants pour visualiser rapidement les relations inter et intra variables.

 

 

 

 

Analyse en Composantes Principales

L'ACP ne semble pas créer de clusters permettant d'expliquer la quantité d'allergènes dans un produit. Elle pourrait donner de meilleurs résultats si la distribution du nombre d'allergènes n'était pas aussi biaisée vers les faibles valeurs mais on ne peut donc pas conclure à un lien entre allergens_n et les autres colonnes.