Estimation des valeurs manquantes dans une base de données sur les propriétés des aliments par complétion matricielle à l’aide d’approches basées sur l’ACP

Citation

Mercier, S., Mondor, M., Marcos, B., Moresoli, C., Villeneuve, S. (2017). Estimation of missing values in a food property database by matrix completion using PCA-based approaches. Chemometrics and Intelligent Laboratory Systems, [online] 166 37-48. http://dx.doi.org/10.1016/j.chemolab.2017.04.008

Résumé en langage clair

Dans le cadre de ce travail, nous avons étudié cinq algorithmes de complétion matricielle pour l’estimation des valeurs manquantes dans une base de données sur les propriétés des aliments : l’analyse itérative en composantes principales avec et sans arrêt prématuré, la régression des scores ajustés avec et sans arrêt prématuré et l’analyse en composantes principales bayésienne variationnelle. La complétion matricielle a été appliquée dans le contexte d’une base de données sur les propriétés des aliments (31 propriétés × 663 observations) établie par méta-analyse pour la mise au point de nouveaux produits alimentaires, une nouvelle application de la complétion matricielle.

Résumé

© 2017. Dans le cadre de ce travail, nous avons étudié cinq algorithmes de complétion desmatrices pour l’estimation des valeurs manquantes dans une base de données sur les propriétés des aliments : l’ACP itérative avec et sans arrêt prématuré, la régression des scores ajustés avec et sans arrêt prématuré, et l'ACP bayésienne variationnelle. La complétion des matrices a été appliquée dans le contexte d’une base de données sur les propriétés des aliments (31 propriétés × 663 observations) établie par méta-analyse pour la mise au point de nouveaux produits alimentaires, une nouvelle application de la complétion des matrices. La base de données contenait 68,7 % de valeurs manquantes. L'ACP bayésienne variationnelle et la régression des scores ajustés avec arrêt prématuré étaient les algorithmes les plus exacts et expliquaient en moyenne 42 % et 40 %, respectivement, de la variance des valeurs manquantes. L’incorporation d’une étape d’arrêt prématuré dans les algorithmes de régression des scores ajustés et d'ACP itérative a réduit le surajustement et amélioré de manière significative leur exactitude. L’exactitude des estimations des valeurs manquantes variait significativement selon la propriété, et le coefficient de détermination pour chaque propriété avec l'ACP bayésienne variationnelle variait de 0,02 à 0,84. L’exactitude des estimations des valeurs manquantes était plus élevée lorsque des propriétés connues pour seulement quelques observations étaient incluses dans la base de données, ce qui signifie que les algorithmes de complétion des matrices ont réussi à utiliser l’information supplémentaire fournie par ces propriétés et améliorer l’estimation des autres propriétés dans la base de données. Pour 17 % de la base de données, les algorithmes de complétion des matrices ont permis de déterminer si la valeur manquante était supérieure ou inférieure à la valeur moyenne de la propriété avec un niveau de confiance supérieur à 90 %, fournissant ainsi des renseignements supplémentaires pour la caractérisation des produits sans coût expérimental.