Fusion de données et analyse multivariée pour l'analyse de l'authenticité des aliments

Nature Communications volume 14, Numéro d'article : 3309 (2023) Citer cet article

322 accès

40 Altmétrique

Détails des métriques

Une fusion de données de niveau intermédiaire couplée à une approche d'analyse multivariée est appliquée aux ensembles de données de spectrométrie de masse à double plate-forme à l'aide de la spectrométrie de masse à ionisation par évaporation rapide et de la spectrométrie de masse à plasma à couplage inductif pour déterminer la classification correcte de l'origine du saumon et des méthodes de production. Des saumons (n = 522) provenant de cinq régions différentes et de deux méthodes de production sont utilisés dans l'étude. La méthode atteint une précision de classification de validation croisée de 100 % et tous les échantillons de test (n = 17) ont leurs origines correctement déterminées, ce qui n'est pas possible avec les méthodes à plate-forme unique. Dix-huit marqueurs lipidiques robustes et neuf marqueurs élémentaires sont trouvés, qui fournissent des preuves solides de la provenance du saumon. Ainsi, nous démontrons que notre fusion de données de niveau intermédiaire - stratégie d'analyse multivariée améliore considérablement la capacité d'identifier correctement l'origine géographique et la méthode de production du saumon, et cette approche innovante peut être appliquée à de nombreuses autres applications d'authenticité alimentaire.

La consommation mondiale de saumon est trois fois plus élevée qu'elle ne l'était en 19801. Ce qui était autrefois considéré comme un mets délicat est aujourd'hui l'une des espèces de poisson les plus populaires aux États-Unis (US)2, en Europe (UE)3 et dans les pays asiatiques4. Les saumons de l'Atlantique et du Pacifique sont les deux principales sources de saumon dans le monde. Près de 70 % de toute la production de saumon est d'élevage et en 2020, plus de 2,6 millions de tonnes de saumon d'élevage ont été produites, contre seulement environ 550 000 tonnes de saumon sauvage1. Les prix du saumon peuvent être volatils5 mais ont plus que doublé au cours des 10 dernières années et sont maintenant plus élevés que de nombreux produits comparables6. L'aquaculture à grande échelle est utilisée pour produire du saumon atlantique dans les hémisphères nord et sud et est devenue le poisson le plus couramment élevé dans le monde occidental7,8.

Les principales régions de consommation de saumon sont l'UE, suivie des États-Unis, du Brésil, de la Chine, de la Russie et du Japon9. Lorsque les consommateurs chinois ont été interrogés, il a été constaté que la qualité et la valeur étaient les facteurs les plus importants lors de l'achat de saumon. Cinquante sept pour cent des personnes interrogées pensaient que le saumon sauvage d'Alaska avait meilleur goût que la variété d'élevage, ce qui indique que les consommateurs chinois étaient plus intéressés par l'achat de saumon sauvage pêché10. Les consommateurs japonais profitent du marché du saumon le plus diversifié au monde. Le prix du saumon sur ce marché est déterminé par l'offre et la demande totales de toutes les espèces de poissons11. Un rapport a montré que dans certaines régions d'Amérique du Nord, les consommateurs de fruits de mer ont une préférence pour le saumon sauvage par rapport au saumon d'élevage12. Cependant, ils peuvent ne pas recevoir le type et la qualité de saumon pour lesquels ils ont payé. Hu et al.13 utilisant des méthodes de codes-barres ADN et de mini-codes-barres ADN ont révélé un taux d'erreur d'étiquetage de 25 % dans les produits de poisson de Vancouver. Un problème majeur est que le saumon peut voyager d'un bateau de pêche en Alaska à une usine de transformation chinoise, puis à un point de vente au détail à New York, tandis que les informations sur le poisson, telles que son origine et s'il a été capturé ou élevé, peuvent se perdent ou sont frauduleusement modifiés lorsqu'ils voyagent le long de cette chaîne d'approvisionnement des plus complexes14.

Dans la littérature scientifique, les mesures pour identifier les erreurs d'étiquetage du poisson sont courantes dans le domaine de la recherche sur l'authenticité15. Le code-barres ADN a été utilisé pour identifier le marché du remplacement du saumon de l'Atlantique par le saumon du Pacifique16. Plus récemment, Deconinck et al.17 ont présenté une méthode de PCR numérique par gouttelettes pour l'identification et la quantification du pourcentage de saumon atlantique dans les produits alimentaires transformés et mélangés, permettant l'identification et la semi-quantification des tissus spécifiques au saumon dans les produits alimentaires transformés contenant plusieurs espèces. . Au cours des dernières années, la spectrométrie de masse (MS) est devenue un outil de plus en plus populaire dans la recherche sur l'authenticité des aliments. Fiorino et al.18 ont décrit une méthode d'analyse directe en temps réel – spectrométrie de masse à haute résolution (DART-HRMS) pour la discrimination des saumons de type sauvage et d'élevage. Alors que des études antérieures ont fait état de techniques d'analyse de l'authenticité des saumons, ces méthodes sont soumises à de longues procédures de préparation des échantillons et n'ont pas atteint un niveau de précision suffisant en termes de traçabilité géographique19. Une spectroscopie dans le proche infrarouge et une méthode ICP-MS ont été développées, combinées à des approches chimiométriques pour déterminer la discrimination entre les saumons d'élevage chilien et d'origine norvégienne20. Plus récemment, Chang et al.21 ont publié une méthode LC-HRMS pour discriminer l'origine du saumon atlantique de Norvège et du Chili. La surveillance de l'authenticité de l'origine géographique du saumon est nécessaire, mais la provenance et le nombre d'échantillons requis pour développer et valider des méthodes non ciblées doivent être soigneusement pris en compte car cela aura une énorme influence sur la robustesse de toute procédure développée.

Le modèle de croissance de croisière du saumon rend sa qualité alimentaire fortement influencée par l'environnement de croissance, le régime alimentaire et les réponses au stress aigu22, de sorte qu'une seule approche analytique est très peu susceptible de fournir toutes les informations nécessaires pour garantir l'authenticité. La spectrométrie de masse à ionisation par évaporation rapide (REIMS) est une technique qui s'est avérée fournir des analyses in situ en temps réel sans nécessiter de prétraitement d'échantillon, et a démontré d'excellentes performances dans une gamme d'applications d'authenticité alimentaire, et la plupart en particulier dans les analyses de poissons23,24. La spectrométrie de masse à plasma à couplage inductif (ICP-MS) a été considérée comme le premier choix de plates-formes d'instruments pour effectuer une analyse élémentaire, et il s'est avéré être une technique puissante pour les tests d'authenticité des aliments, ayant été utilisée pour déterminer l'origine géographique de divers aliments. produits tels que le riz25, le thé26 et le miel27.

Des études récentes ont montré que la fusion de données couplée à des approches chimiométriques peut évaluer et classer efficacement la qualité des denrées alimentaires, indiquant le potentiel significatif de la fusion de données et de l'analyse statistique multivariée dans la recherche sur l'authenticité des aliments28,29,30. Robert et al.31 ont étudié la capacité prédictive de la spectroscopie Raman et infrarouge couplée à des stratégies de fusion de données, pour évaluer la qualité de la viande rouge. Une étude menée par Ottavian et al.32 a confirmé que les stratégies de fusion de données peuvent être utilisées efficacement pour améliorer la précision de la classification dans la discrimination des poissons frais et congelés-décongelés. Néanmoins, aucune recherche préalable sur l'utilisation combinée de l'ICP-MS et du REIMS couplée à la fusion de données et à l'approche d'analyse multivariée pour authentifier l'origine du saumon et la méthode de production n'a été entreprise.

L'objectif de la présente étude était d'établir la meilleure façon de déterminer l'authenticité du saumon en termes de ses origines géographiques et de différencier les origines sauvages des origines d'élevage. Deux plates-formes de spectrométrie de masse différentes ont été utilisées pour entreprendre des approches lipidomiques et élémentomiques et les données générées ont été soumises à une modélisation chimiométrique avancée et à un apprentissage automatique.

Un grand nombre (n = 522) d'échantillons de saumon de provenance connue ont été prélevés dans quatre régions (Alaska, Norvège, Islande et Écosse) et selon deux méthodes de production (d'élevage et sauvage). Ceux-ci ont été analysés pour identifier et caractériser des biomarqueurs basés sur leurs profils lipidiques et élémentaires qui pourraient être utilisés pour vérifier les origines et la méthode de production du saumon. Une méthode d'analyse de données multivariée basée sur la fusion de données de niveau intermédiaire a été utilisée pour démontrer comment cette technique peut être utilisée pour fournir une approche précise et scientifique pour vérifier la traçabilité du saumon. Dix-sept échantillons de saumon achetés dans un certain nombre de supermarchés basés au Royaume-Uni ont été utilisés pour évaluer la robustesse et la crédibilité de cette méthode.

Pour explorer la capacité d'identifier des régions spécifiques d'élevage de saumon, l'analyse des composés principaux (ACP) a été adoptée comme méthode d'extraction de caractéristiques linéaires non supervisée pour réduire la dimensionnalité des données REIMS. Les données spectrales résultantes ont été prétraitées avant d'être soumises à l'ACP. Les résultats, illustrés à la Fig. 1a, démontrent les différences relatives entre les quatre régions incluses dans l'étude (Alaska, Norvège, Islande et Écosse). Des parcelles de charge ont été utilisées pour révéler la composition individuelle des composants principaux dans le PCA (Fig. 1b). Les fonctions de chargement (Fig. 1c) pour les données de masse montrent la contribution des pics spectrométriques de masse individuels à la deuxième composante principale (PC2). Les pics du diagramme de charge correspondent aux espèces d'acides gras (y compris les acides gras insaturés et ramifiés), les diacylglycérophosphoglycérols (GP0401), les diacylglycérophosphocholines (GP0101) et les triradylglycérols (GL0301), des identifications provisoires étant effectuées à l'aide de la base de données LipidMaps33.

un diagramme de score PCA parmi le saumon d'Alaska, le saumon islandais, le saumon norvégien et le saumon écossais : des différences intra-groupe ont été observées dans le modèle PCA pour le groupe islandais (point bleu clair). PC1 et PC3 sont représentés pour plus de clarté. PC1 a contribué à 38,37 % du total des variations expliquées, et PC3 a une contribution de 15,26 % au total des variations expliquées. b Diagramme de charge PC1 et PC3 parmi 4 groupes de saumons. c Diagramme de charge PC2 parmi 4 groupes de saumons, qui avaient une contribution de 24,0 % dans le total des variations expliquées. d Graphique du score PCA entre le saumon d'élevage islandais et le saumon sauvage islandais. e Parcelle de chargement PC1 et PC2 entre le saumon islandais sauvage et d'élevage.

Le groupe de saumon islandais a été clairement divisé en deux sections dans le graphique PCA (Fig. 1a). L'un d'eux concernait 90 échantillons de saumon sauvage, les 50 échantillons restants provenant d'élevages. Un modèle chimiométrique (Fig. 1d) a été créé pour classer les échantillons de saumon d'Islande comme «saumon sauvage» ou «saumon d'élevage», et le graphique du score PCA montre clairement des différences substantielles entre ces deux groupes de saumons. Les résultats CV-ANOVA du modèle PCA ont montré qu'il y avait une différence significative entre les groupes islandais de saumons d'élevage et sauvages (p < 0,001). La figure 1e montre le diagramme de charge entre PC1 et PC2, qui montre à nouveau clairement les différences entre les cinq groupes, tout comme les spectres de masse de tous les groupes d'échantillons de saumon (Fig. S1 supplémentaire).

Une modélisation supervisée a ensuite été entreprise, en utilisant la modélisation des moindres carrés partiels orthogonaux - analyse discriminante (OPLS-DA), des moindres carrés partiels - analyse discriminante (PLS-DA) et de l'analyse en composantes principales - analyse discriminante linéaire (PCA-LDA). . Il s'agissait d'identifier les marqueurs chimiques individuels qui présentaient les plus grandes variations d'intensité ionique entre chaque groupe de saumons. La modélisation OPLS-DA (Fig. S2 supplémentaire) des groupes de saumon sauvage et de saumon d'élevage d'Islande a montré les différences les plus nettes entre les deux classes et a été utilisée dans la sélection et l'identification des biomarqueurs. Plusieurs S-plots ont été générés en comparant un groupe avec les quatre groupes restants afin d'identifier les marqueurs chimiques qui sont uniques à chaque groupe individuel. Cela a été répété quatre fois jusqu'à ce que chaque groupe soit analysé individuellement par rapport à une combinaison des groupes restants, ce qui a entraîné la génération de cinq parcelles en S (Fig. S3 supplémentaire).

Comme le montre le tableau 1, les variations d'intensité ionique d'un total de 18 biomarqueurs candidats ont permis de différencier les cinq groupes de saumons. Cependant, l'identification de l'origine du saumon ne peut pas être basée uniquement sur ces biomarqueurs (Fig. S6 supplémentaire) car le nombre de caractéristiques est trop petit pour obtenir une grande précision. Les données d'analyse MS ont été utilisées pour identifier provisoirement les biomarqueurs, initialement identifiés selon le système d'identification des composés HRMS de niveau 1 à 4 proposé par Schymanski et al.34, qui ont ensuite été comparés aux groupes de lipides dans la base de données LipidMaps33. Ces biomarqueurs ont été provisoirement identifiés comme des groupes lipidiques appartenant aux acides gras insaturés, aux amides primaires, aux acides gras ramifiés, aux N-acylamines, aux diacylglycérophosphoglycérols, aux diacylglycérophosphocholines et aux triacylglycérols. Comme l'objectif de ce travail n'était pas d'étudier les positions des liaisons C = C ou la présence de ramification de chaîne pour le FA détecté, le site des liaisons carbone-carbone pi n'a pas été identifié davantage.

Parmi les 18 lipides biomarqueurs, huit (FA 15:1, FA 18:3, FA 20:5, FA 22:6, FA 22:1, FA 18:2, FA 18:1, NA 7:0) ont été trouvés être des biomarqueurs représentatifs dans au moins trois groupes de saumons (tableau supplémentaire S1), par exemple, le bac de masse 327,3 contenait un biomarqueur trouvé dans les cinq groupes de saumons qui pouvait être utilisé pour différencier ces groupes en fonction de l'intensité de ce composé. Étant donné que ces huit lipides étaient courants chez le saumon, leur teneur relative dans les cinq groupes de saumons a été évaluée respectivement (Fig. 2a). Les profils d'acides gras parmi les groupes de saumons ont montré des différences, et lorsque le groupe d'élevage (norvégien, écossais et islandais) a été comparé au groupe sauvage (alaskien et islandais), ce dernier groupe a démontré des niveaux plus élevés d'oméga-3 bénéfiques pour la santé. acides gras : DHA (FA 22:6), EPA (FA 20:5) et FA 22:1, mais niveaux inférieurs d'ALA (FA 18:3). Les acides gras ramifiés (FA 18:1, FA 18:2, FA 18:3) dans le saumon norvégien, le saumon écossais et le saumon d'élevage islandais étaient présents à des niveaux plus élevés que dans le saumon d'Alaska et le saumon sauvage islandais. Les écarts observés trouvés étaient très probablement dus à des différences dans les régimes alimentaires des saumons capturés dans la nature par rapport aux saumons d'élevage. L'utilisation accrue d'huiles dans les aliments pour saumons obtenus à partir de graines de soja, de lin et de colza, riches en AG tels que 18: 1, 18: 2 et 18: 3, concentrations FA 18: 2 et 18: 3 ont été signalées être plus abondant chez les saumons d'élevage18, ce qui concorde avec les données générées dans la présente étude.

a Histogramme des biomarqueurs lipidiques parmi le saumon d'Alaska, le saumon d'élevage islandais, le saumon sauvage islandais, le saumon norvégien et le saumon écossais. b Tracé du score PCA et c Tracé LDA des données spectrales REIMS (m/z 200–1200) obtenues à partir de cinq groupes de saumons. Pour les empreintes digitales des spectres de masse de cinq groupes, voir la Fig. S1 supplémentaire.

La Norvège, le plus grand producteur mondial de saumon atlantique d'élevage35, a la teneur relative la plus élevée en AG 18:1, 18:2 et 18:3 dans son saumon d'élevage, tandis qu'en termes de teneur en acides gras insaturés, le saumon norvégien s'est également bien comporté. Il est intéressant d'observer que, après le saumon d'Alaska, le saumon d'élevage norvégien a atteint la deuxième teneur relative la plus élevée en FA 15: 1 parmi les cinq groupes, probablement en raison de l'intérêt croissant de la recherche sur les composants alimentaires du saumon36. Il a été démontré que les régimes alimentaires du saumon ont un impact direct sur la composition des lipides musculaires et des acides gras ainsi que sur les performances de croissance37,38. Giuseppina et al.18 ont montré que la normalisation internationale des pratiques aquacoles adoptées pour le saumon peut supprimer les différences au niveau de l'AF attribuables à la localisation géographique. La combinaison des analyses lipidomique et élémentomique est donc plus susceptible d'être une méthode fiable et robuste pour déterminer la provenance du saumon.

Le tracé du score PCA montre les composés chimiques de chaque groupe d'échantillons. Les valeurs R2 et Q2 de 0,957 et 0,93 suggéraient que le modèle PCA était à la fois robuste et avait une bonne capacité prédictive vers des points de données supplémentaires. Il a déjà été démontré que la modélisation PCA-LDA fonctionne bien avec les données REIMS39. À la suite de cela, un modèle LDA a été construit à l'aide d'une base de données de référence peuplée de spectres de masse présentant des types de lipides de poisson de discrimination d'origine saumon, suivi d'une évaluation de la modélisation à l'aide d'une validation croisée à 20 %. Les modèles PCA-LDA (Fig. 2c) ont montré une séparation plus nette entre le saumon d'Alaska, le saumon d'élevage islandais, le saumon sauvage islandais, le saumon norvégien et le saumon écossais.

L'application de REIMS pour le profilage rapide de l'origine du saumon a été démontrée, et les empreintes lipidiques de saumon de cinq origines différentes et de deux méthodes de production ont été acquises avec succès pour la première fois dans la présente étude. Huit lipides ont été identifiés comme biomarqueurs représentatifs, sur un total de 5500 composants HRMS. Laisser 20 % de côté la validation croisée a fourni une précision d'identification de 100 % sur les échantillons de saumon lors de l'utilisation du modèle LDA (tableau supplémentaire S2).

Ce modèle a été utilisé pour identifier les origines du saumon acheté dans un certain nombre de supermarchés basés au Royaume-Uni (n = 17). Des valeurs aberrantes potentielles ont été trouvées dans trois échantillons de test (tableaux supplémentaires S2 et S6). Ces valeurs aberrantes étaient des échantillons de saumon d'élevage écossais. Les trois résultats aberrants ont été vérifiés auprès des fournisseurs au détail et la traçabilité complète de chacun a été confirmée, indiquant ainsi que des erreurs d'analyse plutôt qu'un mauvais étiquetage s'étaient produites et un taux de réussite global de 82,4 % d'identification correcte a été attribué à cette étude.

Une méthode de criblage a été établie par ICP-MS pour l'analyse des éléments suivants : Li, Be, B, Na, Mg, Al, Si, P, S, K, Ca, Sc, Ti, V, Cr, Mn, Fe, Co , Ni, Cu, Zn, Ga, Ge, As, Se, Rb, Sr, Y, Nb, Mo, Ag, Cd, Dans, Sn, Sb, Cs, Ba, Tb, Ho, Ta, W, Re, Hg , Tl, Pb, Bi, U. L'ACP et l'analyse de regroupement hiérarchique ont été entreprises sur les données pour obtenir la différence globale des éléments du saumon à partir des diverses origines des échantillons obtenus (les données ont été séparées en cinq groupes : saumon d'Alaska, saumon d'élevage islandais, saumon islandais). saumon sauvage, saumon norvégien et saumon écossais). Le graphique du score PCA montre la distribution des éléments de chaque groupe, représentant les différences d'éléments entre cinq groupes (Fig. 3a). Les valeurs de R2X et Q2, 0,98 et 0,85, respectivement, ont été obtenues, indiquant ainsi que le modèle PCA était à la fois robuste et stable. L'OPLS-DA a été utilisé comme modèle supervisé pour évaluer les données de la plateforme ICP-MS (Fig. 3b). Les résultats ont révélé qu'il y avait une bonne séparation entre les cinq groupes. L'OPLS-DA a abouti à tous les composants des éléments avec R2X = 1, R2Y = 0,76 et Q2 (cum) = 0,74. Cela suggérait fortement que le modèle OPLS-DA avait une forte capacité à expliquer les différences entre les échantillons et démontrait comment la distribution des éléments chez le saumon variait entre les cinq groupes d'échantillons.

a Diagramme des scores de l'ACP a identifié des éléments dans cinq groupes de saumons. b OPLS-DA pour la discrimination des origines géographiques du saumon. c Carte thermique du saumon d'Alaska, du saumon d'élevage islandais, du saumon sauvage islandais, du saumon norvégien et du saumon écossais, 20 éléments sont indiqués au-dessus de la carte thermique.

Avant une analyse plus approfondie des données, les éléments présentant des concentrations excessivement élevées et ceux dont les résultats quantitatifs étaient inférieurs à la limite de détection ont été supprimés. Les 20 éléments restants ont été sélectionnés à partir des données ICP-MS brutes ; Li, B, Al, V, Cr, Mn, Fe, Co, Ni, Cu, Zn, As, Se, Rb, Sr, Nb, Mo, Cd, Cs et Ta. Une analyse de variance unidirectionnelle de Kruskal-Wallis a été utilisée pour évaluer les données de l'ICP-MS afin d'évaluer la différence des éléments dans la chair de saumon parmi les cinq groupes. Le seuil de signification a été fixé à 0,05 avec un intervalle de confiance à 95 %. Les résultats ont montré qu'il y avait des différences élémentaires significatives entre les cinq groupes lorsqu'ils ont été comparés (tableau 2).

Les différences intergroupes de ces 20 éléments présents dans les cinq groupes d'échantillons de saumon ont ensuite été déterminées. Des cartes thermiques ont été construites à l'aide de concentrations normalisées pour des échantillons provenant de pays d'origine afin de définir leurs déterminations d'expression différentielle afin de révéler les relations uniques entre les différentes origines de saumon. Ceux-ci ont été représentés dans une carte thermique (Fig. 3c). Les données ICP-MS ont été normalisées par remise à l'échelle à l'aide de la méthode de normalisation min-max (remise à l'échelle de la plage de caractéristiques pour mettre à l'échelle la plage dans [0, 1]). Les éléments ont été regroupés en cinq grands groupes d'échantillons : le saumon d'Alaska, le saumon d'élevage islandais, le saumon sauvage islandais, le saumon norvégien et le saumon écossais. Les changements graduels en rose, blanc et bleu reflètent le moment où la concentration d'un élément dans le saumon passe de élevée à faible et illustre les différences substantielles dans les niveaux de Li, B, V, Fe, Co, Zn, Se, As et Cd dans les cinq groupes.

Une analyse de comparaison par paires d'éléments a été utilisée pour évaluer davantage la différence entre les cinq groupes (Fig. 4). Les résultats ont montré qu'il n'y avait pas de différence statistiquement significative dans les niveaux de lithium entre les échantillons de saumon d'élevage en Alaska et en Islande (p = 0,28). La teneur en bore était sensiblement plus faible chez le saumon sauvage islandais que dans les quatre autres groupes, et la teneur en vanadium était plus faible chez le saumon d'élevage islandais. Dans les échantillons de saumon sauvage d'Alaska et d'Islande, les niveaux de fer étaient plus élevés que les trois groupes de saumon d'élevage. Le cobalt n'a montré aucune différence significative dans les concentrations entre le saumon norvégien et le saumon écossais (p = 0,14). Le saumon d'Alaska avait la plus faible teneur en cobalt parmi tous les groupes. Les niveaux de zinc dans le saumon d'Alaska, le saumon sauvage islandais et le saumon d'élevage islandais étaient plus élevés que ceux du saumon produit en Écosse et en Norvège. Il n'y avait pas de différence significative dans les concentrations de zinc entre le saumon d'Alaska et le saumon d'élevage islandais (p = 0,62). Il a été démontré que les groupes de saumons sauvages d'Alaska et d'Islande avaient des niveaux de sélénium plus élevés que les trois autres groupes.

La figure illustre les variations importantes des niveaux de Li, B, V, Fe, Co, Zn, Se, As et Cd dans les cinq groupes de saumons. Les groupes de saumon sauvage présentaient des niveaux élevés de Fe, Zn, Se et Cd par rapport aux groupes d'élevage.

Les résultats ont également montré que les échantillons de saumon d'Islande (y compris d'élevage et sauvages) avaient une teneur en arsenic plus élevée que ceux provenant de Norvège et d'Écosse. Il n'est pas trop surprenant de trouver de l'arsenic dans le saumon, car les organismes marins consommés par cette espèce peuvent contenir des niveaux élevés d'arsenic40. La toxicité de l'arsenic n'est pas uniquement liée à la concentration totale, mais dépend également des espèces d'arsenic présentes, car la biodisponibilité et la bioaccumulation dans les organismes marins sont influencées par la spéciation de l'arsenic40.

Le cadmium a également été détecté dans les cinq groupes d'échantillons de saumon, avec des niveaux nettement plus élevés chez le saumon sauvage d'Alaska et d'Islande (Fig. 4). Il n'y a eu aucun rapport précédent de détection de cadmium dans le saumon. Le cadmium présente un plus grand danger pour la santé en raison de sa très faible excrétion dans le corps humain, et le Centre international de recherche sur le cancer a classé le cadmium comme cancérogène pour l'homme (groupe I)41. On a observé que le saumon sauvage avait des niveaux plus élevés de Fe, Zn et Se.

Le modèle OPLS-DA a été évalué à l'aide d'une validation croisée quintuple. Li, B, V, Fe, Co, Zn, Se, As et Cd ont été trouvés comme marqueurs. Cependant, il s'est avéré difficile de distinguer l'origine des échantillons de test en utilisant seulement neuf marqueurs élémentaires (Fig. S7 supplémentaire). Ainsi, en utilisant l'ensemble de données complet, une précision de classification de 96,9 % a été obtenue pour la différenciation entre cinq groupes d'échantillons de saumon (tableau supplémentaire S3). Sur les 17 échantillons de vente au détail, seuls 11 avaient leurs origines correctement identifiées (précision de 65,5%). Les résultats de la mauvaise classification ont été observés dans six échantillons (tableaux supplémentaires S3 et S4). Contrairement aux résultats de la classification REIMS qui présentaient des problèmes d'identification du saumon écossais, les six erreurs de classification ICP-MS concernaient des échantillons de saumon sauvage de l'Alaska.

La procédure expérimentale et d'analyse des données est illustrée à la Fig. 5. L'acquisition de données d'échantillons de saumon à l'aide de REIMS et d'ICP-MS a été effectuée. Des techniques de fusion de données de bas niveau et de fusion de données de niveau intermédiaire ont été utilisées pour déterminer la méthode de fusion de données la plus appropriée. Par la suite, six modèles chimiométriques ont été analysés et optimisés afin de sélectionner le plus adapté à l'analyse d'authenticité de l'origine et du type de production du saumon. Le modèle sélectionné a ensuite été utilisé pour effectuer cette analyse.

L'acquisition des données a été réalisée à l'aide des méthodes REIMS et ICP-MS. La fusion et la modélisation des données ont ensuite été réalisées. PLS-DA et OPLS-DA, identifiés comme les modèles optimaux dans cette recherche, se sont avérés efficaces pour analyser la traçabilité de l'origine du saumon.

Pour tester les origines géographiques du saumon, deux types d'ensembles de données de spectrométrie de masse (un de REIMS, un d'ICP-MS) ont été utilisés pour la formation et l'évaluation du modèle. Pour REIMS, une analyse des données a été effectuée : (i) une soustraction de fond et un seuil d'intensité de comptage total d'ions (<1 × 10−5) ont été utilisés pour supprimer le bruit de fond et les composés de faible intensité qui peuvent introduire une variabilité excessive dans le processus de modélisation, (ii ) appliquer une correction de masse verrouillée, pour s'assurer que toute dérive de la stabilité du spectromètre de masse entre les échantillons et traverser différents jours est minimisée pour améliorer les performances de modélisation, (iii) regrouper les données de masse HRMS à 0,2 Da pour réduire le nombre de variables utilisées dans le processus de modélisation, tout en simultanément augmenter le niveau d'alignement des caractéristiques entre les échantillons individuels. En conséquence, 5500 points de données ont été obtenus à partir de chaque échantillon. Pour l'ICP-MS, un matériau de référence certifié (CRM), qui comprenait 20 éléments, a été utilisé pour normaliser les données d'origine et surveiller les performances de l'instrument.

Deux types de fusion de données ont été comparés ; fusion de données de bas niveau et fusion de données de niveau intermédiaire. La fusion de données de bas niveau combine plusieurs sources de données brutes pour produire de nouvelles données brutes (Fig. 6a). Les 5 premiers composés principaux (PC) ont expliqué 90,3 % de la variation dans l'ensemble de données d'origine (R2X cumulé = 0,90), démontrant le succès de la fusion de données de bas niveau. De plus, avec des valeurs de Q2 de 0,90, le modèle PCA s'est avéré avoir une grande capacité à expliquer les différences entre les groupes de saumons. Et les 23 premiers PC ont expliqué 95 % de la variation dans l'ensemble de données d'origine (R2X cumulé = 0,95), et la capacité prédictive du modèle est Q2 = 0,94.

a Fusion de données de bas niveau, utilisant la normalisation min-max, tracé du score PCA de 5 groupes de saumons avec normalisation min-max des données. b Tracé du score PCA de fusion de données de niveau intermédiaire de 5 groupes de saumons. c Diagramme de la variance expliquée accumulée du composé principal ICP-MS. d Diagramme de la variance expliquée accumulée composée principale de REIMS. e L'évaluation de la valeur k du modèle k-NN basée sur la fusion de données de niveau intermédiaire, les valeurs k entre 1 et 20 ont été testées pour trouver le paramètre optimal du classificateur k-NN en utilisant différents sous-ensembles de données dans cette étude. Le k optimal pour le classificateur k-NN a été choisi comme k = 5. f Tracez R2 et Q2 cumulatifs par composant pour le modèle PLS-DA basé sur la fusion de données de niveau intermédiaire. Les composants 1 à 50 ont été calculés pour l'optimisation des paramètres, et 25 a été déterminé comme étant le nombre de composants optimal. g Le nombre de prédicteurs du classificateur RF a influencé le taux de classification correct, npredic 1–200 ont été testés pour cinq groupes afin de trouver les meilleurs paramètres pour le classificateur RF. npredic = 15 s'est avéré être la meilleure valeur pour les classificateurs RF, sur la base de la fusion de données de niveau intermédiaire. h Le taux de classification correct du classificateur RF a été influencé par le nombre d'arbres, Ntree = 500 s'est avéré être la meilleure valeur pour les classificateurs RF, sur la base de la fusion de données de niveau intermédiaire.

La fusion de données de niveau intermédiaire était basée sur la réduction de la dimensionnalité des données dans cette recherche. Les algorithmes de réduction cherchent à atténuer les problèmes associés à la dimensionnalité en réduisant la complexité des données, et donc en améliorant la qualité des données42. L'ACP a toujours été la méthode la plus couramment utilisée pour la réduction de la dimensionnalité43. Les résultats de l'ACP des données REIMS et ICP-MS ont été analysés respectivement, puis les PC ont été utilisés comme technique de compression de données non supervisée pour la réduction de la dimensionnalité lors de la fusion des deux ensembles de données. Le nombre de composants a été déterminé en examinant le ratio de variance expliquée cumulée en fonction du nombre de composants. Les huit premiers composants contiennent environ 85 % de la variance des données ICP-MS (Fig. 6c), tandis que 226 composants seraient nécessaires pour conserver 85 % de la variance des données REIMS (Fig. 6d). La figure 6b montre les 234 variables sélectionnées, dont 226 provenaient des 5500 REIMS et huit des 20 ICP-MS. Les valeurs R2 et Q2 de 1,00 et 0,98 respectivement indiquent que le modèle PCA a une grande capacité à expliquer les différences entre les groupes de saumons. La fusion de données de niveau intermédiaire a été considérée comme un meilleur choix pour les données REIMS et ICP-MS, car il a été constaté que cela peut non seulement réduire le temps de traitement des données, mais également améliorer les performances de prédiction des données et la robustesse du modèle.

Afin de comparer les performances de différents algorithmes de classification sur différentes stratégies d'échantillonnage de données, six modèles métabolomiques, k-plus proches voisins (k-NN), PLS-DA, OPLS-DA, LDA, Support Vector Machines (SVM) et Random Forest (RF) ont été étudiés à la recherche de combinaisons optimales de méthodes de modélisation analytique pour identifier l'origine géographique du saumon (Fig. 6e–h). La principale motivation pour tester les algorithmes de classification de différents types (linéaire/non linéaire) était de sélectionner le meilleur moyen de déterminer le pays d'origine du saumon. Pour augmenter l'efficacité de calcul, un ensemble de données contenant une fusion de données de niveau intermédiaire a été utilisé.

Pour la détermination de l'origine du saumon (tableau 3), une précision de 100 % a été obtenue par le LDA (Fig. S4a supplémentaire), le PLS-DA (Fig. S4b supplémentaire), l'OPLS-DA (Fig. S4c supplémentaire) et le RF (Fig. 5h ) des modèles. Le classificateur SVM a fourni une précision élevée de 98,6 %. Le classificateur le moins performant était k-NN avec une précision de 85,5 %. Ainsi, au seuil de performance optimal, la fusion de données de niveau intermédiaire basée sur la méthode de traçabilité géographique du saumon a atteint un taux de classification correct de 100 % sur quatre types de modèles supervisés (LDA, PLS-DA, OPLS-DA et RF), tout en éliminant fausse identification, par rapport à un workflow de classification classique. La combinaison des méthodes d'analyse REIMS et ICP-MS a retenu la majorité des informations sur les lipides et les éléments des échantillons de saumon.

Les modèles développés ont été appliqués pour évaluer les 17 échantillons de saumon au détail décrits précédemment et utilisés pour tester les modèles. Les modèles PLS-DA et OPLS-DA ont obtenu une précision de 100 % sur les six répétitions de tous ces échantillons. Le classificateur PLS-DA a montré un bon ajustement dans ce cas, avec R2X = 0,92, R2Y = 0,99 et Q2 = 0,97, indiquant qu'il n'était pas surajusté et avait de bonnes capacités de prédiction. De plus, les paramètres du modèle OPLS-DA de R2X, R2Y et Q2 avaient des valeurs de 0,87, 0,97 et 0,96 respectivement ; cela a montré que le modèle avait un bon ajustement avec une prévisibilité acceptable. Alors que les autres modèles (k-NN, LDA, RF et SVM) n'ont pas été aussi performants et ont été jugés insuffisamment fiables pour les tests d'authenticité du saumon en termes d'origine (tableau 3). Le modèle k-NN a classé tous les 17 échantillons comme valeurs aberrantes. Les modèles LDA, RF et SVM ont également mal classé plusieurs répliques de sept, deux et deux échantillons, respectivement, dans différents groupes. Ainsi, ceux-ci ont également été jugés non fiables pour les tests d'authenticité du saumon.

Les modèles 3D PLS-DA et OPLS-DA originaux sont illustrés aux Fig. 7a, c (522 échantillons ont été utilisés pour construire les modèles). La bonne séparation dans les parcelles ainsi que les taux élevés de classification correcte en utilisant les modèles PLS-DA et OPLS-DA. Seize des 17 échantillons ont été correctement classés Fig. 7b, d. Un échantillon inconnu étiqueté d'origine « Norvège et/ou Écosse » a été automatiquement classé dans le groupe écossais.

une parcelle de modèle PLS-DA originale créée à l'aide de 522 échantillons de saumon. b Analyse de l'authenticité de l'origine de l'échantillon à l'aide du modèle PLS-DA (6 réplicants de chaque échantillon). c Tracé 3D OPLS-DA original. d Le modèle OPLS-DA a montré les résultats de l'identification de l'authenticité de l'origine du saumon (6 réplicants de chaque échantillon) ; 6b et 6d montrent que lorsque cet échantillon a été défini comme "Norvège" - groupe bleu clair, il a été classé dans le groupe jaune "Ecosse.

Les échantillons de saumon utilisés dans l'étude provenaient de cinq régions très importantes de pêche au saumon; les régions du Pacifique Nord (Alaska-sauvage) et de l'Atlantique Nord (Islande-sauvage et d'élevage, Ecosse d'élevage et Norvège d'élevage). L'océan Pacifique fournit un habitat à plusieurs espèces de saumons44, cinq espèces de saumons sont plus probablement pêchées dans les eaux de l'Alaska (chinook [Oncorhynchus tshawytscha], kéta [Oncorhynchus keta], rose [Oncorhynchus gorbuscha], sockeye [Oncorhynchus nerka] et coho [Oncorhynchus kisutch])45. Des échantillons de saumon rouge sauvage de l'Alaska ont été utilisés dans la présente étude car il s'agit de l'espèce de saumon sauvage la plus courante vendue sur le marché britannique. L'océan Atlantique ne compte qu'une seule espèce, Salmo salar, originaire de Norvège, d'Islande et d'Écosse pour cette étude46.

Le but de cette étude était de déterminer si la combinaison de REIMS, ICP-MS, la fusion de données et l'analyse de données multivariées pouvait fournir un outil puissant pour l'authentification de l'origine géographique et de la méthode de production du saumon. La performance de cette combinaison unique a été évaluée en utilisant un grand nombre d'échantillons de saumon collectés avec des métadonnées robustes et fiables sur deux ans (2020-2022). Les données obtenues à la fois du REIMS et de l'ICP-MS étaient de qualité suffisante pour différencier l'origine géographique et la méthode de production de ces échantillons de saumon. La précision de la classification pour la différenciation du saumon sauvage d'Alaska, du saumon sauvage islandais, du saumon d'élevage islandais, du saumon d'élevage norvégien et du saumon d'élevage écossais s'est avérée être de 100 % lors de la validation croisée à l'aide du REIMS (tableau supplémentaire S2) et de 96,9 % à l'aide de l'ICP-MS. (Tableau supplémentaire S3). Cependant, en utilisant la technique de validation de l'étalon-or de l'analyse non ciblée, les échantillons obtenus auprès de détaillants britanniques étaient un élément supplémentaire à la validation effectuée dans la présente étude, et les données obtenues ont montré qu'une seule plate-forme n'identifiait que 14 des 17 (REIMS) et 11 des 17 échantillons de test (ICP-MS) avaient leurs origines correctement identifiées (tableau supplémentaire S4). L'étude a été complétée par l'application d'une stratégie de fusion de données de niveau intermédiaire et d'analyse multivariée. Les composants principaux ont été extraits des données brutes et ont effectué une fusion de données de niveau intermédiaire. L'applicabilité de six modèles chimiométriques (k-NN, LDA, RF, SVM, PLS-DA et OPLS-DA) dans l'analyse de l'authenticité de l'origine du saumon a été étudiée. Les résultats ont montré que les modèles OPLS-DA et PLS-DA, basés sur les données REIMS et ICP-MS utilisant la fusion de données de niveau intermédiaire, étaient capables d'attribuer correctement l'authenticité dans 100 % des échantillons de vente au détail. Ces échantillons ont constitué un défi supplémentaire et réel pour les tests, car ils ont subi différentes formes de traitement commercial, de stockage et d'emballage.

La fusion de données s'est avérée un moyen efficace de réduire le temps de traitement informatique et les ressources nécessaires à la classification de l'origine des saumons, tout en minimisant les erreurs associées à un très grand nombre d'opérations de modélisation. Les modèles PCA ont été utilisés pour extraire et visualiser le contenu des données à l'aide d'un protocole de fusion de données. Par rapport à la modélisation des données séparément, l'approche de niveau intermédiaire a montré des améliorations dans l'analyse des données à la fois sur l'efficacité de l'identification et la précision de la classification. Ainsi, il a été démontré qu'une double spectrométrie de masse - fusion de données - approche d'analyse multivariée des tests d'authenticité a abouti à la génération de résultats extrêmement fiables qui serviront à améliorer l'identification des erreurs d'étiquetage et à réduire les litiges entre les entreprises lorsque des problèmes d'authenticité surviennent.

Au total, 522 échantillons provenaient de fournisseurs de confiance dans quatre pays : 99 d'Alaska, 183 d'Écosse, 100 de Norvège et 140 d'Islande. Ces échantillons de saumon ont été prélevés et analysés en quatre lots sur une période de trois ans (2020-2022). Les échantillons ont été stockés à -18 ° C avant l'analyse et entièrement décongelés à température ambiante avant l'analyse des échantillons. Six répliques ont été analysées à partir de chaque échantillon pour les deux plates-formes d'instruments. Fin mai 2022, 17 échantillons supplémentaires ont été achetés dans des supermarchés britanniques, qui ont été vérifiés auprès des détaillants et la traçabilité complète de chacun a été confirmée. Selon les informations figurant sur les étiquettes de ces 17 échantillons de saumon, 9 provenaient d'Ecosse, 7 d'Alaska et 1 d'Ecosse et/ou de Norvège. L'ID d'échantillon et les origines de 17 échantillons de test sont répertoriés dans le tableau supplémentaire S4.

Dans tous les essais, un générateur Erbe VIO50C a été utilisé pour la dissection électrochirurgicale (Erbe Elektromedizin GmbH, Tuebingen, Allemagne). Le générateur a été réglé en mode « autocut » avec une puissance de sortie de 30 W. Un tube ultra-flexible de 3 m de long et 15 mm de diamètre (conduite d'évacuation/évent) a été utilisé pour connecter la source REIMS à un électrochirurgical monopolaire Erbe 20321-028. couteau (Erbe Elektromedizin GmbH, Tuebingen, Allemagne). Une source Waters REIMS a été couplée orthogonalement au spectromètre de masse à temps de vol quadripolaire Waters Xevo G2-XS (Waters, Wilmslow, Manchester, UK).

Le spectromètre de masse a été calibré avec un débit de perfusion de 20 µL/min de solution de formiate de sodium 0,5 mM (90 % IPA) à une résolution de masse de 15 000 pleine largeur à mi-hauteur (FWHM) à m/z 600 avant analyse. La polarisation de l'élément chauffant a été réglée sur 40 volts et la tension du cône sur 60 volts. L'analyse par spectrométrie de masse a été réalisée en polarité ionique négative et en mode sensibilité sur une plage de masse de 100 à 1200 m/z avec un temps de balayage de 0,5 s/scan. Leucine Enképhaline (LeuEnk) (m/z 554.2615) (2 ng/µL) dans de l'isopropanol (IPA), infusé à l'aide d'un système Waters Acquity UPLC I-class (Waters, Milford, MA, USA) à un débit continu de 200 µL /min, ont été définis comme solution de masse pour une correction de masse précise.

Les données ont été acquises à l'aide de MassLynx v4.2 (SCN966 et SCN1010) (Waters, Wilmslow, Manchester, Royaume-Uni). Les ensembles de données brutes ont été analysés avec Abstract Model Builder (AMX) v 1.0.1563.0 (Waters Research Centre, Budapest, Hongrie). La matrice traitée générée par le logiciel de modélisation du prototype a été exportée vers SIMCA 14.1 (Umetrics, Umea, Suède), où elle a été soumise à OPLS-DA, avec la moyenne des données centrée et l'échelle de Pareto. Les diagrammes en S et les coefficients par rapport au VIP ont été utilisés pour visualiser les résultats prédictifs de l'OPLS-DA. La distinction entre les classes sera d'abord montrée comme des différences dans les bacs de masse, à partir desquelles la masse précise d'analytes (biomarqueurs) trouvés dans chaque bac de masse peut être déterminée.

De l'eau de haute pureté (18,2 mΩ) provenant d'un système Milli-Q (Merck-Millipore, Billerica, MA, États-Unis), 30 % de peroxyde d'hydrogène et 67 à 69 % d'acide nitrique (VWR, Lutterworth, Royaume-Uni) a été utilisée pour la préparation des échantillons. Des solutions d'étalonnage ont été préparées (2% v/v HNO3) sur la gamme 0,1, 1, 5, 10, 20, 50 et 100 ng/mL à partir de dilutions en série de 10 μg/mL de solutions étalons multi-éléments certifiés 2 et 4 (SPEX , Metuchen, NJ, USA) et préparé chaque semaine.

L'approche suivante a été utilisée pour digérer les échantillons de saumon : le saumon haché a été stocké dans des tubes à centrifuger de 50 mL (Sarstedt, Nümbrecht, Allemagne) avant d'être lyophilisé pendant 2 jours à l'aide d'un lyophilisateur Lablyo (Frozen in Time, York, Royaume-Uni). Un échantillon de saumon de 100 mg a été pesé et transféré dans un tube en polypropylène de 50 ml avant d'ajouter 2 ml d'acide nitrique à 67–69 %, et l'échantillon a été laissé sous une hotte à digérer pendant au moins 15 h.

Une aliquote de 2 ml de peroxyde d'hydrogène à 30 % a été ajoutée à chaque échantillon avant la digestion par micro-ondes à l'aide d'un système Mars 6 (CEM, Matthews, NC, USA) selon le protocole suivant : sur une période de 35 min (0 à 5 min : température à 54 °C ; 5–20 min : maintien à 54 °C ; 20–25 min : 54 °C à 65 °C ; 25–35 min : maintien à 65 °C), les échantillons ont été progressivement chauffés à 95 °C C La température a ensuite été ajustée à 95 °C pendant 30 minutes supplémentaires. Après refroidissement, les tubes ont ensuite été remplis à 20 g avec 18 mΩ H2O à l'aide d'une balance VWR SE622 (VWR, Louvain, Allemagne).

Les échantillons ont été analysés avec l'ICP-MS quadripolaire simple Agilent 7850 (modèle 8422A) (Agilent, Singapour) et l'ICP-MS triple quadripôle Agilent 8900 (modèle G3665A) (Agilent, Santa Clara, Californie, États-Unis). Une pompe péristaltique connectée à un nébuliseur Agilent MicroMist et à un échantillonneur automatique Agilent SPS4 a été utilisée pour introduire les échantillons dans l'instrument. Le logiciel Agilent ICP-MS MassHunter 5.1 a été utilisé pour acquérir les données, qui ont ensuite été traitées à l'aide du logiciel Agilent Online ICP-MS pour créer une matrice de concentrations élémentaires.

La précision a été évaluée à l'aide d'un matériau de référence standard en poudre (matériel de référence certifié, RM8414, Canada), et chaque liste de travail avait des échantillons de contrôle ajoutés au début et à la fin. Une solution de Rh à 10 mg/L (utilisée comme étalon interne) a été perfusée pendant l'acquisition des données et le signal analytique a été divisé par le signal de l'étalon interne à l'aide d'un traitement mathématique des données.

La fusion de données concerne le processus de combinaison de blocs de données provenant de diverses sources dans un modèle global unique47. En général, les différentes méthodes de fusion de données qui ont été proposées dans la littérature sont globalement classées en trois stratégies, basées sur le niveau du flux analytique de données auquel la fusion se produit : bas niveau, moyen niveau et haut niveau48, 49.

La stratégie de fusion de données de bas niveau implique que les matrices décrivant les blocs individuels, après un prétraitement approprié, sont concaténées pour construire un seul tableau qui est ensuite traité par la technique chimiométrique souhaitée50. Les données de spectrométrie de masse acquises par REIMS et ICP-MS ont été exportées dans des fichiers CSV et analysées directement. La stratégie de niveau intermédiaire, la fusion, a lieu au niveau des caractéristiques extraites de divers blocs de données. Ces caractéristiques peuvent être des variables originales identifiées comme pertinentes par une procédure de sélection de variables, mais des saturations factorielles sont utilisées dans la majorité des cas51,52. Les scores PCA ont été utilisés pour décrire la variation significative entre les différents blocs de cette recherche. La fusion de données de haut niveau, opérée au niveau décisionnel, n'a pas été considérée dans cette étude car elle n'est pas couramment utilisée.

L'ACP, une technique non supervisée, et les techniques supervisées k-NN, SVM, RF, LDA, OPLS-DA53 et PLS-DA54 ont été comparées pour évaluer l'exactitude de la classification55. La régression k-NN calcule la moyenne des valeurs de fonction de ses voisins les plus proches, et c'est une méthode non paramétrique utilisée pour la classification et la régression25. L'efficacité de la classification SVM a été vérifiée dans de nombreuses études de cas depuis son invention par Cortes et Vapnik24. Basé sur des arbres de décision, RF utilise des règles pour diviser les données56. Le modèle LDA est basé sur la détermination de fonctions discriminantes linéaires qui maximisent le rapport de variance inter-classe tout en minimisant le rapport de variance intra-classe24. Le PLS-DA est très similaire au LDA, mais avec la réduction du bruit et les avantages de sélection variable du PLS57. LDA et PLS-DA sont deux des méthodes de reconnaissance de formes supervisées les plus fréquemment utilisées pour l'analyse des données REIMS33. OPLS-DA comporte un filtre de correction de signal orthogonal intégrant pour séparer les variations systématiques des composantes de prédiction (corrélées à Y) et orthogonales (non corrélées à Y), afin d'expliquer la variation entre et au sein des groupes58. En tant qu'extension de la méthode de régression PLS supervisée, les modèles OPLS-DA ont été largement appliqués dans l'analyse de l'authenticité des aliments53.

Dans tous les cas, l'ensemble de données d'origine a été divisé au hasard en ensembles d'apprentissage et de validation. La validation croisée quintuple, en omettant 1/5 (20%) des données, a été utilisée. Nous avons formé le modèle avec 4/5 (80 %) des données et l'avons utilisé pour prédire les classifications des 20 % restants. Le processus a été répété cinq fois, chaque fois avec une partition différente prédite par un modèle entraîné avec les quatre autres partitions.

Toutes les analyses ont été effectuées à l'aide de R, avec les packages suivants : ggplot2, ggsignif, ggpubr, RColorBrewer, caret, MASS, kknn, Hmisc, randomForest, ropls et kernlab.

Les auteurs déclarent que les données brutes et les données sources sont fournies avec cet article. Des ensembles de données ont également été déposés dans Figshare sous le lien d'accession https://doi.org/10.6084/m9.figshare.22654477. Les données à l'appui des graphiques de cet article et d'autres conclusions de cette étude sont également disponibles sur demande auprès des auteurs. Les données sources sont fournies avec ce document.

Le code des méthodes de fusion de données et d'analyse multivariée est disponible auprès des auteurs avec des explications détaillées sur demande.

Shahbandeh, M. Industrie du saumon - statistiques & faits | Statistique. https://www.statista.com/topics/7411/salmon-industry/#topicHeader__wrapper (2022).

Shamshak, GL, Anderson, JL, Asche, F., Garlock, T. & Love, DCUS consommation de fruits de mer. J. Monde Aquac. Soc. 50, 715–727 (2019).

Article Google Scholar

Asche, F., Sogn-Grundvåg, G., Zhang, D., Cojocaru, AL & Young, JA Marques, étiquettes et longévité des produits : le cas du saumon dans l'épicerie au Royaume-Uni. J. Int. Agribus alimentaire. Marché. 33, 53–68 (2021).

Wang, O. & Somogyi, S. Motifs de la consommation de fruits de mer de luxe dans les villes de premier rang en Chine. Qualité Alimentaire Préférer. 79, 103780 (2020).

Article Google Scholar

Oglend, A. & Straume, HM Efficacité des prix sur les marchés de destination pour les exportations de saumon norvégien. Aquac. Écon. Géré. 23, 188-203 (2019).

Article Google Scholar

Asche, F., Misund, B. & Oglend, A. Le cas et la cause de la volatilité des prix du saumon. Aquac. Écon. Géré. 34, 23-38 (2018).

Google Scholar

Houston, RD & Macqueen, DJ Génétique du saumon atlantique (Salmo salar L.) au 21e siècle : faire un pas en avant dans l'aquaculture et la compréhension biologique. Anim. Genet. 50, 3–14 (2019).

Article CAS PubMed Google Scholar

Flitcroft, RL, Arismendi, I. & Santelmann, MV Un examen de la recherche sur la connectivité de l'habitat pour le saumon du Pacifique dans les environnements marins, estuariens et d'eau douce. JAWRA J. Am. Ressource en eau. Assoc. 55, 430-441 (2019).

Annonces d'article Google Scholar

Salazar, L. & Dresdner, J. Intégration du marché et leadership en matière de prix : le marché américain du saumon de l'Atlantique. Aquac. Écon. Géré. 25, 245-259 (2020).

Article Google Scholar

Zheng, Q., Wang, HH & Lu, Y. Intentions d'achat des consommateurs pour le saumon sauvage durable sur le marché chinois et implications pour les décisions de l'agro-industrie. Durabilité 10, 1377 (2018).

Article Google Scholar

Asche, F., Guttormsen, AG, Sebulonsen, T. & Sissener, EH Concurrence entre le saumon d'élevage et le saumon sauvage : le marché japonais du saumon. Agric. Écon. 33, 333–340 (2005).

Article Google Scholar

Roheim, CA, Sudhakaran, PO & Durham, CA Certification des crevettes et du saumon pour les meilleures pratiques d'aquaculture : évaluation des préférences des consommateurs dans le Rhode Island. Aquac. Écon. Géré. 16, 266-286 (2012).

Hu, Y., Huang, SY, Hanner, R., Levin, J. & Lu, X. L'étude des produits de la pêche dans la région métropolitaine de Vancouver à l'aide de méthodes de codes-barres ADN révèle un étiquetage frauduleux. Contrôle alimentaire 94, 38–47 (2018).

Article CAS Google Scholar

Ebersole, R. Pourquoi vous n'obtiendrez peut-être pas le saumon pour lequel vous avez payé. National Geographic https://www.nationalgeographic.com/animals/article/why-you-might-not-be-getting-the-salmon-you-paid-for?cmpid=org=ngp::mc=social:: src=twitter::cmp=editorial::add=tw20220314animals-resurfsalmoncontroversey&linkId=156062383 (2021).

Donlan, CJ & Luque, GM Explorer les causes de la fraude aux produits de la mer : une méta-analyse sur l'étiquetage erroné et le prix. Politique de mars 100, 258–264 (2019).

Article Google Scholar

Cline, E. Substitution sur le marché du saumon atlantique par le saumon du Pacifique dans l'État de Washington détectée par code-barres ADN. Rés alimentaire. Int. 45, 388–393 (2012).

Article CAS Google Scholar

Deconinck, D. et al. Identification et semi-quantification du saumon atlantique dans les produits de la mer transformés et mélangés à l'aide de Droplet Digital PCR (ddPCR). Chimie alimentaire. Toxicol. 154, 112329 (2021).

Article CAS PubMed Google Scholar

Fiorino, GM et al. Évaluation de l'authenticité des poissons par analyse directe en temps réel par spectrométrie de masse à haute résolution et analyse multivariée : discrimination entre saumon sauvage et saumon d'élevage. Rés alimentaire. Int. 116, 1258-1265 (2019).

Article CAS PubMed Google Scholar

Christopher, SJ, Ellisor, DL & Davis, WC Étude de la faisabilité de l'ICP-MS/MS pour différencier les matériaux de référence du saumon du NIST par la détermination des rapports isotopiques Sr et S. Talanta 231, 122363 (2021).

Article CAS PubMed Google Scholar

Fu, X. et al. Approches d'empreintes digitales couplées à la chimiométrie pour discriminer l'origine géographique du saumon importé sur le marché de consommation chinois. Aliments 10, 2986 (2021).

Article PubMed PubMed Central Google Scholar

Chang, WH, Ling, YS, Wang, KC, Nan, FH & Chen, WL Discrimination des origines du saumon de l'Atlantique à l'aide d'empreintes chimiques non ciblées. Chimie alimentaire. 394, 133538 (2022).

Article CAS PubMed Google Scholar

Ohlberger, J. et al. Effets non stationnaires et interactifs du climat et de la compétition sur la productivité du saumon rose. Glob. Chang. Biol. 28, 2026-2040 (2022).

Article PubMed Google Scholar

Song, G. et al. Méthode in situ pour la discrimination en temps réel du saumon et de la truite arc-en-ciel sans préparation d'échantillon à l'aide d'iKnife et de la lipidomique basée sur la spectrométrie de masse à ionisation par évaporation rapide. J. Agric. Chimie alimentaire. 67, 4679–4688 (2019).

Article CAS PubMed Google Scholar

De Graeve, M. et al. Classification multivariée par rapport à l'apprentissage automatique des spectres de spectrométrie de masse à ionisation par évaporation rapide vers la spéciation des poissons à grande échelle basée sur l'industrie. Chimie alimentaire. 404, 134632 (2023).

Article PubMed Google Scholar

Quinn, B. et al. Elementomics combiné avec dd-SIMCA et K-NN pour identifier l'origine géographique des échantillons de riz de Chine, d'Inde et du Vietnam. Chimie alimentaire. 386, 132738 (2022).

Article CAS PubMed Google Scholar

Liu, HL, Zeng, YT, Zhao, X. & Tong, HR Amélioration de la discrimination de l'origine géographique pour le thé à l'aide des techniques ICP-MS et ICP-OES en combinaison avec une approche chimiométrique. J. Sci. Alimentaire Agric. 100, 3507–3516 (2020).

Article CAS PubMed Google Scholar

Silva, B. et al. Le profilage élémentaire par ICP-MS comme outil de discrimination géographique : le cas du miel de miellat bracatinga. J. Compositions alimentaires. Anal. 96, 103727 (2021).

Article CAS Google Scholar

Drivelos, SA, Higgins, K., Kalivas, JH, Haroutounian, SA & Georgiou, CA Fusion de données pour l'authentification des aliments. Combinaison d'éléments de terres rares et d'oligo-métaux pour discriminer les "Fava Santorinis" des autres pois cassés jaunes à l'aide d'outils chimiométriques. Chimie alimentaire. 165, 316–322 (2014).

Article CAS PubMed Google Scholar

Schwolow, S., Gerhardt, N., Rohn, S. & Weller, P. Fusion de données de données GC-IMS et de spectres FT-MIR pour l'authentification des huiles d'olive et des miels - vaut-il la peine d'aller plus loin ? Anal. Bioanale. Chim. 411, 6005–6019 (2019).

Article CAS PubMed Google Scholar

Marquez, C., Lopez, MI, Ruisanchez, I. & Callao, MP Stratégie de fusion de données de spectroscopie FT-Raman et NIR pour l'analyse qualitative multivariée de la fraude alimentaire. Talent 161, 80–86 (2016).

Article PubMed Google Scholar

Robert, C. et al. Évaluation des stratégies de fusion de bas, moyen et haut niveau pour combiner la spectroscopie Raman et infrarouge pour l'évaluation de la qualité de la viande rouge. Chimie alimentaire. 361, 130154 (2021).

Article CAS PubMed Google Scholar

Ottavian, M., Fasolato, L., Serva, L., Facco, P. & Barolo, M. Fusion de données pour l'authentification des aliments : discrimination fraîche/congelée-décongelée dans les filets de poisson-barbet d'Afrique de l'Ouest (Pseudupeneus prayensis). Technologie des bioprocédés alimentaires. 7, 1025-1036 (2014).

Article CAS Google Scholar

Black, C. et al. Une approche de profilage métabolomique en temps réel pour détecter la fraude au poisson à l'aide de la spectrométrie de masse à ionisation par évaporation rapide. Métabolomique 13, 153 (2017).

Article PubMed PubMed Central Google Scholar

Schymanski, EL et al. Identification de petites molécules par spectrométrie de masse haute résolution : communiquer la confiance. Environ. Sci. Technol. 48, 2097-2098 (2014).

Article ADS CAS PubMed Google Scholar

Sikveland, M. & Zhang, D. Déterminants de la structure du capital dans l'industrie norvégienne de la salmoniculture. Politique de mars 119, 104061 (2020).

Article Google Scholar

Ytrestøyl, T., Aas, TS & Åsgård, T. Utilisation des ressources alimentaires dans la production de saumon atlantique (Salmo salar) en Norvège. Aquaculture 448, 365–374 (2015).

Article Google Scholar

Beheshti Foroutani, M. et al. Minimisation des ingrédients marins dans les régimes alimentaires du saumon atlantique d'élevage (Salmo salar) : effets sur les performances de croissance et la composition en lipides et acides gras musculaires. PLoS One 13, e0198538 (2018).

Article PubMed PubMed Central Google Scholar

Betancor, MB et al. Huile de Camelina sativa transgénique contenant plus de 25 % d'AGPI à longue chaîne n-3 comme principale source de lipides dans l'alimentation du saumon atlantique (Salmo salar). Br. J. Nutr. 119, 1378–1392 (2018).

Article CAS PubMed Google Scholar

Quigley, KM & van Oppen, MJH Modèles prédictifs pour la sélection de coraux thermiquement tolérants basés sur la survie de la progéniture. Nat. Commun. 13, 1–13 (2022).

Article Google Scholar

Li, C., Zhong, H. & Zhang, W. Une analyse scientométrique de la littérature récente sur la bioaccumulation et la biotransformation de l'arsenic dans les écosystèmes marins. Taureau. Environ. Contam. Toxicol. 104, 551-558 (2020).

Article CAS PubMed Google Scholar

Suhani, I., Sahab, S., Srivastava, V. & Singh, RP Impact de la pollution au cadmium sur la sécurité alimentaire et la santé humaine. Courant. Avis. Toxicol. 27, 1–7 (2021).

Article CAS Google Scholar

Anowar, F., Sadaoui, S. & Selim, B. Comparaison conceptuelle et empirique des algorithmes de réduction de dimensionnalité (PCA, KPCA, LDA, MDS, SVD, LLE, ISOMAP, LE, ICA, t-SNE). Calcul. Sci. Rév. 40, 100378 (2021).

Article MathSciNet MATH Google Scholar

Becht, E. et al. Réduction de la dimensionnalité pour visualiser les données unicellulaires à l'aide d'UMAP. Nat. Biotechnol. 37, 38-44 (2018).

Article Google Scholar

Oke, KB et al. Les baisses récentes de la taille corporelle des saumons ont un impact sur les écosystèmes et les pêcheries. Nat. Commun. 11, 1–13 (2020).

Annonces d'article Google Scholar

Litzow, MA et al. Relations climat-saumon non stationnaires dans le golfe d'Alaska. Proc. R. Soc. B 285, 20181855 (2018).

Article PubMed PubMed Central Google Scholar

Gilbey, J. et al. Une ligne de base microsatellite pour l'identification génétique des stocks de saumon atlantique européen (Salmo salar L.). CIEM J. Mar. Sci. 75, 662–674 (2018).

Article Google Scholar

Spiteri, M. et al. Fusion de données entre la RMN 1H haute résolution et la spectrométrie de masse : une approche synergique pour la caractérisation de l'origine botanique du miel. Anal. Bioanale. Chim. 408, 4389–4401 (2016).

Article CAS PubMed Google Scholar

Borras, E. et al. Prédiction des descripteurs sensoriels de l'huile d'olive à l'aide de la fusion de données instrumentales et de la régression des moindres carrés partiels (PLS). Talante 155, 116-123 (2016).

Article PubMed Google Scholar

Castanedo, F. Un examen des techniques de fusion de données. Sci. Monde J. 2013, 704504 (2013).

Smilde, AK & Van Mechelen, I. Un cadre pour la fusion de données de bas niveau. Gestion des données. Sci. Technol. 31, 27–50 (2019).

Article Google Scholar

Malegori, C. et al. Une approche modifiée de fusion de données de niveau intermédiaire sur le nez électronique et les données FT-NIR pour évaluer l'effet de différentes conditions de stockage sur la durée de conservation des germes de riz. Talanta 206, 120208 (2020).

Article CAS PubMed Google Scholar

Rivera-Pérez, A., Romero-González, R. & Garrido Frenich, A. Application d'une approche métabolomique innovante pour discriminer l'origine géographique et le traitement du poivre noir par analyse non ciblée UHPLC-Q-Orbitrap-HRMS et fusion de données de niveau intermédiaire . Rés alimentaire. Int. 150, 110722 (2021).

Article PubMed Google Scholar

Birse, N. et al. La spectrométrie de masse ambiante comme outil pour déterminer l'historique du système de production de volaille : une comparaison des plateformes de spectrométrie de masse à ionisation par évaporation rapide (REIMS) et d'analyse directe en temps réel (DART) de spectrométrie de masse ambiante. Contrôle alimentaire 107740, https://doi.org/10.1016/j.foodcont.2020.107740 (2020).

Abu-Rabie, P., Sheelan, D., Laures, A., Spaull, J. & Dowell, S. Augmenter le pouvoir de discrimination de la spectrométrie de masse à ionisation par évaporation rapide (REIMS) dans le contrôle analytique de la qualité des tissus et l'identification des échantillons de lignées cellulaires . Rapid Commun. Spectre de masse. 35, e8525 (2021).

Article CAS Google Scholar

Jiménez-Carvelo, AM, González-Casado, A., Bagur-González, MG et Cuadros-Rodríguez, L. Méthodes alternatives d'exploration de données/apprentissage automatique pour l'évaluation analytique de la qualité et de l'authenticité des aliments - une revue. Rés alimentaire. Int. 122, 25–39 (2019).

Article PubMed Google Scholar

de Santana, FB, Borges Neto, W. & Poppi, RJ Forêt aléatoire comme classificateur à classe unique et spectroscopie infrarouge pour la détection de la falsification des aliments. Chimie alimentaire. 293, 323-332 (2019).

Article PubMed Google Scholar

Ivorra, E. et al. Détection de saumon fumé périmé emballé sous vide basée sur la méthode PLS-DA à l'aide d'images hyperspectrales. J. Food Eng. 117, 342–349 (2013).

Article CAS Google Scholar

Kang, C. et al. Criblage de peptides quantitatifs spécifiques de boeuf par LC–MS/MS couplé à OPLS-DA. Chimie alimentaire. 387, 132932 (2022).

Article CAS PubMed Google Scholar

Télécharger les références

Les auteurs tiennent à remercier Agilent Corporation pour son soutien par le biais du prix Agilent Thought Leaders. De plus, nous tenons à remercier Saemunder Sveinsson de Matis Iceland et Mike Mitchell de Fairseas pour leur soutien technique au projet. Ce travail a été soutenu par EIT Food, la communauté d'innovation sur l'alimentation de l'Institut européen d'innovation et de technologie, un organisme de l'Union européenne, dans le cadre d'Horizon 2020, le programme-cadre de l'UE pour la recherche et l'innovation [numéro de subvention 20118]. L'organisme de financement n'a joué aucun rôle dans la conception de l'étude; dans la collecte, l'analyse ou l'interprétation des données ; dans la rédaction du manuscrit et dans la décision de soumettre l'article pour publication. Cette étude a également été soutenue par le Bualuang ASEAN Chair Professor Fund.

Laboratoire national de mesure : Centre d'excellence en agriculture et intégrité alimentaire, Institut pour la sécurité alimentaire mondiale, École des sciences biologiques, Université Queen's de Belfast, Belfast, Royaume-Uni

Yunhe Hong, Nicholas Birse, Brian Quinn, Yicong Li, Wenyang Jia, Philip McCarron, Di Wu, Gonçalo Rosas da Silva, Lynn Vanhaecke et Christopher T. Elliott

Laboratoire de Métabolomique Intégrative, Département de Physiologie Translationnelle, Infectiologie et Santé Publique, Faculté de Médecine Vétérinaire, Université de Gand, Merelbeke, Belgique

Lynn Vanhaecke

Food Quality and Design Group, Wageningen University and Research, Wageningen, Pays-Bas

Saskia van Ruth

École d'agriculture et de sciences alimentaires, University College Dublin, Dublin 4, Irlande

Saskia van Ruth

École des sciences et technologies alimentaires, Faculté des sciences et technologies, Université Thammasat, 99 Mhu 18, Pahonyothin Road, Khong Luang, Pathum Thani, 12120, Thaïlande

Christopher T. Elliott

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Conceptualisation de l'étude (YH, CE, NB et WJ); supervision et administration du projet (BQ, CE et SR); Conception expérimentale (YH, NB et CE); Prélèvement d'échantillons (CEDW et N.-B.); Expériences réalisées et analyse des données (YH, YL, BQ, PM et WJ) ; rédaction—préparation de manuscrits (YH, NB et BQ); rédaction — révision et édition (YH, CE, NB, BQ, GS et LV); Acquisition de financement (CE et LV). YH et NB ont également contribué à cette étude en tant que co-premiers auteurs. Tous les auteurs ont lu et accepté la version publiée du manuscrit.

Correspondance à Christopher T. Elliott.

Les auteurs ne déclarent aucun intérêt concurrent.

Nature Communications remercie Chiara Dall'Asta, Sara J. Fraser-Miller et Qing Shen pour leur contribution à l'examen par les pairs de ce travail. Un dossier d'examen par les pairs est disponible.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International License, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, tant que vous donnez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Hong, Y., Birse, N., Quinn, B. et al. Fusion de données et analyse multivariée pour l'analyse de l'authenticité des aliments. Nat Commun 14, 3309 (2023). https://doi.org/10.1038/s41467-023-38382-z

Télécharger la citation

Reçu : 06 février 2023

Accepté : 27 avril 2023

Publié: 08 juin 2023

DOI : https://doi.org/10.1038/s41467-023-38382-z

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.

Blog

Fusion de données et analyse multivariée pour l'analyse de l'authenticité des aliments