3 Résultats
3.1 Influence du lieu d’échantillonnage et des variétés sur le spectre de réflectance global
Dans un premier temps, il est intéressant d’observer les données brutes des spectres de réflectance en fonction de leurs variétés. La figure 3.1 montre les spectres de réflectance moyens des variétés citron (en vert), tangor (en orange) et zanzibar (en violet).

Figure 3.1: Spectre moyen en fonction de la variété pour les arbres négatifs aux HLB
Les spectres moyens des variétés échantillonnées ne semblent pas avoir de comportements significativement différents suivant les variétés sur l’ensemble des longueurs d’onde.
En complément, le calcul du F de Fisher via l’ANOVA est donc mis en œuvre afin de montrer un effet potentiel du lieu d’échantillonnage et des variétés sur le spectre de réflectance global (figure 3.2).

Figure 3.2: Valeur du F de Fisher pour chaque longueur d’onde montrant l’influence du facteur variété sur le spectre de réflectance global
L’influence des variétés sur les spectres de réflectance est importante à partir de 1400 nm avec un maximum à 1420 nm (valeur F = 230). Ce maximum est suivi de deux autres pics à F = 200 à 1800 nm et 2300 nm, tous compris dans la partie du spectre correspondant aux infrarouges courtes longueurs d’onde.
Concernant l’influence de la parcelle sur le spectre de réflectance global, celle-ci a une forte influence (figure 3.3).

Figure 3.3: Valeur du F de Fisher pour chaque longueur d’onde montrant l’influence du facteur parcelle sur le spectre de réflectance global
En effet, dans le “Red edge” l’influence du facteur parcelle est à son maximum à 771 nm (valeur F = 875) et a une influence qui reste assez élevée (autour de F = 625) autour des longueurs d’onde 1500 nm et 2100 nm.
3.2 Effet du statut HLB sur les spectres de réflectance
La répartition des différentes variétés dans le jeu de données en fonction de leurs statuts HLB est assez équilibrée (table 3.1).
Citron.Negatif | 25 |
Citron.Positif | 24 |
Tangor.Negatif | 23 |
Tangor.Positif | 23 |
Zanzibar.Negatif | 25 |
Zanzibar.Positif | 20 |
Total | 140 |
La figure 3.4 montre les spectres de réflectance moyens des arbres positifs au HLB (en rouge) et des arbres négatifs (en vert). On voit des différences nettes de spectre en fonction du statut HLB.

Figure 3.4: Spectre moyen en fonction du statut HLB des arbres
Sur certaines parties du spectre des différences de réflectance apparaissent encore plus nettement (figure 3.5).

Figure 3.5: Spectres individuels d’arbres positifs (en rouge) et négatifs (en vert) au HLB pour les longueurs d’onde de 400 à 680 nm
Sur les longueurs d’onde de 400 à 680 nm les arbres positifs au HLB ont une réflectance légèrement plus élevée que les arbres sains.
Par ailleurs, une séparation moins nette s’observe dans la tranche de longueurs d’onde comprise entre 700 et 1400 nm (figure 3.6).

Figure 3.6: Spectres individuels d’arbres positifs (en rouge) et négatifs (en vert) au HLB pour les longueurs d’onde de 700 à 1400 nm
La différence qui paraissait importante sur la figure 3.5 est à nuancer si l’on s’intéresse aux spectres individuels. En effet, il ne semble pas se dégager de tendance claire vis-à-vis du statut sur cette partie du spectre.
C’est pourquoi il est difficile d’affirmer avec certitude l’effet de la maladie sur les spectres de réflectance en fonction du statut HLB en utilisant seulement les données brutes.
Ainsi, il est intéressant de savoir s’il y a une influence de la maladie sur les spectres de réflectance et sur quelles longueurs d’onde se situe cet effet (figure 3.7).

Figure 3.7: Valeur du F de Fisher montrant l’influence du statut seul en interaction avec la variété et la parcelle sur le spectre de réflectance
Globalement le statut HLB affecte le spectre de réflectance dans trois zones du spectre : dans le début du “Red edge” autour de 700 nm, dans le proche infrarouge autour de 800 nm et dans le “Short-wave infrared” autour de 2000 nm avec un pic à 2032 nm (valeur F = 751). Les effets du statut sont influencés dans le “Red edge” et le proche infrarouge par le type de variété sur laquelle les feuilles ont été prélevées. Cependant le pic de cette influence correspond à une zone où la valeur de Fisher est quasi-nulle pour l’effet du statut sur la détection de la maladie par la réflectance. Cette influence des variétés est donc comprise entre les valeurs de Fisher de 200 à 150 en excluant la zone de creux. Ces valeurs sont assez faibles si on les compare aux effets du statut qui avoisine les 700 et plus. Les trois variétés ont donc un impact plutôt faible sur la détection de la maladie via la mesure de la réflectance. Cet impact est encore plus minime (valeur F = 30) au niveau du pic d’influence de la maladie à 2032 nm correspondant à la quantité d’eau dans la feuille. Cet impact est encore plus faible pour l’influence de la parcelle sur le statut HLB. Celle-ci n’a qu’une très faible influence sur le statut HLB au niveau des spectres dans visible et le “Red edge” (valeur F = 98) et une influence quasi-nulle dans les autres longueurs d’onde.
3.3 L’approche par arbre de décision
Une autre approche pour mettre en évidence l’effet du statut sur la détection de la maladie par la réflectance est la représentation en arbres de décision (figure 3.8).

Figure 3.8: Arbre de décision sur la réflectance des données globales par rapport au statut HLB
Cette autre approche apporte des résultats cohérents avec le F de Fisher sur les longueurs d’onde où le statut HLB a le plus d’influence. Le premier nœud de décision à la longueur d’onde 2000 nm est très significatif (p value 1.32e-36) et se divise entre les zones du “Red edge” à 706 nm pour 774 feuilles et du proche infrarouge à 1075 nm pour les 666 feuilles restantes. Sur les 774 feuilles du deuxième nœud (p value 9.71e-18), 572 sont des feuilles issues d’arbres négatifs aux HLB à plus de 75% environ en additionnant la part des effectifs négatifs des nœuds 6 et 7. Par ailleurs, sur les 666 feuilles du nœud 9 (p value 4.84e-9), 333 sont globalement issues d’arbres positifs au HLB à plus de 75% environ en additionnant la part des effectifs positifs des nœuds 10 et 13. Cela montre qu’il est possible d’identifier depuis le spectre de réflectance, les arbres sains et malades avec un taux d’erreur d’environ 75%. L’intérêt de cette méthode en plus de donner les longueurs d’onde discriminantes pour la maladie, est la valeur de réflectance pour laquelle chaque longueur d’onde discriminante est clivante.
Enfin, en prenant uniquement la longueur d’onde la plus clivante (2000 nm) selon l’arbre de décision, il est possible de se rendre compte de l’hétérogénéité des distributions à l’intérieur de celle-ci (figure 3.9).

Figure 3.9: Distribution des réflectances pour la longueur d’onde 2000 nm
Malgré l’échantillonnage différent selon les parcelles, les valeurs de réflectance sont distribuées de façon quasi-normale bien que centrées différemment. Chez Mrs. Barret et Pothin, le centre est quasiment sur 0.09 alors que chez Gonthier et Hoarau celui-ci est environ à 0.07. Concernant les variétés, les Zanzibars semblent avoir les valeurs de réflectances les moins élevées. Malgré cette hétérogénéité dans la répartition des variables, qui est quasiment identique pour toutes les autres longueurs d’onde, cela n’a finalement pas un énorme impact sur la discrimination de la réflectance en fonction du statut.
3.4 Comparaison des performances des trois méthodes de prédiction du statut HLB à partir des spectres réflectance
Pour prédire le statut des arbres à partir des spectres de réflectance, les trois méthodes d’analyses statistiques en apprentissage supervisé sont mises en œuvre. Pour chacune de ces méthodes, les paramètres de performance sont mesurés (table 3.2) après 100 simulations en calculs parallèles présentés en annexes 2 et 3.
Paramètres de performance | Moyenne | Ecart type |
---|---|---|
Accuracy PLS | 92.6 | 1.7 |
Accuracy RF | 76.4 | 2.3 |
Accuracy SVM | 85.8 | 2.7 |
Precision PLS | 97.2 | 3.1 |
Precision RF | 88.3 | 3.1 |
Precision SVM | 86.6 | 3.6 |
Sensitivity PLS | 88.3 | 2.7 |
Sensitivity RF | 60.7 | 4.8 |
Sensitivity SVM | 86.3 | 3.3 |
Au vu de ces simulations, la méthode de régression par les moindres carrés partiels (PLS) est la plus robuste avec une qualité de prédiction avoisinant les 92.6% et avec l’écart type le plus faibles d’environ 1.7. Cette méthode est aussi très robuste pour minimiser les erreurs de type 1 (précision à 97.2%) et de type 2 (sensibilité à 88.3%) avec là aussi des écarts types plus faible que les deux autres méthodes. Vient ensuite la méthode de la machine à vecteurs de support (SVM) avec une qualité de prédiction d’environ 85.8% et avec l’écart type le plus élevé avoisinant les 2.7. La méthode des forêts aléatoires (RF) est la moins robuste avec une qualité de prédiction de 76.4% approximativement.
3.5 Prédiction du statut HLB par Régression par les Moindres Carrés Partiels (PLS)
Concrètement, en utilisant la meilleure méthode, qui est celle des moindres carrés partiels, le statut des arbres peut donc être prédit précisément (figure 3.10).

Figure 3.10: Prédiction du statut HLB par Régression par les Moindres Carrés Partiels
Cette représentation graphique est une aide à la décision pour déterminer le statut de chaque arbre à partir des résultats de la PLS. La prédiction par PLS donne une valeur correspondant à la moyenne des statuts prédits (compris entre 0 et 1 en ordonnés) des dix feuilles d’un arbre pour chaque arbre (en abscisse). Cela indique pour chaque arbre s’il est plutôt positif ou négatif, mais ça ne permet pas de trancher sur le statut de l’arbre. Cette prédiction se base donc sur deux seuils choisis via les observations de prédiction effectuées. Ces seuils sont compris entre 0.4 pour les arbres positifs qui seraient au-dessus de cette valeur (en rouge), 0.35 pour les arbres négatifs qui seraient en dessous de cette valeur (en vert) et les arbres indéterminés (en gris) qui seraient compris entre ces deux valeurs. Une comparaison entre le statut réel des arbres est confirmé par qPCR (avec un croix pour les négatifs et un rond pour les positifs), permet ensuite de réaliser la matrice de confusion (table 3.3).
Négatif confirmé | Positif confirmé | |
---|---|---|
Négatif prédit | 57 | 2 |
Positif prédit | 10 | 62 |
Sur cette prédiction, 62 arbres ont été prédits correctement positifs et 57 correctement négatifs. 10 arbres sont des faux positifs (erreur de type 1) et 2 sont des faux négatifs (erreur de type 2).
Accuracy | 90.8 |
Precision | 96.6 |
Sensitivity | 85.1 |
La prédiction par la méthode de régression par PLS a l’avantage d’avoir une précision élevée (96.6%) ce qui minimise les erreurs de type 2, ce qui est très utile pour l’identification de la maladie sur une parcelle (table 3.4).
3.6 Amélioration du protocole de terrain pour le choix du nombre de feuilles par arbre
La méthode de la SVM est la méthode dont l’estimation des performances est la plus rapide à exécuter. Elle est donc utilisée pour tester s’il est possible d’alléger le protocole d’échantillonnage (figure 3.11).

Figure 3.11: Prédiction des paramètres de SVM en fonction du nombre de feuilles échantillonnés sur chaque arbre, obtenu après avoir fait la moyenne de 1000 SVM
Après 1000 simulations, les paramètres de performance de la méthode SVM sont respectivement de 95% pour la précision (Precision), 96% pour la sensibilité (Sensitivity) et 97% pour la qualité globale de la prédiction (Accuracy) pour un échantillonnage de 10 feuilles. La précision et la sensibilité passent en dessous des 90% avec 5 feuilles prélevées. Avec 8 feuilles échantillonnées, la qualité de la prédiction ainsi que la sensibilité ne baissent pas en dessous de 95%.
3.7 Amélioration du protocole de terrain pour le choix du nombre de mesures de réflectance par feuille

Figure 3.12: Prédiction des paramètres de SVM en fonction du nombre de répétition SPIR par feuille échantillonnés sur chaque arbre, obtenu après avoir fait la moyenne de 100 SVM
Après 100 simulations, les paramètres de performance de la méthode SVM sont respectivement de 85% pour la sensibilité (Sensitivity), 82% pour la qualité globale de la prédiction (Accuracy) et 81% pour la précision (Precision) pour un passage de 6 répétitions SPIR (figure 3.12). Les écarts types étant assez marqués, au bout de 3 répétitions SPIR les paramètres de performance sont très peu changeants.