3 Résultats

3.1 Influence du lieu d’échantillonnage et des variétés sur le spectre de réflectance global

Dans un premier temps, il est intéressant d’observer les données brutes des spectres de réflectance en fonction de leurs variétés. La figure 3.1 montre les spectres de réflectance moyens des variétés citron (en vert), tangor (en orange) et zanzibar (en violet).

Spectre moyen en fonction de la variété pour les arbres négatifs aux HLB

Figure 3.1: Spectre moyen en fonction de la variété pour les arbres négatifs aux HLB

Les spectres moyens des variétés échantillonnées ne semblent pas avoir de comportements significativement différents suivant les variétés sur l’ensemble des longueurs d’onde.

En complément, le calcul du F de Fisher via l’ANOVA est donc mis en œuvre afin de montrer un effet potentiel du lieu d’échantillonnage et des variétés sur le spectre de réflectance global (figure 3.2).

Valeur du F de Fisher pour chaque longueur d’onde montrant l’influence du facteur variété sur le spectre de réflectance global

Figure 3.2: Valeur du F de Fisher pour chaque longueur d’onde montrant l’influence du facteur variété sur le spectre de réflectance global

L’influence des variétés sur les spectres de réflectance est importante à partir de 1400 nm avec un maximum à 1420 nm (valeur F = 230). Ce maximum est suivi de deux autres pics à F = 200 à 1800 nm et 2300 nm, tous compris dans la partie du spectre correspondant aux infrarouges courtes longueurs d’onde.

Concernant l’influence de la parcelle sur le spectre de réflectance global, celle-ci a une forte influence (figure 3.3).

Valeur du F de Fisher pour chaque longueur d’onde montrant l’influence du facteur parcelle sur le spectre de réflectance global

Figure 3.3: Valeur du F de Fisher pour chaque longueur d’onde montrant l’influence du facteur parcelle sur le spectre de réflectance global

En effet, dans le “Red edge” l’influence du facteur parcelle est à son maximum à 771 nm (valeur F = 875) et a une influence qui reste assez élevée (autour de F = 625) autour des longueurs d’onde 1500 nm et 2100 nm.

3.2 Effet du statut HLB sur les spectres de réflectance

La répartition des différentes variétés dans le jeu de données en fonction de leurs statuts HLB est assez équilibrée (table 3.1).

Table 3.1: Répartition des variétés dans le jeu de données
Citron.Negatif 25
Citron.Positif 24
Tangor.Negatif 23
Tangor.Positif 23
Zanzibar.Negatif 25
Zanzibar.Positif 20
Total 140

La figure 3.4 montre les spectres de réflectance moyens des arbres positifs au HLB (en rouge) et des arbres négatifs (en vert). On voit des différences nettes de spectre en fonction du statut HLB.

Spectre moyen en fonction du statut HLB des arbres

Figure 3.4: Spectre moyen en fonction du statut HLB des arbres

Sur certaines parties du spectre des différences de réflectance apparaissent encore plus nettement (figure 3.5).

Spectres individuels d’arbres positifs (en rouge) et négatifs (en vert) au HLB pour les longueurs d'onde de 400 à 680 nm

Figure 3.5: Spectres individuels d’arbres positifs (en rouge) et négatifs (en vert) au HLB pour les longueurs d’onde de 400 à 680 nm

Sur les longueurs d’onde de 400 à 680 nm les arbres positifs au HLB ont une réflectance légèrement plus élevée que les arbres sains.

Par ailleurs, une séparation moins nette s’observe dans la tranche de longueurs d’onde comprise entre 700 et 1400 nm (figure 3.6).

Spectres individuels d’arbres positifs (en rouge) et négatifs (en vert) au HLB pour les longueurs d’onde de 700 à 1400 nm

Figure 3.6: Spectres individuels d’arbres positifs (en rouge) et négatifs (en vert) au HLB pour les longueurs d’onde de 700 à 1400 nm

La différence qui paraissait importante sur la figure 3.5 est à nuancer si l’on s’intéresse aux spectres individuels. En effet, il ne semble pas se dégager de tendance claire vis-à-vis du statut sur cette partie du spectre.

C’est pourquoi il est difficile d’affirmer avec certitude l’effet de la maladie sur les spectres de réflectance en fonction du statut HLB en utilisant seulement les données brutes.

Ainsi, il est intéressant de savoir s’il y a une influence de la maladie sur les spectres de réflectance et sur quelles longueurs d’onde se situe cet effet (figure 3.7).

Valeur du F de Fisher montrant l’influence du statut seul en interaction avec la variété et la parcelle sur le spectre de réflectance

Figure 3.7: Valeur du F de Fisher montrant l’influence du statut seul en interaction avec la variété et la parcelle sur le spectre de réflectance

Globalement le statut HLB affecte le spectre de réflectance dans trois zones du spectre : dans le début du “Red edge” autour de 700 nm, dans le proche infrarouge autour de 800 nm et dans le “Short-wave infrared” autour de 2000 nm avec un pic à 2032 nm (valeur F = 751). Les effets du statut sont influencés dans le “Red edge” et le proche infrarouge par le type de variété sur laquelle les feuilles ont été prélevées. Cependant le pic de cette influence correspond à une zone où la valeur de Fisher est quasi-nulle pour l’effet du statut sur la détection de la maladie par la réflectance. Cette influence des variétés est donc comprise entre les valeurs de Fisher de 200 à 150 en excluant la zone de creux. Ces valeurs sont assez faibles si on les compare aux effets du statut qui avoisine les 700 et plus. Les trois variétés ont donc un impact plutôt faible sur la détection de la maladie via la mesure de la réflectance. Cet impact est encore plus minime (valeur F = 30) au niveau du pic d’influence de la maladie à 2032 nm correspondant à la quantité d’eau dans la feuille. Cet impact est encore plus faible pour l’influence de la parcelle sur le statut HLB. Celle-ci n’a qu’une très faible influence sur le statut HLB au niveau des spectres dans visible et le “Red edge” (valeur F = 98) et une influence quasi-nulle dans les autres longueurs d’onde.

3.3 L’approche par arbre de décision

Une autre approche pour mettre en évidence l’effet du statut sur la détection de la maladie par la réflectance est la représentation en arbres de décision (figure 3.8).

Arbre de décision sur la réflectance des données globales par rapport au statut HLB

Figure 3.8: Arbre de décision sur la réflectance des données globales par rapport au statut HLB

Cette autre approche apporte des résultats cohérents avec le F de Fisher sur les longueurs d’onde où le statut HLB a le plus d’influence. Le premier nœud de décision à la longueur d’onde 2000 nm est très significatif (p value 1.32e-36) et se divise entre les zones du “Red edge” à 706 nm pour 774 feuilles et du proche infrarouge à 1075 nm pour les 666 feuilles restantes. Sur les 774 feuilles du deuxième nœud (p value 9.71e-18), 572 sont des feuilles issues d’arbres négatifs aux HLB à plus de 75% environ en additionnant la part des effectifs négatifs des nœuds 6 et 7. Par ailleurs, sur les 666 feuilles du nœud 9 (p value 4.84e-9), 333 sont globalement issues d’arbres positifs au HLB à plus de 75% environ en additionnant la part des effectifs positifs des nœuds 10 et 13. Cela montre qu’il est possible d’identifier depuis le spectre de réflectance, les arbres sains et malades avec un taux d’erreur d’environ 75%. L’intérêt de cette méthode en plus de donner les longueurs d’onde discriminantes pour la maladie, est la valeur de réflectance pour laquelle chaque longueur d’onde discriminante est clivante.

Enfin, en prenant uniquement la longueur d’onde la plus clivante (2000 nm) selon l’arbre de décision, il est possible de se rendre compte de l’hétérogénéité des distributions à l’intérieur de celle-ci (figure 3.9).

Distribution des réflectances pour la longueur d’onde 2000 nm

Figure 3.9: Distribution des réflectances pour la longueur d’onde 2000 nm

Malgré l’échantillonnage différent selon les parcelles, les valeurs de réflectance sont distribuées de façon quasi-normale bien que centrées différemment. Chez Mrs. Barret et Pothin, le centre est quasiment sur 0.09 alors que chez Gonthier et Hoarau celui-ci est environ à 0.07. Concernant les variétés, les Zanzibars semblent avoir les valeurs de réflectances les moins élevées. Malgré cette hétérogénéité dans la répartition des variables, qui est quasiment identique pour toutes les autres longueurs d’onde, cela n’a finalement pas un énorme impact sur la discrimination de la réflectance en fonction du statut.

3.4 Comparaison des performances des trois méthodes de prédiction du statut HLB à partir des spectres réflectance

Pour prédire le statut des arbres à partir des spectres de réflectance, les trois méthodes d’analyses statistiques en apprentissage supervisé sont mises en œuvre. Pour chacune de ces méthodes, les paramètres de performance sont mesurés (table 3.2) après 100 simulations en calculs parallèles présentés en annexes 2 et 3.

Table 3.2: Paramètres de performance de la prédiction du statut HLB par les trois méthodes d’apprentissage supervisé
Paramètres de performance Moyenne Ecart type
Accuracy PLS 92.6 1.7
Accuracy RF 76.4 2.3
Accuracy SVM 85.8 2.7
Precision PLS 97.2 3.1
Precision RF 88.3 3.1
Precision SVM 86.6 3.6
Sensitivity PLS 88.3 2.7
Sensitivity RF 60.7 4.8
Sensitivity SVM 86.3 3.3

Au vu de ces simulations, la méthode de régression par les moindres carrés partiels (PLS) est la plus robuste avec une qualité de prédiction avoisinant les 92.6% et avec l’écart type le plus faibles d’environ 1.7. Cette méthode est aussi très robuste pour minimiser les erreurs de type 1 (précision à 97.2%) et de type 2 (sensibilité à 88.3%) avec là aussi des écarts types plus faible que les deux autres méthodes. Vient ensuite la méthode de la machine à vecteurs de support (SVM) avec une qualité de prédiction d’environ 85.8% et avec l’écart type le plus élevé avoisinant les 2.7. La méthode des forêts aléatoires (RF) est la moins robuste avec une qualité de prédiction de 76.4% approximativement.

3.5 Prédiction du statut HLB par Régression par les Moindres Carrés Partiels (PLS)

Concrètement, en utilisant la meilleure méthode, qui est celle des moindres carrés partiels, le statut des arbres peut donc être prédit précisément (figure 3.10).

Prédiction du statut HLB par Régression par les Moindres Carrés Partiels

Figure 3.10: Prédiction du statut HLB par Régression par les Moindres Carrés Partiels

Cette représentation graphique est une aide à la décision pour déterminer le statut de chaque arbre à partir des résultats de la PLS. La prédiction par PLS donne une valeur correspondant à la moyenne des statuts prédits (compris entre 0 et 1 en ordonnés) des dix feuilles d’un arbre pour chaque arbre (en abscisse). Cela indique pour chaque arbre s’il est plutôt positif ou négatif, mais ça ne permet pas de trancher sur le statut de l’arbre. Cette prédiction se base donc sur deux seuils choisis via les observations de prédiction effectuées. Ces seuils sont compris entre 0.4 pour les arbres positifs qui seraient au-dessus de cette valeur (en rouge), 0.35 pour les arbres négatifs qui seraient en dessous de cette valeur (en vert) et les arbres indéterminés (en gris) qui seraient compris entre ces deux valeurs. Une comparaison entre le statut réel des arbres est confirmé par qPCR (avec un croix pour les négatifs et un rond pour les positifs), permet ensuite de réaliser la matrice de confusion (table 3.3).

Table 3.3: Matrice de confusion de la méthode de Régression par les Moindres Carrés Partiels
Négatif confirmé Positif confirmé
Négatif prédit 57 2
Positif prédit 10 62

Sur cette prédiction, 62 arbres ont été prédits correctement positifs et 57 correctement négatifs. 10 arbres sont des faux positifs (erreur de type 1) et 2 sont des faux négatifs (erreur de type 2).

Table 3.4: Paramètres de performance du statut HLB par Régression par les Moindres Carrés Partiels
Accuracy 90.8
Precision 96.6
Sensitivity 85.1

La prédiction par la méthode de régression par PLS a l’avantage d’avoir une précision élevée (96.6%) ce qui minimise les erreurs de type 2, ce qui est très utile pour l’identification de la maladie sur une parcelle (table 3.4).

3.6 Amélioration du protocole de terrain pour le choix du nombre de feuilles par arbre

La méthode de la SVM est la méthode dont l’estimation des performances est la plus rapide à exécuter. Elle est donc utilisée pour tester s’il est possible d’alléger le protocole d’échantillonnage (figure 3.11).

Prédiction des paramètres de SVM en fonction du nombre de feuilles échantillonnés sur chaque arbre, obtenu après avoir fait la moyenne de 1000 SVM

Figure 3.11: Prédiction des paramètres de SVM en fonction du nombre de feuilles échantillonnés sur chaque arbre, obtenu après avoir fait la moyenne de 1000 SVM

Après 1000 simulations, les paramètres de performance de la méthode SVM sont respectivement de 95% pour la précision (Precision), 96% pour la sensibilité (Sensitivity) et 97% pour la qualité globale de la prédiction (Accuracy) pour un échantillonnage de 10 feuilles. La précision et la sensibilité passent en dessous des 90% avec 5 feuilles prélevées. Avec 8 feuilles échantillonnées, la qualité de la prédiction ainsi que la sensibilité ne baissent pas en dessous de 95%.

3.7 Amélioration du protocole de terrain pour le choix du nombre de mesures de réflectance par feuille

Prédiction des paramètres de SVM en fonction du nombre de répétition SPIR par feuille échantillonnés sur chaque arbre, obtenu après avoir fait la moyenne de 100 SVM

Figure 3.12: Prédiction des paramètres de SVM en fonction du nombre de répétition SPIR par feuille échantillonnés sur chaque arbre, obtenu après avoir fait la moyenne de 100 SVM

Après 100 simulations, les paramètres de performance de la méthode SVM sont respectivement de 85% pour la sensibilité (Sensitivity), 82% pour la qualité globale de la prédiction (Accuracy) et 81% pour la précision (Precision) pour un passage de 6 répétitions SPIR (figure 3.12). Les écarts types étant assez marqués, au bout de 3 répétitions SPIR les paramètres de performance sont très peu changeants.