DĂ©pouillement d'une courbe
En sciences expérimentales, le relevé de données se représente fréquemment sur un graphique et prend alors souvent la forme d'une courbe. Le dépouillement de la courbe est l'opération qui consiste à extraire des informations de cette courbe ; l'information ne provient pas des valeurs individuelles des points, mais de leur organisation, de la forme de la courbe.
Lorsque cette courbe est un spectre, on parle de dépouillement d'un spectre.
Origine de la courbe
Les valeurs peuvent ĂȘtre relevĂ©es individuellement (mesure manuelle, lecture sur un appareil, acquisition automatique) et placĂ©es sur un graphique (points placĂ©s Ă la main sur du papier millimĂ©trĂ©, ou valeurs entrĂ©es dans un tableur ou un logiciel de reprĂ©sentation de donnĂ©es), ou bien le graphique peut ĂȘtre directement issu de l'acquisition (tracĂ© sur une table traçante, acquisition automatique gĂ©nĂ©rant directement le graphique).
Le traitement peut ĂȘtre manuel, « Ă la rĂšgle et au crayon », ou informatisĂ©. Lorsque la courbe est une courbe analogique (tracĂ©e par une table traçante), il est possible de numĂ©riser la courbe. Cela peut se faire Ă l'aide d'un scanner puis d'un logiciel de traitement d'image (pour reconnaĂźtre les axes et la courbe), ou bien Ă l'aide d'une table de numĂ©risation (sorte de souris transparente, le clic permettant d'enregistrer le point).
Traitement manuel
RĂ©gression
Dans certains cas, on sait que les valeurs doivent suivre une loi mathématique. Si cette loi est suffisamment simple, on peut en déterminer les paramÚtres à partir des points : c'est la régression. Le cas le plus simple est celui d'une loi affine (polynÎme du premier degré), on parle alors de régression linéaire.
Une fois cette loi déterminée, on peut « remplacer » les points expérimentaux par cette loi, ce qui permet d'utiliser un traitement mathématique et remplacer les techniques ci-dessous. L'erreur commise en faisant cette substitution est estimée par la moyenne quadratique de l'écart entre les points et la loi, que l'on nomme écart quadratique.
à l'inverse, les techniques ci-dessous peuvent permettre de déterminer les paramÚtres de la loi.
Lorsque la loi est un du type ( étant un nombre réel), on peut utiliser une échelle logarithmique pour l'abscisse et l'ordonnée. On a alors une droite, et la pente de la droite donne la puissance de la loi :
La régression linéaire est normalement un traitement statistique des valeurs, mais on peut, lorsque les points sont « bien alignés », effectuer un tracé à la rÚgle. Cependant, si cette technique est simple, elle ne permet pas de déterminer l'écart quadratique entre les points et la droite.
On sait que par points, on peut faire passer un polynĂŽme de degrĂ© (interpolation polynomiale). Il pourrait ĂȘtre tentant de dĂ©finir un tel polynĂŽme pour avoir une fonction mathĂ©matique « exacte ». C'est cependant en gĂ©nĂ©ral une mauvaise idĂ©e, car cela ne prend pas en compte la dispersion des rĂ©sultats et les barres d'erreur, on obtient donc certes un Ă©cart quadratique nul, mais des rĂ©sultats qui ne correspondent finalement pas Ă l'expĂ©rience.
Lorsque la courbe n'est pas continue ou pas dĂ©rivable, il peut ĂȘtre intĂ©ressant de la modĂ©liser par partie, c'est-Ă -dire d'utiliser diffĂ©rentes fonctions selon l'intervalle de valeurs.
Lissage
En mathĂ©matiques, on peut dĂ©finir des fonctions nulle part continues, ou bien continues mais nulle part dĂ©rivables. Toutefois, ces fonctions ne sont d'aucune utilitĂ© en sciences expĂ©rimentales ; toutes les courbes peuvent ĂȘtre considĂ©rĂ©es comme continues et dĂ©rivables, du moins par partie. Il est donc lĂ©gitime d'effectuer un lissage au lieu de se contenter de relier les points par une ligne brisĂ©e.
En général, on reporte l'erreur de mesure sous la forme de barres sur le graphique, les barres d'erreur. Le lissage consiste à faire un tracé à main levée passant à l'intérieur de ces barres d'erreur.
On utilise ici le « pouvoir intégrateur » du cerveau humain.
Asymptote
Une asymptote est une valeur limite vers laquelle tend la courbe, mais qui n'est en général pas atteinte. On peut prendre par exemple le cas en électrocinétique de la tension aux bornes d'un condensateur lors de sa charge sous une tension continue.
Pour une asymptote à l'infini, on effectue une mesure sur une grande plage de valeurs (de longue durée si l'abscisse est le temps), et on prend la valeur maximale atteinte, lorsque la courbe semble présenter un plateau.
Dans le cas d'une asymptote verticale à une abscisse donnée, on encadre le point : on situe approximativement la position de cette asymptote, et l'on effectue des relevés de points supplémentaires entre les deux points encadrant cette valeur ; il s'agit d'un sur-échantillonnage local. On peut éventuellement procéder par dichotomie.
Point d'inflexion
Un point d'inflexion se repĂšre Ă l'Ćil nu ; la direction de la tangente est en gĂ©nĂ©ral assez claire. Pour dĂ©terminer sa position, on place la rĂšgle dans la direction de la tangente, et on la fait glisser jusqu'Ă ce qu'elle affleure la courbe ; on trace ainsi la tangente.
Si la dérivée évolue lentement (la valeur absolue de la dérivée seconde est faible), la courbe présente une partie quasiment droite ce qui permet de déterminer facilement la direction de la tangente ; mais alors, il est plus difficile de placer précisément le point d'intersection entre la tangente et la courbe, puisqu'un petit écart sur la position de la tangente entraßne un grand écart sur la position du point.
Dérivée et tangente
La tangente en un point peut ĂȘtre dĂ©terminĂ©e par la droite passant par le point prĂ©cĂ©dent et le point suivant (corde de la courbe) : on trace la corde entre le point et le point , et on trace la parallĂšle Ă cette droite au point . Cette technique est d'autant plus juste que les points sont Ă©quitablement espacĂ©s sur la courbe (en abscisse curviligne). On prend pour dĂ©rivĂ©e la pente de la droite.
On peut justifier cette approximation par le théorÚme des accroissements finis, disant que
- Si une fonction est dérivable sur l'intervalle , il existe un point entre et tel que la dérivée est égale au taux de variation entre et .
On suppose donc que ledit point est proche du point .
On voit également que cela revient assimiler la dérivée au taux de variation, ce qui est justifié par la définition de la dérivée (limite du taux de variation lorsque les points se rapprochent).
Si les points prĂ©sentent une dispersion importante (voir les articles Erreur (mĂ©trologie) et Rapport signal sur bruit), on a tout intĂ©rĂȘt Ă lisser la courbe avant de dĂ©terminer la dĂ©rivĂ©e.
Travail sur les pics
Dans un certain nombre de cas, la courbe présente des pics, des « courbes en cloche ». L'information pertinente peut provenir de la position, de la hauteur, de la largeur ou de la surface du pic.
En théorie, un pic est une courbe s'étendant à l'infini des deux cÎtés, mais se rapprochant « assez vite » de la ligne de fond. Dans la pratique, on ne considÚre souvent que les points se détachant notablement de la ligne de fond (voir l'article Limite de détection).
Un des grands problĂšmes est celui de la superposition de deux pics, lorsque la distance entre deux pics est faible par rapport Ă leur largeur.
Sommet d'un pic
Le pic se superpose en général à une courbe que l'on appelle le fond.
Au sens strict, le sommet du pic est le point le plus haut. Si l'on a la liste de valeurs, il suffit de prendre la plus élevée. Toutefois, lorsque les points présentent des oscillations importantes (bruit), le point maximal n'est pas forcément représentatif du pic. On peut alors faire un lissage, ou bien faire une régression avec une fonction courbe, par exemple une parabole, avec quelques points autour du point maximum, on prend alors le sommet de la parabole.
Lorsque l'on a une courbe tracĂ©e, on utilise le fait qu'au maximum, la tangente est horizontale. On fait alors glisser la rĂšgle parallĂšlement Ă l'axe des abscisses, et on regarde le moment oĂč la rĂšgle atteint le sommet.
Si le pic est symétrique (que le fond soit horizontal ou pas), on peut aussi utiliser le milieu du segment joignant les points d'inflexion sur les flancs du pic, ce que l'on appelle le « milieu de la corde ».
Graphiquement, on signale le sommet par une double-flĂšche tangente Ă la courbe.
Le sommet déterminé indique donc la position du pic, mais aussi sa hauteur. On distingue :
- la hauteur brute : c'est l'ordonnée du point ;
- la hauteur nette : c'est l'ordonnĂ©e du point moins l'ordonnĂ©e de la ligne de fond Ă la mĂȘme abscisse.
C'est souvent la hauteur nette qui est intéressante
Largeur d'un pic
Pour déterminer la largeur d'un pic, on utilise en général la largeur à mi-hauteur (en anglais : full width at half maximum, FWHM).
Pour cela,
- on trace une droite verticale passant par le sommet du pic,
- on détermine le milieu du segment entre le sommet et le fond ;
- on trace une droite parallĂšle au fond.
La largeur Ă mi-hauteur est la largeur du segment que forme l'intersection de cette droite avec la courbe.
On peut également définir la largeur du pic par la longueur du segment joignant les points d'inflexion des flancs.
Enfin, si l'on dispose des valeurs des points, on peut utiliser l'écart type expérimental s, c'est-à -dire la racine carrée de la variance empirique des points du pic
oĂč est la position du sommet.
Surface d'un pic
Si l'on veut juste comparer les surfaces des pics entre eux, on peut se contenter d'estimer la surface par le produit hauteur Ă largeur, en supposant que les formes des pics suivent une mĂȘme fonction mathĂ©matique.
La surface du pic peut ĂȘtre dĂ©terminĂ©e, si l'on dispose des valeurs des points, Ă l'aide d'une mĂ©thode d'intĂ©gration numĂ©rique telle que la mĂ©thode des trapĂšzes ou de Simpson par exemple.
Une ancienne mĂ©thode consiste Ă dĂ©couper le pic avec des ciseaux et Ă le peser avec une balance suffisamment prĂ©cise. L'unitĂ© de surface est le produit des unitĂ©s des axes. Pour avoir la surface dans cette unitĂ©, il faut diviser la masse par le grammage du papier (masse surfacique, en gĂ©nĂ©ral indiquĂ©e en g/mÂČ), puis de convertir cette valeur (en mÂČ) avec les Ă©chelles des axes.On distingue :
- la surface brute : on découpe le pic jusqu'à l'axe des abscisses (ou on multiplie la hauteur brute par la largeur) ;
- la surface nette : on découpe le pic jusqu'à la ligne de fond (ou on multiplie la hauteur nette par la largeur).
Traitement automatisé
Lorsque les points sont relevés sous forme de valeur, il est alors intéressant de faire les traitements par informatique.
RĂ©gression
La régression, appelée en anglais profile fitting (ajustement de profil), peut s'effectuer avec tout type de fonction.
La régression permet de résoudre de maniÚre efficace les problÚmes de superposition de pics.
Travail sur les pics
On peut, comme pour le traitement manuel, prendre un fond linéaire en définissant des positions fixes. Mais on peut aussi ajuster un polynÎme sur la courbe que l'on obtient lorsque l'on enlÚve les pics.
On peut ajuster le pic par rĂ©gression (par exemple fonction gaussienne, pseudo-fonction de VoigtâŠ) ; dans ce cas-lĂ , les paramĂštres du pic peuvent ĂȘtre dĂ©duits des paramĂštres de la fonction.
Position et hauteur du pic
La position du sommet peut ĂȘtre dĂ©terminĂ©e en ajustant une parabole aux points situĂ©s autour du point le plus haut.
Si le pic est symétrique, on peut aussi utiliser la moyenne pondérée m des points :
pour les N points constituant le pic.
On peut également déterminer la position du sommet par la dérivée, qui présente une forme caractéristique pic positif-pic négatif et passe par zéro à l'endroit du sommet, ou bien par la dérivée seconde qui présente alors un minimum local. L'utilisation de la dérivée seconde permet de prendre en compte la superposition de deux pics, lorsqu'un des pics apparaßt comme un épaulement de l'autre : à cet endroit, la dérivée ne s'annule pas puisque la tangente n'est pas horizontale ; cela revient à détecter les extrema de courbure. Les inversions de courbure, les points d'inflexion, se détectent également trÚs bien : ce sont les intersections de la dérivée seconde avec l'axe y'' = 0.
La dĂ©rivation a intĂ©rĂȘt Ă se faire sur la courbe lissĂ©e : en effet, le bruit alĂ©atoire consistant en des variations d'un point sur l'autre, il introduit une forte perturbation de la dĂ©rivation (le ÎŽx Ă©tant petit, le taux de variation est trĂšs grand). Si l'on utilise l'algorithme de Savitzky-Golay, on peut utiliser la dĂ©rivĂ©e du polynĂŽme au milieu du segment glissant.
Surface et largeur du pic
La surface, nette ou brute, peut ĂȘtre dĂ©terminĂ©e par intĂ©gration numĂ©rique.
On peut alors dĂ©finir une autre largeur : la largeur intĂ©grale, qui est le rapport de la surface nette sur la hauteur nette. C'est la largeur d'un rectangle qui aurait la mĂȘme surface nette et la mĂȘme hauteur nette que le pic.
DĂ©convolution de pics
Un pic correspond à un phénomÚne physique. Lorsque des phénomÚnes génÚrent des pics proches, ceux-ci peuvent se recouvrir ; on parle parfois d'interférence. Voir aussi l'article Résolution (optique).
Si l'on a un modÚle mathématique pour la forme des pics, on peut les séparer. On parle de désommation, ou encore de déconvolution.
Dans d'autre cas, la forme du pic dépend de plusieurs paramÚtres. Le pic est alors la somme ou le produit de convolution de fonctions élémentaires, la forme de chaque fonction dépendant des paramÚtres. L'opération permettant de décomposer les pics en fonctions élémentaires porte aussi le nom de déconvolution.
Voir aussi
Bibliographie
- (en) Chao Yang, Zengyou He et Weichuan Yu, « Comparison of public peak detection algorithms for MALDI mass spectrometry data analysis », BMC Bioinformatics, vol. 10, no 4,â (DOI 10.1186/1471-2105-10-4, lire en ligne)