Biosystémique
La biosystémique – ou biologie systémique – est l'application de la systémique à la biologie en vue de décrire, à partir de la connaissance de ses composants et des relations qui existent entre eux, le fonctionnement d'un être vivant comme les modifications de ce fonctionnement consécutives à des variations de ces deux éléments.
Cette fonction est d'autant plus nécessaire que l'on peut définir avec Edelman & Gally (2001)[1] un système biologique comme un système ancien (plusieurs milliards d'années) complexe et dégénéré.
Définition
Selon Kitano (2002)[2] - [3] la biosystémique comprend la connaissance des composants et de leurs relations structurales, leurs comportements et leurs caractéristiques dans différents environnements ou conditions, la régulation du système pour conserver son état d'équilibre ou en trouver un autre, les processus qui permettent de construire un système adapté à une fonction donnée.
Problématique
La biologie et la complexité
La communauté scientifique dispose aujourd'hui d'outils qui lui permettent d'explorer en détail non seulement les gènes mais aussi les ARN, les métabolites, les protéines, le fonctionnement des canaux cellulaires, les cycles métaboliques, etc., comme des bases de données qui engrangent les résultats de ces explorations. L'accumulation d'importants volumes de données issues de technologies particulières à haut débit comme les puces à ADN exige un renouvellement des capacités actuelles de traitement.
La communauté médicale dispose également de bases qui rapportent des cas cliniques associés à des éléments cliniques et thérapeutiques comme The Great Atlas of Cancer. Dans le domaine agricole on commence à voir apparaître des banques de graines virtuelles avec des génomes de plantes modifiés et les conditions de culture associées (adaptation à des climats plus secs ou plus froids, résistance naturelle à tel parasite, retour sur semence amélioré, richesse en protéines accrue, etc.)
Le nombre des interprétations et des expertises de ces données croît aussi de façon exponentielle et il faut les stocker et les analyser en confirmant éventuellement leur expérimentation dans un autre environnement (souvenons nous que le chien de Pavlov n'associait pas la nourriture au son de la cloche mais à celui de l'assistant de Pavlov chargé de l'apprentissage ).
La systémique pour faire face à la complexité
La systémique est une méthode d'approche de la complexité qui soit la décompose en unités plus simples sinon élémentaires (systémique descendante top-down) soit la reconstruit à partir de l'ordonnancement d'éléments simples (systémique ascendante bottom-up).
La biosystémique s'apparente pour partie à la voie ascendante mais a imaginé une troisième voie, dite de Sydney Brener ou middle - out dont l'origine est le sujet de la recherche avec une extension descendante pour analyser les caractéristiques des composants et une extension vers le haut pour définir le domaine de validité des conclusions de la recherche. Elle permet notamment de fédérer et d'exploiter des données hétérogènes en leur imaginant une structure locale.
La biosystémique met l'accent sur trois concepts : les propriétés émergentes, l'aspect stochastique et la multidisciplinarité.
Les propriétés émergentes
On appelle propriétés émergentes celles que le « tout » ajoute à la somme des propriétés des parties qui le constituent(ou parfois substitue partiellement à cette somme). Cette observation est récursive. Un serveur informatique a des qualités propres qui excèdent la somme des qualités « individuelles » d'un circuit intégré, d'un programme rédigé sur une feuille de papier, d'un ventilateur, etc. et, à son tour, un cluster de serveurs présente des qualités (de sécurité, de rapidité d'exécution, etc.) que n'a pas un serveur isolé. Un « top » vestimentaire a des qualités différentes de celles de la laie de tissu, du fil, de la dentelle, des breloques etc. qui en ont permis la fabrication mais l'ensemble de mon « look » a lui-même une allure différente du top, du short, des bottes, des bijoux pris indépendamment les uns des autres. De même un sandwich a un goût émergent différent de celui de chacun de ses ingrédients.
La stochastique
En sciences, on distingue classiquement la déduction (les mathématiques) de l'induction (les autres disciplines). La systémique ajoute la stochastique. Sénèque affirmait que si un sage (savant) pouvait connaître parfaitement l'état de l'univers à un instant donné, il pourrait en déduire son évolution jusqu'à la fin des temps. La stochastique refuse cette affirmation. Il existe à tout instant une multiplicité d'aléas qui va modifier le cours des choses.
Il existe différents modèles stochastiques. En voici deux caricaturaux :
- Dans le premier, un aléa unique amplifie ses effets (douleur et retard) et multiplie ses conséquences : se coincer le doigt dans le porte serviette en sortant de la douche (aléa) → douleur qui rend maladroite → se renverser le chocolat sur les cuisses en le sortant du micro-ondes → essuyer le chocolat et se heurter la tête dans la porte du micro-ondes laissée ouverte sous l'effet de surprise → nouveau retard → mal attacher sa spartiate et se coincer la jupe (blanche) dans la portière de la voiture → perdre la spartiate en descendant de voiture lorsque votre papa vous laisse à un feu tricolore.
- Dans le second exemple, l'aléa se révèle au travers d'une structure et de comportements. J'ai un collier de perles (structure) et j'ai l'habitude de caresser les chiens (comportement). Pendant que je caresse un caniche, un pétard explose (aléa). Le caniche fait un mouvement brusque (réflexe) qui casse le collier et entraîne la perte des perles. Si le collier était de plaquettes de nacre avec un double fil (structure) l'aléa n'aurait pas entraîné la perte des plaquettes de nacre car, très probablement un seul des deux fils aurait cédé sous le mouvement brusque du chien.
L'élément stochastique est ce qui explique, au niveau de l'individu, la trisomie dans laquelle l'enfant hérite des deux chromosomes de l'un de ses parents (au lieu d'un seul)ou, au niveau de l'évolution, la spécialisation de certains chromosomes en chromosomes sexuels comme ce qui explique la plupart des artefacts et des erreurs transientes dans les analyseurs biophysiques.
La multidisciplinarité
La biosystémique associe biologistes, informaticiens, mathématiciens ainsi que les ingénieurs et techniciens qui produisent les outils utilisés. Une particularité de certains nano-outils biologiques est qu'ils se modifient à l'usage : un lave-linge ou un spectromètre « s'usent » à l'usage mais leur comportement n'est pas modifié. Un nano-bio-compteur qui mesure, par exemple, le nombre de cellules précancéreuses dans un organisme, se reproduit lui-même et voit donc son comportement modifié au fil du temps (plus il vieillit plus chaque cycle de reproduction est long un peu comme le serait une montre pour laquelle une heure « marquée » correspondrait chaque mois à cinq minutes « réelles » de plus.)
Cette multidisciplinarité doit obéir à trois règles : égalité, partage et réciprocité.
Par égalité, on entend qu'il ne s'agit pas que les non-biologistes soient au service des biologistes ; ces derniers étant, en quelque sorte, des maîtres d'ouvrage et les autres des maîtres d'œuvre mais qu'il doit s'établir une symbiose entre tous qui dégage une force commune de proposition de nouveaux concepts.
Par partage, on entend que chaque spécialiste doit conserver des racines avec sa discipline propre (biologie classique, informatique, mathématiques…) et non se consacrer en totalité à la biosystémique. Il doit partager son temps.
Par réciprocité, on entend que les spécialistes impliqués dans la biosystémique doivent tirer de cette implication des novations pour leur discipline. Par exemple, les informaticiens doivent pouvoir améliorer le traitement des questions posées en langage naturel à partir de travaux de recherche conduits sur la recherche des motifs génétiques. En collaboration avec les mathématiciens et les ingénieurs, ils doivent améliorer les algorithmes génétiques (programmes informatiques qui s'adaptent d'eux-mêmes aux stimuli de leur environnement). Les systèmes vivants se comportent et se régulent comme des usines avec des boucles de feed-back, des redondances, des remises à zéro que les ingénieurs peuvent utiliser dans les domaines de la production (raffineries, centrales électronucléaires, autoroutes passives envisagées pour faire rouler en sécurité des trains de camions sans conducteur). Ce que l'on appelle l'informatique bio-inspirée ou bio-mimétique (réseaux de neurones, algorithmes génétiques, systèmes multi-collaboratifs ou par imitation des insectes sociaux comme les abeilles ou les fourmis) doit en tirer profit. Pour les mathématiciens c'est la simulation numérique.
Outils
Il convient de préciser d'emblée que l'objet de la biosystémique n'est pas la création d'un modèle unique, d'une sorte d'Adam/Ève in silico mais la création indépendante de plusieurs modèles (bien qu'en nombres limités pour des raisons tant épistémologiques que financières) par fonction ou espèces.
La biosystémique est chiffres : les unités
Les modèles biosystémiques mettent en relation des études portant sur des objets dont les dimensions vont du nanomètre (biologie moléculaire voire atomique) à la dizaine de centimètres (médecine, art vétérinaire) et rédigées par des auteurs qui utilisent des unités parfois différentes (des pouces, des centimètres). Les ratios entre ces mesures sont parfois seulement exprimés ou évoqués, parfois désignés par une unité. Pour mesurer un même phénomène, certaines échelles sont linéaires, d'autres logarithmiques ; parfois certains auteurs estiment plus judicieux de transformer une variable continue en une variable booléenne ou, à l'inverse, une courbe sigmoïde en une sinusoïde. Les coordonnées spatiales peuvent être exprimées de façon cartésienne ou polaire.
Les échelles de temps sont également très variables : du millionième de seconde pour un événement moléculaire à 28 jours pour le renouvellement des cellules de la peau, à quatre mois pour les érythrocytes ("globules rouges"), à dix ans pour les cellules osseuses et à quelques milliards d'années pour l'évolution du vivant. Un même phénomène peut se dissocier en réponses lentes et rapides : par exemple, la circulation du sodium associe des canaux rapides qui s'ouvrent en 3 millisecondes et des canaux persistants qui s'ouvrent un tiers de seconde, voire une demi-seconde, de même que certains de ces canaux sont sensibles à des doses nanomalires de tétrodotoxine (un venin) et d'autres à des doses micromolaires.
La gravité d'un cancer solide associe généralement trois indicateurs (TNM) qui correspondent à trois niveaux : local avec la taille de la tumeur souvent exprimée selon une échelle à 4 niveaux), loco-régional avec le nombre de ganglions touchés, métastatique avec une cotation. Selon le cas ces trois indicateurs sont énoncés tels quels ou retraités en un indicateur synthétique.
Il convient donc d'uniformiser ces mesures au sein d'un outil qui les convertit automatiquement dès leur prise en compte.
La biosystémique est mots : les métathésauri et les ontologies
Une seconde standardisation nécessaire est de nature lexicale. Un langage est souvent ambigu surtout lorsque l'on rapproche des univers différents et encore plus lorsque l'approfondissement d'un domaine conduit rapidement à en faire un monde nouveau. Par exemple, le mot parité n'a pas le même sens en informatique (bit de parité) et en médecine (la parité joue un rôle dans l'épidémiologie du cancer du sein : c'est ici le nombre et le calendrier des bébés mis au monde par la patiente). Il en est de même pour les sigles : HMM désigne essentiellement les chaînes de Markov cachées (hiden markov model) - qui permettent de déceler les séquences et les motifs génétiques - mais aussi une bonne dizaine d'éléments biologiques. En théorie il existe souvent des termes standardisés dont l'emploi est recommandé mais les auteurs, surtout dans les documents de travail, ne respectent pas ces règles qu'ils jugent contraignantes et inutiles pour le sous-ensemble de la communauté scientifique auquel ils s'adressent[4].
Par ailleurs, une discipline nouvelle comme la postgénomique forge plus d'un millier de néologismes par an. L'approfondissement d'un thème fait qu'un phénomène unique à un instant t désigné par un seul mot P va être dissocié à l'instant t+1 en deux phénomènes distincts dont l'un continuera à s'appeler P alors que le second s'appellera Pbis. À l'instant t+2 le lecteur ne saura plus si le mot P renvoie à son sens initial ou à son sens réduit ultérieur. Ce phénomène n'est pas spécifique aux langages spécialisés ; il était fréquent lors de la stabilisation du français moderne aux XVIe et XVIIe siècles.
Les métathésauri et les ontologies apportent une réponse au moins partielle à ces problèmes. Les métathésauri organisent le vocabulaire en relations structurées du type « est un », « est une partie de », « est une instance de » : une autruche est une instance d'oiseau. Un oiseau est un vertébré ovipare. Le bec est une partie de l'oiseau. À partir de cela, l'homme comme la machine peuvent déduire que l'autruche a un bec. À l'exception du premier mot du métathésaurus, tout mot doit avoir au moins un parent et aucun mot ne peut être le parent d'un de ses propres parents comme on le trouve dans des dictionnaires de petite taille (ex : foie = organe qui secrète la bile - bile = liquide sécrété par le foie).
Les ontologies ajoutent un formalisme logique fort aux métathésauri. En biologie, une ontologie est faite pour un problème donné dans un domaine donné. Certaines n'intègrent pas l'aspect évolution de la cellule dans le temps et l'espace, d'autres se centrent sur l'aspect temporel ou spatial, d'autres sur les deux. L'ambition de la biosystémique est de construire l'ontologie la plus large possible sans distorsion. Le modèle le plus connu est GO (gène ontologie) né en 1998 du souhait de rapprocher des bases de données sur la génétique respective des levures, des drosophiles et des souris pour y retrouver des séquences communes après qu'on se soit aperçu que la façon d'appréhender un même phénomène ou une même fonction n'était pas la même dans ces trois domaines de recherche pourtant voisins. Aujourd'hui cette ontologie, étendue à bien d'autres espèces, constitue un élément fondateur de la biosystèmique[5].
L'analyse des données
Il existe aujourd'hui de nombreuses bases de données sur le transcriptome, mais il est difficile de comparer leur contenu en l'absence d'un outil de comparaison interespèces. Un outil comme GO permet ainsi le rapprochement de bases de données de génétique moléculaire consacrées respectivement à la levure, à la drosophile et à la souris, sujets « didactiquement » proches mais « pragmatiquement » éloignés.
Ces bases doivent également faire l'objet de data-mining pour mettre en évidence des règles du type « si les propriétés A, B et C sont vraies alors les propriétés D et E le sont généralement (et non nécessairement) ». Les machines actuelles ne peuvent traiter la masse des informations ; c'est pourquoi on cherche des moyens de limiter la partie à traiter dans le cadre d'extractions sous contrainte qui restent complexes à implanter et – encore plus – à paramétrer.
La typologie des modèles
La complexité et la taille des génomes comme leur évolution impose la construction de modèles très lourdes. De ce fait, on se trouve en face de deux types de modèles : d'une part, des modèles de plus en plus développés au fur et à mesure que la puissance des processeurs croît mais statiques et descriptifs et, d'autre part, des modèles dynamiques mais plus succincts. Un prototype européen de modélisation biosystémique est le modèle Radial Basis Function Gene (RBF-Gene) de Beslon et son équipe (2003)[6] qui associe exons et introns, codons start & stop et où la fonction du gène ne dépend que de sa séquence. Les utilisateurs peuvent ainsi simuler l'évolution structurelle du génome (nombre et taille des gènes, répartition des gènes sur la séquence, interaction entre gènes) et introduire des opérateurs inutilisables sur les algorithmes génétiques classiques (duplications de séquence, insertions, délétions).
Cela étant, il n'est pas nécessaire pour étudier certaines fonctions de modéliser tous les gènes. Pour étudier des patterns évolutifs on peut limiter le modèle aux fonctions de régulation (inhibition / activation) des uns sur les autres. Ces modèles sectorisés (ce qualificatif est plus juste que simplifié) sont appelés à être les plus nombreux.
L'interopérabilité des modèles
Un modèle n'existe pas dans l'absolu : il se nourrit de données existantes et en génère de nouvelles. Il convient donc de la concevoir de telle sorte qu'il puisse s'approvisionner en data auprès des entrepôts de données existants (datawarehouses) et les alimenter tout en respectant les composants matériels et logiciels existants dans les différents laboratoires dont les budgets ne sont pas extensibles à l'infini.
Une question est le nombre de modèles à construire : si l'on s'accorde sur l'insuffisance d'un modèle unique on ne connaît pas l'optimum. Par exemple, pour les êtres vivants les plus simples faut-il un modèle de procaryote et un d'eucaryote ou plusieurs ou (autre hypothèse) un modèle - type associé à des modèles d'instances correspondant chacun à un organisme particulier ? Convient-il, pour une même espèce (ou pour une même fonction chez l'homme et les animaux supérieurs) de séparer un modèle permettant d'en comprendre le fonctionnement « normal » avec les difficultés qu'il existe à définir ce terme et des modèles simulant les effets d'événements extérieurs délétères ou favorables ?
Les propositions actuelles de réponse à ces questions soulignent que les échelles de temps et de taille constituent le critère préférentiel des découpages en différents modèles qui doivent présenter une granularité concertée pour que le niveau des sorties de l'un puisse constituer le niveau d'entrée d'autres.
On sait construire aujourd'hui des librairies de modèles qui associent le modèle, l'objectif du modèle, ce en quoi il a satisfait ou non les attentes placées en lui, les autres usages qu'en ont fait d'autres équipes et leurs commentaires et, naturellement, leur versionning et les limites informatiques (formule permettant de calculer la durée d'exécution du programme) ou mathématiques (limite des expressions, ordre fixe ou non des formules).
Le graphisme des modèles
Comme tout autre, un modèle biosystémique doit pouvoir être représenté graphiquement. Pour être ergonomiques ces graphes doivent être quasi-planaires (les arcs entre deux nœuds ne doivent pas se croiser ou, plus exactement, se croiser le moins souvent possible), rappeler la fonction décrite (la représentation traditionnelle du cycle de Krebs a la forme d'un cercle et non un aspect d'ordinogramme), situer les actions ou les unités dans le temps en les superposant en hauteur ou en les décalant les unes par rapport aux autres dans le sens horizontal, autoriser des effets de zoom.
Comme pour les autres domaines une certaine standardisation est de rigueur au niveau des symboles, des couleurs et des menus d'affichage (agrandissement, rotation, déplacement, groupage et dégroupage de constituants) comme des primitives informatiques.
La portabilité des modèles
La partie logicielle des modèles doit être indépendante de la plate-forme matérielle sur laquelle ils fonctionnent. Bien qu'informatiquement ce soit plus un objectif qu'une réalité – car les avancées des différents composants logiciels sont étalées dans le temps et sont donc conçues de façon à profiter de toutes les richesses des plus récents serveurs ou autres logiciels – il convient néanmoins de garder ce principe à l'esprit pour s'en écarter le moins possible.
Nombre de modèles utilisent maintenant des systèmes multiagents et des automates cellulaires. Dans le premier cas, les agents individuels représentent généralement chacun un objet (au sens informatique : molécule, protéine, cellule, organe) avec ses règles de comportement et son historique. Dans le second cas, le vivant est assimilé à un ensemble de cellules indépendantes en elles-mêmes mais qui conditionnent collectivement le devenir de chacune des autres. Le passé de chaque cellule n'est pas nécessairement pris en compte. On peut comparer, en introduisant un aspect stochastique, les automates cellulaires à des joueurs assis à une table de jeu dans un casino. Si l'automate Ax (le joueur rationnel Jx) dispose de 5 000 € il va jouer comme un automate (joueur) qui dispose de 5 000 € sans se préoccuper de savoir s'il s'agit d'un gain à partir d'une mise initiale de 50 € ou d'une perte à partir d'une mise initiale de 500 000 €. Le gain ou la perte des autres automates (joueurs) dépend des règles qu'Ax (Jx) pense rationnelles pour gagner et des règles du jeu (par exemple, à la roulette le montant global à distribuer entre les joueurs n'est pas le même selon qu'il n'existe qu'un 0 comme en Europe ou un 0 et 00 (double zéro) comme aux États-Unis) mais aucunement de ce qui se joue sur la table d'à côté et de l'historique des joueurs.
Attentes
Les réponses à des questions fondamentales (origine des cellules eucaryotes, constitution des mitochondries, interaction entre les protéines au sein du noyau cellulaire) sont attendues de ces modèles. Des études sont menées pour déterminer chez une levure quels sont les gènes indispensables à sa reproduction en un milieu non hostile et riche en nutriments ; ces gènes pourraient (peut-être) correspondre aux essentiels de la vie définie comme la capacité à se reproduire.
L'industrie pharmaceutique (humaine et vétérinaire) est évidemment le plus demandeur que l'on retienne ou non l'hypothèse que les blockbusters constituent d'ores et déjà un concept finissant et que le véritable avenir du secteur est le sur-mesure. Dans cette dernière hypothèse, il est clair que la production de médicaments plus individualisés nécessite un patron de confection. Cependant nombre de produits classiques ne peuvent être mis aujourd'hui sur le marché car il s'avèrent dangereux pour 1 % (voire 0,5 %) des cas. Ce danger n'est pas lié au médicament lui-même mais à la configuration génétique ou physiologique des patients qui ne le supportent pas. En comprenant quelles sont ces spécificités et en imaginant des moyens de les mettre en évidence, il devient alors possible de prescrire le médicament aux 99 % de patients qui peuvent en bénéficier.
L'industrie agroalimentaire traditionnelle est également intéressée qu'il s'agisse d'améliorer le rendement de la culture des plantes (1 graine de céréale semée donne aujourd'hui entre 300 et 400 graines contre 2 ou 3 sous l'Empire romain et 5 à 8 au XVIIIe siècle mais cela reste insuffisant pour faire face à l'accroissement des besoins de la population), de leur permettre de s'adapter à des climats plus chauds, plus froids, plus humides, plus secs, de résister naturellement à des parasites voire à des prédateurs, de devenir des aliments médicalisés jouant un rôle de prévention ou de proposer aux végétariens des produits contenant tous les acides aminés et nutriments qui ne se trouvent que dans la chair animale.
D'autres biotechnologies industrielles pourraient émerger qui, pour l'heure, relèvent encore plus ou moins de la science fiction. Par exemple, on réfléchit beaucoup sur les biocarburants ou les biomatériaux industriels.
Pour ce qui est des biocarburants, le plein d'une petite voiture consomme – s'il est réalisé à partir de blé – autant de grains qu'une Française en consomme en un an. Pour développer cette solution il y a trois possibilités : augmenter la surface emblavée, améliorer la production unitaire d'un grain mais aussi identifier les gènes et les cycles biologiques qui servent à produire le carburant, les isoler, les cultiver dans des réacteurs identiques à ceux qui servent à la fabrication des antibiotiques par exemple.
Le fil des toiles d'araignées est plus solide (une fois tressé en torons) que le kevlar et trois fois plus léger à résistance égale. S'il est inimaginable d'élever des troupeaux d'araignées auprès desquels ceux des films d'horreur ne seraient que d'aimables échantillons puis de recueillir leur toile comme la soie des cocons à la Renaissance, on espère pouvoir identifier, isoler et exploiter les gènes qui permettent la sécrétion de la toile pour produire en continu un fil – au double sens du terme – de protéines.
Notes et références
- (en) Gerald M. Edelman et Joseph A. Gally, « Degeneracy and complexity in biological systems », Proceedings of the National Academy of Sciences of the United States of America, National Academy of Sciences, vol. 98, no 24,‎ , p. 13763-13768 (ISSN 0027-8424, DOI 10.1073/pnas.231499798, lire en ligne).
- (en) Hiroaki Kitano, « Systems Biology: A Brief Overview », Science, American Association for the Advancement of Science (AAAS), vol. 295, no 5560,‎ , p. 1662-1664 (ISSN 0036-8075, DOI 10.1126/science.1069492, résumé).
- (en) Hiroaki Kitano, « Computational systems biology », Nature, Springer Nature, vol. 420, no 6912,‎ , p. 206-210 (ISSN 0028-0836, DOI 10.1038/nature01254, résumé).
- e.g. Benoît Habert et al., Recyclage d'analyses syntaxiques automatiques pour le repérage de variantes de termes : (en) « Recycling the results of robust: parsers to identify term variants », .
- (en) « Gene Ontology Consortium ».
- (en) Guillaume Beslon, Carole Knibbe, Hédi Soula et Jean-Michel Fayard, « The RBF-Gene Model », dans David W. Pearson, Nigel C. Steele, Rudolf F. Albrecht (dir), Artificial Neural Nets and Genetic Algorithms (Proceedings of the International Conference in Roanne, France, 2003), Wien, Springer-Verlag, , 266 p. (ISBN 978-3-211-00743-3, DOI 10.1007/978-3-7091-0646-4_34), p. 187-192.