[Précédent]

1. Introduction générale

      L'évolution de l'Homme moderne pendant le Pléistocène supérieur (130'000 dernières années) est un sujet fascinant, mais complexe. Les dispersions qui ont permis à nos ancêtres chasseurs-cueilleurs de coloniser tous les continents (sauf l'Antarctique) se sont produites à travers des processus démographiques que nous sommes encore loin de comprendre. Les données de l'anthropologie et de l'archéologie nous permettent de ne déchiffrer que très partiellement ces histoires démographiques. Les données génétiques, qui se sont accumulées ces dernières décennies, ont permis d'aborder de manière nouvelle le débat sur nos origines. De multiples théories se sont dégagées, et se dégagent encore, de ce foisonnement de données. La théorie prépondérante voit une croissance démographique et spatiale d'une petite population ayant vécu en Afrique. La dispersion qui s'en est suivie aurait mené à la colonisation de l'Ancien Monde et à l'extinction de toute autre population déjà en place. D'autres théories stipulent, quant à elles, une évolution progressive et parallèle entre les grandes régions de l'Ancien Monde, alors que d'autres encore proposent des scénarios dans lesquels plusieurs vagues de migrations se seraient succédées.

      Dans ce climat d'incertitude, une approche par simulation arbore un grand potentiel pour confronter les divers scénarios évolutifs. Imaginons que l'information génétique soit définie pour tous les individus d'une population considérée comme la population ancestrale. Les individus de cette population pourraient alors se reproduire et se déplacer dans le paysage au cours du temps. Les échanges de gènes entre les millions d'individus ayant existé pendant le Pléistocène supérieur seraient alors simulés et l'état génétique final pourrait alors être comparé à l'information génétique observée pour les populations contemporaines. De telles simulations sont très lourdes et la puissance informatique disponible aujourd'hui ne permet pas encore de les envisager. Nous pouvons, par contre, utiliser une approche diamétralement opposée. Grâce à la théorie de la coalescence, il est possible de reconstruire la généalogie d'un ensemble de gènes échantillonnés sur la base d'un historique démographique préalablement simulé. En ne simulant que les gènes échantillonnés, cette méthode est extrêmement efficace, et les généalogies produites peuvent être utilisées pour générer une diversité génétique qui peut être comparée à la diversité observée à partir d'un grand nombre d'échantillons. De ces comparaisons peuvent alors être inférés les scénarios démographiques les plus probables, ce qui constitue le but ultime de cette démarche.

      Avant de pouvoir atteindre ce but, il était indispensable, d'une part, de rassembler l'information démographique et environnementale nécessaire au développement de modèles démographiques réalistes et, d'autre part, de pouvoir lier cette information aux modèles génétique de la coalescence dans un outil de modélisation adéquat. Cette démarche a été le but principal de ce travail.

      Les approches par coalescence ont déjà été utilisées dans le cadre de représentations très simplifiées du monde, en considérant, par exemple, une population stationnaire et ne subissant aucune expansion spatiale. Nous savons pourtant qu'il n'en a pas été ainsi. Nous trouvons en effet dans la littérature, et de manière croissante, d'abondantes discussions concernant les impacts supposés de l'environnement sur les dispersions humaines. Les déserts et les montagnes sont souvent cités comme barrières à la migration, les fluctuations du niveau des mers sont considérées comme ayant permis la colonisation de certaines masses terrestres à certaines époques, alors que les grands cycles glaciaires/interglaciaires sont invoqués pour des fluctuations démographiques à grande échelle. Cette hétérogénéité spatiale et temporelle de l'environnement a joué un rôle prépondérant. Représenter cet environnement de manière réaliste est donc primordial pour aboutir à des histoires démographiques qui puissent être considérées comme appropriées.

      La prise en compte de ce réalisme environnemental et son intégration aux variations démographiques et génétiques a demandé une réflexion multidisciplinaire afin d'arriver à une utilisation conjointe de plusieurs modèles. Sa réalisation a permis de mettre en évidence comment certaines réponses démographiques et génétiques étaient affectées par l'utilisation de modèles alternatifs. Travailler avec des modèles est indispensable, mais difficile. Crow et Kimura (1970) ont très bien résumé cette difficulté dans ces quelques phrases qui sont plus que jamais d'actualité:

'(Un) modèle est d'une certaine façon toujours insatisfaisant. Inévitablement, il est incapable de refléter toutes les complexités d'une situation réelle. Néanmoins, il est généralement reconnu que plus un modèle est conforme au processus naturel étudié, plus il devient ingérable d'un point de vue mathématique. S'il est aussi complexe que la situation réelle, il ne s'agit plus d'un modèle. Nous devons trouver un compromis entre un modèle si simplifié qu'il en devient irréaliste ou trompeur, et un modèle incompréhensible ou trop complexe pour être utilisé.'

      La démarche de ce travail se situe justement dans cette recherche de compromis. Il était indispensable que nous puissions développer un outil qui soit composé d'éléments simples, facilitant leur compréhension. La grande incertitude liée aux valeurs de la majorité des paramètres nous a incité à en limiter le nombre. L'outil rassemblant nos modèles (le programme FRICTION) se devait également de pouvoir être appliqué à n'importe quelle échelle spatiale ou temporelle. Une représentation d'une petite surface pourrait ainsi être utilisée pour répondre à des questions plus théoriques à l'aide de modèles très simples, alors qu'une représentation réaliste de l'Ancien Monde serait adéquate pour comparer des modèles évolutifs alternatifs.

      Au début de ce travail, nous nous sommes trouvés devant une tâche immense à accomplir, avec la seule certitude que la mise en place de ces modèles dans un outil de simulation cohérent permettrait de nombreuses applications. Nous avons réalisé rapidement que l'ampleur de cette tâche, couplée à l'apprentissage relativement long des techniques de programmation, ne permettait pas que nous puissions y arriver seul. Ces outils ont donc bénéficié d'un développement commun entre plusieurs personnes. En ce qui concerne les aspects techniques du programme FRICTION, nous nous sommes occupés des aspects environnementaux et démographiques, alors que notre collègue Mathias Currat s'est chargé des aspects spécifiquement génétiques. Son travail de thèse (Currat, in prep) doit être considéré comme complémentaire au nôtre.

      Trois parties distinctes constituent le corps de ce travail. Dans la première partie (chapitre 2), nous passons en revue les différents modèles évolutifs de l'Homme moderne, ainsi que les théories liées à sa dispersion sur tous les continents. Nous poursuivons en rassemblant les informations démographiques disponibles qui peuvent raisonnablement être utilisées dans un exercice de modélisation.

      La deuxième partie (chapitre 3) présente la problématique environnementale. Nous abordons séquentiellement les quatre variables retenues pour ce travail, soit: la végétation, le relief, l'hydrographie et les côtes. Ces variables sont premièrement discutées dans le contexte de leurs modélisations au sein d'un monde virtuel. Nous discutons également des relations entre ces variables et la démographie des populations, notamment à travers les notions de capacité de soutien (densité de population maximale) et de friction (difficulté de mouvement).

      La dernière partie (chapitre 4) commence par présenter les modèles démographiques, et discute de leur implémentation dans un modèle stepping-stone en automate cellulaire au travers de notre outil principal, le programme FRICTION. La première application de cet outil est présentée sous la forme d'un article publié. Il s'agit d'une mise en évidence des signatures génétiques laissées par une population en expansion. Cette application en monde simplifié est suivie par la présentation des simulations sur l'Ancien Monde et des méthodes permettant un dynamisme temporel et spatial de l'environnement. Les fluctuations d'une réponse démographique ne peuvent pas toujours être mises en évidence aisément. Il nous a donc semblé important d'avoir un outil à disposition qui puisse attribuer, quantitativement et de manière robuste, ces fluctuations sur les paramètres des modèles. Des outils d'analyse de sensibilité ont donc été développés dans ce but et sont utilisées pour deux applications, l'une en monde simple, l'autre en monde réaliste. Finalement, il était indispensable que nous puissions nous rendre compte de la variabilité des processus génétiques que nous pouvons simuler. Si les signatures génétiques laissées par des scénarios d'évolution très différents ne peuvent être reconnues, il serait alors très discutable d'utiliser nos modèles avec des données observées pour en inférer un scénario évolutif probable. Une méthode de mise en évidence des différences génétiques entre scénarios alternatifs est alors proposée pour aborder cette problématique. Elle a permis d'explorer de manière originale les effets du nombre de locus considéré, du type d'environnement simulé, ainsi que du modèle d'évolution humaine utilisé (origine unique ou évolution multirégionale). La Figure 1.1 présente de manière graphique la structure de ce travail.

      La prise en compte conjointe des aspects démographiques, environnementaux et génétiques a demandé que nous développions un très grand nombre de méthodes de traitement et d'analyse de données. Ce développement représente un aspect primordial de ce travail et il a requis plus de deux ans de programmation pour aboutir à des outils stables et fonctionnels. Il était bien sûr inutile de faire apparaître, dans le corps de ce travail, des aspects trop techniques liés à ce développement. De même, certaines discussions théoriques sur des méthodes d'analyses auraient alourdi le texte. Nous avons donc abondement utilisé les annexes de la thèse pour ces aspects particuliers. Pour faciliter l'accès à certaines ressources, les outils et les liens Internet présentés sont également accessibles sur une annexe on-line (http://cmpg.unibe.ch/thesis/ray/online_annex.htm).

      

Fig. 1.1. : Structure de la thèse

      Les 'articles' indiquent qu'un document publié a été inséré au chapitre.


2. Dynamique démographique des chasseurs-cueilleurs


2.1. Introduction

      La simulation d'un processus, quel qu'il soit, passe nécessairement par une première étape qui consiste à rassembler les données pertinentes au processus et à en tirer les informations pouvant être incorporées à la simulation, tout en précisant d'éventuelles omissions simplificatrices. Le sujet d'étude du présent travail est l'homme, ou plus spécifiquement le chasseur-cueilleur, terme générique définissant un membre de notre espèce dont la subsistance est assurée par la cueillette de matériel végétal sauvage et par la chasse d'animaux sauvages (englobant la pêche). Cet état a caractérisé toutes les populations humaines pendant la période du Paléolithique, alors que l'apparition de l'agriculture, il y a environ 10'000 ans, a progressivement fait diminuer le nombre de chasseurs-cueilleurs. Il n'en reste aujourd'hui que quelques groupes, subsistant généralement dans des milieux défavorables ou dans des milieux dont la pérennité est fragilisée par la pression de l'agriculture et du monde industrialisé. Nous verrons néanmoins dans ce chapitre que la grande majorité des données nécessaires à nos simulations ne peuvent être dérivées que de ces ethnies contemporaines, et que les extrapolations aux populations paléolithiques sont difficiles, mais indispensables.

      Au moins trois différentes dimensions peuvent être attribuées aux populations de chasseurs-cueilleurs, et à toutes les populations en général (Lahr et Foley, 1998): temporelle, spatiale et démographique. La dimension temporelle est reliée à la durée d'une population comme une entité distincte, depuis le moment de sa fondation ou de sa séparation d'une source ancestrale jusqu'à sa disparition par extinction ou réintégration dans la population ancestrale ou dans une autre population. La dimension spatiale est reliée à l'étendue géographique de la population, ainsi qu'à l'interaction de cette population avec son environnement. Cette interaction avec l'environnement est également à la base de la dimension démographique qui intègre la taille de la population, sa structure, ainsi que les mouvements d'individus.

      Le cadre de simulations dynamiques que nous avons implémenté dans le présent travail prend en compte ces trois dimensions. Il est donc important, d'une part, de pouvoir différencier les grands scénarios d'évolution humaine (scénarios qui sous-tendent l'implémentation générale de nos modèles) et, d'autre part, d'avoir des estimations réalistes à donner aux valeurs des différentes variables démographiques utilisées dans nos modèles.

      Les différentes théories de l'émergence et de la dispersion de l'Homme moderne sont sujettes à d'importants débats actuellement entre paléontologues, archéologues, linguistes et généticiens des populations. Nous n'allons pas fournir ici un descriptif historique complet de ces différents modèles, puisque d'autres l'ont fait de manière exhaustive et avec une optique transdisciplinaire (voir par ex. Pellegrini, 1992). Nous allons commencer par résumer de manière succincte les modèles principaux, et nous continuerons avec une description des quelques éléments permettant l'élaboration des scénarios de migrations régionales par continent. Nous parlerons ensuite des variables démographiques propres à contrôler la croissance, la taille, et les mouvements des populations de chasseurs-cueilleurs. Notre discussion va se concentrer sur les variables qui peuvent directement être utilisées pour modéliser les échelles temporelles et spatiales du présent travail.


2.2. Dispersion et évolution des Hommes modernes


2.2.1. Modèles

      Les débats intenses de la dernière décennie sur l'origine de l'Homme moderne ont abouti à l'élaboration de plusieurs modèles d'évolution, qui font chacun diverses hypothèses sur la dynamique spatio-temporelle des croissances démographiques et des événements de dispersion. L'ensemble des données archéologiques, morphologiques et génétiques concernant l'origine de l'homme ne cessent de croître, et elles sont généralement interprétées à la lumière de deux modèles extrêmes et contradictoires, qui sont d'une part le modèle à origine unique de spéciation/remplacement (ou out of Africa), et d'autre part le modèle d'évolution multirégionale (ou multiregional evolution). Nous allons commencer par décrire brièvement ces deux modèles, avant de donner les arguments principaux de ceux-ci, et de discuter des modèles hybrides. Une schématisation des principaux modèles discutés est proposée dans la Figure 2.1. Bien que nous citons les références clés dans ce chapitre, nous invitons le lecteur désireux d'obtenir une vision complète et détaillée des différents modèles d'évolution humaine à consulter les nombreuses revues récentes sur ce sujet, dont, notamment, Stringer (2001; 2002), Excoffier (2002), Cavalli-Sforza et Feldman (2003).

      Le modèle d'origine unique (Figure 2.1A) peut être trouvé sous plusieurs noms dans la littérature, dont notamment 'Arche de Noé' (Noah's Ark), 'récente origine africaine' (Recent African origin) ou 'de sortie d'Afrique' (out of Africa). Ce modèle considère l'évolution d'une population isolée dans une région restreinte, généralement l'Afrique sub-saharienne (d'où le terme Out of Africa souvent accolé à l'énoncé de cette hypothèse), suivie d'un événement d'expansion démographique et spatiale situé temporellement entre 100'000 et 200'000 ans, accompagné par un remplacement global des populations archaïques en place par les populations d'hommes anatomiquement modernes. Selon ce modèle, les variantes régionales des descendants d'Homo erectus, connues sous le nom d'Homo sapiens archaïques (H. heidelbergensis ou H. sapiens neandertalis), n'ont donc pas contribué génétiquement aux Hommes modernes (Homo sapiens sapiens). Dans sa forme initiale, cette théorie assimile donc l'origine de l'Homme moderne à un événement de spéciation (Stringer et Andrews, 1988).

      Le modèle d'évolution multirégionale (Figure 2.1B), initié par Weidenreich (1946), puis étendu et nommé comme tel par Wolpoff (1989), rejette complètement l'origine unique africaine. Il propose à la place que des échanges génétiques ont été maintenus entre les populations d'Homo erectus d'Afrique, d'Europe et d'Asie, permettant aux populations mondiales d'évoluer vers la modernité, alors que l'isolement par la distance permettait de différencier régionalement ces populations (Wolpoff et al., 2000). La base de cette théorie est l'observation d'une continuité morphologique régionale pour certains fossiles (européens, australiens et asiatiques, voir par ex. Hawks et al., 2000), ce qui selon ces chercheurs ne peut être expliqué par un remplacement complet des populations d'Homo erectus.

      

Fig. 2.1. : Schémas des modèles évolutifs principaux pour l'Homme moderne

Tiré de Excoffier (2002)

      Les flèches grises indiquent du flux génique supposé entre des populations d'Homo erectus sur différents continents (dont les effets auraient été effacés par le remplacement des populations européennes et asiatiques dû à l'émergence de l'Homme moderne en Afrique). Les flèches pleines noires indiquent un flux génique permanent entre les continents. Les flèches noires en pointillé indiquent du flux génique hypothétique, entre les continents, qui se serait produit avant les grandes migrations en dehors d'Afrique.

      Des arguments paléo-anthropologiques sont aussi avancés par les adeptes du modèle d'origine unique. En effet, les plus vieux fossiles d'Hommes modernes sont trouvés en Afrique dans un intervalle de temps situé entre 130 et 90 ka (kilo-ans, ou milliers d'années) (voir McBrearty et Brooks (2000) pour un inventaire exhaustif des datations), ainsi qu'à la porte de l'Afrique dans le Levant (région entre la Méditerranée et le nord de la Mer Rouge) et au Proche-Orient (site de Qafzeh en Israël, 115 - 90 ka).

      Les arguments génétiques favorisant le modèle d'origine unique se sont accumulés ces dernières années (Takahata et al., 2001), grâce notamment à l'utilisation d'un grand nombre de systèmes génétiques associés à des nombres importants d'individus échantillonnés (voir Excoffier, 2002). Nous pouvons citer quatre observations principales supportant ce modèle. Premièrement, une grande majorité d'études 1  ont montré que les populations africaines possédaient une diversité génétique plus importante que les populations non-africaines, ce qui a été observé pour plusieurs systèmes (séquences mitochondriales; séquences, microsatellites et SNPs 2  du chromosome Y; séquences du chromosome X; séquences et microsatellites autosomaux). Ces observations sont considérées comme impliquant une origine africaine récente, bien que d'autres explications aient été avancées comme, par exemple, une dynamique démographique fluctuante impliquant des extinctions et des recolonisations fréquentes en dehors d'Afrique (Eller, 2002), ou un effectif efficace 3  plus grand pour l'ensemble des populations africaines (Takahata et al., 2001).

      Deuxièmement, la diversité allélique trouvée en dehors d'Afrique a souvent été identifiée comme une partie de celle trouvée en Afrique (Tishkoff et al., 1996; Alonso et Armour, 2001; Yu et al., 2002). Troisièmement, des études sur les microsatellites (répétitions de séquences très courtes) montrent une réduction graduelle de la diversité en s'éloignant de l'Afrique (Harpending et Rogers, 2000), même s'il est important de noter que certaines études ne montrent aucune diminution de diversité (Jaruzelska et al., 1999), ou qu'un composant de la diversité humaine semble avoir évolué en dehors d'Afrique (Yu et al., 2001). Puis quatrièmement, lorsqu'il était possible de reconstruire l'état ancestral d'allèles polymorphiques en comparant des séquences humaines avec celles de grands singes, l'embranchement le plus ancien a souvent été trouvé parmi des populations africaines (Takahata et al., 2001; Excoffier, 2002, Table 1).

      Les observations sur la diversité génétique mitochondriale (voir par ex. Rogers et Harpending, 1992; Rogers, 1995), ainsi que sur la diversité de locus nucléaires (voir Table 1 dans Excoffier, 2002), ont permis de mettre en évidence des signatures d'un ou de plusieurs épisodes de croissance démographique de la population humaine pendant le Pléistocène. Ces inférences démographiques doivent faire l'hypothèse d'une seule population non-subdivisée. Néanmoins, comme nous le verrons dans le chapitre 4.4., une expansion spatiale laisse une signature génétique très similaire à une expansion purement démographique. Les données observées supporteraient donc plutôt le modèle de l'origine unique suivie d'une expansion spatiale.

      Les données génétiques qui s'accumulent font donc plutôt pencher en direction du modèle stipulant une origine unique, récente, et certainement africaine. Il faut réaliser néanmoins que ce modèle, ainsi que celui d'évolution multirégionale, sont très simples dans leurs énoncés, car ils ne prennent pas en compte certains processus tels que les subdivisions de populations, les migrations à longues distances, les fluctuations démographiques, les innovations techniques et culturelles, ou encore les structurations sociales. Des hypothèses hybrides, tentant de prendre en compte une partie de ces processus, sont donc de plus en plus proposées. C'est le cas récemment de Templeton (2002), qui a utilisé son cadre de simulation par analyse cladistique (NCA, nested clade analysis) pour mettre en évidence des événements récurrents (par ex. flux génique) et historiques (par ex. expansion spatiale) en analysant la diversité génétique de quelques populations humaines pour des locus mitochondriaux, autosomaux, et des chromosomes X et Y. Templeton a, entre autre, proposé une série de plusieurs migrations importantes sortant d'Afrique, une migration importante récente issue d'Asie en direction de l'Afrique, ainsi qu'un flux génique restreint entre les continents (Figure 2.1C). L'observation par Templeton qu'une des migrations en dehors d'Afrique se serait passée avant l'origine supposée des Hommes modernes, l'a mené à rejeter le remplacement complet d'Homo erectus, et donc le modèle d'une origine africaine unique et récente (mais voir Satta et Takahata, 2002 pour une critique de ce dernier point).

      Les âges des ancêtres communs les plus récents (MRCA, most recent common ancestor) inférés des locus nucléaires sont souvent plus grands que 1 million d'années, et plus grand que 200'000 ans pour les populations non-africaines (voir Excoffier, 2002, Table 1). Les âges des MRCAs pour les populations non-africaines sont plus anciens que la migration hors d'Afrique postulée par le modèle d'origine unique, ce qui a parfois été utilisé comme argument contre ce modèle. Il faut cependant se rendre compte que le lien entre l'âge d'un MRCA et l'âge de la dernière population ancestrale commune n'a rien d'évident. En effet, pour des gènes neutres, l'effectif de cette population ancestrale peut avoir une grande influence sur l'âge du MRCA. Pour des gènes sélectionnés, l'âge du MRCA peut être récent, alors qu'avec une sélection balancée, l'âge du MRCA peut être très ancien (plusieurs millions d'années), précédant grandement l'âge de la dernière population ancestrale commune. En ajoutant à cela l'hétérogénéité observée sur plusieurs locus des temps de coalescence, ainsi que les larges intervalles de confiance au seuil de 95% (de l'ordre de ~50'000 à ~350'000 ans pour certains locus du chromosome Y (Underhill et al., 1997; Hammer et al., 1998)), il est alors très difficile d'utiliser les âges des MRCAs comme marqueurs temporels de l'émergence des premières populations. Des âges anciens pour les MRCAs peuvent également être expliqués en invoquant des subdivisions de populations récurrentes et internes aux différents continents, comme dans le modèle proposé par Excoffier (2002) et illustré dans la Figure 2.1D. Grâce à ces subdivisions, des gènes ancestraux auraient pu être emmenés en dehors d'Afrique et être perdus en Afrique, ce qui peut mener à l'observation d'un gène ancestral parmi les populations non-africaines ou une plus haute fréquence de gènes ancestraux en dehors d'Afrique. En plus de l'importance des subdivisions, ce modèle propose une colonisation progressive des continents par une série d'expansions spatiales ayant eu lieu depuis des zones géographiques restreintes, mais encore inconnues.

      Suite à cette revue des modèles évolutifs principaux de l'Homme moderne, nous allons discuter brièvement, et plus spécifiquement, des dispersions dans les quatre régions principales que sont l'Europe, l'Asie, l'Australie et les Amériques.


2.2.2. Dispersions régionales

      L'hypothèse d'une origine africaine récente est donc favorisée par un grand nombre de chercheurs actuels. En se basant sur ce modèle, plusieurs tentatives de synthèse phylogéographique, paléoanthropologique et paléoclimatologique ont abouti à des hypothèses de routes d'expansions menant aux colonisations régionales de toutes les parties du monde. Une représentation schématique possible de ces routes d'expansion est présentée dans la Figure 2.2. Ce schéma, tiré de Cavalli-Sforza et Feldman (2003), est une synthèse des travaux de Underhill et al. (2001) et de Lahr et Foley (1994; 1998).

      

Fig. 2.2. : Schéma potentiel de dispersions globales de l'Homme moderne

Tiré de Cavalli-Sforza et Feldman (2003)

      Les dates supposées d'arrivées sont indiquées.

      Selon cette théorie, une petite population, originaire plus probablement d'Afrique de l'est, aurait connue une expansion démographique et spatiale aux alentours de 100 ka. Cette expansion aurait été suivie plus tard par une ou plusieurs autres expansions (entre 40 ka et 60 ka) qui auraient permis aux Hommes modernes de s'étendre au-delà du continent africain et d'arriver en Asie en passant soit par le Levant, soit par la Péninsule Arabe via la détroit d'Afar (sud de la Mer Rouge) (Lahr et Foley, 1998).


Dispersion en Asie

      Deux routes majeures ont été proposées pour la dispersion jusqu'en Asie de l'est. La première serait passée par l'Asie centrale, et la deuxième par l'Asie du sud-est, avec un rôle déterminant du plateau Himalayen comme barrière (Cavalli-Sforza et al., 1994). Une étude récente (Karafet et al., 2001) portant sur le polymorphisme du chromosome Y chez 1'383 individus non apparentés (25 populations) a pu mettre en évidence une certaine différentiation entre les populations de part et d'autre de ce plateau, bien que des migrations multidirectionnelles (entre autres nord-sud et sud-nord) viennent grandement compliquer le scénario simpliste des deux routes uniques de migration.

      Suite à une découverte d'outils lithiques datant de 125 ka sur un site côtier de la Mer Rouge (Walter et al., 2000), le débat d'une migration préférentielle le long des côtes en direction de l'Asie a été relancé (Stringer, 2000). Les auteurs des haches et des pointes d'obsidiennes retrouvées ne sont pas connus, mais on trouve des fossiles d'hommes pré-modernes ou modernes d'Homo sapiens datant de cette période (Klein, 1989) dans les régions avoisinantes comme l'Éthiopie (Omo Kibish), le Soudan (Singa), le Kenya (Guomde) et Israël (Skhul et Qafzeh). Il est donc probable que les auteurs de ces outils faisaient parties des premiers membres de notre espèce. Ces individus auraient pu se disperser le long des côtes d'Arabie et jusqu'en Asie du Sud pendant, ou juste après, les changements paléoclimatiques du dernier interglaciaire (aux alentour de 100 ka). En continuant le long de cet environnement côtier, auquel l'on peut supposer qu'ils étaient certainement bien adaptés, ils auraient pu progresser jusqu'en Indonésie, le niveau des mers étant alors à son niveau le plus bas (-120 mètres, voir chapitre 3.6.1.). Selon Walter et al. (2000), ce serait la compétition pour les ressources côtières qui aurait poussé les populations à se disperser le long de cet environnement linéaire. Nous pouvons néanmoins constater que cette théorie possède peu de matériel archéologique sur lequel s'appuyer, car les variations du niveau des océans pendant le Pléistocène supérieur rendent très difficiles la conservation et la découverte de vestiges archéologiques.

      D'après Stringer (2000), le mouvement le long des côtes aurait permis d'éviter ou de grandement diminuer le degré de changement des habitats, beaucoup plus marqué à l'intérieur des terres, et occasionné par les rapides fluctuations climatiques de la fin du Pléistocène. Ces migrations côtières pourraient également expliquer pourquoi les migrants ne remplacèrent pas certaines populations supposées avoir habité l'intérieur des terres en Indonésie (Klein, 1989).


Dispersion en Australie

      Une migration favorisée par les côtes aurait permis aux individus de s'adapter à ces environnements, en développant une capacité pour la construction de bateaux ou de radeaux, ce qui semble avoir été indispensable pour la suite de la dispersion humaine. En effet, même lors des épisodes de niveau minimum des océans (lors des derniers épisodes glaciaires), le large paléocontinent appelé Sahul (regroupant l'Australie, la Papouasie Nouvelle-Guinée et la Tasmanie) a toujours été séparé de la pointe sud-est du paléocontinent asiatique appelé Sunda (regroupant la Malaisie, Bornéo, Sumatra et Java) par une barrière océanique d'au moins 100 km de large (Coupé et Hombert, in press). Les premiers hommes à coloniser le Sahul ont donc nécessairement employé des moyens techniques leur permettant de faire ce voyage maritime. Plusieurs routes ont été proposées pour cette traversée, en se basant sur les distances minimales à parcourir en fonction du niveau de la mer à plusieurs époques (voir par exemple Birdsell, 1977; Jones, 1989). Ces routes empruntent différents cordons d'îles, et aboutissent dans la partie nord du Sahul, avec l'hypothèse sous-jacente que la grande partie des voyages inter-îles s'est effectuée sans direction globale particulière, avec énormément d'essais et d'échecs. Une théorie récente, basée sur des calculs de visibilités inter-îles inférés d'une étude fine des niveaux marins, postule néanmoins que ces voyages étaient planifiés de manière plus intentionnelle, et auraient pu emprunter une route plus au nord par les îles Andaman avant d'arriver en Papouasie Nouvelle-Guinée (Coupé et Hombert, in press).

      Durant les dernières décennies, les estimations des dates d'arrivées des premiers Hommes modernes en Australie ont été considérablement repoussées temporellement, en passant de 10'000 BP 4  dans les années 60 à environ 50'000-60'000 BP actuellement. Ces nouvelles estimations ont été rendues possible grâce notamment à l'évolution des méthodes de datation existantes, ou grâce à l'émergence de nouvelles méthodes telles que la thermoluminescence ou la luminescence stimulée optiquement (OSL, Optically stimulated Luminescence), mais aussi grâce à la réévaluation de différents sites situés en Australie et en Papouasie Nouvelle-Guinée.

      Dans la partie nord-ouest de l'Australie, le site nommé 'Malakunanja II' a été daté par thermoluminescence à environ 50'000 BP (Roberts et al., 1990). A sept kilomètres au sud, le site 'Nauwalabila I', daté par OSL, a permis de définir l'échelle temporelle de plusieurs niveaux stratigraphiques. Ces niveaux étaient directement antérieurs et postérieurs à des outils lithiques et à des pigments, et ont été datés respectivement à 53'400 BP ± 5'400 ans et 60'3000 BP ± 6'700 ans (Roberts et al., 1994). En Papouasie Nouvelle Guinée, le site de la péninsule d'Huon a également permis de dater des outils de pierre, dont les plus vieux dateraient de la période 52'000 - 61'000 BP (Chappell et al., 1994), cité dans Coupé et Hombert (in press). Des dates bien plus anciennes furent proposées pour le site Jinmium rock shelter dans le Territoires du Nord de l'Australie. Fullagar et al. (1996) proposèrent des datations d'outils lithiques à 116'000 BP ± 12'000 ans. Ces datations ont néanmoins été sévèrement contestées par d'autres chercheurs suggérant la contamination d'une partie des sédiments utilisés pour l'analyse, ou le déplacement vertical des outils dans la colonne stratigraphique (O'Connell et Allen, 1998; Roberts et al., 1998).

      Finalement, une des découvertes majeures de ces dernières années a eu lieu sur un site connu depuis plusieurs décennies : le lac Mungo de la région de Willendra Lakes dans la partie ouest de la Nouvelle Galle du Sud. Ce lac asséché a révélé plusieurs squelettes humains, qui ont successivement été datés à 28'000-30'000 BP à l'aide du Carbone 14, puis entre 36'000 et 50'000 BP avec la thermoluminescence, et finalement à 62'000 BP ± 6'000 ans grâce à des mesures directes, apparemment plus fiables, sur les os d'un des squelettes (en utilisant diverses techniques comme la résonance électronique de spin ESR ou la spectrométrie de masse) (Thorne et al., 1999). Cette dernière datation a par contre été contestée par Bowler et Magee (2000), qui après une réévaluation du contexte sédimentaire du site postulent une date plus récente (autour des 50'000 BP). Si l'on fait abstraction des dates très controversées de Jinmium, les évidences archéologiques croissantes tendent donc à montrer une colonisation de l'Australie qui serait antérieure à 50'000 BP.

      Parallèlement aux données archéologiques fournissant des observations directes de la présence humaine, d'autres sources d'information ont été proposées pour argumenter les dates d'arrivée des premiers Hommes modernes en Australie. L'extinction d'une partie de la faune australienne à la fin du Pléistocène (plus de 85% des espèces terrestres de plus de 44 kg, pour la plupart marsupiales (Miller et al., 1999)) a été attribuée aux activités humaines comme la chasse, la modification de l'environnement par le feu et la coupe d'arbre pour dégager des prairies plus propices aux activités de chasse (Jones, 1992). Des changements de végétation vers 45'000 BP ont également été attribués aux activités de feux par des humains (Moss et Kershaw, 2000).


Dispersion en Europe

      En ce qui concerne la colonisation de l'Europe, trois phénomènes à large échelle semblent s'être produits lors du Paléolithique supérieur (Barbujani et Bertorelle, 2001). Le premier de ces événement serait le remplacement des hommes de Neandertal par les hommes anatomiquement modernes il y a environ 40 ka 5 . La colonisation se serait faite par le Levant et aurait permis de coloniser de nombreuses régions du continent européen (Mellars, 1992). Cette colonisation serait donc la première arrivée des Hommes modernes sur ce continent. Le deuxième événement se serait passé lors du dernier maximum glaciaire, il y a environ 20 ka, lorsque le nord et le centre de l'Europe étaient recouverts de glaciers. La présence humaine semble alors avoir été restreinte aux régions les plus chaudes, considérées comme des refuges (notamment dans la péninsule ibérique, en Italie et dans les Balkans), avant d'amorcer un processus de recolonisation en suivant le retrait des glaciers (Bocquet-Appel et Demars, 2000b). Cette phase post-glaciaire est dite Mésolithique. La révolution Néolithique (apparitions de l'agriculture et de la domestication animale) est le troisième événement majeur en Europe, daté il y a environ 10 ka dans le Levant. En partant de cette région, les artéfacts néolithiques sont alors retrouvés de manière graduellement temporelle dans une direction principalement nord-ouest, en suivant approximativement les mêmes routes que la colonisation paléolithique.

      Les fréquences alléliques de plusieurs marqueurs montrent des gradients qui s'accordent généralement bien avec les dates d'apparition de l'agriculture et avec l'origine géographique supposée du Levant (Sokal et al., 1991; Cavalli-Sforza et al., 1994). Ces constatations sont à la base de la théorie de la 'diffusion démique' (Ammerman et Cavalli-Sforza, 1984), qui propose que la structuration génétique des populations humaines a été déterminée essentiellement par la diffusion des agriculteurs au Néolithique. Certaines études génétiques récentes sur le chromosome Y soutiendraient cette expansion démique (Chikhi et al., 2002), mais il resterait à pouvoir identifier de manière convaincante les signatures génétiques laissées par les expansions sous différents modèles alternatifs, dont notamment ceux qui permettent de prendre en compte une acculturation plus ou moins forte des chasseurs-cueilleurs en place. Ces signatures vont être étudiées par simulations par notre collègue Mathias Currat dans un travail de thèse parallèle au présent travail.


Dispersion dans les Amériques

      Si nous faisons abstraction des dispersions dans les îles du Pacifique (pour une revue voir Gibbons, 2001), la dispersion dans les Amériques peut être considérée comme le dernier événement majeur de dispersion de l'Homme moderne. Contrairement à la nécessité d'une traversée par mer pour la colonisation de l'Australie, la colonisation des Amériques s'est très certainement passée sur terre ferme grâce au pont de terre du détroit de Behring (dû à un niveau des mers plus bas lors de cette période (Manley, 2002)), reliant le nord-est de la Sibérie et le nord-ouest de l'Amérique du Nord (Yesner, 2001). Le débat autour de la date d'entrée dans le continent est principalement relié à la question de la culture archéologique Clovis, apparemment responsable d'un grand nombre de traditions technologiques pour les pointes d'armes (fluted points). Les plus anciennes datations attribuées à la culture Clovis sont trouvées autour de 12'000 BP (Yesner, 2001) dans l'Alaska actuel. Des vestiges plus anciens sont trouvés ailleurs sur le continent (comme sur le site de Monte Verde au sud du Chili, daté à 12'500 BP, mais dont la datation est contestée), et malgré un scepticisme toujours présent quant à la qualité de ces datations, il semble que ces sites pré-Clovis soient de plus en plus acceptés (Marshall, 2001). Au vu des datations très rapprochées des vestiges archéologiques de la culture Clovis sur tout le continent, la colonisation de celui-ci se serait passée très rapidement, dans un laps de temps se comptant en siècles (pour une revue des datations, voir Dixon, 2001).

      Deux scénarios principaux pour l'expansion des Hommes modernes en Amérique semblent se dégager à partir des diverses hypothèses et datations. Dans le premier, une ou plusieurs dispersions post-glaciaires tardives eurent lieu. Elles étaient caractérisées par des taux de dispersion et de reproduction élevés. Ce scénario implique une signature archéologique d'une soudaine apparition culturelle, suivie d'une augmentation rapide de la densité des vestiges à travers la surface colonisée des Amériques. Dans le deuxième scénario, une ou plusieurs dispersions préglaciaires eurent lieu, caractérisées par des taux de dispersion et de reproduction relativement bas. Ce scénario implique une augmentation graduelle de la visibilité des découvertes archéologiques, ainsi qu'un gradient dans les dates des premières occupations des sites qui soit proportionnel aux distances qui séparent ces sites de l'origine géographique de dispersion. Les données archéologiques tendent à donner plus de crédit au premier scénario (pour une revue voir Meltzer, 1993; 1995). De plus, des simulations de diffusion sur le continent ont également penché pour ce scénario (Steele et al., 1998), bien qu'une hypothèse de dispersion rapide par les côtes semble favorisée (Mandryk et al., 2001).


2.3. Démographie des chasseurs-cueilleurs


2.3.1. Densités et capacités de soutien

      La célèbre conférence 'Man the Hunter' (Lee et DeVore, 1968) a accouché des fameux nombres 500, définissant la taille d'un groupe régional (ou tribal), et 25, définissant la taille d'une bande locale de chasseurs-cueilleurs modernes. Ces tailles sont définies par Steward (1969) comme étant les tailles maximales et minimales des groupes. Le groupe régional étant de plus défini par le même auteur comme 'un groupe dont les membres s'identifient entre eux de manière vague' (Steward, 1969, p. 290, traduction personnelle). La taille régionale de 500 a été principalement dérivée de l'étude empirique de Birdsell (1953) sur les populations préhistoriques d'aborigènes australiens (discutée également dans (Birdsell, 1968)). Si ce nombre est utilisé sans retenue par plusieurs auteurs, il est généralement critiqué comme apparaissant surestimé (pour une revue, voir Kelly, 1995, pp. 209-210). Binford (2001) critique également fortement la mise en avant de ces nombre 'magiques', comme il les appelle, en argumentant que ses données sur 339 ethnies montrent une énorme variabilité plutôt qu'une tendance vers des valeurs de taille particulière. Il serait également bien plus pertinent de se représenter ces nombres en fonction de probabilité de survie, plutôt que comme nombre absolus. En effet, un groupe de quelques individus peut tout à fait survivre à long terme (Thomas et Thompson, 1984; Soodyall et al., 1997), bien que la probabilité de cette survie soit plus faible que pour un groupe de plus grande taille.

      La taille d'une bande locale d'environ 25 individus semble quant à elle être plus robuste empiriquement que la taille d'un groupe régional, puisqu'elle a été observée dans un grand nombre d'environnements. Néanmoins, Kelly (1995, p. 211) a rassemblé des données de tailles de groupe local sur 32 ethnies, et il a pu montré une grande différence entre les chasseurs-cueilleurs nomades et sédentaires. Alors que la moyenne sur les ethnies de chasseurs-cueilleurs nomades était effectivement proche de 25, la moyenne sur les ethnies sédentaires était quant à elle d'un ordre de grandeur plus élevée, avec une grande variance associée.

      Plusieurs facteurs convergent pour justifier l'idée que 25 individus constituent la taille d'un groupe local mobile, ou 'bande'. Johnson (1982) pense que ce nombre est en relation avec les processus de prise de décision d'environ 6 familles travaillant ensemble. Si le groupe est plus grand, un niveau de hiérarchie supérieur doit alors se mettre en place. Pour Johnson, le nombre 25 est donc la limite supérieure pour la taille d'un groupe. Wobst (1974) considère quant à lui ce nombre comme étant la taille minimale sous laquelle la probabilité de viabilité reproductive (capacité de faire face aux fluctuations de fertilité, de mortalité et de sex ratio) est très faible. Wobst considère que le nombre 25 est un compromis entre les besoins reproductifs et économiques: il est suffisamment large pour assurer au groupe une viabilité démographique, mais assez petit pour éviter la déperdition des ressources locales. Il faut néanmoins souligner que les comportements de récolte des ressources et la disponibilité de ces ressources conditionne grandement la taille de groupe.


Densité

      Les différences entre les densités de population observées semblent avant tout se définir comme le nombre de bandes qui occupent une surface donnée (Martin, 1973a). Les facteurs affectant la densité de population peuvent être nombreux, mais le facteur théorique principal est la quantité de nourriture disponible, et plusieurs auteurs ont essayé de le démontrer empiriquement. En utilisant la quantité de précipitation comme indicateur de l'abondance de nourriture, Birdsell (1953; 1958) a montré un accroissement exponentiel de la densité des aborigènes australiens avec l'accroissement des précipitations. D'autres auteurs comme Baumhoff (1958; 1963), Thompson (1966), Rogers (1969) et Belovsky (1988, p. 346) ont tous trouvé que les densités de chasseurs-cueilleurs pouvaient être expliquées par de simples mesures de densité de nourriture. Notons que Baumhoff (1963) a de plus déterminé dans la région du nord de la Californie, que la somme des longueurs des rivières poissonneuses était la variable qui prédisait le mieux la densité de population. Cela est à mettre en parallèle avec la possibilité pour les rivières de constituer des corridors de migration préférentiellement empruntés lors des migrations (voir Chapitre 3.5.).

      Diverses études sur les chasseurs-cueilleurs contemporains nous permettent de connaître les densités de population observées dans un grand nombre d'environnements différents. Jusqu'à récemment, le travail de synthèse des densités de chasseurs-cueilleurs la plus vaste était celui de Kelly (1995, pp. 222-226). Couvrant les ethnies de tous les grands biomes, il présente notamment des estimations de densité de population par type d'environnement sur plus de 100 ethnies. Plus récemment, Binford (2001) a rassemblé plus de 30 ans de notes personnelles dans un ouvrage que l'on peut qualifier d'étude globale la plus complète sur les variables démographiques et environnementales des ethnies de chasseurs-cueilleurs contemporaines. Le but premier de ce livre est selon son auteur '... le développement d'une méthode d'utilisation productive des données ethnographiques pour servir les buts de l'archéologie'. Bien que les méthodes propres à l'interprétation du matériel archéologique ne nous soient pas utiles pour le présent travail, les variables démographiques et environnementales rassemblées par Binford sur 390 ethnies sont quant à elles inestimables. Le choix de ces variables a été fait au vu de l'utilisation de ces dernières pour des modèles de réponses démographiques. Les estimations des densités par type d'environnement seront présentées au chapitre 3.3.5.


Capacité de soutien

      Nous avons vu que les densités de population peuvent être considérées comme dépendant des ressources locales en nourriture. Il existe donc une valeur théorique représentant le nombre maximum d'individus que peut soutenir une unité d'environnement donnée. Ce nombre est généralement défini comme la capacité de soutien (ou capacité biotique (Barbault, 1981, p. 13)), et est utilisé en écologie pour définir l'asymptote d'une croissance logistique. La capacité de soutien est un état d'équilibre, dans le sens que tout autre taille de population va tendre à s'en approcher. La capacité de soutien est généralement représentée par le symbole 'K'. Il est alors courant de différencier les espèces avec une stratégie K (développement lent, taux de croissance faible, taille relativement grande, reproduction tardive), des espèces avec une stratégie 'r' (symbole pour le taux de croissance; développement rapide, taux de croissance élevé, petite taille, reproduction précoce).

      Selon Belovsky (1988), la plupart des anthropologues semblent avoir utilisé une définition obsolète de la capacité de soutien, en faisant l'hypothèse que les migrations ou changements culturels ne se produisent pas avant d'avoir atteint cette capacité de soutien. Dewar (1984) critique également l'utilisation de ce terme par les anthropologues, en identifiant trois hypothèses de travail de ces derniers: (1) le niveau d'équilibre (K) d'une population est une fonction de la capacité de production Cp de l'environnement (K=f(Cp)), (2) la densité de population N réalisée (observée) est l'équilibre (N=K), et (3) il y a une relation directe entre la taille donnée d'une population (Ni) et la capacité de production de la surface occupée (Ni=Cpi). Autrement dit, il y a un feedback continu entre la population consommatrice de ressources (alimentaires) et les densités de ces ressources (animales ou végétales) qui mène à un équilibre population-environnement. Cet équilibre implique que les chasseurs-cueilleurs évaluent consciemment ou inconsciemment la capacité de soutien de leur environnement et implémentent des mécanismes culturels pour rester en dessous de celle-ci (comme par exemple l'infanticide, l'avortement, le sénilicide, ou l'aménorrhée induite par l'allaitement (Kelly, 1995)). Lorsque le niveau de ressource est susceptible d'être manipulé culturellement par la population, un modèle simple de capacité de soutien ne suffit plus, et il faut alors développer des modèles continus d'utilisation des ressources qui spécifient, pour la population étudiée, les relations entre économie et démographie (Keegan, 1995).

      Les hypothèses (1) et (2) ont aussi été critiquées par d'autres auteurs que Dewar (1984). Dans un article récent, Read et LeBlanc (2003) différencient une taille de population à l'équilibre K* de la capacité de soutien K, et proposent un modèle complexe qu'ils appellent 'multi-trajectoires'. Ce modèle tend à montrer que les différentes réponses démographiques d'une population sont liées aux densités de ressources, aux variations spatiales et temporelles de ces ressources, et à la compétition entre groupes. K* et la croissance de la population vont donc être influencés par ces relations, et différentes 'trajectoires' vont être prises par la population en question selon ces conditions démographiques initiales et subséquentes. Bien que le modèle de Read et LeBlanc (2003) soit attractif et apparaisse comme bien plus réaliste que les modèles démographiques généralement employés, il est difficile d'implémenter ce modèle complexe dans les simulations du présent travail. Une discussion plus étayée de ces points est présentée aux Chapitre 2.3.3, sous forme d'une publication d'un commentaire sur l'article de Read et LeBlanc (2003).

      En ce qui concerne l'hypothèse (3), il est évident que le facteur 'capacité de production de l'environnement' (ou 'potentiel de ressource de l'environnement' (Jones et al., 1992)), dépend de la disponibilité des ressources, mais également de leur distribution. Des ressources denses et agrégées, comme par exemple celles de certaines zones côtières ou alentours de fleuves, permettent des capacités de soutien bien plus grandes que celles prévalentes dans des environnements aux ressources éparses comme celles du désert de Kalahari.

      Ces quelques réflexions nous montrent que la capacité de soutien reste une variable démographique dont la valeur théorique est non seulement inaccessible, mais variable dans le temps. Elle reste néanmoins une variable qui a du sens lors d'un exercice de modélisation sur des populations de chasseurs-cueilleurs, puisqu'elle représente un indice simple pour quantifier les ressources d'un environnement donné. Elle a également l'avantage d'être un des paramètres contrôlant la croissance logistique.

      Les valeurs de capacité de soutien utilisées dans ce travail ont donc toutes été dérivées des données de densité trouvées dans la littérature. Comme nous le verrons dans le chapitre 3, l'utilisation de certaines variables environnementales comme la végétation permet l'attribution directe de valeurs de densité moyenne de population observée dans différents types de végétation. Pour d'autres variables, comme les milieux côtiers ou les abords des fleuves, les valeurs à attribuer aux capacités de soutien sont moins évidentes à trouver dans la littérature.

      Les densités et les capacités de soutien discutées dans ce chapitre sont exprimées en nombre de personnes par unité de surface. Lors de simulations génétiques impliquant des processus de coalescence (chapitre 4), ce sont des gènes et non des individus qui sont simulés. Les calculs des probabilités de coalescence et de migration lors de ces simulations doivent donc être basés sur des tailles efficaces de population, c'est-à-dire des tailles qui doivent refléter le nombre de personnes en âge de procréer et le nombre de copies par personne du locus (segment chromosomique) simulé. Les trois hypothèses de travail utilisées sont présentées dans le Tableau 2.1.

      La troisième hypothèse de travail est très importante lorsqu'il s'agit d'utiliser des estimations de capacités de soutien en terme de nombre de gènes dans les simulations démographiques et génétiques. Les densités des populations de chasseurs-cueilleurs contemporaines, desquelles sont dérivées les capacités de soutien, doivent donc prendre en compte le système génétique simulé.

      
Tabl. 2.1. : Hypothèse de travail des effectifs de populations selon les densités et les locus utilisés
Hypothèse 1a
Hypothèse 2b
Hypothèse 3
locus nucléaires locus mitochondriaux ou chrom. Y locus chromosome X
: nombre total de personnes obtenues dans la littérature
: nombre effectif d'individus
,  : nombres de femmes et d'hommes respectivement
: nombre de copies de gènes dans la population pour un locus donné
a: si nous considérons, de manière réaliste, qu'environ la moitié des individus d'une population de chasseurs-cueilleurs est en âge de procréer, l'autre moitié étant constituée d'enfants et de vieillards
b: si nous considérons un sex-ratio de 0.5


2.3.2. Croissance démographique

      La croissance démographique des populations de chasseurs-cueilleurs est une variable importante pour les modèles d'expansion dynamique et spatiale que nous proposons dans ce travail. Nous discuterons plus en détail au chapitre 4.2.2. des relations mathématiques permettant le calcul de cette croissance. Dans le présent chapitre, nous voulons nous concentrer sur les données disponibles dans la littérature concernant les estimations de croissance des populations paléolithiques.

      La variable principale définissant la croissance d'une population est le taux de croissance (ou taux de reproduction), généralement exprimé en pourcent par année. Pour les chasseurs-cueilleurs contemporains ou pré-contemporains, ce taux est connu pour être élevé, jusqu'à 3% par année (Pennington, 2001). Les estimations de taux de croissance lors de colonisation d'îles dans le Pacifique sont même très élevées, avec des valeurs jusqu'à 4% par année (voir Di Piazza et Pearthree, 1999 pour une revue).

      Les études paléodémographiques essayent d'estimer les taux de mortalité et fertilité, ainsi que la composition en âge des populations éteintes. Alors qu'il est possible d'estimer certain de ces paramètres à partir d'études de cimetière de populations éteintes il y a quelques siècles (Sattenspiel et Harpending, 1983; Meindl et Russell, 1998), les estimations des taux de croissance pour les populations paléolithiques sont quasi impossibles à obtenir à cause des problèmes évidents d'échantillonnage non représentatif des squelettes retrouvés. Les estimations disponibles dans la littérature sont alors hautement spéculatives.


Estimation du taux de croissance

      Certaines estimations de ce taux proviennent des estimations de la densité maximum de chasseurs-cueilleurs à la fin du Paléolithique. Cette population maximum est généralement estimée entre 5 et 10 millions (Biraben, 1979; Jones et al., 1992), si l'on considère que le monde était saturé en chasseurs-cueilleurs, c'est-à-dire si tous les environnement étaient remplis à leur capacité de soutien. Pour arriver à cette taille de population en partant d'une petite population il y a environ 100'000 ans, Jones et al. doivent forcément évoquer des taux de croissance relativement bas, de l'ordre de 0.02% par année ou moins. Selon ces auteurs, ce taux était certainement plus grand lors de la Néolithisation, de l'ordre de 0.05%.

      La colonisation des Amériques, dernier grand événement de colonisation de la fin du Paléolithique, est source de plusieurs estimations de taux de croissance. Les estimations de ces taux varient néanmoins grandement entre des valeurs extrêmes de 0.1% (Hassan, 1981, p. 202) et 3.5% par année (Mosimann et Martin, 1975), avec des valeurs intermédiaires comme 2% (Winterhalder et al., 1988) et 2.9% (Belovsky, 1988). L'utilisation de ces taux extrêmes avec des processus de dispersion simples implique des dynamiques de dispersion très différentes. En utilisant un taux de 3.4%, Martin (1973b) a en effet estimé que l'Amérique du Nord a pu être colonisé en 350 ans et l'Amérique du Sud en l'espace de 1'000 ans, alors qu'en restant plus conservatif Hassan (1981), avec un taux de 0.1%, a estimé que la colonisation complète du continent a duré entre 8455 et 9952 ans.

      Plus récemment, Steele et al. (1998) ont utilisé un modèle de diffusion avec des taux de croissance variant entre 0.3 et 3 % par année pour modéliser la colonisation de l'Amérique du Nord. Ils trouvèrent qu'un taux de 3% produit des densités régionales de population qui ressemblent le plus aux distributions connues des vestiges archéologiques datés de cette époque. Ces mêmes auteurs déclarent également que ce taux de croissance relativement grand est attendu pour des populations colonisant des territoires non-occupés par d'autres populations humaines. Ce taux de 3% a également été utilisé avec succès par Alroy (2001) pour prédire les extinctions massives de faune en Amérique du Nord concomitantes à l'arrivée des premiers hommes à la fin du Pléistocène.

      Qu'en est-il maintenant de la variabilité spatiale du taux de croissance? Pour invoquer des différences spatiales de ce taux, il faut généralement considérer des événements d'adaptations des populations lorsque de nouveaux territoires sont colonisés. Young et Bettinger (1995), pour leur modèle de colonisation globale, ont par exemple utilisé des taux de croissance trois à trente fois plus petits pour les environnements froids d'Europe et d'Eurasie centrale que pour l'environnement africain, auquel les individus sont supposés être complètement adaptés. Binford (2001, p. 440), sans parler d'adaptation, considère plutôt une tendance inverse en stipulant que le taux de croissance des populations dans les environnement froids et secs (comme les plaines du Nord de l'Eurasie) est limité principalement par la nourriture, alors que dans les environnements chauds et humides (comme les forêts tropicales et équatoriales), où la présence de pathogènes est abondante, on s'attend à ce que le taux de croissance soit plus faible. Binford n'a malheureusement pas étayé ses propos avec des données pouvant potentiellement être utilisées en modélisation. Au vu de ces données très éparses sur la variabilité spatiale du taux de croissance, nous avons considéré celui-ci comme constant dans les simulations de ce travail.

      Lors des simulations génétiques effectuées dans ce travail (voir Chapitre 4.3.5.), nous avons adopté la génération humaine comme unité temporelle. La génération est définie comme la différence moyenne d'âge entre les enfants et leur mère, ce qui correspond approximativement à l'âge auquel les femmes ont eu la moitié de leurs enfants. Alors que la durée attribuée à cette génération n'a que peu d'importance lors de travaux plus théoriques (comme au chapitre 4.4.), cette variable devient importante lorsque des éléments extérieurs (comme des événements climatiques) doivent être liés temporellement aux processus démographiques. Les valeurs attribuées à cette variable sont généralement de 25 ou 30 ans dans la plupart des travaux en génétique des populations humaines, bien que les références à des travaux anthropologiques soutenant ces nombres soient rarement explicites. Pour justifier cet ordre de grandeur, nous présentons dans le Tableau 2.2. une compilation de Pennington (2001) sur les âges à la première et à la dernière naissance de quelques groupes de chasseurs-cueilleurs.

      
Tabl. 2.2. : Ages moyens des femmes à la première et dernière naissance chez quelques groupes de chasseurs-cueilleurs, dérivés de Pennington (2001)
Groupe Age à la première naissance Age à la dernière naissance Moyenne
Ache (Paraguay) 20 42 31
Batek (Malaisie) 18 26 22
!Kung-Dobe (Botswana) 19 34 26.5
Kutchin nomades (Amérique du Nord) 23 35 29
Kutchin sédentaires (Amérique du Nord) 20 39 29.5


Taux de croissance intrinsèque et taux de croissance net

      Au vu des données d'estimations de taux de croissance de la littérature et de leur utilisation dans des modèles d'expansion spatiale et dynamique, nous remarquons qu'il y a parfois une apparente contradiction: un taux de croissance intrinsèque (à court terme) très élevé est considéré comme réaliste, alors que l'on avance généralement un taux de croissance net (à long terme) très bas. Le taux de croissance à long terme, que l'on peut également considéré à moyen terme, prend en fait en compte des événements récurrents tels que des famines ou des épidémies qui font fluctuer grandement les effectifs de population. Les tailles de population relativement basses estimées pour le début du Paléolithique (environ une centaine de milliers d'individus) ont été utilisées pour estimer des taux de croissance extrêmement bas de l'ordre de 0.00007% (Hassan, 1981, p. 200), ce qui nous semble très peu réaliste. Ces taux sont alors parfois utilisés comme taux de croissance net, dont la faible valeur est utilisée pour permettre de contrôler un processus de dispersion spatiale, de façon à ce que la vague de progression de la dispersion ne dépasse pas la vitesse désirée (voir par ex. Young et Bettinger, 1995). L'utilisation de ces taux de croissance intrinsèques très bas fait partie, selon Read et LeBlanc (2003), d'un modèle 'standard' utilisé par nombre d'anthropologues.

      Ce modèle 'standard' (voir l'annexe on-line 6  de l'article de Read et LeBlanc (2003)) fait explicitement ou implicitement l'hypothèse que les tailles de populations et leur croissance ne sont pas couplées aux disponibilités des ressources, et que les populations atteignent, par des mécanismes divers et souvent vagues, un équilibre de population qui se trouvent bien en dessous de la capacité de soutien optimale. Read et LeBlanc rejettent ce modèle et proposent à la place un modèle 'multidimensionnel et multitrajectoire', bien plus réaliste selon eux. Ce modèle se base sur les densités de ressource, les échelles temporelles et géographiques de variations des ressources, les caractéristiques des groupes d'individus qui prennent les décisions dans la population, la forme de l'organisation sociale, et finalement les effets de la compétition intra- et inter-populations.

      Nous avons étudié de manière approfondie le modèle de Read et Leblanc, et nous sommes en accord avec les auteurs sur la pertinence des variables considérées et la nécessité d'incorporer un mécanisme de fluctuation démographique qui soit lié aux hétérogénéités temporelles et spatiales des ressources. Néanmoins, nous n'avons pas envisagé d'utiliser ce modèle pour trois raisons principales. Premièrement, la complexité de son implémentation est énorme puisqu'il faut utiliser un grand nombre d'interactions possibles entre les populations, comme par exemple la compétition que nous n'avons pas pris en compte dans ce travail (mais voir Currat, in prep). Deuxièmement, le nombre de paramètres à considérer sous ce modèle est élevé, et les incertitudes liées aux valeurs à donner à ces paramètres sont très grandes. Finalement, ce modèle ne nous semble pas adéquat pour les échelles temporelles et spatiales considérées dans ce travail, et serait plus adapté pour une dynamique locale ou régionale, à une échelle temporelle plus petite. Nous avons publié un commentaire à l'article de Read et LeBlanc. Ce commentaire (Ray, 2003) peut être trouvé dans le chapitre qui suit.


2.3.3. Commentaire publié de l'article de Read et LeBlanc (2003)

Comment on 'Population growth, carrying capacity, and conflict'
by Dwight Read and Steven A. Leblanc.

Published in Current Anthropology 44(1), 2003

Nicolas Ray

      Zoology Dpt, Computational and Molecular Genetics Lab, University of Bern, BaltzerStrasse 6, 3012 Bern, Switzerland, and

      Anthropology Dpt, Genetics and Biometry Lab, University of Geneva, Gustave-Revilliod 12, 1227 Carouge, Switzerland

      nicolas.ray@anthro.unige.ch

      Read and Leblanc's multi-trajectory model is a welcome contribution to the field. Along with critics of the density independent 'standard model', the authors invite us to critically assess common practices in human demographic modeling. I would like to comment specifically on the implications of some of their propositions for demographic modeling when using larger spatial and temporal scales. If the processes underlying their model are really significant in determining long-term demographic outcomes of hunter-gatherer societies, then they should be accounted for in any model attempting to resolve human evolution (although this should also be determined by the scale of the study, as explained at the end of this comment).

      When modeling demographic expansion coupled to spatial expansion, most if not all authors have used carrying capacity estimates that are derived from literature on contemporary hunter-gatherer groups (e.g. Steele et al. 1998). Those estimates are either taken as the theoretical carrying capacity (K) or the equilibrium population size (K*), but in both cases they are typically used in a 'standard model' of logistic growth function with constant growth rate. Because spatial/demographic expansion models need estimates of K (or K*) that cover the whole range of potential environments covering the surface of interest (typically at regional or continental scale), one usually lacks of enough empirical data to serve as reference. K values must therefore typically be built up by using data from other regions with similar environmental conditions where data on population densities are available. However, choosing 'similar' conditions is usually a subjective task, mostly based on the comparison of vegetation density or net carbon production. The geographical distribution and seasonal variability of resources are rarely taken into account. Conversely, Read and Leblanc suggest that the uneven distribution and seasonality of resources, described as 'resource patchiness', are key components to model intergroup competition outcomes, and thus to understand long-term demographic patterns. Taking into account the patchiness of the resources in order to get sound estimates of carrying capacity seems therefore to be a necessary implementation. However, it is not a straightforward undertaking, particularly in demographic models where competition or changes in resource procurement behavior are potentially important factors, such as for instance in the acculturation versus replacement models of hunter-gatherers by farmers in Europe (e.g. Barbujani et al. 1995, Rendine et al. 1986). Moreover, with increased computer power, one is now able to take into account variations of environmental conditions over time, such as climate and vegetation changes. It thus seems important to realistically account for this environmental dynamism over time, not only in varying resource densities, but also in altering growth rates. Yet it remains necessary to test the contribution of this added complexity when modeling at large spatial and temporal scales.

      Another interesting demonstration of Read and Leblanc is the counter-intuitive fact that populations in low resource density areas (low K*) will have a long term demographic stability, and thus will less likely suffer population crashes than population in areas of higher K*. This behavior is seldom reflected in conventional stochastic simulations of population demography, because the values of the parameters that dictate the behavior of the stochasticity do not vary with density. This invariably leads to a situation in which groups living in low resource environments, such as desert areas, demonstrate the highest propensity to crash to very low population densities. As Read and Leblanc also emphasize, there are many reasons to distinguish between the actual growth rate (on short time scales) and the net growth rate (an average over long time scales). The latter is misleading by masking short run demographic fluctuations, which are more important in shaping population behavior than are long-term demographic averages. Whereas the stability in low resource area and the actual growth rate have direct implications for the outcome of the multi-trajectory model, they also have consequences when considering models that link demographic growth to human population genetics.

      Many parameter estimations in human population genetics, such as the time since the divergence time of a given group or population, crucially rely on assumptions about human demography. Taking into account population extinctions and recolonizations in population genetic models is important when estimating population census size (Eller, 2002). Similarly, Read and Leblanc's model strongly suggest the importance of realistically modeling population crashes and recoveries.

      Read and Leblanc succeed in justifying for a more complex approach to population growth modeling. However, we still do not know if this extra level of complexity is justified for all spatial and temporal scale. Adding realistic components to a 'standard model' is only necessary if it has been shown to have a significant impact on the model output. Beyond a certain scale (spatial or temporal), it may be that satisfactory population demography reconstruction could be achieved, even if not all of Read and LeBlanc's assumptions were included 7 .


2.3.4. Mobilité et dispersion

      Il est important de pouvoir distinguer entre les différents aspects de mobilité des populations, afin de pouvoir définir les aspects qui peuvent raisonnablement être pris en considération dans un exercice de simulation et ceux qui peuvent très difficilement s'appliquer aux échelles spatiales et temporelles choisies. Nous faisons ici la distinction entre mobilité des chasseurs-cueilleurs à l'échelle locale ou régionale et dispersion à l'échelle continentale ou globale.

      Le type de mobilité des groupes de chasseurs-cueilleurs est généralement considéré comme étant contrôlé, dans un environnement homogène, par la géométrie des zones explorées lors de la recherche de ressources. Deux extrêmes permettent alors de définir un continuum de comportement de mobilité (Surovell, 2000). A un extrême, les groupes tendent à mouvoir leurs 'camps de base' de manière très fréquente en permettant de suivre les concentrations de ressources. Cette stratégie permet de maximiser la distance annuelle parcourue, en minimisant les déplacements journaliers. Les groupes utilisant cette stratégie sont appelés high residential foragers. A l'autre extrême, les groupes relocalisent leurs camps de base de manière peu fréquente, avec des déplacements journaliers à longues distances. Cette stratégie minimise donc la mobilité résidentielle en maximisant la mobilité de recherche de ressources (mobilité logistique). Les groupes utilisant cette stratégie sont appelés low residential foragers. La Figure 2.3, tirée de Surovell (2000), permet de visualiser les différences entre ces deux modes extrêmes. On y trouve également des exemples de valeurs de mobilité, résidentielle ou logistique, provenant des résultats du modèle développé par Surovell (2000).

      

Fig. 2.3. : Schéma conceptuel des deux stratégies extrêmes de mobilités chez les chasseurs-cueilleurs

Tiré de Surovell (2000)

      Les représentations schématiques comme celles de la Figure 2.3 permettent de représenter les extrêmes du continuum de comportement de mobilité de chasseurs-cueilleurs. Au vu de l'abondante littérature descriptive (voir par exemple Kelly, 1995; Burch et Ellanna, 1996; Fix, 1999; Lee et Daly, 1999; MacDonald et Hewlett, 1999; Shoocongdej, 2000; Binford, 2001), nous ne pouvons que nous rendre compte de la diversité des stratégies adoptées pour la mobilité, et il n'y a donc pas un type particulier de mobilité qu'il serait plus réaliste de considérer.

      Si la mobilité des chasseurs-cueilleurs contemporains est bien documentée, elle ne reflète généralement que les mouvements d'individus dans les environnements où ces populations vivent depuis relativement longtemps et auxquels ces populations sont adaptées en terme d'extraction des ressources. Qu'en est-il maintenant des données disponibles sur les mouvements paléolithiques de colonisation?


Estimations de la mobilité

      Les données archéologiques des continents d'Amérique du Nord et du Sud permettent une fois de plus d'amener quelques informations. Les chasseurs-cueilleurs de la culture Clovis sont généralement considérés comme ayant été très mobiles. Outre les dates très rapprochées des premières occupations entre l'extrême nord et sud du continent, il a été reporté des présences récurrentes de grandes quantités de matériel lithique transportées sur de larges distances, ainsi que des occupations de sites relativement éphémères (Kelly et Todd, 1988). Ces quelques évidences suggèrent que les premiers paléoindiens se mouvaient non seulement sur de longues distances, mais qu'ils changeaient de camps de base fréquemment (stratégie high residential foragers de la Figure 2.3). Des estimations de vitesse d'expansion de ces paléoindiens en Amérique vont de 10 à 20 km/an (Steele et al., 2000). Il est également suggéré par ces mêmes auteurs que les contraintes liées au relief n'ont pas constitué des obstacles importants pour l'expansion, mais que les variations de végétation étaient davantage en cause, comme ils l'ont modélisé dans un autre article (Steele et al., 1998).

      Pour expliquer l'échelle temporelle et spatiale de la colonisation initiale des Amériques, il est nécessaire d'invoquer une grande mobilité couplée à une grande fertilité (fort taux de croissance). Néanmoins, il est généralement reconnu que des chasseurs-cueilleurs très mobiles ne peuvent avoir un grand nombre d'enfants, car le coût associé aux transports de ces enfants est trop élevé (Whitley et Dorn, 1993). Cette apparente contradiction a été approchée par modélisation par Surovell (2000) qui a testé différents types de stratégies de mobilité et de coût de transport. Il a conclu qu'il est possible d'avoir une grande fertilité et une grande mobilité si cette dernière est plutôt du type high residential. Selon l'auteur, ce type de stratégie aurait de plus permis aux chasseurs-cueilleurs de la culture Clovis de se mouvoir sur de longues distances sur le continent en ayant accès à du matériel lithique de très bonne qualité, tout en adoptant des techniques de chasse qui minimisent la mobilité logistique des femmes, et en maintenant un accès aux groupes voisins pour l'échange d'individus. Les colonisations très rapides du Nouveau Monde ont certainement été facilitées par l'absence ou le peu de compétition avec des groupes humains déjà sur place, et par la commodité d'extraction de certaines ressources faunistiques non-habituées à ces nouveaux prédateurs.

      Cette discussion sur la mobilité, au sens large, des chasseurs-cueilleurs nous a permis de considérer ces derniers comme potentiellement hautement mobiles. Les capacités cognitives et d'adaptations rapides des populations humaines ont permis une colonisation rapide des continents, avec l'exemple de l'Amérique comme processus de diffusion extrêmement rapide. En terme de simulation, il est très difficile d'imaginer pouvoir implémenter un processus consensuel qui puisse refléter de manière réaliste la variabilité des comportements de mobilité de dispersion et de colonisation reconnus chez les chasseurs-cueilleurs. Si des modèles théoriques existent (voir discussion au chapitre précédent), les échelles spatiales et temporelles que nous voulons simuler dans ce travail nous obligeront à utiliser des modèles très simples, mais qui restent néanmoins réalistes comme nous le verrons plus loin au chapitre 4.2.3.


2.3.5. La « tyrannie » de l'analogie ethnographique

      Les chapitres précédents nous ont permis de quantifier certains paramètres démographiques utilisables dans des modèles d'expansion démographique et spatiale tels que ceux utilisés dans ce travail. Nous nous sommes rendu compte que la grande majorité des données sont tirées d'observations sur les chasseurs-cueilleurs contemporains. Une question cruciale est alors de savoir si les chasseurs-cueilleurs paléolithiques que nous voulons modéliser sur une période aussi vaste que les 100 derniers millénaires peuvent être considérés comme analogues aux chasseurs-cueilleurs contemporains.

      En effet, les populations de chasseurs-cueilleurs actuels sont toutes en contact, à un certain degré, avec les sociétés agricoles ou même industrielles (pour une revue, voir Spielmann et Eder, 1994). Ces populations peuvent par exemple (Blurton Jones et al., 2002) (1) avoir accès à la médecine moderne, (2) avoir accès à un certain niveau d'hygiène, notamment à travers des sources d'eau potables non-naturelles, (3) être soumises à un systèmes de lois autres que les leurs, (4) voir certain de leurs membres âgés être recueillis par des sociétés d'agriculteurs, (5) obtenir de la nourriture des agriculteurs lors de pénuries critiques, (6) subir beaucoup moins de prédations des animaux sauvages. Ces différents degrés de contacts avec des sociétés non chasseurs-cueilleurs rendent leur survie en tant que 'purs' chasseurs-cueilleurs des plus improbables, et modifient forcément les taux de survie et les degrés de migration. De plus, les chasseurs-cueilleurs contemporains sont pour la plupart confinés dans des environnements marginaux (comme les déserts ou la toundra arctique) plutôt que dans des environnements favorables comme ceux qu'occupaient les chasseurs-cueilleurs paléolithiques. Ces contraintes rendent délicate l'utilisation des données démographiques lorsqu'il s'agit de modéliser les processus démographiques du passé.

      Malgré les grandes incertitudes liées aux analogies entre populations récentes et passées, nous devons nous rendre à l'évidence que nous n'avons pas le choix, et devons faire face à cette 'tyrannie de l'analogie ethnographique' ((Wobst, 1978), mais voir également Fix (1999, p. 150) et Kelly (1995, p. 333)). L'utilisation de modèles démographiques nécessite l'emploi de paramètres démographiques dont il faut fixer les valeurs, avec, lorsque cela est possible, une estimation de leurs variabilités. Des hypothèses plausibles sur les processus démographiques doivent être posées, avec la nécessité de ne pas violer les limites connues de mobilité et de démographie des sociétés de chasseurs-cueilleurs étudiées. C'est ce que nous avons essayé de faire dans ce travail.


2.4. Conclusion

      Les théories d'évolution de l'homme présentées dans la première partie de ce chapitre sont pour la plupart basées sur des données génétiques, archéologiques ou paléontologiques qui étayent une partie de leur propos, mais aucune ne peut actuellement expliquer complètement la diversité génétique observée. Inversement, les théories de dispersion basées sur la distribution de vestiges archéologiques et de squelettes, et leurs datations réciproques, ne peuvent être expliquées par les données génétiques observées à un seul locus.

      Les données qui se sont accumulées ces dernières années, et les nouvelles études publiées quasi mensuellement, pointent néanmoins plutôt vers l'abandon d'un modèle multirégional classique pour privilégier fortement celui qui met en avant un rôle prépondérant de l'Afrique, continent à partir duquel une ou plusieurs vagues de migrations auraient permis de coloniser les autres continents. A travers ces modèles, la démographie des chasseurs-cueilleurs est toujours simplifiée à son maximum, en invoquant parfois des épisodes de croissances et de goulots d'étranglement (bottlenecks). En étudiant les contraintes démographiques des chasseurs-cueilleurs, nous nous sommes néanmoins rendu compte des variations de densité (à travers les capacités de soutien), de croissance et de mobilité qui ont certainement grandement affecté les populations pendant le Pléistocène, bien que peu de données nous permettent de quantifier ces variations. Pour un exercice de simulation démographico-spatiale sur cette période de temps, nous verrons que nous sommes alors confrontés au choix du degré de complexité à prendre en compte dans les processus simulés.

      Le rôle qu'a joué l'environnement dans l'évolution humaine est souvent mis en avant dans les modèles d'évolution, notamment à travers les fluctuations climatiques et l'hétérogénéité des habitats qu'elles ont généré. La prise en compte de cette hétérogénéité semble donc être primordiale pour pouvoir garantir un certain réalisme dans l'implémentation conjointe de simulations d'expansions démographico-spatiales et de simulations génétiques. Le choix des variables environnementales à prendre en compte, ainsi que celui de leurs représentations alternatives à plusieurs périodes ne sont cependant pas triviaux. C'est ce dont nous allons discuter dans le prochain chapitre.


3. Collecte et description des données environnementales


3.1. Introduction

      L'approche envisagée dans ce travail consiste à utiliser l'environnement actuel et passé pour implémenter des simulations démographiques et génétiques réalistes. L'hétérogénéité spatiale des ressources et des contraintes démographiques doit donc être transcrite en des concepts simples qui puissent avoir un sens du point de vue de la modélisation. Ces concepts peuvent alors être traduits en des variables directement utilisables dans des modèles mathématiques. Nous avons vu au chapitre précédent que le concept de capacité de soutien est approprié pour décrire une limitation des ressources et de la croissance d'une population. Nous allons voir dans ce chapitre comment des études sur la démographie des chasseurs-cueilleurs contemporains peuvent nous permettre de quantifier ces capacités de soutien, ainsi que les contraintes aux mouvements sous forme de cartes de 'friction'.

      Il nous a également semblé judicieux d'avoir à disposition, quand cela était possible, plusieurs représentations d'une variable environnementale à des périodes distinctes. En effet, comme l'environnement de l'Ancien Monde a subi d'énormes fluctuations pendant les 120'000 dernières années, l'utilisation d'une seule représentation environnementale n'est certainement pas appropriée. Cette période a ainsi connu un cycle de grandes transitions climatiques, en passant d'une phase interglaciaire chaude il y a environ 120'000 ans (Kukla et al., 2002), à la période du dernier maximum glaciaire il y a environ 20'000 ans (voir chapitre 3.3.2.), et en retournant ensuite aux conditions interglaciaires présentes. Des oscillations de climats à différentes échelles de temps (Crowley, 2002) sont venues se superposer à ce cycle glaciaire-interglaciaire, dont, notamment, des événements chauds (dits de Dansgaard-Oeschger) et des événements froids (dits de Heinrich) pouvant durer de quelques siècles à quelques millénaires et séparés d'environ 8'000 ans (Adams et al., 1999). Le degré de résolution toujours plus grand des études sur les concentrations et la constitution en gaz dans les carottes glaciaires a permis de récemment mettre en évidence des oscillations abruptes de climat sur quelques dizaines d'années, qui ont eu pour conséquence des changements très rapides des écosystèmes et particulièrement de la végétation (Allen et al., 1999; Bonnefille et Chalié, 2000).

      Une des conséquence de ces fluctuations climatiques est la survie de certaines espèces végétales dans des zones refuges (Willis et al., 2000; Willis et Whittaker, 2000; Figueiral et Terral, 2002). Au sud de l'Europe par exemple, ces zones refuges, favorisées du point de vue du climat et donc de l'abondance de ressources, ont permis à des espèces animales de subsister pendant certaines périodes, avant d'amorcer un processus de recolonisation (Taberlet et al., 1998; Hewitt, 2000; Hewitt, 2001). Ces processus dynamiques de retrait dans des zones refuge et de ré-expansion des espèces animales et végétales ont sans aucun doute contribué à une dynamique similaire pour les populations de chasseurs-cueilleurs (Lahr et Foley, 1998; Bocquet-Appel et Demars, 2000a; Bocquet-Appel et Demars, 2000b). Outre les fluctuations climatiques, d'autres événements ponctuels comme des éruptions volcaniques majeures, comme celle du Mont Toba à Sumatra (il y a environ 70 ka), peuvent potentiellement avoir des impacts à longs termes (Ambrose, 1998) et être le moteur de transitions culturelles (Fedele et al., 2002) dans les populations humaines.

      Les fluctuations d'habitat et de démographie ne sont pas sans effet sur la génétique des populations qui les subissent (pour une revue, voir Hewitt, 2000; 2001). Des effets fondateurs peuvent se produire lors des processus de recolonisation, spécialement lorsque des colonisations à longues distances se produisent. Les variations de tailles des sous-populations accroissent la différentiation génétique de celles-ci et augmentent l'effectif efficace de la population (Eller, 2002).

      Force est de constater que l'environnement a été très fluctuant pendant la période qui nous intéresse, qu'il a certainement eu un effet drastique sur la démographie et le mode de vie des populations. La différenciation génétique des populations contemporaines en a potentiellement gardé une trace. Dans la mesure des données à disposition, et dans le souci du réalisme écologique qui sous-tend ce travail, il nous faut essayer d'incorporer une hétérogénéité spatiale et temporelle des ressources et des contraintes dans nos modèles. Nous allons traiter de cette hétérogénéité spatiale dans ce chapitre, avec parfois des représentations à différentes périodes d'une même variable environnementale. Une approche temporellement dynamique, basée sur la fluctuation de la végétation, sera présentée plus loin au chapitre 4.5.2.

      Avant de présenter et de discuter les données relatives à chaque variable environnementale utilisée dans les chapitres qui suivront, nous allons parler des outils et des méthodes qui ont été utilisés pour choisir et traiter efficacement ces données spatiales. Parmi ceux-ci, les Systèmes d'Information Géographique, qui ont été un outil indispensable pour la cartographie et pour la manipulation générale de toutes nos données. La notion de friction sera également introduite, ce qui permettra de la mettre en relation avec la capacité de soutien dans le reste du chapitre. De nombreux liens Internet pointeront vers des ressources et des outils. Pour faciliter au lecteur l'accès à l'information, nous avons repris tous ces liens dans l'Annexe on-line de ce travail.


3.2. Outils et méthodes


3.2.1. Systèmes d'Information Géographique

      Les Systèmes d'Information Géographique ou Géoréférée (SIG) sont des outils informatiques capable de créer, stocker, manipuler, visualiser et analyser de l'information géographique (Goodchild, 2000). Ce sont de puissants outils pour l'écologie du paysage (Burrough, 1992). Grâce à leur caractéristique majeure qui est de lier des modèles de données spatiales (grids ou vecteurs) avec un système de base de données, les SIG peuvent supporter des modèles de description, de visualisation et de conversion entre les différents types de données spatiales. Ils sont également utilisés dans un grand nombre d'autres applications. De statut de nouvelle technologie émergente à la fin des années 90, les SIG se sont maintenant démocratisés, et les efforts qui ont été faits pour rendre leur utilisation plus aisée (voir par ex. Wall et Devine, 2000) ont contribué à cet essor. Les SIG sont de plus facilement intégrables à d'autres outils statistiques courants (Bao et al., 2000).

      La grande majorité des SIG disponible actuellement sont basés sur deux structures de données qui sont les données raster (grid ou grille) et les données vectorielles. Des extensions permettent souvent la prise en compte d'autres structures (par ex. TIN, Triangular Irregular Network ou tesselation).


Données raster et données vectorielles

      Les données raster sont analogues au mode image, avec une structure composée de pixels individuels. Chaque localisation spatiale possède un pixel d'une certaine taille (résolution), associé à une valeur représentant un attribut, comme par exemple une altitude, un identificateur de zone ou une couleur. Les données raster peuvent être acquises de diverses manières comme par exemple via des scanners optiques, des appareils photos numériques ou des capteurs satellitaires. Des données vectorielles peuvent également être à la base d'un fichier raster, ce dernier étant alors obtenu par 'rasterisation' d'un fichier vectoriel.

      Les données vectorielles sont représentées sous la forme de points, de lignes et de polygones. Les points sont enregistrés par leurs coordonnées dans un système de projection cartographique. Les lignes sont enregistrées comme une série de paires de points reliés par des segments droits. Mentionnons que certains logiciels SIG récents ont implémenté des structures d'arcs permettant l'enregistrement et la représentation de courbes (par ex. ARCGIS 8.1). Les polygones sont représentés par une suite de segments liés possédant au moins un vertex commun et définissant une surface fermée.

      En général, les données vecteurs produisent des fichiers de plus petite taille que des données équivalentes au format raster, car ce sont essentiellement les coordonnées des points qui sont enregistrées en vectoriel alors que chaque pixel doit être enregistré en raster. Cela est particulièrement vrai lorsque une surface possède de grandes zones homogènes et que les contours et les formes de ces zones sont d'intérêt premier, comme dans une carte de végétation par exemple. A côté de l'aspect taille des fichiers, les données vectorielles sont également plus faciles à manipuler dans un ordinateur puisque elles possèdent moins d'éléments et sont beaucoup plus flexibles dans leurs ajustements à différentes échelles ou systèmes de projection.

      La topologie entre des objets graphiques ou des entités est également bien plus aisée à représenter dans un format vectoriel. Un segment commun peut en effet être facilement défini par les polygones se trouvant à gauche et à droite de ce segment. Cela est extrêmement difficile à réaliser avec une structure raster.

      Cet arrangement spatial fixe des données raster peut néanmoins être un avantage dans bien des cas. Il permet en effet de combiner relativement facilement plusieurs couches d'information à travers l'algèbre cartographique (map algebra), ce qui a été utilisé dans ce travail. De plus, les relations fixes avec les cellules voisines facilitent la description des interactions locales par des règles de transition, ce qui est indispensable dans un contexte d'automate cellulaire comme nous le verrons au chapitre 4.

      Rares sont les études essayant de contourner les désavantages du raster tout en évitant les données vectorielles. Il faut néanmoins mentionner Tischendorf (1997), qui démontre les potentialités d'une nouvelle approche se basant sur une grille dont les cellules sont de taille irrégulière. Ceci permet de réduire considérablement le nombre de cellules, et donc la taille mémoire du grid, tout en gardant une finesse de description dans les changements paysagers. Des approches hybrides raster-vector commencent également à être décrites, notamment à travers des structures en diagrammes de Voronoi (voir par exemple Pang et Shi, 2002). Des implémentations dans des outils disponibles sont néanmoins indispensables pour permettre leur utilisation.


Utilisation des SIG dans ce travail

      C'est le logiciel ARCVIEW 3.1 (ESRI, Environmental Systems Research Institute, Redland, USA) qui a été utilisé dans ce travail. Son utilisation s'est faite principalement de deux manières. La première a consisté à exploiter ses capacités de base de données spatiales et de traitement de l'information. Toutes les cartes des variables environnementales ont été traitées, retravaillées, et maintenue dans le SIG. Une utilisation particulièrement poussée des outils de digitalisation vectorielle a été menée par exemple pour obtenir les cartes de végétation présentées au chapitre 3.3. Les outils de mise en page (layout) et d'exportation d'images nous ont également permis de générer un grand nombre de sorties visuelles combinant plusieurs couches d'information. Le SIG a été un outil indispensable pour ces tâches dans le contexte de ce travail.

      La deuxième utilisation d'ARCVIEW a été liée au besoin particulier de méthodes d'analyses spatiales de chemins de moindre coût, utilisées pour une étude sur les projections (voir Annexe 3). La capacité d'ARCVIEW de pouvoir étendre ses fonctionnalités, via des scripts dans le langage Avenue, nous a permis d'automatiser fortement les calculs requis. Nous avons de ce fait développé un grand nombre de ces scripts, et nous avons pris soin de rendre leur utilisation aisée et leur code lisible afin de permettre leur extension par d'autres utilisateurs. Tous les scripts mentionnés dans ce travail sont disponibles sur l'Annexe on-line de la thèse, et certains d'entre eux ont également été publiés sur le site d'ESRI (http://arcscripts.esri.com/).

      Bien que les SIG soient de puissants outils de représentation et d'analyse de l'information spatiale, ils ne permettent que très difficilement la prise en compte de données temporelles (Peuquet, 1999; Peuquet, 2001; Spaccapietra, 2001). Des séries temporelles de données statiques telles que des relevés de radiotracking (suivi radio d'individus ou d'objets en mouvement) ou des images saisonnières de végétation peuvent être traitées efficacement par les SIG , mais l'implémentation de simulations dynamiques permettant un contrôle des processus internes de passages entre plusieurs états spatiaux est pour le moment impossible avec les produits disponibles. Les mouvements d'entités ou d'individus sont également très peu supportés (mais voir par ex. Schippers et al., 1996; Wesseling et al., 1996; Kwan, 2000).

      Une raison potentielle du manque de traitement efficace de la dynamique temporelle et spatiale dans les SIG est due au fait que ceux-ci sont pour la plupart des produits commerciaux. La structure des données spatiales et les détails d'implémentation sont souvent cachés ou codés, et il n'est pas possible d'y accéder. Ceci implique, pour le modélisateur, de devoir utiliser le langage propre au SIG choisi (comme AVENUE dans ARCVIEW), afin de manipuler les données et de programmer de nouveaux outils. Les langages SIG propriétaires sont néanmoins limités par rapport à d'autres langages de programmation orienté-objet plus puissants comme le C++. Des librairies en C sont parfois livrées avec les programmes SIG (comme gridio.api dans ARCVIEW), et elles permettent généralement de lire et d'écrire dans le format propre au SIG utilisé, afin de pouvoir lier des données à des simulations invoquant un autre langage. Ces librairies sont néanmoins difficiles d'implémentation et d'utilisation. Les nouvelles versions des logiciels SIG de ESRI (ARCGIS) permettent un contrôle beaucoup plus poussé des objets topologiques via des langages comme Visual Basic, Java ou C++, et la future disponibilité de ces logiciels dans leurs versions finalisées (et plus stable) est prometteuse.

      Les simulations dynamiques des dispersions humaines n'ont donc pas pu être mises en place au sein d'un SIG. Il a fallu passer par le développement de notre propre outil en C++. Comme nous le verrons au chapitre 4, le logiciel développé peut être au final considéré comme un mini SIG, avec l'immense avantage d'avoir une structure entièrement maîtrisée et extensible.


3.2.2. Sélection des données

      Sur la base de notre revue de la littérature et des plans d'information disponibles, nous avons considéré quatre types de données environnementales pouvant affecter le dynamisme démographique des chasseurs-cueilleurs: végétation, relief, hydrographie et côtes. Chacune de ces variables est discutée dans un chapitre dédié.

      Pour les quatre variables environnementales sélectionnées, nous avons, dans la mesure du possible, recherché des données présentes et passées. Il était en effet intéressant de pouvoir disposer d'un équivalent ancien de toute information utilisée pour une simulation de migration sur l'environnement considéré comme actuel, afin de pouvoir être le plus réaliste possible lors de simulations temporellement dynamiques, mais aussi pour pouvoir évaluer les variations d'un résultat suivant la période considérée.

      Une recherche intensive sur les bases de données environnementales existantes a été menée en début de projet. Les nombreuses indications de collègues géologues, géographes et biologistes ont permis, à l'aide des moteurs de recherche sur Internet, de rassembler relativement rapidement la méta-information sur les données disponibles. La méta-information est l'information sur les données elles-mêmes, que ce soit leur provenance, leur format, leur couverture spatiale, etc. Cette méta-information est indispensable pour pouvoir comparer les plans d'information entre eux et être en mesure de sélectionner les données qui seront finalement rapatriées et utilisées. L'espace-mémoire qu'occupe la plupart des ces données globales est parfois très grand, et ne permet pas de rapatrier tous les plans d'information disponibles pour une comparaison sur l'ordinateur local. C'est là qu'une pré-sélection sur la base de la méta-information devient primordiale.

      Une recherche a également été menée sur les données climatiques, comme des estimations de température ou d'humidité pour diverses périodes du paléolithique. Nous avons pour cela contacté plusieurs groupes de recherche (Physique climatique et environnementale 8  à l'Université de Berne, et Paleoclimatology 9  au Max Planck Institute de Jena), et avons consulté les bases de données climatiques les plus fournies (NOAA 10  US National Oceanic and Atmospheric Administration, PAGES 11  PAst Global changES). De nombreuses données existent, mais elles sont constituées pour la plupart de séries temporelles géographiquement ponctuelles, typiquement représentées par des distributions temporelles de concentrations de divers gaz (voir par ex. Stocker et Marchal, 2001). Nous avons donc décidé de ne pas utiliser les données climatologiques brutes dans nos modèles.

      Nous savons néanmoins que les variations de climat ont joué un rôle certain dans la dynamique des populations, et nous devions trouver un moyen de prendre en compte certains aspects climatiques. L'option prise dans le présent travail a consisté à considérer les variations de végétation comme reflétant partiellement les variations climatiques. Cette option est réaliste (Spikins, 2000), bien qu'il soit évident que des facteurs autres que le climat sont responsables de la variabilité de la végétation (comme par exemple le type de sol ou la compétition entre espèces végétales). L'avantage d'une telle approche est que la végétation peut être plus facilement transcrite en terme de ressources, ou en terme de difficultés de passage, que ne le sont des variables climatiques comme des températures ou humidités moyennes. Notons cependant que l'estimation des variations de la température globale par l'étude de calottes glaciaires a été utilisée dans ce travail pour déterminer la variation de la capacité de soutien lors de simulations environnementales dynamiques (voir chapitre 4.5.2.).

      Notre échelle de travail, l'Ancien Monde, a grandement dicté les plans d'information utilisés. A cette échelle en effet, la résolution désirée est de l'ordre de 10 à 100 kilomètres. Ce niveau de résolution permet des temps de calcul raisonnables, et il est de plus adéquat pour pouvoir considérer que chaque cellule est une entité démographique distincte. Une résolution plus fine (1<km) devient très vite ingérable tant par le temps de calcul des processus de simulation que par la place en mémoire des plans d'information correspondants. De plus, ces plans d'information à haute résolution ont de nombreux désavantages comme, par exemple, de n'être disponibles que pour certains pays, d'avoir des coûts d'obtentions souvent prohibitifs, d'être dans des systèmes de projection différents, et d'avoir des temps d'obtentions très longs à travers de fastidieuses démarches administratives.

      Les différents sites Internet fournisseurs des données utilisées dans ce travail, ainsi que les liens vers les outils ayant permis de traiter ces données sont disponibles sur l'Annexe on-line de la thèse (http://cmpg.unibe.ch/thesis/ray/online_annex.htm).


3.2.3. Cartes de friction

      Que se soit pour l'approche statique des chemins de moindre coût ou pour l'approche dynamique du programme FRICTION, les données environnementales ont été transcrites en terme de difficulté de mouvement. Cette difficulté de mouvement, ou friction, est à la base des choix de direction de dispersion ou de migration dans les modèles développés dans ce travail. Une carte de friction est définie comme une matrice de coût (ou d'impédance) de passage à travers chaque cellule, ou pixel, d'une matrice. C'est donc la structure de donnée en raster qui est typiquement utilisé pour ce genre de cartes.

      Cette notion de 'coût de passage' est liée à la notion d'énergie dépensée par unité de distance par les individus. On trouve des données sur certains groupes faunistiques et sur les humains, mais nous verrons que la littérature est très hétérogène quant aux valeurs à associer aux différents types d'environnement. Une possibilité est de faire appel à un système expert, où des spécialistes de l'écologie de l'espèce en question proposent des valeurs de friction dérivées de leurs observations de terrain (comme pour les amphibiens dans Ray et al., 2002). La plupart du temps, néanmoins, ces valeurs de friction sont appliquées très subjectivement. Une approche récente et prometteuse vise quant à elle à dériver ces valeurs de friction d'expériences de laboratoire, dans lesquelles les préférences de direction, ainsi que l'énergie dépensée par des individus en mouvement, sont directement mesurées sous conditions standards, tout en faisant varier les types de surfaces traversées. Cette approche est adéquate lorsque l'on s'intéresse à des espèces de petite taille comme des rongeurs ou des amphibiens (expériences en cours à l'Université de Lyon, Pierre Joly, comm. pers.), mais elle devient vite impossible pour des espèces de plus grande taille.

      Nous verrons dans ce travail que les valeurs de friction attribuées aux environnements ont pour la plupart du temps été choisies sur la base de réflexions personnelles ou partagées avec des collègues, avec le soin de rester réaliste par rapport aux quelques informations trouvées dans la littérature. Des valeurs de friction proprement dites ne sont en effet pas disponibles pour les populations de chasseurs-cueilleurs contemporains, et encore moins pour les populations paléolithiques.

      Une fois choisies les valeurs de friction pour les différentes catégories d'une variable environnementale, l'obtention d'une carte de friction est aisée. Il s'agit d'attribuer une valeur de friction à chaque pixel de la carte à l'aide d'une table de conversion entre un type d'environnement et une valeur de friction. Ceci est réalisé dans le logiciel SIG par des outils standards de reclassification.


3.3. Végétation


3.3.1. Approches cartographiques

      L'hétérogénéité spatiale de la végétation a été considérée dans ce travail comme un élément déterminant pour la dynamique démographique des chasseurs-cueilleurs. Nous verrons que des quantités de ressource distinctes peuvent être attribuées à différents types d'environnements définis sur la base de leur végétation associée. Des estimations de capacité de soutien par type de végétation peuvent être alors dérivées, en permettant une cartographie surfacique de capacités de soutien, et un réalisme supplémentaire pour les modèles de dispersion (chapitre 4. Simulations dynamiques de la démographie historique et de la variabilité génétique des populations humaines).

      Une première revue de la littérature en début de travail a permis de nous rendre compte qu'un certain nombre de groupes de recherche regroupant des paléobotanistes travaillent sur l'élaboration de séries temporelles de cartes de végétation (par ex. BIOME 6000 12 ). Néanmoins, les cartes que nous avons pu trouver n'étaient pas utilisables pour le présent travail, et cela pour deux raisons. La première est que ces cartes sont généralement des cartes à information ponctuelle basées sur des relevés palynologiques (voir par ex. Bonnefille et al., 1999; Edwards et al., 2000; Elenga et al., 2000; Peyron et al., 2000). Ces cartes sont donc un ensemble de points parfois relativement denses, parfois disparates, desquels sont inférés des catégories de végétation pour lesquelles un consensus de nomenclature n'a pas encore été trouvé (Prentice et Jolly, 2000). La deuxième raison est que les cartes produites sont, pour une grande majorité, à une échelle régionale, voire continentale (voir par ex. van Andel, 1996; Dupont et al., 2000), et que les périodes considérées ne se recoupent donc pas toujours entre les différentes études.

      Il est néanmoins possible de combiner données de végétation et données climatiques. Les zones résultant de la combinaison des ces informations sont communément appelée écozones. Une des cartes d'écozones les plus souvent utilisées est celle de Leemans (1990), appelée Holdridge Life Zones Data Set. Provenant de l'IIASA (International Institute for Applied Systems Analyses, Laxenburg, Autriche), cette carte représente les écozones dans les conditions climatiques actuelles dites 'normales'. Elle est accompagnée d'autres cartes annexes montrant les changements potentiels des écozones sous un scénario de doublement du CO2 atmosphérique. Ce plan d'information incorpore les impacts anthropogéniques et n'est donc pas approprié comme carte représentative de la période qui nous intéresse.

      Les travaux de Adams et Faure (1997a), liés au groupe QEN (Quaternary Environment Network, http://www.soton.ac.uk/~tjms/adams1.html), ont par contre retenu toute notre attention. Les cartes de végétation de ces auteurs avaient de nombreux avantages, le premier étant d'être disponibles on-line sous forme d'images, d'avoir des représentations surfaciques des types de végétation, d'être disponible pour des échelles continentales ou globales à différentes périodes, et finalement d'avoir été utilisées dans plusieurs études de simulations similaires aux nôtres (par ex. Glass et al., 1997; Steele et al., 1998; Anderson et Gillam, 2000). Ces cartes n'étaient malheureusement pas disponibles au format SIG, et nous avons donc du passer par plusieurs étapes fastidieuses de transformation de données.


Démarche cartographique adoptée

      Les images de base ont été tout d'abord importées dans le SIG. Cela a été une étape difficile puisque les cartes à la base des images étaient dans des projections géographiques différentes et très peu documentées. Il a fallu procéder par tâtonnements et essais successifs pour réussir à trouver une projection adéquate, qui une fois non projetée 13  permettait de retrouver des contours de continents corrects. Des ajustements manuels ont ensuite été nécessaires pour ajuster les contours des régions de végétation afin de les faire correspondre aux contours côtiers présents ou passés. A travers ce processus d'ajustement, nous avons nécessairement modifié légèrement les surfaces relatives et les contours des zones de végétation par rapport aux cartes de base, mais nous considérons ceci comme peu important en regard des limites relativement floues et subjectives des contours de végétation dans les cartes de base. Les mauvaises documentations de projection sont malheureusement trop fréquentes dans les données disponibles on-line, ce qui a mené très récemment à l'implémentation d'outils permettant de digitaliser des cartes dont on ne connaît pas la projection (Schölzel et al., 2002).

      Une fois les cartes de base référencées spatialement dans le SIG, un long processus de correction et de prises en considération de travaux récents a été mené. Nous avons pour cela collaboré étroitement avec le Dr Jonathan Adams (Wesleyan University, USA), collaboration qui a mené à sa venue dans notre laboratoire pour une période de trois semaines pendant laquelle nous avons pu entre autre finaliser la carte du dernier maximum glaciaire présentée au chapitre suivant.

      Nous avons choisi de cartographier à l'échelle globale la période du dernier maximum glaciaire et la période présente potentielle. Ces deux cartes sont présentées dans les deux chapitres qui suivent. Cartographier ces deux périodes avait l'avantage de fournir deux cartes très différentes du point de vue des types et des étendues des zones de végétation, et permettait également d'avoir une représentation des deux extrêmes du continuum climatique des 120'000 dernières années. Ce dernier point a permis d'implémenter un dynamisme de végétation utilisé dans nos modèles de dispersion (voir chapitre 4.5.2.).

      Les étapes pour l'obtention des cartes de végétation sont résumées dans la Figure 3.1. Il est important de noter que les cartes présentées dans ce travail restent des représentations arbitraires et très simplifiées. Elles représentent néanmoins une bonne approximation de l'hétérogénéité spatiale de la végétation à plusieurs périodes clés, ce qui était suffisant pour l'utilisation que nous en avons faite.

      

Fig. 3.1. : Schéma des étapes pour l'obtention des cartes de végétation


3.3.2. La végétation au dernier maximum glaciaire - article

      La définition de la période considérée comme étant le dernier maximum glaciaire (LGM, Last Glacial Maximum) a été longuement débattue. Dernièrement, le groupe EPILOG (Environmental Processes of the Ice Age: Land, Ocean and Glaciers 14 ) du groupe de recherche international IMAGES (International Marine Past Global Changes Study 15 ) s'est mis d'accord quant à une redéfinition de la période du LGM. Celle-ci est définie comme étant la période de rétention de glace maximum à l'échelle globale (Schneider et al., 2000a), qui se trouve entre 19'000 et 23'000 ans BP et centrée à 21'000 BP. Cet intervalle de temps couvre la période où les carottes coralliennes et sédimentaires côtières indiquent un minimum du niveau des océans (Fleming et al., 1998).

      L'article qui suit présente les cartes de végétation que nous avons construites pour la période du LGM. Il explique également la méthodologie SIG utilisée pour permettre la prise en compte des limites altitudinales dans le choix du type de végétation, et discute des difficultés inhérentes aux reconstructions de végétation. Un effort particulier a été mené pour permettre aux utilisateurs de ces cartes de pouvoir récupérer les images (couleurs ou noir et blanc, avec ou sans identificateurs de catégorie de végétation), ainsi que les fichiers SIG vectoriels (format shapefile) correspondants, et cela pour une étendue globale ou continentale. Nous avons implémenté en Javascript une interface utilisateur on-line permettant une visualisation dynamique de nos cartes et facilitant la récupération de celles-ci par téléchargement. Cette interface est disponible à l'adresse suivante: http://lgb.unige.ch/lgmvegetation/download_page_js.htm.

      Les cartes qui suivent ont de plus été intégrées officiellement dans la base de données paléoclimatiques de la NOAA, et peuvent être visualisées dynamiquement avec d'autres données environnementales sur http://map.ngdc.noaa.gov/website/paleo/paleoclimate/viewer.htm.

      A GIS-based Vegetation Map of the World at the Last Glacial Maximum (25,000-15,000 BP).

      Published online in Internet Archaeology 11, 2001
http://intarch.ac.uk/journal/issue11/rayadams_toc.html

      N. Ray1 and J.M. Adams2

      1Genetic and Biometry Lab, Anthropology and Ecology Department, University of Geneva, Geneva, Switzerland
2Department of Earth and Environmental Sciences, Wesleyan University, Middletown, Connecticut 06459, USA

      Abstract

      A preliminary, broad-scale vegetation map reconstruction for use by archaeologists and anthropologists is presented here for the world at the Last Glacial Maximum (18,000 BP, but broadly representing the interval from 25,000 to 15,000 BP). The global LGM map was produced from a range of literature and map sources, and drawn on a GIS with topographic information. Extended coastlines due to LGM sea-level drop were obtained using bathymetric information. The map is available in image and Geographic Information System (GIS) formats, on a global or regional basis.

      Accompanying each regional map is a bibliography detailing the principal literature sources of evidence on Late Quaternary palaeovegetation and climates. The maps presented here are merely a preliminary attempt at appraisal of current knowledge and opinion, and future updated versions will be produced as more information on LGM environments becomes available. Nevertheless, together with the accompanying citation summary they should provide a valuable and readily accessible source of information on current opinion in the Quaternary community. It is also hoped that the maps will themselves act as a catalyst for archaeologists to use their own data to contribute to the broader climatic/palaeovegetational picture.

      Résumé

      Cet article présente une carte globale de la reconstitution de la végétation pour la période du dernier maximum glaciaire (18,000 ans BP mais représentant un intervalle de 25,000 à 15,000 ans BP). La carte a été reconstruite à partir de diverses sources de la littérature (articles et cartes), et introduite dans un Système d'Information Géographique (SIG), accompagnée d'une couche d'information sur la topographie. Les lignes côtières à la période considérée, plus étendues qu'aujourd'hui dû à une baisse du niveau des océans d'environ 120m, ont été obtenues en utilisant des données bathymétriques. La carte est disponible en formats SIG et image, à une échelle régionale ou globale.

      Chaque carte régionale est accompagnée d'une bibliographie détaillant les principales sources de la littérature sur la paléovégétation et le paléoclimat du Quaternaire tardif. Les cartes présentées ici peuvent être considérées comme une évaluation des connaissances et opinions du moment, et des versions mises à jour seront produites lorsque de nouvelles informations sur les environnements au dernier maximum glaciaire seront disponibles. Néanmoins, avec les références qui les accompagnent, ces cartes devraient fournir une source d'information pertinente et immédiatement accessible sur les opinions actuelles de la communauté du Quaternaire. Elles agiront aussi, on l'espère, comme agents catalyseurs afin que les archéologues contribuent, de par leurs données, à une meilleure compréhension des informations paléoclimatiques et paléovégétales.

      Keywords: VEGETATION, GLACIAL MAXIMUM, HUMAN ECOLOGY, TOPOGRAPHY, GIS.

      1. Introduction

      In archaeology and anthropology there is now a great deal of interest in the global climate fluctuations which have occurred repeatedly over the last 2-4 million years, during the Quaternary period. In part, this interest reflects the hope that better understanding of the Earth's recent past will allow improved prediction of future human effects on the environment. There is also a great deal of purely academic curiosity amongst archaeologists, anthropologists, ecologists, climatologists, and biogeochemists about the ways that the global environment has changed during the recent past, and the way in which each aspect of the global system has interacted with others. In archaeology, it is becoming increasingly clear that it is necessary to include the study of the shifting climatic and ecological background if an understanding of the behaviour and movements of peoples is to be reached. A great deal of interesting work has begun to appear as a result of taking an 'environmental' approach to human evolution and history (e.g. work by Ortloff and Kolata 1993; Wright 1993, Steele J et al. 1998, Anderson and Gillam 2000). Yet archaeologists and anthropologists, together with other Quaternary scientists, have difficulty obtaining the basic background information that exists in such a scattered form throughout the literature.

      To make this task easier, and to aid understanding of how the Earth has changed since the peak of the last ice age (and the main sources of evidence for deducing these changes) around 18,000 radiocarbon years ago (or around 20,000-21,000 calendar years ago, allowing for the relative changes in 14C abundance), we present here a set of maps depicting the world's changing vegetation cover on a region-by-region basis. The maps were compiled by the authors, based on modification and improvement of the earlier Quaternary Environments Network (QEN, http://www.soton.ac.uk/~tjms/adams1.html) vegetation maps (Adams and Faure 1997).

      There remains considerable room for disagreement about the history of certain parts of the late Quaternary world. The maps presented here certainly cannot be regarded as the definitive work on the subject: instead they represent a necessary step in the process of assembling data and opinion from the many scientists who work on vegetation reconstruction. Anyone using these maps is urged to consult the description of methods presented in the following pages, to get some idea of the uncertainties that remain. Certain aspects of the maps remain to some extent controversial and they represent the views of the authors, not necessarily those of individual (although we have encountered broad support, and have made effort to consider the advice of every participant). Some marked disagreements in approach and overall conclusions were evident amongst the scientists who contributed to the Network, but despite a few wayward voices, a striking overall consensus was present.

      As well as providing a ready source of information for archaeologists, we also hope that our maps may prove useful to those within the Quaternary palaeoecology community. As a coherent map of global vegetation for a particular interval in the past, it should act as a baseline for further work in vegetation reconstruction - even if only as a target for criticism.

      2. The Last Glacial Maximum (LGM)

      Although time is, of course, a continuum, it has been necessary here to concentrate the reconstructed scenarios around a particular slice of time, the Last Glacial Maximum (LGM), that seems particularly significant in relation to the processes taking place in the global system. We feel that the particular choice of this time slice here is likely to coincide with the interests of many others in archaeology, anthropology and palaeoecology. Other time slices such as the Younger Dryas (approx. 10,800-10,200 14C years ago) are of similar interest, and we plan on producing updated maps in electronic format for different time slices in the near future (earlier maps are available as images at the QEN website http://www.soton.ac.uk/~tjms/adams1.html).

      The LGM time-slice is placed at around 18,000 years ago in radiocarbon years. It is now thought that 18,000 years ago in radiocarbon terms corresponds to about 20,000-21,000 years ago in calendar years (Crowley and North 1991). We can consider, however, that the LGM sensu stricto is representative of the broader interval from 25,000 to 15,000 BP, during which climate was very similar in most areas. In this paper, our LGM maps refer to this slightly broader time interval, the LGM sensu lato.

      The LGM is seen as the stage during the last glacial cycle at which the greatest mass of ice was present on Earth, showing up in ice cores and carbonates as a peak of 18O (Crowley and North 1991). It is also thought of as being the time at which other components of the ocean-atmosphere system were at their most 'glacial' (e.g. lowest global temperatures, lowest atmospheric C02 concentration, and apparently greatest aridity in many continental regions). In fact, there are numerous signs that not all attributes and processes reached their peak of 'glaciality' (in the sense of maximum cold, maximum ice extent, and maximum difference in water balance relative to the present) at exactly the same time during the last glacial phase; for example Colinvaux (1987) suggests that the lowest temperatures and maximum glacier extensions in tropical uplands may have occurred several thousand years before those at higher latitudes. In contrast, in the mountains of Africa and in the equatorial region of the Far East, at least some glaciers reached their maximum size well after the 18,000 years ago date, at around 15,000 14C years ago (Crowley and North 1991; Markgraf 1993; Street-Perrott and Perrott 1994).

      It is important to bear in mind that in some areas for which there is continuous well-dated evidence, climates only a few thousand years before or after 18,000 radiocarbon years ago can be shown to have been quite different from the LGM itself, often being much moister. The LGM phase was relatively brief (lasting for perhaps 2000 calendar years, and depending on the precise definition that one is using) and only the most extreme part of a globally cold and dry phase.

      3. Methodology

      3. 1. A top-downwards approach

      Throughout the process of putting together the LGM map, the emphasis has been on a pragmatic top-downwards approach. Regional experts are consulted on the basis of their own published reviews and maps; these experts discuss the problems and uncertainties in the evidence with the authors, and recommend key paper for them to read. The authors then return to each contributor in order to check that what has been written in the database is factual and reasonable. More extensive description and discussion of the methodology used here can be found in Adams and Faure (1997).

      In summary, the LGM map is based on the following sources of data:

      Plant fossil data:

      Plant fossil data (macro- and micro-), the most direct and trustworthy source of information on past vegetation, are still very patchy for around the time of the Last Glacial Maximum, some 18,000 radiocarbon years ago. Because plant fossils can sometimes give a misleading picture of the local vegetation, due to biases in preservation (Adams and Faure 1997), it is necessary to supplement this information with other sources.

      Proxy data sources: zoological and sedimentological information:

      Many other sources of data that can serve as proxy indicators of past vegetation cover and structure. Particular species of animals are found to be strongly associated with particular vegetation conditions in the present world, so their fossils can be used as a rough indicator of the ecology of an area in the past.

      Sedimentological processes are often dependent on vegetation cover, either in the area where the sediment is being deposited or the area from which it is being eroded. A particular sediment grade or type of depositional structure can often give clues as to the type of vegetation that once existed there, although it is possible to be misled by processes in the past giving the same result by different means.

      More tenuously and controversially there are biogeographical clues based on the present day distributions of animals and plants, which may be partly a legacy of the changed vegetation and climate conditions which existed during recent glacial phases, although not necessarily the most recent one. Generally, present-day biogeographical evidence must be regarded as taking lowest priority because it is the most ambiguous and the least direct. Here in the debate that has given rise to the maps, biogeography has been used only to back up or dispute patterns suggested on the basis of palaeoenvironmental evidence, not as a primary source of ideas and opinions.

      The approach used to produce the initial QEN maps and the maps presented here is thus highly interdisciplinary, in contrast to most previous attempts at broad-scale vegetation reconstruction for the Holocene and Last Glacial Maximum.

      The problems of dating the evidence

      An additional problem is that accurate dating is often lacking from deposits of palaeoenvironmental significance. This is especially so for well-oxidized or terrestrial sedimentary deposits such as sand dunes where there is little surviving organic matter that can be used for 14C dating. Fortunately the range of direct and correlative dating techniques is expanding (for instance, optical dating of the quartz in sand dunes is now becoming widely used), and the accuracy of existing methods is also improving. Nevertheless, many sites which have been taken as revealing conditions under the Last Glacial Maximum remain poorly dated or even totally lacking in any real dating control. Obviously, such sources of evidence must be treated with more caution than those which have been thoroughly dated, and the decision whether to accept them or not is ultimately subjective and, of course, potentially clouded by one's own preconceptions of what past conditions were like. The editors have, for the most part, left these difficult decisions to local experts who have themselves studied the Quaternary geology of each area, and have drawn the map boundaries on the basis of their detailed advice.

      The drawing of geographical boundaries in relation to climate

      In all published palaeovegetation maps based on point sources of data, extrapolation or interpolation based on knowledge of present-day vegetation-to-climate relationships have been important. Each piece of data relating to climate or palaeovegetation provides a basis from which to deduce the climate/palaeovegetation for other adjacent areas. To some extent, the maps presented here are based by proxy on the vegetation-climate relationships that individual contributing authors have assumed, and on the pattern by which they feel climate would have varied across the region.

      Such factors are difficult to control and to describe, for the authors who contributed to each individual palaeovegetation map often do not themselves state the assumptions which they are using. However, where such information is provided, it is included in the QEN database at the Web site.

      The boundary between tropical and temperate vegetation types is reconstructed on the basis of palaeotemperature estimates from various sources. In fact, the precise position of the demarcation of 'tropical' from 'temperate' vegetation is fairly arbitrary if one looks at the problem objectively (see detailed discussion in Adams 1993), but there is no doubt that there is a general gradient in vegetation ecology and composition as one travels away from the equator. It is always necessary to draw the tropical versus temperate line somewhere, and in the maps here the boundary for most tropical vegetation types is set at a coldest mean monthly value of 10 deg. C. This follows the general correspondence between global present day poleward vegetation boundaries and the present day temperature isotherms (e.g. see the Times Atlas (Times 1992) which presents good general maps of both). For tropical rainforest vegetation, a somewhat higher temperature limit of 15.5 deg. C (as the mean temperature of the coolest month of the year) seems to correspond well to the map boundaries drawn by various authors (I. C. Prentice, pers. comm.).

      For the boreal-to-temperate transition, a more generalized definition based on the prevalence of cold climate conifers or birch woodland (Betula) is used as the basis for demarcating the boundary, and a similar floristic type of definition is used for tundra as distinguished from temperate steppe.

      In drawing the palaeovegetation maps, the general assumption is made that the overall pattern of isotherms remained approximately the same, but that temperature was lowered (for the LGM) or raised (for the early Holocene) by a particular amount in each area. This seems generally reasonable with the exception of certain areas close to ice sheets or where large shelf areas had appeared: all general circulation model (GCM) reconstructions give generally similar qualitative spatial patterns to those existing at present, albeit shifted quantitatively, and that at around the outer boundaries of the tropics the temperature lowering at the LGM was at least 5.5 deg. C (10 deg. F) (e.g. Crowley and North 1991; Broecker 1995). Thus for the majority of vegetation types, the tropical-temperature boundary is moved equatorwards from the present 10 deg. C (50 deg. F) isotherm for the coldest month, to what is presently the 15.5 deg. C (60 deg. F) isotherm. Another important factor to include in extrapolating from scattered data points to produce a palaeovegetation map is the likely pattern of variation in precipitation. From finding evidence of a particular vegetation type having existed at a particular site in the past, it is possible to arrive at a rough quantitative estimate of precipitation for that place. From this it is reasonable to extrapolate the possible pattern of rainfall across a wider area, and to turn this back into an estimate of vegetation cover. If more than one data point is available, it is possible to interpolate between these. Extrapolation/interpolation of past rainfall patterns from proxy data points can be carried out using a numerical model (which may be coupled to a GCM), and although this brings with it an element of consistency, this is no guarantee that the model itself is correct judging by the problems that are evident in many GCM models (see discussion by Crowley and North 1991, Kagan 1995 and Broecker 1995), and a certain degree of scepticism would be healthy.

      Here, the approximate relative precipitation patterns are generally assumed to have varied much as today (the present rainfall distribution being taken from such sources as the Times Atlas (Times 1992) and other regional climatological maps), but to have been shifted in amount. The amount by which rainfall shifted is dictated by the indications from regional sources of terrestrial palaeoevidence, except where there is evidence to the contrary. Assuming this, the boundaries of palaeovegetation types are extrapolated across from areas where relevant data have been found, assuming a broadly similar distribution of rainfall maxima and minima to those which occur today. In fact, there is good evidence that even during the LGM, most areas that are relatively moist today tended to be relatively moist during the LGM (even if shifted substantially overall to drier and cooler conditions, they were generally still moister relative to their surroundings). Hence, extrapolation along these principles seems perfectly reasonable in most areas (though not all; see the text of the QEN website http://www.soton.ac.uk/~tjms/adams1.html, for exceptions).

      Web-based expert consultation as a source of information for the maps.

      Once the preliminary version of the map was ready, it was made available online for review. Requests for comments on the map were sent out to approximately 20 Quaternary vegetation experts for different parts of the world. The global map was split into six regions, allowing reviewers to easily access their region of specialization. An announcement of the availability of this review page was also made through the QUATERNARY list server (Canadian Research in Quaternary Science, http://www.mun.ca/lists/quaternary/), to ensure a wide targeted audience. This process was very efficient, with numerous valuable feedbacks from palaeovegetation specialists. The comments helped us correct vegetation categories or extensions of certain areas, and revealed various additional literature sources.

      3.2. Vegetation map

      3.2.1. Digitalization

      A first set of hand-drawn maps were digitized and merged in the GIS facility of UNEP/GRID-Geneva (United Nations Environment Program / Global Resource Information Database-Geneva) using the Geographic Information System (GIS) ArcInfo 7.2 (ESRI Inc., Redland, USA). After correction of topological errors with ArcInfo, we exported the file into the GIS package ArcView 3.2 (ESRI Inc., Redland, USA), where the rest of the map production was carried out. Vegetation borders were then directly corrected with ArcView, using the standard digitizing tools. When contours were based on altitudinal zonation or past LGM coastlines, they were altered directly on screen, with the appropriate information in the background.

      3.2.2. Key to Vegetation Types

      In compiling these maps, we have tried to adhere as closely as possible to the well-known and widely cited scheme developed by Olson et al. (1983). Given the nature of the task we have, however, merged some categories and added others, including some vegetation types for the past that have no close analogue in the present world.

      A key to the vegetation types under which the data are categorized can be found in Table 1. The coding numbers correspond to the numbers on the regional maps. A brief description of the physiognomy of each vegetation type is given, together with the nearest corresponding vegetation type(s) on the global ecosystems map and carbon storage database of Olson et al.(1983). Finer subdivisions of vegetation type were not mapped onto our global map, as we feel that there is presently insufficient information to allow such subdivision to be used.

      3.2.3. Expressing the uncertainties in the vegetation map reconstruction

      It is difficult to relay any simple measure of the amount of confidence to be placed in the patterns of vegetation distribution drawn onto the maps presented here. It has been necessary here to weigh up each case according to which of the cited authors and contacts presents the most convincing set of evidence and arguments. The justification for presenting any particular vegetation reconstruction in the maps is a complex and subtle process (which can be best understood by studying the discussions in some of the individual source papers, or the on-line QEN database, http://www.soton.ac.uk/~tjms/adams1.html).

      3.3. Altitudinal zonation

      We used the topographical data sets GTOPO30 at 30 arc-sec resolution (about 1 km at the equator) from the US Geographical Survey (http://edcdaac.usgs.gov/gtopo30/gtopo30.html) as the basis for our altitudinal contours. All the individual tiles, less the ones from Antarctica, were merged together using the tools available in the ArcView extension 'Spatial Tools' (Hooge 1999). The global data set was then resampled to a lower resolution of 10 km, by using the standard ArcView resampling tools. This allowed an easier handling of the data. A simple reclassification of this data set allows us to highlight the desired altitude range, which is then vectorized by creating polygons by hand in ArcView. To ensure that this lower resolution did not significantly affect the borders of the vegetation zones, we made several tests consisting of the same manipulation with the original resolution. These tests showed that a resolution of 10 km gives similar results, which was acceptable, especially when recalling the very subjective nature of these maps, and the uncertainties of border locations.

      Altitudinal vegetation zones were substantially lower at the LGM than at present, due mainly to the cooling relative to the present, which is evident in all parts of world. These differences will be described in detail for each region, but in general it seems that altitudinal zones were approximately 500-1000m lower than at present. The cooling, and the lowering of altitudinal zones, was most dramatic in the mid- and high- latitudes, where most areas beyond 50 degrees north would probably have had no vegetation above 500m. In the tropical latitudes, the shift in vegetation zones was less drastic, but still involved a change of the order of hundreds of meters. In effect, the lower montane zone of tropical mountains spread out into the tropical lowlands, as indicated by the abundance of montane trees in lowland vegetation at that time (e.g. Hooghiemstra 1989; Behling 1998).

      
Tabl. Art. 1. : Vegetation categories and their description
ID# Vegetation Type Description Corresponding Olson's vegetation type
1 Tropical rainforest Broadleaved, tall, evergreen forest. Drip tips and buttress roots common on trees. Main Tropical/Subtropical Forest; Broad-Leaved Humid Forest
2 Monsoon or dry forest Largely or entirely deciduous closed forest in tropics. No Olson analogue
3 Tropical woodland More open, deciduous woody vegetation (more than 6m tall). Open canopy; less than 60% canopy cover. Main Tropical/Subtropical Forest; Dry Forest and Woodland
4 Tropical thorn scrub and scrub woodland Lower woody vegetation (less than 6m tall), generally open with wide gaps between the bushes/low trees, in frost-free climate No Olson analogue
5 Tropical semi-desert Very open. Between 2% and 10% vegetation cover. Scattered clumps of grass or small shrubs. Nonpolar desert or semidesert (Sparse (rocky) vegetation, Other Desert and Semidesert, Cool Semidesert Scrub)
6 Tropical grassland Greater than 20% vegetation cover. Mainly grassy, very few woody plants (less than 5% cover). Tropical savanna or montane; Tropical Savanna and Woodland
7 Tropical extreme desert Less than 2% vegetation cover. Almost entirely barren. Nonpolar desert or semidesert (Sand Desert)
8 Savanna Greater than 20% vegetation cover, mainly grassy but with 5-20% tree cover. Tropical savanna or montane; Tropical Savanna and Woodland
9 Broadleaved temperate evergreen forest Mainly broadleaved and mainly evergreen trees, closed canopy (> ;60% crown cover). Without drip tips or buttress roots. Frosts occasionally occur Mostly mid-latitude broad-leaved and mixed (Woods,Temperate broad-leaved forest), Tropical/subtropical humid forest, Temperate/boreal forest;
10 Montane tropical forest Broadleaved evergreen trees. Closed forest canopy. Shorter than lowland forests, tending not to have drip tips or buttress roots. No Olson analogue
11 Open boreal woodlands Open woody vegetation (less than 60% canopy cover). Highly frost tolerant trees. Northern or Maritime Taiga, subalpine
12 Semi-arid temperate woodland or scrub Low woody vegetation (less than 6m tall), generally open with wide gaps between the bushes/low trees, in a climate in which frosts occur Other dry woods mosaics
13 Tundra Greater than 2% cover by low shrubs (< ;1m) or grasses in a lowland climate with extremely cold winters and cool summers. Tundra
14 Steppe-tundra A vegetation type widespread during the Last Glacial Maximum, which combined plants of tundra and steppe environments. Probably around 50% ground cover by plants; bare ground abundant but patchy. No Olson analogue
15 Polar and alpine desert Less than 2% ground cover by any species of vascular plant. Cold climate virtually year-round. Polar or Rock Desert
16 Temperate desert Less than 2% ground cover in climate in which frost occurs. Cool desert and semi desert types
17 Temperate semi-desert 2-20% vegetation cover in a climate in which frosts occur. Cool desert and semi desert
18 Forest steppe 5-20% overall tree cover, often as patches of trees, in a mainly grassy landscape. In lowlands. Wooded tundra
19 Montane Mosaic Complex topographic mosaics of forest, tundra, grassland and montane desert. No Olson analogue
20 Alpine tundra Greater than 2% cover by low shrubs (< ;1m) or grasses in a mountain climate with cold winters and cool summers. No Olson analogue
21 Subalpine parkland 5-20% overall tree cover, often as patches of trees, in a mainly grassy landscape. Cool grassland/scrub. Subalpine.
22 Dry steppe Greater than 20% vegetation cover, mainly grasses. Relatively short < ;75cm) grasses, drier climate. Cool grassland/scrub.
23 Temperate steppe grassland Greater than 20% vegetation cover, mainly grasses. Relatively tall grasses and other plants (> ;75cm), moister climate. Main Grassland or shrubland; Cool grassland/scrub
24 Main Taiga Conifer forest with a fairly open canopy Mostly taiga and other conifer; Main Taiga
25 Lakes and open water Year-round open water, possibly freezing in winter. Water Bodies
26 Ice sheet and other permanent ice Year-round ice or snow on surface. Ice
 

      The corresponding vegetation type(s) from Olson et al. (1983) are also indicated.

      Tropical altitudinal zonation:

      The following altitudinal zones were used everywhere in the tropics between 22 degrees North and South of the Equator, on the basis of various reviews of LGM vegetation in the tropics (e.g. Behling 1998):

      In areas where tropical forest of some sort is reconstructed from palaeoevidence as being present in the lowlands, the upper limit of tropical lowland forest is designed as 500m above present sea level. Montane forest is present is in the interval 500-2000m. Tundra is in the interval from 2000m to 3500m. Alpine desert, perennial snow or ice is present above 3500m.

      All these vegetation zones are lowered some 500m (Hope 1987; Hooghiemstra 1989; Behling 1998) from the present-day vegetation zonation.

      Higher-latitude zonation:

  1. For the zones 22 degrees-30 degrees North or South of the Equator: upper forest limit (if forest is present in lowlands) is at 1200m. Regardless of lowland vegetation tundra is present in the interval from 1200m to 2000m. Montane/polar desert is present beyond 2000m, unless specific evidence suggests the presence of an ice cap (Hooghiemstra 1989; Hope 1987).
  2. We placed the LGM upper forest line in the latitudinal band 30 degrees North to 45 degrees North at 800m. We put 'tundra' vegetation above 800m (e.g. Yu et al. 2000).
  3. All areas above 500m altitude, and north and south of 50 degrees, were labelled as alpine/polar desert, unless regional evidence suggests an ice sheet. This is based on the general assumption that in the high latitudes, greater cooling superimposed upon the background cooling due to ice age conditions would eliminate montane vegetation. However, the use of the 500m upper vegetation limit is preliminary, covering a very broad latitudinal band in which temperature certainly varied considerably, and may need to be revised on the basis of reconstructed summer temperatures on a more regionally specific basis. Since no forested areas are recorded from the LGM beyond 50 degrees North and South, no upper forest limit is ascribed.

      In specific regions (e.g. in the western USA) where a more complex altitudinal mosaic was clearly present, refinements to the scheme were added. These are described in the regional sections.

      3.4. LGM extended coastlines

      Due to the extent of the ice sheets during LGM, coastlines were dramatically changed in certain areas due to the drop of sea-level. Based on coral cores, a common accepted mean value for this drop is about 120 meters (e.g. Fairbanks 1989), even thought this change was locally higher or lower, due to the glacio-hydro-isostatic contributions to sea-level (Lambeck and Chappell 2001).

      To our knowledge, there is no available global map of LGM coastlines. Most authors mapping LGM environments have used bathymetric data sets to reconstruct the shorelines of the area of interest based on the accepted sea-level drop value of 120 meters. We used the global sea-floor topography data set (version 8.2, http://topex.ucsd.edu/marine_topo/mar_topo.html), compiled by Smith and Sandwell (1997). The data set is at 2 arc-min resolution (about 4 km at the equator). Since the data set was originally in the Mercator projection, we used standard ArcView tools to reproject the data set to geographic projection. For a more convenient use, we also changed the original extent of the data set (0 to 360 decimal degrees) to -180 to +180 decimal degrees. A simple legend reclassification of the values highlights the 120 meters depth contours (Figure 1), allowing to modify accordingly the vegetation boundaries.

      

Fig. Art. 1 : LGM extended coastlines (sea-level drop of 120m) computed from global bathymetry

(Smith and Sandwell, 1997)

      This contour map was compared with a recent map of South-Eastern Asia that was compiled from a wide array of sources, taking into account tectonic information when available (Voris 2000). Unfortunately, this map was not available in electronic format, so we were not able to compare the differences within the GIS system. However, a simple visual comparison showed only few areas were the differences between the two maps were noticeable at this scale. These differences were relatively small, in the order of 20-50 km. This encouraged us in the view that the global bathymetric data set is appropriate to generate a global map of past coastlines when one accepts the approximation inherent to this approach.

      We thus corrected our initial vegetation map to fit these LGM coastlines using the standard digitizing tools in ArcView.

      3.5. GIS database

      The map was digitalized in geographic projection, which simply takes latitude and longitude as coordinates on a flat surface. This ensures easier conversion into any other specific projection. The drawback is that distance and surface are increasingly exaggerated as we move toward high latitudes, which gives a biased view of vegetation schemes in these areas. The adequate projection depends on the scale and the extent of the area of study (global, hemisphere, continental, regional, etc.), and on the spatial analysis that are to be done (distance or area computation, least-cost paths analysis, etc.). Numerous authors have recommended specific projections depending on the tasks to be achieved. Readers can consult the extensive literature on the subject to find recommended least-distorted projections for specific areas (e.g. Bugayevskiy and Snyder 1995; Steinwand et al. 1995).

      The extent most often used for global map display is -180;+180 decimal degrees. For LGM maps, this has the disadvantage of separating the Bering Strait features into the far western and eastern sides of the map. This is not very harmful for a simple display, but it becomes problematic when one needs a spatial contiguity of that region for dynamic studies (e.g. species replacement, population migrations, etc.). For that reason, the map is also available in an extent that allows for that spatial contiguity, which is -25;+335 decimal degrees.

      Vector maps were then exported into ArcInfo GRID raster format (e00) and image (tiff). Besides the global maps, regional maps were also produced in these three export formats. We believe that these various forms of outputs will greatly facilitate the import and the use of the vegetation maps.

      The maps are available for download in these various formats from the Download Page at: http://lgb.unige.ch/lgmvegetation/

      4. Description of vegetation patterns

      4.1. Index to the Regions

      This text is divided up on a regional basis, roughly corresponding to traditional notions of 'the continents', although the detailed choice of boundaries for each region is fairly arbitrary. The global map is found in Figure 2, while the legend for the maps is found in Figure 3.

      

Fig. Art. 2 : Global LGM vegetation map (-180;+180 decimal degrees extent)

      

Fig. Art. 3 : Legend accompanying the maps

      The order of the regional treatment is as follows:

      North and central America: includes the U.S.A. along with Mexico and the Caribbean, Canada, Greenland, 'Beringia' and central America;

      South America: includes the South American area and the Falkland Islands;

      Africa: includes Madagascar, Arabia and the Levant;

      Europe: includes the area eastwards to the Urals, and also Asia Minor;

      Eurasia: includes northern Eurasia, mostly Russia east of the Urals, southern and eastern Asia, the Middle East, and from the central Asian desert southwards and eastwards to Malaysia/Indonesia;

      Australasia: includes Australia, New Guinea and New Zealand.

      4.2. North and Central America

      In North America, the dominant feature was the presence of a vast ice sheet covering Canada. Forest dominated the eastern USA, but it was more open in character and contained trees adapted to the cooler climates.

      Regionally specific altitudinal zones: in the Rockies in the west, altitudinal zones were lowered: For the LGM western USA montane mosaic region, between around 26 and 42 Deg.N the following vegetation zones seem to have predominated: alpine tundra, above 2500m, subalpine parkland of open stands of spruce, pines and fir between 1500-2500m, and scrub/woodland below about 1500m (Tallis 1991).

      In the Cordillera region of the western USA, the areas below 500m altitude were 'semi-desert'. Everything below 500m was semi-desert, and scrub in the 500-1500m range. Same for the whole 'desert' area to the south, covering Texas and northern Mexico; if below 500m the vegetation was ascribed to the semi-desert category, above 500m, it was reconstructed as scrub. In the Sierra Nevada of California, the areas above 2000m were labelled as ice (Tallis 1991).

      

Fig. Art. 4 : North and central America

      Selected literature sources for the region of North and Central America :

      Barnosky et al. (1987); Barry (1987); Benson and Thompson (1987); Blum et al. (1994); Cole and Monger (1994); Delcourt and Delcourt (1987, 1991); Denton and Hughes (1981); Dyke and Prest (1986, 1987); Elias (1995, 2001); Forman et al. (1992); Graham and Mead (1987); Harris (1993); Herwitz (1992); Holliday (1987); Hopkins et al. (1982); Nordt et al. (1994); Overpeck et al. (1992); Plummer (1993); Richard (1995); Ritchie (1982); Ritchie and Cwynar (1982); Rochefort et al. (1994); Rosseau and Kukla (1994); Schwalb and Burns (1995); Schweger et al. (1982); Tallis (1990); Tchakerian (1994); Thompson and Mead (1982); Thompson and Anderson (2000); Watts (1980); Watts and Stuiver (1980); Webb et al. (1983); Webb et al. (1993); Wells (1992); Wilkins (1991); Williams et al. (2000); Woodcock and Wells (1990).

      4.3. South America

      South America was slightly cooler and generally drier than at present. It appears that the Amazonian rainforest was substantially reduced in area (though large uncertainties remain). The Atlantic forest of Brazil was also much diminished. Some desert and semi-desert areas formed in what are presently grassland and scrub zones.

      Regionally specific altitudinal zones: 'permanent ice' above 4100m throughout the Andes at the LGM, based on Hooghiemstra (1989).

      

Fig. Art. 5 : South America

      Selected literature sources for the region of South America:

      Absy et al. (1991); Absy and van der Hammen (1976); Behling (1995); Bonatti and Gartner (1973); (Broecker 1995); Bush 1994); Bush and Colinvaux (1990); Campbell (1989a,b); Clapperton (1993); Colinvaux (1972, 1987); Colinvaux et al. (1988); Colinvaux et al. (1989); Denton and Hughes (1981); de Oliveira et al. 1995); Grossjean and Messerli (1995); Haffer (1969); van der Hammen (1992); van der Hammen and Absy (1994); Heine (1994, 1995); Heusser (1983a,b, 1987); Hooghiemstra (1989); Hooghiemstra et al. (1992a); Irion (1984); Iriondo (1988); Iriondo and Garcia (1993); Latrubesse and Rancy (1995); Ledru (1992a,b); Leyden (1985); Leyden et al. (1993); Markgraf (1989, 1991, 1993); Markgraf et al. (1992); Nelson et al. (1990); Schwalb and Burns (1995); Stude et al. (1995); Suguio et al. (1993); Thomas (1994); Thompson et al. (1995); Villagran (1988, 1990); Wijmstra and van der Hammen (1966).

      4.4. Africa

      Africa was slightly cooler but much drier than at present. The Sahara Desert and the Namib Desert were both expanded, and in equatorial Africa there was relatively little forest cover.

      Regionally specific altitudinal zones: In the eastern part of South Africa: areas above 1000m were labelled "temperate steppe grassland" based on Coetzee and van Zinderen Bakker (1988). In the central part of the Sahara desert, areas above 1500m were reconstructed as 'semi-desert', based on the fact that some winter rains apparently occurred in altitude and maintained scattered vegetation (Faure et al. 1995, p. 79; Leroux 1998; Maley 2000).

      

Fig. Art. 6 : Africa

      Selected literature sources for the region of Africa :

      Aucour, Hillaire-Marcel and Bonnefille (1994); Bar-Yosef (1990); Battisistini (1970); Belluomini et al. (1980); Bengo and Maley (1991); Bonnefille and Riollet (1988); Close and Wendorf (1990); Coetzee and van Zinderen Bakker (1988); Colyn, Gautier-Hion and Verhaven (1991); Deacon (1990); Dupont (1993); Dupont et al. (2000); El-Nakhal (1993); Fairbridge (1964); Faure (1984); Gasse (1977); Gasse et al. (1994); Gasse et al. (1990); Giresse et al. (1990); Giresse and Le Ribault (1990); Goodfriend and Margaritz (1988); Hamilton (1982, 1988); Hamilton and Taylor (1991); Hooghiemstra (1988); Hooghiemstra et al. (1992b); Isaar et al. (1989); Jansen (1990); Kortlandt (1984); Lézine (1989); Lézine and Vergaud-Grazzini (1994); Lézine and Cassanova (1989); Livingstone (1980, 1993); Maley (1987, 1989, 1992, 2000); Matima (1991); Mordeckai and Goodfriend (1987); Neumann (1989); Petit-Maire, Sanlaville and Zhong-Wei (1994); Preuss (1990); Ritchie (1994); Roberts (1990); Sarnthein (1978); Schwartz (1991); Scott (1989); Servant and Servant-Vildary (1980); Ssemmada and Vincens (1993); Street-Perrott (1994); Tallis (1991); Tamura (1990); Taylor (1990); Thomas and Shaw (1991); Van neer (1984); Vincens (1991); Walker (1990).

      4.5. Europe

      Ice sheets covered northern Europe and Scandinavia. Most of the rest of northern Europe resembled semi-desert, with a mixture of tundra and grassland elements (steppe-tundra). In southern Europe, vegetation resembled a semi-desert steppe, with scattered pockets of trees in moist areas.

      Selected literature sources for the region of Europe:

      Becze-Deak et al. (1995); Bennett et al. (1991); Borsy (1987); Davis (1995); Dawson (1992); Denton and Hughes (1981); Frenzel (1992); Grichuk (1992); Harvey (1984); Hooghiemstra et al. (1992b); Huntley (1988, 1990, 1992); Huntley and Prentice (1993); Kozlowski (1990); Laval and Medus (1989); Laval et al. (1991); Pérez-Obiol and Julià (1994); Sjerup (1987); Soffer (1990); Soffer and Gamble (1990); Starkel (1991); Turner and Hannon (1988); Velichko and Kurenkova (1990); Velichko and Isavea (1992); Wells (1992); Weniger (1990); West (1978); Willis (1994); Willis et al. (2000); van Zeist and Bottema (1988).

      

Fig. Art. 7 : Europe

      4.6. Eurasia

      Much of Siberia and central Asia was desert-like, but with some large areas of steppe-tundra (rather resembling semi-desert in most areas). China had relatively little tree cover. The vegetation resembled dry steppe in northern China, with scattered areas of trees in the uplands across southern China (in a predominantly grassland lowland landscape). Japan had an open woodland cover. In south-east Asia, there was much more open grassland and dry forest than at present.

      Selected literature sources for the region of Southern Asia:

      Agrawal (1988); An et al. (1990); An et al. (1991); Barmawindjaja et al. (1993); Bellwood (1990); Broecker et al. (1988); Caratini and Tissot (1988); Chen and Olson (1990); Cullen (1981); Edwards (1994); Erdelen and Preu (1990); Fang (1991); Frakes and Jianzhong (1994); Gasse and van Campo (1994); Han (1991); Hantoro et al. (pers. comm.); Heusser (1990); Hovan et al. (1989); Hyams (1976); Jarvis (1993); Krinsley (1966); Kuhle (1991); Li and Zhou (1993); Li et al. (1995); Liew et al. (1995); Lin and Liew (1986); Lindsey and Thunell (1990); Liu (1986); Loeffler et al. (1984); Morley (1981, 1982); Morley and Flenley (1983); Ooi et al. (1990); Ooi and Tsuji (1989); Petit-Maire et al. (1994); Pye and Zhou (1989); Reynolds and Kanser (1990); Rostek et al. (1995); Singh et al. (1974); Stuijts et al. (1988); Sukumer et al. (1993); Sun and Chen (1991); Tamuru (1992); Thomas (1994); Thomas and Thorp (1992); Tong and Shao (1991); Tsukada (1988); van Campo (1986); van Zeist and Bottema (1988); Velichko (1991); Wang and Sun (1994); Whitmore (1984); Williams and Clarke (1984); Winkler and Wang (1993); Yang and Wang (1990); Yasuda and Tabata (1988).

      Selected literature sources for the region of Northern Asia:

      Alexeeva (1995); Baryshnikov and Markova (1994); Dawson (1992); Denton and Hughes (1981); Dodonov (1988); Drozdov et al. (1995); Frenzel (1992); Frenzel et al. (1992); Goncharov (1989); Grichuk (1992); Grosswald (1980, 1995); Kolpakov (1995); Lozhkin and Anderson (1993); Madeyska (1990); Peck et al. (1994); Spasskaya (1992); Sun et al. (2000); van Campo et al. (1993); Velichko et al. (1984); Velichko and Spasskaya (1991); Velichko and Kurenkova (1990a,b); Velichko (1993); Volkov and Zykina (1984).

      

Fig. Art. 8 : Eurasia

      4.7. Australasia

      

Fig. Art. 9 : Australasia

      A large extreme desert zone dominated the central part of the Australia continent, and all areas seem to have been drier and cooler than at present. Forest cover was much diminished. In New Zealand, a large ice cap dominated the South Island, with open grassland in the North.

      Selected literature sources for the region of Australasia:

      Allen (1990); Dodson et al. (1988); Hess (1994); Hope (1987); van der Kaars (1990); Kershaw et al. (1991); Kershaw (1988); Markgraf et al. (1992); McGlone (1988); McGlone et al. (1993); McTaintish (1989); Nanson et al. (1992); Thom et al. (1994).

      5. Suggestions and Comments from Readers

      The LGM maps presented here represent the latest stage in an ongoing process (as at 4 December 2001). To take account of newly published evidence, and the advice of those working in the field of LGM environments, the maps are certain to be updated, and we aim to present further updated material on the Web. Any further additions, suggestions or criticisms of the maps, or of the interpretations presented here, should be directed to J. M. Adams or N. Ray. We hope that we have cited the opinions of individual contributors as they had intended, but take full responsibility for any misunderstandings which might arise from these citations.

      6. Acknowledgements

      The authors would like to thank the reviewers of the map for their helpful comments, and the many people who earlier contributed information and advice to the earlier QEN maps, which were precursors to the present set of maps. We are indebted to Hugues Faure for his many helpful suggestions.

      N.R. would like to thank Dominique Del Pietro at UNEP/DEIAEW/GRID-Geneva for access to the digitizer and help for map corrections, at University of Geneva David Roessli for help on the download page and the review of an earlier draft, and Alicia Sanchez-Mazas for her comments.

      N.R. was supported by a Swiss National Science Foundation grant No. 31-054059.98.

      Download Area: the presented maps are available for download at: http://lgb.unige.ch/lgmvegetation


3.3.3. La végétation présente potentielle

      La végétation contemporaine mondiale est en de nombreux endroits extrêmement modifiée et fragmentée à cause des activités humaines (voir par ex. Milanova, 1994). L'agriculture, ainsi que l'élevage de bétail, influencent tellement les paysages qu'il est difficile de se représenter la végétation telle qu'elle serait en l'absence de ces impacts humains. Cette végétation sans influence humaine importante peut être appelée 'végétation présente potentielle', et elle est généralement considérée comme représentant les conditions écologiques d'il y a environ 3'000 à 4'000 ans (Adams et Faure, 1997b).

      Les cartes de végétation présente potentielle sont utiles à plus d'un titre. Elles servent tout d'abord à permettre les comparaisons avec des reconstructions de végétation à des périodes antérieures. Le fait d'avoir une carte initiale servant de 'point d'ancrage' pour toute représentation passée est important. De manière plus pragmatique, ces cartes permettent une construction plus aisée des cartes passées. Dans la littérature du Quaternaire, les auteurs se référent souvent à des limites entre deux types de végétation (par ex. limites forêt-savanne en Afrique ou forêt-toundra au Canada), et discutent des variations spatiales de ces limites dans le passé. Lorsque les évidences palynologiques sont suffisantes et bien réparties spatialement, ces auteurs peuvent en déduire des limites entre types de végétation en connectant les informations ponctuelles. Dans certaines régions néanmoins, les évidences palynologiques manquent complètement. Les solutions alternatives sont alors de ne pas dessiner ces zones, de leur attribuer une végétation complètement arbitraire ou, finalement, d'utiliser les limites de végétation d'une carte de végétation présente potentielle et de les modifier en fonction des grandes contraintes climatiques connues du passé. Cette dernière solution a été celle utilisée par Adams pour ses nombreuses cartes (voir Adams (1997a), Adams (1997b), et chapitres 3.3.2. et 3.3.4. de ce travail).

      La carte de végétation présente potentielle élaborée dans ce travail est basée sur les travaux préliminaires de Adams (1997b). Un processus de cartographie et de consultations d'experts a été ultérieurement rendu possible grâce à la disponibilité temporaire des cartes sur le Web, ce qui a permis de modifier les limites de certaines zones.

      L'utilisation de l'outil SIG pour la construction de ce nouveau jeu de cartes de végétation a également permis de prendre en compte certaines limites altitudinales 16 , de façon similaire à ce qui avait été entrepris pour la carte de végétation LGM. Ces limites ont été déterminées par Jonathan Adams grâce à un grand nombre de publications, d'avis de collègues experts, et de son expérience personnelle en cartographie végétale. La cartographie de ces zones altitudinales s'est faite sur la base du fichier hypsométrique GLOBE (voir chapitre 3.4.1.), en utilisant ce dernier comme fond de carte et en délimitant les zones végétales directement à l'écran en travaillant à une échelle d'environ 1:10M (1:10 millions, 1 cm à l'écran égal environ 100 km sur le terrain).

      Le Tableau 3.1 indique les contraintes altitudinales que nous avons considérées pour certaines régions, ainsi que les catégories attribuées au delà ou en deçà de ces limites. Certaines limites ne définissaient qu'une très petite surface sur la carte. Ces surfaces se traduisaient parfois par seulement un ou quelques pixels lorsque la carte vectorielle était rasterizée à une résolution de dix kilomètres ou plus. Nous avons donc renoncé à utiliser les contraintes altitudinales (indiquées entre parenthèses dans le Tableau 3.1) qui donnaient ces très petites surfaces, car le but premier de ces cartes de végétation était en effet d'être utilisée au format raster à une échelle globale ou continentale. A l'échelle utilisée pour la cartographie (1:10M), nous avons également souvent dû faire des choix arbitraires quant à la prise en compte ou non de petite zones isolées définies par les contraintes altitudinales, et d'une manière générale nous n'avons pas considéré les zones de moins de 50 kilomètres. Quoi qu'il en soit, il semble que nous soyons les premiers à tenter de prendre en compte ce genre de contraintes altitudinales réalistes pour la végétation présente potentielle à cette échelle (Jonathan Adams, comm. pers.), et nul doute que cette carte devra à l'avenir passer par de nombreuses corrections et améliorations lorsqu'elle aura été plus largement diffusée et confrontée à des représentations alternatives.

      
Tabl. 3.1. : Contrainte altitudinale appliquées sur la carte de végétation présente potentielle
Région Contrainte altitudinale (mètres) Catégorie de végétation
Pyrénées > ; 1800 Southern taiga
Alpes > ; 1800 Southern taiga
Norvège > ; 800 Tundra
Ouest de la Mer Noire > ; 1800 Southern taiga
Montagnes de l'Oural > ; 1200 Tundra
Montagnes du Thian Shan < ; 1500
1500-2200
(2200-3000)
> ; 3000
Semi-desert
Semi-arid temperate woodland
(Tundra)
Polar desert
Sud et sud-est du plateau Tibétain 2200-4800
> ; 4800
Tundra
Polar desert
Centre et nord du plateau Tibétain 1500-2200
(2200-3000)
> ; 3000
Semi-arid temperate woodland
(Tundra)
Polar desert
Région du Kilimandjaro (Afrique de l'est) < ; 1500
> ; 1500
(3000-4800)
(> ; 4800)
Tropical woodland
Montane mosaic
(Tundra)
(Polar desert)
Sud-est australien (> ; 1800) (Tundra)
Nouvelle-Zélande (< ; 1600)
(> ; 1600)
(Forest)
(Tundra)
Nord des Andes (Amérique du Sud) < ; 1300
> ; 1300
Tropical rainforest
Mountain mosaic
Pointe sud du continent sud-américain 300-1200
(> ; 1200)
Tundra
(Polar desert)
Centre-est de l'Amérique du Nord < ; 1500
> ; 1500
Dry steppe
Mid-taiga

      Les contraintes et catégories entre parenthèses n'ont pas été prises en compte pour la cartographie (surfaces trop petites).

      Les cartes sont présentées par continent, à des échelles différentes adaptées à chaque représentation. Ces cartes ne sont pas projetées et les latitudes et longitudes sont indiquées tous les 20 degrés décimaux. Afin de faciliter la lecture des cartes et des types de végétation, nous avons indiqué dans chaque zone de végétation les identificateurs de végétation tels qu'ils sont présentés dans la légende (Figure 3.2.). Les identificateurs ont été omis pour les très petites zones. Nous avons préféré garder les types de végétation dans leur langue originale, afin de permettre également leur comparaison avec les cartes du chapitre précédent. Une traduction personnelle de ces catégories est néanmoins disponible dans l'Annexe 1.

      Six cartes sont donc présentées: Europe (Figure 3.3.), Afrique (Figure 3.4.), Asie (Figure 3.5.), Australie et Nouvelle-Zélande (Figure 3.6.), Amérique du Nord (Figure 3.6.) et Amérique du Sud (Figure 3.6.). La Figure 3.9. est une comparaison globale entre les cartes LGM et présente potentielle. A la même échelle, et basées toutes deux sur la légende de la Figure 3.2., ces deux cartes comparées permettent de se rendre compte des différences drastiques de végétation entre ces deux périodes climatiques.

      

Fig. 3.2. : Légende des cartes de végétation présente potentielle

      Les catégories sont dans la langue originale et une traduction peut être trouvée dans l'Annexe 1.

      

Fig. 3.3. : Végétation présente potentielle de l'Europe

      

Fig. 3.4. : Végétation présente potentielle de l'Afrique

      

Fig. 3.5. : Végétation présente potentielle de l'Asie

      

Fig. 3.6. : Végétation présente potentielle de l'Australie et de la Nouvelle-Zélande

      

Fig. 3.7. : Végétation présente potentielle de l'Amérique du Nord

      

Fig. 3.8. : Végétation présente potentielle de l'Amérique du Sud

      

Fig. 3.9. : Comparaison globale entre les cartes de végétation présente potentielle et de végétation LGM

      Les couleurs correspondent à la légende de la Figure 3.2.


3.3.4. Série temporelle de la végétation européenne

      Nous présentons dans ce chapitre une série de quatre cartes de végétation de l'Europe pour quatre périodes clés (Figure 3.10). Ces cartes feront prochainement partie d'un article de revue sur les climats de l'Europe dans le National Geographic (édition française) afin de permettre aux lecteurs de se représenter les changements de végétation des 20'000 dernières années. Cette série temporelle n'a pas été utilisée directement dans le présent travail, mais elle pourrait être employée pour les simulations de dynamique de populations européennes dans le travail complémentaire de notre collègue Mathias Currat (Currat, in prep).

      Outre les deux cartes (présente potentielle et LGM) présentées dans les chapitres précédents, nous avons élaboré une carte à la période du Dryas récent (11'000 BP) et une carte du début de l'Holocène (8'000 BP). Le Dryas récent est une période froide et sèche en Europe, avec un retrait très marqué des zones boisées, alors que le début de l'Holocène correspond à la période de fin de déglaciation, avec un climat relativement humide et recolonisation par les forêts tempérées. Plus de détails sur les aspects climatique de ces deux périodes et les changement de végétation qui s'y sont produits peuvent être trouvés sur la page Web du QEN 17  et dans Adams et Faure (1997a).

      Le niveau des océans pour ces quatre périodes a également été pris en compte sur la base des données bathymétriques, et selon la méthode expliquée plus loin au chapitre 3.6.1. Données de base. Nous pouvons alors nous rendre compte de l'étendue des terres émergées, spécialement au nord de la France et en Angleterre, ainsi que dans la partie nord de la mer Adriatique.

      La projection géographique utilisée pour ces cartes est Lambert Equal-Area Azimuthal, comme suggéré par Steinwand et al. (1995) pour une cartographie européenne, avec un méridien central à 12º est, et une latitude de référence à 55º nord (pour une discussion sur les projections géographiques, voir le chapitre 4.3.2. Uniformisation des données environnementales.).

      

Fig. 3.10. : Série temporelle de quatre cartes de végétation pour l'Europe

      Projection Lambert Equal-Area Azimuthal (méridien central: 12º est, latitude de référence: 55º nord).


3.3.5. Capacité de soutien de la végétation

      Les ressources en nourriture que peuvent trouver les chasseurs-cueilleurs sont étroitement liées au type de végétation qui compose la majorité de leur environnement. Les fruits de la cueillette sont en effet dépendants des espèces végétales présentes, et les espèces animales pouvant être chassées ou récoltées sont également liées à l'écosystème présent. Nous l'avons vu au chapitre 2.3.1, la densité de chasseurs-cueilleurs est généralement bien expliquée par la densité de nourriture, et nous pouvons donc faire l'hypothèse que des milieux présentant des ressources similaires pourront soutenir un nombre similaire d'individus. En considérant maintenant le type de végétation comme déterminant principal de la quantité de ressource, nous pouvons faire une deuxième hypothèse qui consiste à dire que des régions présentant une végétation similaire peuvent soutenir un nombre de personnes similaire, et peuvent donc être considérées comme ayant une capacité de soutien semblable.

      Sous ces hypothèses, les données de densités d'individus par type de végétation dérivées de Binford (2001) peuvent donc être utilisées pour construire des cartes de capacités de soutien. Nous devons alors considérer que les moyennes des densités observées reflètent des tailles de populations à l'équilibre. Nous l'avons vu, cette considération peut être discutable, mais force est de constater que nous n'avons pas le choix. Il n'existe, en effet, pas d'autres données nous permettant de générer des cartes de capacités de soutien aux échelles continentales basées sur la végétation.

      La première étape pour l'obtention de ces cartes a consisté à faire la correspondance entre les catégories de végétation utilisées pour nos cartes (catégories Adams) et les catégories utilisées par Binford. Cette correspondance a été réalisée en étudiant les descriptions des catégories de Binford (2001, pp. 97-100) et en choisissant au mieux la catégorie Adams correspondante. Lorsqu'une catégorie Adams ne trouvait pas de correspondant Binford, nous avons décidé d'une catégorie proche à laquelle elle serait assimilée, de façon à ce qu'il n'y ait pas de zones dans nos cartes qui ne reçoivent pas d'estimations de capacité de soutien. Lorsque plusieurs catégories Binford correspondaient à une seule catégorie Adams, nous avons pris la moyenne des densités attribuées aux catégories Binford correspondantes comme estimation de la capacité de soutien de la catégorie Adams. Les correspondances de végétation, ainsi que les valeurs de capacités attribuées, peuvent être trouvées dans le Tableau 3.2. Notons que nous avons choisi d'attribuer une valeur très basse (50) aux déserts. Cet environnement a la particularité de ne pouvoir être traité comme un milieu qui peut être 'saturé' sur toute sa surface par des chasseurs-cueilleurs, mais ce sujet sera abordé plus longuement dans le chapitre 4.5 portant sur les simulations démographico-spatiales.

      Cette correspondance étant faite, nous avons pu générer dans ARCVIEW des cartes de capacités de soutien en important le Tableau 3.2 et en procédant à une connexion dynamique (dynamic join) de table avec comme clé commune l'identificateur de végétation. Les cartes obtenues sont présentées dans la Figure 3.11.

      
Tabl. 3.2. : Légende commune des cartes de végétation présente potentielle et des cartes au dernier maximum glaciaire, et correspondance entre les catégories adaptées d'Adams et de Binford
Catégories d'Adamsa Kb Fc Catégories de Binfordd Binford IDe  
1 Tropical rainforest 2866 0.9 Upper equatorial savanna-woodland/broadleaf tree savannaEquatorial and tropical rain forests SWFE  
2 Monsoon or dry forest 2780 0.9 Monsoon (raingreen) forest FMO  
3 Tropical woodland 892 0.5 Upper tropical thorn forest and thorn woodlandUpper subtropical sclerophyllous scrub-dwarf forest DTWFSS  
4 Tropical thorn scrub and scrub woodland 463 0.5 Lower tropical thorntree-desert grass savanna DTG
5 Tropical semi-desert 1451 0.1 Subtropical semidesert scrubDesert alterning with porcupine grass semidesertMidlatitude semidesert scrub and woodland DSSDSPDSD  
6 Tropical grassland 3196 0.1 Midlatitude short grass prairie GS  
7 Tropical extreme desert 50 0.9 Desert D  
8 Savanna 2209 0.1 Upper subtropical Australian sclerophylloustree savannaTropical thorntree-tallgrass savanna SSASTG  
9 Broadleaved temperate evergreen forest 2848 0.5 Lower midlatitude Australian sclerophyll scrub forestSubtropical broadleaf evergreen forestCoastal forestLake forestSouthern pine forest FSAFBEFCFLFSP
10 Montane tropical forest 3429 0.5 Tropical montane forest FMT  
11 Mediterranean sclerophyll woodland or forest 2848 0.5 Midlatitude Mediterranean evergreen mixed forest FSM
12 Temperate deciduous broadleaved forest 1345 0.5 Midlatitude deciduous forest FD
13 Southern taiga 1002 0.1 Idem Adams 15 -  
14 Mid Taiga 1002 0.1 Idem Adams 15 -  
15 Open boreal woodlands 1002 0.5 Mixed boreal and deciduous forestBoreal forestBoreal forest dominated by deciduous larch-aspen FBDFBOFBL  
16 Semi-arid temperate woodland 1345 0.5 Idem Adams 12 -  
17 Semi-arid temperate scrub 1345 0.5 Idem Adams 12 -  
18 Tundra 1002 0.1 Alpine tundra and boreal forest TA  
19 Steppe-tundra 1002 0.1 Idem Adams 18 -  
20 Polar and alpine desert 281 0.1 Polar tundra T  
21 Temperate desert 281 0.1 Idem Adams 20 -  
22 Temperate semi-desert 281 0.1 Idem Adams 20 -  
23 Forest steppe 1002 0.1 Idem Adams 15 -  
24 Forest tundra 1002 0.5 Idem Adams 15 -  
25 Montane Mosaic 1002 0.5 Idem Adams 15 -  
26 Dry Steppe 99 0.1 Moderately dry boreal parkland BPK  
27 Temperate Steppe Grassland 885 0.1 Tall grass prairie-forest steppe GP  
28 Bog/swamp 0 1 - -  
29 Ice sheet and other permanent ice 0 1 - -  
30 Lakes and open water 0 1 - -  
a Ces catégories sont un peu plus nombreuses que dans l'article original de Ray et Adams (2001), car elles prennent en compte les catégories spécifiques de la végétation présente potentielle. Elles ne sont pas traduites pour éviter les confusions.
b Capacités de soutien, estimées à partir des densités observées de Binford (2001), et exprimées en individus/10'000 km2.
c Frictions relatives potentielles (voir chapitre suivant).
d Les catégories telles que décrites dans la Table 4.08 de Binford (2001). Les catégories Adams ne trouvant pas d'équivalent chez Binford ont été assignées à une catégorie similaire (indication en italique).
e Identificateur de catégorie comme décrit dans la Table 4.08 de Binford (2001).

      

Fig. 3.11. : Cartes des capacités de soutien dérivées des données de Binford pour la végétation présente potentielle (A) et la végétation LGM (B)

      Les contours côtiers actuels sont représentés en traits fins. Les valeurs sont en nombre de personnes par 10'000 km2.

      Les cartes obtenues nous ont semblé raisonnables. Nous pouvons noter tout de même les hautes capacités de soutien des forêts tropicales et équatoriales (environ 2'800 ind./10'000 km2), qui peuvent surprendre lorsqu'on connaît les estimations classiques de densités des populations de Pygmées (par ex. Mbuti, Efe, Aka) des forêts équatoriennes africaines, qui sont de l'ordre de 100 ind./10'000 km2 (Cavalli-Sforza, 1986). Ces hautes capacités de soutien proviennent du fait que les populations considérées pour l'estimation de densité dans ces milieux englobent des populations de chasseurs-cueilleurs du sud-est asiatique (par ex. Punan, Batek, Pinatubo), ainsi que des populations de chasseurs-cueilleurs des forêts d'Amérique du sud (par ex. Bororo et Paraujano). Ces populations ont toutes des densités importantes (> 3'500 ind./10'000 km2, Binford, 2001, p. 118) et contribuent donc à élever grandement la densité moyenne de ces milieux. Ces milieux ont également été colonisés par des populations de chasseurs-cueilleurs paléolithiques. En effet, dans une récente revue sur les connaissances actuelles des sites archéologiques des forêts tropicale et équatoriales africaines, Mercader (2002) a montré que, contrairement aux idées reçues, ces forêts abritent un grand nombre de sites archéologiques paléolithiques qui suggèrent une colonisation relativement intense et continue pendant l'âge de pierre moyen et tardif.


3.3.6. Friction de la végétation

      Les estimations de friction des différentes cartes de végétation représentent une difficulté majeure, puisque très peu de données existent dans la littérature sur l'impact de la couverture végétale sur les mouvements humains. En effet, la couverture végétale peut représenter une contrainte de mouvement, ou friction, généralement proportionnelle à sa densité, si le but d'un migrant est de traverser une zone bien précise. Dans ce cas, nous pouvons considérer que celui-ci choisira de manière préférentielle des zones dégagées, lui permettant un passage peu coûteux en terme d'énergie dépensée. Au contraire, si la migration consiste en des déplacements dictés par les ressources (eau, gibiers, etc.), par un signal attractif (soleil, lune, etc.), ou encore par les contacts inter-populations, l'impact de la végétation sur les cheminements choisis peut devenir secondaire, voir s'inverser si le couvert de végétation est considéré comme protection (augmentant avec la densité). Un type de végétation peut donc être considéré tour à tour comme obstacle ou comme 'couloir' de migration suivant le rôle qu'on lui donne.

      De toute évidence, le rôle de la végétation varie selon la saison, son agencement spatial au sein du paysage, et sa conjonction avec d'autres variables comme le relief et les ressources en eau. Les types de végétation ont de plus varié considérablement au cours de la période de temps qui nous intéresse. Il est donc très difficile de définir des scénarios de friction réalistes qui puissent non seulement être appliqués indépendamment du lieu et de l'époque, mais également s'affranchir des considérations d'acquisition de nouvelles techniques ou d'adaptations particulières à certains environnements.

      Malgré la difficulté de pondération de cette variable de friction, nous avons considéré, à plusieurs reprises dans ce travail, des scénarios de frictions relatives aux différents types de végétation. Cela nous a permis de comprendre les différences de réponse de nos modèles lorsque cette friction était considérée ou non (friction homogène). Il a donc été nécessaire d'utiliser des scénarios de friction dérivés pour la plupart de réflexions personnelles, mais également de quelques données disponibles dans la littérature.

      En terme d'énergie dépensée par un homme en mouvement, nous ne pouvons nous appuyer que sur des études liées aux mouvements de troupes armées. Ces études proposent des pondérations de quelques types d'occupation du sol en terme de dépenses énergétiques lorsque ceux-ci sont traversés par un homme en marche. Le Tableau 3.3 présente de tels coefficients de friction (Marble, 1996). En terme uniquement énergétique, nous pouvons nous imaginer que ces chiffres puissent être similaires pour des chasseurs-cueilleurs en mouvement. Ces valeurs peuvent tout au plus nous donner un ordre de grandeur des variations relatives à un type d'occupation du sol.

      
Tabl. 3.3. : Valeurs de friction attribuées à plusieurs occupations du sol (en terrain plat) pour des hommes en mouvement
Type de terrain Coefficient de friction
Surface plane 1
Champ terreux 1.1
Buissons épars 1.2
Buissons denses 1.5
Surface marécageuse 1.8
Sable 2.1

Dérivé de Marble (1996)

      Dans l'approche utilisée pour le programme FRICTION (chapitre 4), nous avons besoin d'un scénario de valeur de friction pour la végétation qui puisse être réaliste, et que nous puissions utiliser à travers diverses simulations dans lesquelles d'autres paramètres démographiques et environnementaux varient. Une proposition d'un tel scénario se trouve dans le Tableau 3.2. Les valeurs de friction sont relatives et codées entre 0 (très basse friction) et 1 (très haute friction, passage impossible).

      Le peu d'information de la littérature ne permet pas d'attribuer des valeurs de friction qui seraient propres à chacune des catégories de végétation du Tableau 3.2. Nous n'avons donc considéré que trois valeurs possibles (0.1, 0.5, 0.9), et les avons attribuées en fonction du degré de résistance présumé de la végétation. Cette résistance a été uniquement dérivée de la densité supposée de la végétation, la friction augmentant avec la densité. Malgré la densité de végétation très basse dans les déserts, nous avons attribué une valeur de friction élevée à ces milieux. Les conditions de vie particulièrement pénibles de cet environnement (sable, manque de ressources, etc.) ont été considérées comme rendant très difficiles les mouvements de populations humaines. Bien que la démarche d'attribution des valeurs de friction ait été faite en étudiant de manière détaillée les descriptions de végétation pour chaque catégorie, elle n'en reste pas moins arbitraire. Nous pouvons cependant espérer que l'accroissement actuel des études utilisant l'hétérogénéité de la végétation dans des modèles de dispersion humaine puisse aboutir à des scénarios de friction consensuels, et ceci dans un futur proche.


3.4. Relief


3.4.1. Données de base

      Appelé également Modèle Numérique de Terrain (MNT), ou Digital Elevation Model (DEM), un plan d'information hypsométrique (du relief) est représenté en format raster par une altitude moyenne par pixel, ou en format vectoriel par des isohypses, ou courbes de niveau. Si le format vectoriel est souvent plus précis (mais discontinu), le format raster permet l'utilisation des outils d'analyses spatiales pour le calcul des pentes ou d'orientation de la surface topographique. Il permet également de calculer des indices de rugosité.

      Les recherches sur l'information disponible ont montré l'existence de plusieurs MNT globaux, généralement de résolution différente :

  1. GTOPO30 18 . (USGS, 1996). Plan d'information sur le relief terrestre mondiale, mis sur pied en 1996 par l'U.S. Geological Survey (USGS), avec une résolution d'environ 1km à l'équateur. Ce sont les données globales hypsométriques les plus utilisées par les équipes de recherche 19 , disponibles sur http://edcwww.cr.usgs.gov/landdaac/gtopo30/gtopo30.html
    Des plans d'information spécialement conçus pour les applications liés aux ressources en eau ont été récemment dérivés de GTOPO30. Ces fichiers, regroupés dans une base de données appelée HYDRO1K (Verdin, 1997), renseignent sur les bassins versants, la direction d'écoulement et les pentes. Il est possible de dériver un fichier de pentes depuis un MNT, mais l'avantage de l'utilisation du fichier de pente d' HYDRO1K est que celui-ci a été vérifié et corrigé par rapport aux artefacts de valeurs qui apparaissent parfois lors du traitement des MNT. Bien que la correction de ces artefacts soit primordiale pour des applications en hydrologie, elle est néanmoins négligeable dans le cadre du présent travail.
    Disponible sur http://edcwww.cr.usgs.gov/landdaac/gtopo30/hydro/index.html
  2. ETOPO5. (NOAA, 1988). Moins récent et de résolution 10 fois moindre que le précédent (environ 10 km à l'équateur), mais comprenant la bathymétrie.
    Disponible sur http://www.ngdc.noaa.gov/mgg/global/etopo5.html
  3. GLOBE 1.0. (Hastings et al., 1999). Plan d'information hypsométrique récent. La résolution est la même que pour GTOPO30, et la provenance des données en grande partie identique. La différence principale réside dans les techniques de transformation des fichiers de résolution de 100 m aux fichiers de résolution de 1 km. Ces transformations se sont faites suivant la localisation géographique, soit par 'proche voisin' (nearest neighbour), par moyenne (averaging), ou d'autres techniques. La précision de GLOBE et GTOPO30 est donc très similaire. Il faut noter que 5 millions de points d'information sur l'Australie ont été ajoutés pour GLOBE 1.0, et qu'il est prévu d'intégrer à ce plan d'information des données bathymétriques précises, de l'ordre du kilomètre, lorsque celles-ci seront disponibles.
    Disponible sur http://www.ngdc.noaa.gov/seg/topo/globe.shtml
  4. SCRIPPS/Topo6.2 (Smith et Sandwell, 1997). Bathymétrie mondiale associée en continu avec le fichier GTOPO30, dégradé à une résolution d'environ 4 km à l'équateur. La principale difficulté d'utilisation de ce fichier est sa projection MERCATOR sur l'extension géographique 0-360º. Son utilisation dans le présent travail a nécessité une reprojection géographique et plusieurs étapes de découpage-collage des parties de la carte pour obtenir une aire continue englobant l'ouest de l'Europe et de l'Afrique. Avec la récente disponibilité de ETOPO2, nous ne conseillons plus l'utilisation de ce plan d'information.
    Disponible sur http://topex.ucsd.edu/marine_topo/mar_topo.html
  5. ETOPO2. Ce fichier récent (mis à disposition en 2001), est une compilation des données hypsométriques de Smith et Sandwel (1997) avec d'autres données, dont des données bathymétriques arctiques (Jakobsson et al., 1988). La résolution du fichier est également d'environ 4 km à l'équateur. Un logiciel spécialement conçu pour extraire des grids d'étendue voulue (GEODAS 20 ) rend l'utilisation de ces données aisée. La non-projection des données de base permet également de travailler facilement sur n'importe quelle région, en projetant les données de manière adéquate pour limiter les distorsions. Ce fichier est actuellement la plan d'information bathymétrique globale avec la meilleure résolution.
    Disponible sur http://www.ngdc.noaa.gov/mgg/image/2minrelief.html

      C'est finalement ETOPO2 qui a été utilisé majoritairement dans le présent travail pour le relief terrestre et la bathymétrie (sauf si indiqué autrement). Nous avons également considéré ce relief comme statique pendant la durée temporelle (environ 100'000 ans) des simulations du présent travail. Même si des modifications ont eu lieu qui auraient altéré quelque peu le relief, nous les avons considérées comme négligeables.

      Comme nous allons le voir dans le chapitre suivant, ces données vont servir à dériver des indices de friction hypsométrique, et nous n'allons donc pas traiter des capacités de soutien hypsométriques. La notion de disponibilité de ressources liée à la capacité de soutien est en effet très difficilement dérivée des seuls indices de variations hypsométriques. De plus, comme expliqué au chapitre 3.3., nous avons déjà incorporé une certaine information hypsométrique dans les choix des limites altitudinales de la végétation.


3.4.2. Friction du relief

      Le relief est une variable environnementale qui, a priori, nous semblait avoir un impact important sur les migrations. Une chaîne de montagne de haute altitude peut indéniablement être une barrière très forte. Une surface montagneuse de moyenne ou basse altitude peut néanmoins contenir des environnements attrayants pour des chasseurs-cueilleurs, tant du point de vues des ressources disponibles que des abris qu'elle propose. L'hypothèse de travail de départ était que le choix de direction de déplacement d'un individu dépend entre autres de la différence d'altitude entre deux cellules adjacentes.

      Une très grande majorité des travaux sur les coûts de déplacement en relation avec le relief s'est faite à une échelle relativement petite, plutôt celle du paysage (zone visible par un humain) ou de la région (voir par exemple Bellavia, 2001) que celle du continent. Lorsque l'échelle d'étude est continentale, il se pose premièrement le problème de la disponibilité des données. Nous l'avons vu, des données hypsométriques sont disponibles à la résolution du kilomètre à cette échelle, ce qui est amplement suffisant pour la majorité des utilisateurs. Néanmoins, cette résolution implique un grand nombre de cellules (pixel), ce qui engendre des tailles de fichiers très importantes (plusieurs centaines de Megabytes). L'analyse spatiale de ces fichiers est alors très vite limitée par les temps de calculs. Alors qu'il est possible d'adapter ses outils d'analyses à la taille de ces fichiers, la méthode la plus simple consiste à adapter ces fichiers par un rééchantillonnage, ce qui en diminue la résolution. La difficulté est alors de pouvoir utiliser et exploiter ces données 'simplifiées' de façon adéquate.

      Les simulations spatiales du présent travail ont eu lieu à l'échelle continentale ou mondiale. Les résolutions des fichiers ETOPO2 ou GTOPO30 étaient trop grandes pour le programme FRICTION (Chapitre 4). Nous avons donc procédé à des rééchantillonnages pour obtenir des résolutions entre 10 et 100 km, suivant l'application. Ceci a été réalisé avec les outils standards d'ARCVIEW, en utilisant un rééchantillonnage par convolution cubique qui est optimal dans le cas de données continues comme les données d'altitude ou de pente. La perte d'information évidente lors de cette transformation est représentée dans la Figure 3.12. On y perçoit très bien un des problèmes récurrents rencontrés lors de ce travail: un élément important de la structure spatiale considérée (ici le détroit d'Afar, au sud de la mer Rouge) disparaît: il se 'ferme' et devient un passage terrestre. Ce genre d'artefact peut être résolu par une modification à la main de ces localisations particulières, ce que nous avons fait lorsque les hypothèses propres à un scénario environnemental particulier le demandaient.

      Le changement de résolution d'un plan d'information implique d'une part une agrégation de plusieurs valeurs (de 100 à 10'000 dans notre cas) en une seule valeur, et d'autre part un rééchantillonnage de la carte pour garantir une topologie correcte (étendue, nombre de lignes et colonnes). Il est donc important de choisir une méthode statistique d'agrégation qui soit pertinente à l'échelle considérée, ainsi qu'une méthode de rééchantillonnage adéquate.

      
Fig. 3.12. : Résolutions alternatives des fichiers d'hypsométrie terrestre et de bathymétrie dans la région du sud de la Mer Rouge en Afrique
(A) résolution originale d'environ 4 km (B) résolution dégradée à environ 100 km. La flèche indique le détroit d'Afar

      Les outils d'agrégation des outils SIG, et c'est la cas d'ARCVIEW, proposent un choix de plusieurs méthodes lors du changement de résolution, comme la valeur maximale, la valeur minimale, la moyenne, la médiane et la somme. Nous avons toujours choisi la moyenne, à moins qu'il soit indiqué autrement.

      Les méthodes de rééchantillonnage sont généralement au nombre de trois dans la plupart des programmes SIG:

  1. la méthode par proche voisin (nearest neighbor) consiste à attribuer à la cellule agrégée la valeur de la plus proche cellule (ou de la cellule la plus abondante) de la grille originelle. Cette méthode est typiquement utilisée avec des données de catégorie puisque aucune nouvelle valeur n'est créée;
  2. la méthode d'interpolation bilinéaire (bilinear interpolation) consiste à utiliser les quatre cellules voisines (nord, sud, est, ouest) afin de déterminer une valeur moyenne qui sera attribuée à la cellule centrale. Cette méthode peut générer des valeurs intermédiaires, et est typiquement utilisée avec des données continues telle que le relief;
  3. la méthode de convolution cubique (cubic convolution) est similaire à la méthode bilinéaire, sauf qu'elle utilise les 16 cellules directement adjacentes pour le calcul de la valeur moyenne. C'est la méthode la plus gourmande en temps de calcul, mais elle permet une meilleure approximation des valeurs rééchantillonnées. C'est cette méthode qui a été utilisée pour les rééchantillonnages de nos plans d'information hypsométriques.

Pentes

      La dépense énergétique associée au relief peut être abordée de plusieurs manières. La première approche consiste à utiliser les pentes, dont les valeurs sont facilement dérivées des MNT à l'aide des outils standards SIG en utilisant la technique du maximum moyen 21  (Average maximum technique, Burrough, 1986). Il faut noter toutefois que la projection du MNT est ici très importante. Si la carte n'est pas projetée, d'importantes erreurs peuvent survenir dans les calculs des valeurs de pentes. En effet, l'algorithme de calcul utilise un facteur de division entre une unité de longueur dans le plan et une unité de hauteur de l'altitude. Cette dernière ne varie pas avec la latitude, contrairement à l'unité de longueur dans une carte non-projetée, ce qui amène le facteur de division à varier avec la latitude. Les pentes sous donc grandement sous-estimées dans les hautes latitudes avec une carte non-projetée.

      Une fois les pentes obtenues, il est possible de déterminer une relation pente-coût qui mènera à l'obtention d'une carte de friction hypsométrique. Néanmoins, l'utilisation des pentes est directement liée à la résolution du fichier utilisé. En effet, Gao (1998) a montré que la fiabilité du gradient de pente calculé à partir d'un DEM dépend de la résolution de ce dernier. En utilisant plusieurs valeurs de résolution (10-60 m), il a pu montrer qu'une généralisation (ou agrégation) a pour effet de faire disparaître les gradients extrêmes (faibles ou accentués). Un paysage très vallonné (grande 'rugosité') est affecté, par l'agrégation, dans une proportion égale à celle de paysages plus réguliers. L'auteur précise bien qu'il manque des études prenant en compte des résolutions plus grandes ou des terrains de plus grande complexité topographique.

      La Figure 3.13.(B) présente la carte des pentes calculées à partir de ETOPO2 et agrégées aux 100 km. L'agrégation s'est faite en choisissant la valeur médiane de la distribution des valeurs initiales. Nous préférons la médiane à la moyenne dans ce cas, car elle permet d'éviter la prise en compte de fortes pentes lorsqu'elles sont présentes seulement dans quelques cellules. Si des migrants sont affectés par le relief, il n'est en effet pas réaliste de considérer qu'un élément hypsométrique important isolé (comme une petite montagne) s'étendant sur quelques kilomètres puisse affecter le passage de toute la cellule dont la surface est de 10'000 km2.

      

Fig. 3.13. : Cartes de rugosité (A) et de pentes (B) obtenues par rééchantillonnage à 100km de la carte d'hypsométrie terrestre et de bathymétrie ETOPO2

      Les échelles indiquées représentent (A) l'écart-type des altitudes par agrégat de 25x25 pixels, (B) les moyennes de pentes en degrés. L'étendue de la carte pixellisée représente l'étendue continentale au dernier maximum glaciaire, alors que les lignes grisées représentent l'étendue actuelle des continents. Projection de Hammer (méridien standard: 80°E).

      De nombreux auteurs se sont penchés sur les coût énergétiques associés à la marche chez les humains (pour une compilation, voir Marble, 1996). Plusieurs applications de ce coût ont été testées en archéologie pour, entre autres, déterminer d'anciens sentiers reliant des villages (Kantner, 1996; Bellavia, 2001). Silbernagel et al. (1997) ont utilisé des données archéologiques (jusqu'à 3000 BP) et des données contemporaines sur les établissements d'habitations. Ils ont déterminé que la distribution des ces établissements était similaire pour les deux périodes considérées, et que les sites étaient trouvés de manière préférentielle sur des pentes de moins de 2% et faisant face au sud (dans l'hémisphère nord). Ces résultats ne sont pas très informatifs, et ne peuvent en tout cas pas être utilisés pour les estimations des paramètres relatifs aux pentes chez les chasseurs-cueilleurs. Plusieurs formules de relation pente-coût ont été développées par différents auteurs. La formule de Tobler (1993) est utilisée depuis de nombreuses années par l'équipe d'archéologie de l'Université de Californie, à Santa Barbara. A partir d'un fichier de pente (positive ou négative), la formule suivante produit une surface de coût qui mesure le temps de passage à travers chaque cellule:

      
(3.1)

      où est le temps pour traverser chaque cellule (heure), la longueur d'une cellule (Km), et la pente (entre -1 et +1). Cette formule peut être représentée sous forme graphique dans la Figure 3.14. Notons que les pentes calculées avec la technique du maximum moyen sont toujours positives.

      

Fig. 3.14. : Relation entre pente et indice de Tobler (effort)

      Pour avoir la vitesse de marche (W, en km/h), l'équation précédente peut simplement être réécrite

      
(1.2)

      Sur terrain plat, cette vitesse est égale à 5 km/h. Tobler (1993) indique également que ce nombre doit être multiplié par 0.6 pour un déplacement sur un terrain en dehors du sentier (sans précisions sur les caractéristiques de ce terrain), et multiplié par 1.25 pour un déplacement à cheval.

      L'utilisation des pentes pour représenter le relief d'une surface peut être inadéquate dans les cas où la complexité d'un paysage ne peut pas être réduite à une valeur moyenne de pente. C'est le cas par exemple pour des paysages accidentés où la complexité des variations de pente sur une surface de 100 km2 est grande. Lorsque la résolution utilisée est encore plus basse, comme c'est le cas au chapitre 4 avec des cellules de 10'000 km2, il est alors évident qu'un seul indice de pente pour une telle surface n'est plus du tout informatif.


Rugosité

      Une autre approche de la friction hypsométrique passe par ce qu'on peut appeler la 'rugosité', qui définit un aspect du paysage et peut être imagée comme la sensation que l'on aurait en touchant une maquette en trois dimensions de ce paysage. Certaines régions seront plus 'lisses', alors que d'autres présenteront un grain plus grossier.

      Certains auteurs utilisent les valeurs des pentes pour calculer un indice de rugosité. C'est le cas par exemple d'Anderson et Gillam (2000) dans leurs simulations des chemins préférentiels de colonisation par les premiers chasseurs-cueilleurs en Amérique. Leur indice de rugosité est défini comme le carré de la pente, ce qui permet, selon les auteurs, de donner une plus grande importance relative aux fortes valeurs de pente. Cet indice arbitraire basé sur les pentes se heurte au même problème mentionné ci-dessus lorsqu'il s'agit de travailler à faible résolution.

      Afin de générer un indice de rugosité qui soit pertinent pour des basses résolutions, nous proposons un indice simple basé sur les valeurs d'altitude qui consiste en l'écart-type de celles-ci. Cet écart-type ne peut être obtenu que lorsqu'un MNT est rééchantillonné à une résolution inférieure et qu'un certain nombre de cellules sont donc agrégées en une seule cellule. L'agrégation par écart-type n'étant pas disponible dans ARCVIEW, nous avons implémenté le script Avenue AGGREGATIONbySTDEV qui calcule cet écart-type en rééchantillonnant à la résolution désirée. Ce script est disponible via l'Annexe on-line de la thèse. Un avantage de l'utilisation des altitudes pour le calcul de l'écart-type plutôt que les pentes est que l'intervalle des valeurs obtenues est bien plus grand et donc plus discriminant entre des régions à relief différent.

      La Figure 3.13.(A) montre le résultat de l'application de ce script sur le plan d'information initial de ETOPO2 (résolution de 4 km) comprenant la bathymétrie, rééchantillonné à une résolution de 100 km. Plus une cellule est foncée, plus l'écart-type est élevé, ce qui signifie une plus grande rugosité de la cellule. Dans cette figure, l'étendue terrestre maximale est celle du dernier maximum glaciaire, alors que l'étendue présente est illustrée par un trait fin. Les abords des zones montagneuses (par ex. Himalaya, Alpes) ressortent particulièrement avec l'utilisation de cet indice de rugosité. Notons que certaines cellules au bord des océans ont un écart-type élevé. Ceci est dû à la prise en compte de la bathymétrie, dont les valeurs sont élevées à ces endroits. Lorsque la baisse des océans pendant le dernier maximum glaciaire a fait émerger ces zones, nous posons l'hypothèse que la bathymétrie actuelle est une bonne approximation de l'hypsométrie des zones émergées. D'autres auteurs font également ce genre d'hypothèses pour déterminer d'anciennes vallées ou lits de rivières, comme par exemple sur la plateau sud-est asiatique lors du Pléistocène supérieur (Voris, 2000).

      La rugosité peut également être abordé avec des modèles plus complexes basés sur les fractales (Milne, 1997). Il est en effet possible déterminer un coefficient de rugosité en analysant la géométrie fractale d'un paysage. D'implémentation complexe, cette approche ne sera pas exploitée. De même, certains modèles récents tentent d'intégrer plus de réalisme dans la perception qu'ont les individus de leur environnement topographique (topographic prominence) (Llobera, 2001). Ces modèles sont encore vagues, et il reste encore à montrer leurs pertinences et comment les utiliser de manière concrète dans un cadre de modélisation.

      La Figure 3.15. résume les différentes étapes d'obtention des divers fichiers liés au relief. C'est le logiciel ARCVIEW qui a été l'outil principal d'analyse, et un script (indiqué en italique dans la Figure) a été implémenté.

      

Fig. 3.15. : Diagramme présentant les étapes pour l'obtention des cartes d'altitude et de rugosité basées sur le relief


3.5. Hydrographie


3.5.1. Données de base

      Un plan d'information hydrographique représente les fleuves et les rivières, et généralement les contours des lacs. Le caractère linéaire de ces éléments paysagers a pour conséquence une structure des données souvent vectorielle (lignes). Les tronçons de rivières sont alors déterminés en fonction de la résolution voulue et des caractéristiques hydrologiques locales. La catégorisation de ces tronçons par le débit est souvent utilisée, ce qui permet d'opérer, d'une part, une sélection sur la base de l'importance hydrologique d'un jeu de rivières et, d'autre part, d'attribuer aux tronçons des caractéristiques particulières (comme par exemple des capacités de soutien lorsque l'on travaille avec des espèces aquatiques).

      Les données hydrographiques utilisées dans ce travail proviennent de la base de données ArcWorld (ESRI, 1992) qui propose un grand nombre de couches d'information vectorielles globales sur l'environnement actuel. Une grande majorité des données, dont les données hydrographiques, sont disponibles aux échelles 1:3M ou 1:25M. Le détail et le nombre de segments de fleuves et rivières varient grandement entre ces deux échelles, comme le montre la Figure 3.16. Il est évident sur cette Figure que les données au 1:3M 'saturent' le paysage à cette échelle. Cette saturation est encore plus évidente lorsque ces données sont transformées au format raster, pour lequel chaque cellule contenant un tronçon de rivière se voit attribuer une identité de fleuve.

      Nous avons pris l'option dans ce travail de ne considérer que les grands fleuves, comme définis dans le fichier au 1:25M. A l'échelle de ce travail, nous faisons en effet l'hypothèse que ce sont les grands fleuves qui ont eu un impact majeur sur les migrations humaines. Cette hypothèse nous semble réaliste, même si nous sommes conscients que des éléments hydrographiques plus petits, en certaines localisations et à certaines époques, ont pu affecter de manière significative le dynamisme démographique des populations.

      En début de projet, nous avions considéré la possibilité de prendre en compte de l'information paléohydrologique dans nos modules de dynamisme environnemental sous la forme de séries temporelles des emplacements des paléo-fleuves. Après une revue de plusieurs sources de données sur Internet et de contacts avec divers groupes de recherche, nous nous sommes rendu compte qu'il était encore bien trop tôt pour espérer une telle compilation de données. Le groupe GLOCOPH 22  (GLObal COntinental PalaeoHydrology), qui est une commission de l'INQUA (International Union for Quaternary Research), met en relation depuis plusieurs années les chercheurs dans ces domaines en créant des synergies de recherche. Cette commission vise à étudier la paléohydrologie globale durant les 20'000 dernières années, et notamment à reconstruire les tendances et les séquences de l'écoulement d'un grand nombre de fleuves sélectionnés dans chaque région climatique. Il n'y a actuellement pas d'informations globales numériques disponibles via cette commission, mais nous pouvons espérer que dans un futur proche des données paléohydrologiques directement utilisables au sein d'un SIG seront disponibles.

      La dynamique hydrographique n'a donc pas été prise en compte dans le présent travail. Il est cependant certain que des grands changements hydrographiques se sont produits pendant la fin du Pléistocène supérieur et pendant l'Holocène, notamment dans les plaines alluviales, plus sujettes à une hypsométrie et une hydrologie fluctuante dues aux dépôts sédimentaires. Nous pouvons citer par exemple le parcours terminal du fleuve Jaune en Chine qui a fluctué brusquement, et à plusieurs reprises, au cours des quatre derniers millénaires pour suivre des écoulements séparés parfois de 500 km (Collcutt et al., 1989). Un autre exemple de changement drastique d'hydrographie nous est donné par le cours du fleuve Niger en Afrique de l'ouest. Pendant les 20'000 dernières années, ce fleuve a en effet subi des grandes modifications qui ont tantôt étendu considérablement son bassin lors des périodes pluvieuses, tantôt démantelé son réseau en plusieurs tronçons indépendants (Rognon, 1993).

      Les changements du niveau de la mer au cours des 120'000 dernières années ont également perturbé grand nombre de réseaux hydrographiques se situant près des contours côtiers actuels. La région la plus affectée par ces changement est sans aucun doute le plateau sud-est asiatique qui était complètement émergé lors du dernier maximum glaciaire. Dans une étude de reconstruction du réseau hydrographique de cette région, Voris (2000) a utilisé un fichier bathymétrique et des estimations du niveau relatif de la mer à plusieurs périodes pour générer un ensemble de cartes des paléo-fleuves supposés. Ces informations pourraient être très utiles dans un exercice de simulation de dispersion dans cette région particulière, mais elles n'ont pas été utilisées dans ce travail 23 .

      

Fig. 3.16. : Bases de données hydrographiques vectorielles sur l'Ancien Monde, dérivées de ArcWorld aux échelles 1:3M (A) et 1:25M (B) - Projection de Hammer (méridien standard: 80°E)


3.5.2. Capacité de soutien hydrographique

      Pour exploiter les ressources aquatiques ripariennes (liées aux fleuves et rivières), les humains doivent se trouver le long des écotones aquatico-terrestres. Cette contrainte résulte souvent en une distribution linéaire des groupes qui exploitent les ressources aquatiques (2001, p. 167). Il est assez intuitif de penser que ces écotones aquatiques permettent une abondance de ressources supérieures aux milieux terrestres environnants, et que la capacité de soutien de ces milieux est donc relativement élevée. Néanmoins, comme le relève Binford (2001, p. 167), il n'est pas possible de dériver des estimations de quantités de ressource disponible à partir de données sur la production des fleuves et rivières. Ces données sont en effets très éparses, et il n'existe actuellement aucune méthode robuste qui puisse être utilisée pour les traiter.

      Pour les modèles de dispersion dynamique utilisés dans ce travail (chapitre 4), les capacités de soutien des écotones fluviatiles (ou capacité de soutien des fleuves) ont été augmentées de manière relative par rapport à la capacité de soutien de la végétation environnante. L'argument sous-tendant cette approche est l'observation que la production et la distribution de biomasse dans les zones ripariennes sont liées à la bioénergie des habitats terrestres environnants, tout en étant reliés aux mêmes variables principales régulant la production terrestre, et qui sont les précipitations et la quantité d'irradiation solaire (Binford, 2001, p. 167). Certaines exceptions à cette règle sont néanmoins à noter, comme par exemple des fleuves tels que le Nil, le Rio Grande, ou le Colorado qui peuvent soutenir une biomasse et une productivité riparienne bien plus grande que ce qui aurait été permis par les seules précipitations aux alentours. Les eaux de ces fleuves sont appelées unearned water car elles ne proviennent pas des précipitations de la région. Pour ces fleuves particuliers, il faudrait donc idéalement leur attribuer une capacité de soutien très élevée et indépendante de la faible capacité de soutien des milieux arides qui les entourent.

      En terme de la valeur à donner au facteur multiplicatif qui permet d'augmenter la capacité de soutien pour les fleuves, nous devons nous rendre à l'évidence que la littérature nous apporte peu de renseignement. Il est parfois fait mention d'une capacité de soutien plus haute pour ces types d'environnement (voir par ex. Birdsell, 1968; Meltzer, 1999), mais des chiffres sont rarement avancés.

      C'est de nouveau les données de Binford (2001, pp. 214-215) qui peuvent nous éclairer quelque peu. Cet auteur a en effet résumé ses données de densités moyennes de populations par type de ressource exploitée. Si nous examinons ces données en ne prenant en compte que des ethnies de chasseurs-cueilleurs contemporaines avec un degré de mobilité élevé 24  et une subsistance uniquement de chasse et de cueillette 25 , nous pouvons observer que la moyenne des densités de population pour les groupes côtiers et riverains (ayant une subsistance provenant des ressources aquatiques) est de deux à cinq fois plus élevée que pour les groupes ayant une subsistance provenant de plantes ou d'animaux terrestres. Lorsque ces données sont de plus stratifiées par type de climat, la même tendance est retrouvée pour chaque type de climat, avec une densité de population qui augmente en se rapprochant de l'équateur. Ces informations peuvent donc justifier d'attribuer une densité, et donc une capacité de soutien, relativement plus élevée dans les régions côtières et aux alentours des fleuves. Notons toutefois que ces résultats restent des tendances, car les écart-types des valeurs moyennes sont grands et les données pour certaines régions ne portent que sur quelques populations. Pour Binford, les ressources aquatiques comprennent aussi bien les ressources marines et lacustres que ripariennes. Nous ne pouvons donc pas faire de distinctions entre ces trois types.

      En résumé, nous avons adopté dans ce travail la position, qui nous semble réaliste, consistant à postuler une capacité de soutien plus grande pour les milieux avoisinants les fleuves. Comme l'échelle de travail est continentale, voir globale, et que la résolution de nos cartes rasterisées a été au minimum de 10 kilomètres (soit une largeur bien plus grande que celle de la majorité des tronçons de fleuve), nous avons dû attribuer une capacité de soutien plus élevée sur un minimum de 10 km. Un facteur multiplicatif a été utilisé pour les cellules fleuves. Ce facteur sert à multiplier la capacité de soutien locale des cellules fleuves (inférée de la végétation). Nous avons typiquement utilisé un facteur de 2.


3.5.3. Friction hydrographique

      Les fleuves peuvent être considérés, de manière réaliste, comme des éléments du paysage qui facilitent la dispersion. Nous l'avons vu, la capacité de soutien de ces environnements peut être considérée comme plus élevée, et des fleuves peuvent donc constituer des corridors de dispersion préférentiels pour des migrants qui suivraient un gradient de ressources abondantes. Les aspects liés aux transports fluviaux peuvent également être facilement invoqués, même si nous n'allons pas du tout entrer, dans ce travail, dans la perspective de prendre en considération les apparitions technologiques de certaines époques (comme le transport fluvial et maritime) qui auraient permis des mouvements facilités le long des fleuves (et également les long des côtes). S'il est possible que certains fleuves très larges, à certaines époques, aient constitués des barrières à la migration, nous pouvons penser qu'une migration préférentielle s'est établie le long de leurs bords (grâce notamment aux ressources plus abondantes), leur conférant ainsi le statut de corridor de dispersion.

      Une étude récente sur la Vallée du Nil a tenté d'estimer si cette vallée pouvait être considérée comme un corridor génétique ou plutôt comme une barrière à la migration. Des données mitochondriales sur 224 individus échantillonnés le long du Nil ont été analysées (Krings et al., 1999). Les résultats suggèrent que des migrations soutenues se sont passées dans les deux directions sud-nord et nord-sud, sans barrières apparentes. Les auteurs ont succombé à la tentation de relier ces migrations à des événements relativement récents (entre -700 et -1'800) d'expansions liés à certaines dynasties égyptiennes. Malgré le réalisme que pourrait apporter la prise en compte de ces événements historiques, ils ne sont pas pertinents à l'échelle temporelle de ce travail, et ne sont donc pas utilisables pour les estimations de friction à donner aux fleuves.

      En ce qui concerne le rôle de la vallée du Nil comme corridor potentiel pour la sortie d'Afrique des premières populations d'Hommes modernes selon le scénario Out of Africa (voir chapitre 2.2.1), l'archéologie ne peut pas encore nous renseigner avec certitude. Même si certaines apparitions de complexes archéologiques dans cette vallée, comme le complexe Nubien apparu il y a environ 40'000 ans (Van Peer (1998), et commentaire de Kleindienst (2000)), pourrait correspondre à un événement majeur de migration, il subsiste de nombreux problèmes méthodologiques d'étude du matériel archéologique de cette région, et il est encore trop tôt, selon Vermeersch (2001), pour affirmer avec certitude que le Nil ait été un 'corridor de sortie d'Afrique'.

      Parmi d'autres éléments intéressants, nous pouvons citer les recherches linguistiques de Mougiana-Daouda (1995), qui ont montré l'importance des voies fluviales dans la dispersion Bantou en Afrique grâce à la corrélation entre les noms attribués aux poissons d'eau douce dans différentes langues Bantous, ce qui n'a pas été observé avec les noms des poissons d'eau de mer.

      Au vu du peu de données disponibles, nous ne pouvons à nouveau qu'attribuer des valeurs de friction relatives et arbitraires. L'ordre de grandeur de cette friction des fleuves n'est pas facile à établir. Nous avons typiquement utilisé un facteur multiplicatif de 0.5 dans les simulations du chapitre 4. Ce facteur est multiplié par la friction des cellules fleuves, inférées de la végétation, ce qui permet à celles-ci d'avoir une friction deux fois plus petite que les cellules non-fleuves avoisinantes.


3.6. Environnement côtier


3.6.1. Données de base

      L'environnement côtier représente les emplacements qui sont adjacents aux mers et aux océans. Les côtes sont donc à considérer comme des éléments linéaires qui sont naturellement mieux représentés au format vectoriel.

      Le fichier public mondial côtier le plus précis est très certainement le fichier GSHHS (Global Self-consistent, Hierarchical, High-resolution Shoreline, (Wessel et Smith, 1996)) développé par la NOAA et disponible sur leur site Internet 26 . Quatre 'résolutions' sont disponibles, à savoir 0.2, 1, 5, 25 km. Ces résolutions sont en fait des tolérances qui indiquent les imprécisions locales maximums par rapport aux vrais contours côtiers. La NOAA a également mis à disposition récemment un extracteur de côtes (Coastline Extractor 27 ) qui permet de définir précisément une zone d'intérêt par ses coordonnées géographiques et de rapatrier uniquement les données de cette zone. Pour éviter les redondances de plans d'information et permettre de produire des figures les plus correctes possibles, nous avons utilisé le fichier le plus précis (résolution de 0.2 kilomètre).

      Le fichier vectoriel des côtes a été utilisé de deux manières dans ce travail. La première est son utilisation pour générer des figures et des cartes, notamment lorsqu'il s'agissait de montrer des variations des terres émergées dues à l'abaissement du niveau des océans (voir Figure 3.18 ci-dessous). La deuxième a permis d'avoir une carte de fond afin de cartographier de manière correcte les diverses cartes de végétation présentées au chapitre 3.3.

      Pour les données rasterisées nécessaires à nos modèles, les éléments côtiers ont été directement dérivés de l'étendue des continents comme définis dans les cartes de base de la végétation ou du relief. Pour cela, nous avons trouvé une méthode qui consiste à utiliser conjointement les outils Expand, Merge et Reclass de ARCVIEW. Il s'agit d'augmenter l'étendue du grid continental d'entrée de une cellule dans toutes les directions (Expand), de le classifier avec une valeur 0 (Reclass), et de fusionner le grid original avec ce dernier grid modifié (Merge). Cette méthode peut être formalisée en pseudo-langage Avenue (en omettant les paramètres sans intérêt ici) comme

      

      où la variable aUniformGrid représente un grid de l'étendue continentale codé uniformément à la valeur 1. Le grid de résultat Out sera alors composé de valeurs 0 pour les cellules côtières, et de valeurs 1 pour les autres (les cellules de mers n'étant pas considérées). Cette technique présente le désavantage d'augmenter d'une cellule l'étendue terrestre des continents. Dans notre cas, nous considérons néanmoins cela comme négligeable à cause de l'imprécision du contour côtier dans les plans d'information à l'échelle utilisée. Comme nous le verrons plus loin, nous avons également développé, pour nos modèles dynamiques, des outils permettant la localisation automatique des éléments côtiers.

      Le niveau des océans a considérablement varié pendant les derniers 120'000 ans. La contribution dominante à ces changements est l'échange périodique de masse entre les calottes glaciaires et les océans. Les maximums glaciaires sont alors les périodes où le niveau des océans est au plus bas (Yokoyama et al., 2000), alors que ce niveau est au plus haut pendant les périodes interglaciaires. Des modifications régionales et locales viennent de plus modifier la signature des échanges de masses, notamment par variations tectoniques de soulèvements ou d'abaissement des zones côtières (Lambeck et Chappell, 2001). La Figure 3.17 montre une courbe de variations du niveau relatif de la mer au cours des derniers 120'000 ans, tirée de Lambeck et Chappell (2001). Ces données proviennent d'études de l'âge et de la hauteur des terrasses coralliennes de la Péninsule d'Huon en Papouasie Nouvelle-Guinée. Les estimations aux alentours du dernier maximum glaciaire (trait tillés, 16'000-20'000 BP) manquent pour la Péninsule d'Huon, et se sont des données provenant du nord de l'Australie qui sont utilisées (Yokoyama et al., 2000). Les données les plus récentes (antérieures à 16'000 BP) sont quant à elles dérivées de l'étude des coraux fossiles de la Péninsule d'Huon.

      

Fig. 3.17. : Variation du niveau de la mer à la Péninsule d'Huon, en Papouasie Nouvelle-Guinée, relatif au niveau contemporain

      La courbe en gras indique le niveau moyen, et les courbes en pointillé indiquent les limites supérieures et inférieures des mesures. Les pointillés gras indiquent des données provenant du nord de l'Australie. Les données proviennent de Lambeck et Chappell (2001), et ont été obtenues via les auteurs.

      Si les contours côtiers actuels sont extrêmement bien définis et disponibles sous forme de fichiers SIG, il n'en est pas de même pour les contours côtiers passés. Plusieurs groupes de travail englobant un grand nombre de groupes de recherche sont actuellement à l'oeuvre pour cartographier de manière fine ces contours côtiers passés, en prenant en compte un maximum de contraintes géologiques. Nous pouvons citer notamment le projet 464 (période 2001-2005) de l'IGCP (International Geological Correlation Project) qui se nomme "Continental shelves during last glacial cycle. Knowledge and applications" 28 , et qui a pour but d'étudier de manière pluridisciplinaire l'évolution des milieux côtiers et l'impact de leurs changements sur les populations humaines paléolithiques.

      Sans fichier vectoriel passé, il est néanmoins possible d'estimer l'étendue des terres émergées pour une période donnée. Cela peut se faire en utilisant conjointement un fichier bathymétrique (relief des fonds marins) comme ETOPO2 et une estimation des variations du niveau de la mer (Le niveau des océans a considérablement varié pendant les derniers 120'000 ans. La contribution dominante à ces changements est l'échange périodique de masse entre les calottes glaciaires et les océans. Les maximums glaciaires sont alors les périodes où le niveau des océans est au plus bas (Yokoyama et al., 2000), alors que ce niveau est au plus haut pendant les périodes interglaciaires. Des modifications régionales et locales viennent de plus modifier la signature des échanges de masses, notamment par variations tectoniques de soulèvements ou d'abaissement des zones côtières (Lambeck et Chappell, 2001). La Figure 3.17 montre une courbe de variations du niveau relatif de la mer au cours des derniers 120'000 ans, tirée de Lambeck et Chappell (2001). Ces données proviennent d'études de l'âge et de la hauteur des terrasses coralliennes de la Péninsule d'Huon en Papouasie Nouvelle-Guinée. Les estimations aux alentours du dernier maximum glaciaire (trait tillés, 16'000-20'000 BP) manquent pour la Péninsule d'Huon, et se sont des données provenant du nord de l'Australie qui sont utilisées (Yokoyama et al., 2000). Les données les plus récentes (antérieures à 16'000 BP) sont quant à elles dérivées de l'étude des coraux fossiles de la Péninsule d'Huon. Figure 3.17) Cette démarche est naturellement faite dans un SIG, où la sélection d'un niveau négatif arbitraire permet de modéliser les terres émergées. Cette technique a été utilisée par plusieurs auteurs (voir par ex. Voris, 2000; Lambeck et Chappell, 2001; Manley, 2002; Coupé et Hombert, in press), et nous l'avons également appliquée dans ce travail. La Figure 3.18 montre l'étendue des terres émergées sur l'Ancien Monde, pour trois niveaux relatifs des mers, calculée sur la base du fichier ETOPO2 et des données de la Figure 3.17.

      

Fig. 3.18. : Étendues des terres émergées pour différents niveaux de la mer, dérivées de ETOPO2

      Les flèches pleines indiquent des ponts terrestres au niveau le plus bas (-120m), et les flèches en pointillé indiquent une absence de pont.

      La Figure 3.18 présente également les principaux ponts terrestres lors du niveau des mers le plus bas (-120 m), ainsi que les endroits où subsistent, au niveau le plus bas, une étendue de mer d'au moins 10 kilomètres. Il est important de mentionner que les erreurs verticales sur les données bathymétriques sont plus importantes le long des côtes (Sandwell, comm. pers.), localisations qui justement sont utilisées majoritairement pour la construction des contours passés et des ponts de terre (ou de leur absence). Néanmoins, à l'échelle de ce travail, nous ne sommes intéressés qu'aux aspects qualitatifs des changements des surfaces émergées, et nous considérons que ces changements sont bien approximés avec ces données.


3.6.2. Capacité de soutien côtière

      Comme nous l'avons vu dans le chapitre 3.5.2, l'utilisation des ressources aquatiques mène apparemment à des densités de populations relativement plus grandes que l'utilisation des ressources terrestres (Binford, 2001, pp. 214-215). Les ressources aquatiques des milieux côtiers sont nombreuses, et un grand nombre d'études archéologiques attestent leur exploitation abondante pendant le Pléistocène supérieure et l'Holocène (pour une revue de ces études, voir Mannino et Thomas, 2002). Ce sont particulièrement les coquillages qui semblent avoir été abondamment utilisés, plus que les poissons et les oiseaux (Klein et Cruz-Uribe, 1996).

      Nous pouvons légitimement nous poser la question de savoir si ces milieux étaient également favorables lors des périodes glaciaires. Dans un récent article, Faure et al. (2002) proposent un modèle hydrogéologique dérivé de leur étude sur la différence de niveau entre les nappes phréatiques d'eau douce et celle des mers pendant le Pléistocène. Selon ce modèle, les régions émergées ont été, d'une manière générale abondement recouvertes de sources et de rivières d'eau douce, même dans les régions hyperarides bordant les déserts. Cet 'oasis côtier', comme les auteurs l'appellent, aurait permis de soutenir une grande biomasse avec de nombreuses espèces animales et végétales, et aurait pu permettre la survie des populations humaines pendant les périodes arides, tout en favorisant leur dispersion le long de ces corridors environnementaux favorables.

      Nous pouvons donc raisonnablement admettre que la capacité de soutien des milieux côtiers a été, tout au long de la période qui nous intéresse, généralement plus élevée que les environnements non-côtiers. Dans les modèles de migration de l'approche dynamique du chapitre 4, l'augmentation de la capacité de soutien des côtes a été traitée de manière similaire à ce qui a été fait pour les fleuves: un facteur multiplicatif permet d'augmenter la capacité de soutien, dérivée auparavant de la végétation des côtes. Nous avons typiquement donné à ce facteur une valeur de deux.


3.6.3. Friction côtière

      La facilité de se mouvoir le long des côtes est principalement due à la particularité spatiale de ces environnements. Dans la définition même d'une côte est compris le fait qu'elle est bordée par un environnement infranchissable (dans ce travail) constitué des mers et des océans. Cet 'effet de bord' a pour conséquence une dispersion facilitée et plus rapide, ce qui peut être traduit par une friction plus basse.

      L'autre argument pour considérer ces environnements comme des corridors est basé sur les ressources propres aux milieux côtiers. Du fait de leurs structures spatiales allongées, les environnements côtiers sont adjacents à d'autres environnements côtiers très similaires. Les individus peuvent donc se mouvoir entre ceux-ci et les exploiter sans que cela ne requière forcément de nouvelles technologies ou de nouvelles adaptations socia les (Mannino et Thomas, 2002). Combinées avec une tendance à surexploiter des ressources facilement disponibles et la possibilité de se déplacer facilement, des spécialisations sur des ressources aquatiques prédictibles auraient pu mener à une diffusion rapide de la population le long de ces environnements.

      Les arguments d'une friction basse combinée à une capacité de soutien potentiellement élevée sont à la base des modèles stipulant une dispersion initiale globale côtière par les premiers Hommes modernes, que ce soit la dispersion entre l'Afrique et l'Australie (Stringer, 2000) ou la dispersion initiale en Amérique du nord (Mandryk et al., 2001). Ces modèles peuvent parfois s'appuyer sur des vestiges archéologiques d'Hommes modernes retrouvés dans un environnement côtier (voir par ex. Walter et al., 2000), et sont alors utilisés pour inférer une route supposée de migration, mais cela ne reste que pure spéculation avec si peu de matériel. Il est en effet extrêmement difficile de trouver des vestiges préservés pouvant être attribués aux milieux côtiers de l'époque, car ceux-ci sont maintenant sous plusieurs dizaines de mètres d'eau.

      De manière similaire à la friction des fleuves, nous avons donc considéré une friction plus basse pour les milieux côtiers dans les modèles de ce travail. Un facteur multiplicatif (typiquement 0.5) permet de diminuer la friction des côtes par rapport aux cellules avoisinantes non-côtes.


3.7. Conclusion

      Avant de pouvoir éventuellement prendre en compte les fluctuations environnementales dans des modèles d'expansions, et donc de modéliser une hétérogénéité temporelle (voir chapitre 4.5.2.), il était nécessaire de comprendre et de caractériser l'hétérogénéité spatiale des variables environnementales susceptibles d'agir sur la démographie des populations humaines. Le choix des quatre variables environnementales considérées (végétation, relief, hydrographie, et environnement côtier) nous semble pertinent, puisque ces variables peuvent être assez intuitivement traduites en friction et en capacité de soutien (sauf pour le relief), et qu'elles ont joué un rôle certain dans le dynamisme démographique humain. Nous nous sommes par contre rendu compte que les valeurs à donner aux capacités de soutien, et surtout aux frictions, ne sont pas toujours justifiables par des données empiriques, et que nous devrons parfois leur attribuer des valeurs assez arbitraires.

      Les données environnementales brutes rassemblées dans ce travail, ainsi que les nombreux plans d'informations SIG dérivés, constituent une base de données environnementales qui nous a paru suffisante pour explorer les impacts de scénarios alternatifs de friction et de capacité de soutien dans nos modèles. Cette base de données devra néanmoins être continuellement enrichie à travers des projets complémentaires au nôtre (par ex. Currat, in prep; Neuenschwander, in prep). Les outils SIG se démocratisant dans nos laboratoires et les bases de données se centralisant sur des serveurs permettront sans nul doute de partager de manière très efficace l'information environnementale qui a été générée suite à ce travail.

      Ce chapitre sur les données environnementales a également permis d'introduire la notion de friction, qui est définie comme la difficulté de se mouvoir (pour les individus, et donc pour les gènes) dans un environnement donné. Comme le choix des valeurs de friction à attribuer à chaque variable environnementale n'est pas trivial, plusieurs scénarios de friction peuvent être légitimement avancés. Le chapitre suivant présente une première approche visant à quantifier l'influence de différentes variables environnementales sur le degré de différenciation génétique des populations.


4. Simulations dynamiques de la démographie historique et de la variabilité génétique des populations humaines


4.1. Introduction

      Les différents modèles d'évolution humaine existants se basent, nous l'avons vu, sur des données provenant de plusieurs disciplines, qu'elles soient archéologiques, environnementales ou génétiques. Néanmoins, la complexité des événements démographiques ayant mené à la différenciation génétique présente ne nous permet pas, actuellement, de retracer de manière adéquate les chemins de migration empruntés par les populations humaines lors de la colonisation de tous les continents (Goldstein et Chikhi, 2002). En effet, les nombreuses fluctuations de l'environnement, les multiples routes possibles de dispersion, ainsi que les effets du hasard ont conduit à des fluctuations démographiques qu'il est impossible de simuler en détail.

      Une approche possible pour comparer et tester divers scénarios d'évolution humaine peut être envisagée au travers de simulations démographiques couplées à des simulations génétiques. Ces simulations tentent typiquement de modéliser un processus démographique simple, dont les résultats permettent d'obtenir une diversité génétique simulée qui peut être comparée à la diversité observée. Ce genre de simulation a déjà été utilisé à quelques reprises (Rendine et al., 1986; Barbujani et al., 1995), mais à des échelles temporelles et spatiales restreintes. De plus, l'hétérogénéité de l'environnement y est incorporée de manière très simple et non dynamique au cours du temps. Les données génétiques simulées dans ces applications sont des fréquences alléliques et elles ne prennent donc pas en compte la diversité moléculaire.

      La théorie de la coalescence (Kingman, 1982a), associée à une puissance de calcul accrue, nous permet aujourd'hui d'envisager de développer un outil de simulation plus puissant et plus souple que les précédents. Cet outil de simulation doit pouvoir, tout d'abord, prendre en compte l'hétérogénéité spatiale et temporelle de l'environnement, en permettant de simuler la démographie d'une ou plusieurs populations sous divers modèles démographiques. Cet outil peut, ensuite, utiliser la théorie de la coalescence pour générer une généalogie de plusieurs échantillons de gènes, et permettre de simuler leur diversité moléculaire qui peut alors être analysée avec les outils de la statistique génétique. Cette simulation conjointe de la démographie des populations et de la généalogie des gènes est dynamique, puisqu'elle repose sur une simulation de populations dont les propriétés peuvent se modifier au cours du temps.

      L'implémentation de cet environnement de simulation a été réalisée dans le cadre ce cette thèse sous la forme du programme FRICTION. Lors du développement des divers éléments (démographiques, environnementaux et génétiques) qui composent cet outil, nous avons été confrontés à un souci de réalisme, mais également aux contraintes de la complexité des modèles, du temps d'exécution d'une simulation et de la place en mémoire nécessaire pour contenir les résultats d'une simulation. Il nous a fallu rester dans un cadre théorique relativement simple, de façon à ce que les aspects mathématiques et statistiques de nos modèles puissent être bien compris et que le nombre de paramètres utilisés ne soit pas trop élevé. Ces simplifications reposent sur un certain nombre d'hypothèses que nous mettrons en évidence au cours de ce chapitre.

      Nous avons décidé de présenter trois applications qui permettent de répondre à des questions distinctes, pour étudier différents phénomènes liés à l'évolution humaine. La première application se situe dans un cadre plus théorique, en permettant de simuler la démographie dans un monde très simplifié et d'étudier de manière fine la diversité génétique obtenue sous différentes valeurs des paramètres démographiques. Cette application est présentée dans le chapitre 0 sous forme d'un article publié. La deuxième application est uniquement basée sur la démographie, afin de déterminer les paramètres importants pour la variabilité de certaines réponses du modèle. Cette 'analyse de sensibilité' est présentée dans le chapitre 4.7. Dans la troisième et dernière application (chapitre 4.7), nous nous sommes intéressés à mettre en évidence les différences de diversité moléculaire selon différents scénarios démographiques et environnementaux. Pour ce faire, une méthodologie de calcul de corrélations a été développée.

      Lors du développement de FRICTION, nous avons également pris en considération les aspects didactiques et visuels. Le fait de mettre à disposition un outil qui permette une représentation graphique d'un événement spatialement et temporellement dynamique permet sans aucun doute d'améliorer la représentation théorique que l'on se fait de cet événement. L'aspect visuel est également important pour vérifier le bon comportement des modèles implémentés, ainsi que pour déceler des comportements atypiques, ou des 'bugs', qui sont ainsi identifiés et maîtrisés de manière bien plus efficace qu'avec des sorties uniquement numériques du même modèle. Les possibilités graphiques du programme FRICTION ont donc été développées dans ce sens et nous en présenterons quelques aspects au cours des discussions qui vont suivre.

      Avant de parler des applications des outils développés, nous allons commencer par discuter des modèles décrivant l'évolution démographique des populations. Nous poursuivrons en donnant un aperçu du programme FRICTION et en présentant ses modules principaux. Pour des raisons évidentes de place, nous n'allons pas détailler complètement le programme et ses fonctions. Le lecteur désireux d'avoir une vision complète de l'implémentation de FRICTION se reportera au manuel d'utilisation du programme (FRICTION, 2003).


4.2. Modèles décrivant l'évolution démographique des populations


4.2.1. Introduction

      La taille d'une population ne peut changer que par quatre événements: naissance, mort, immigration et émigration des individus. Les deux premiers sont des événements intrinsèques à toutes les populations, alors que les deux derniers sont des réponses comportementales nécessitant des mouvements en provenance ou en direction de localisations spatiales distinctes.

      Modéliser ces événements de base est donc essentiel pour arriver à un comportement populationnel réaliste. Il importe, dans un premier temps, de pouvoir décrire mathématiquement les comportements souhaités, à l'aide d'un ensemble de paramètres qui aient du sens par rapport à l'espèce étudiée. Dans un deuxième temps, le choix de l'intervalle des valeurs possibles pour chaque paramètre va permettre de fixer les limites 'comportementales' de nos modèles mathématiques.

      L'utilisation d'un modèle implique de bien comprendre son comportement. Ceci n'est pas toujours évident car avec un modèle complexe, dont certaines composantes sont non-linéaires (par exemple la croissance logistique), des oscillations peuvent être engendrées pour certaines valeurs des paramètres d'entrée. Il a même été montré qu'un simple système proie-prédateur en une dimension peut facilement engendrer des comportements chaotiques, à cause des relations entre la diffusion spatiale des individus et leur démographie (Petrovskii et Malchow, 2001). En utilisant un système plus complexe en deux dimensions, comme c'est le cas de FRICTION, de telles réponses chaotiques sont encore plus probables.

      Nous allons présenter dans ce chapitre les modèles que nous avons développés et utilisés lors de nos diverses simulations. Le but était de pouvoir simuler un processus de colonisation simple, menant une ou plusieurs populations isolées à subir une croissance démographique et à envoyer des migrants dans des sous-populations voisines. Dans notre contexte de simulation, les sous-populations sont des dèmes (Gilmour et Gregor, 1939). Un dème est défini comme une petite sous-population homogène dans laquelle le choix des partenaires se fait de manière aléatoire. Les dèmes sont donc les entités de base découlant du processus de discrétisation d'une surface.

      Le processus de colonisation simple aboutit à une vague de progression (wave of advance) typique de ce genre de modèle (Eswaran, 2002). Il est important de noter que le modèle de croissance-dispersion implémenté traduit la somme de comportements individuels plus ou moins aléatoires en un comportement moyen. Le processus démographique est donc local, et nous n'avons pas implémenté de mécanismes permettant de choisir des routes de migrations préférentielles à l'échelle continentale. Nous faisons donc l'hypothèse que la dynamique principale de l'expansion des Hommes modernes procède d'un processus de diffusion, ce qui a été généralement considéré comme étant réaliste lors d'applications similaires (Young et Bettinger, 1995; Eswaran, 2002; Antinucci et al., draft).


4.2.2. Croissance logistique des dèmes

      Une croissance de population exponentielle, sans compétition intraspécifique, suit la relation

      
(4.1)

      où est le taux de croissance net (). Pour une population humaine, cette relation peut être envisagée lorsque l'effectif est faible par rapport aux ressources. Lorsque l'effectif augmente, la compétition intraspécifique pour l'accès aux ressources prend de l'importance. En faisant alors l'hypothèse que la croissance est linéairement dépendante de la densité de population, le taux de croissance constant de l'équation (4.1) peut être modifié comme suit (Begon et al., 1996, p. 238):

      
(4.2)

      où est la capacité de soutien. En simplifiant l'expression par , nous obtenons

      
(4.3)

       est donc une combinaison de et , et peut être perçu comme la résistance à la surpopulation : plus est grand, plus l'effet de la densité sur le taux de croissance est grand. Une modification de l'équation (4.3), suggérée originellement par Maynard Smith et Slatkin (1973), et discutée en détail par Bellows (1981), donne

      
(4.4)

      Le terme b détermine ici le type de densité-dépendance du système. Ce terme peut être utilisé pour modéliser une compétition de type contest (b 1, des interactions sociales permettent de répartir les ressources) ou une compétition de type scramble (b 1, utilisation d'un maximum de ressources par chaque individu, sans interactions sociales (van der Dennen et Falger, 1990)). Notons que lorsque est nul, il y a indépendance envers la densité, et nous retrouvons la croissance exponentielle de l'équation(4.1).

      L'équation (4.2) définit le modèle de croissance logistique. C'est une bonne approximation pour décrire les changements démographiques intrinsèques d'une population. La croissance logistique est en fait un cas particulier d'équations génériques de croissance (Richards, 1959; Tsoularis et Wallace, 2002). Il est également possible de décrire cette croissance en utilisant un taux intrinsèque de croissance (), qui est relié au temps de croissance net par . L'accroissement de population s'écrit alors

      
(4.5)

      L'équation logistique génère typiquement une courbe sigmoïde, avec une croissance exponentielle initiale et un ralentissement lorsque l'on se rapproche des limites de disponibilité des ressources (Figure 4.1).

      

Fig. 4.1. : Exemple de courbes logistiques pour différentes valeurs de K et de r

      Le point A est le point d'inflexion de la courbe.

      Il y a deux points particuliers dans la fonction de croissance logistique (Figure 4.1). Le premier point (K) correspond à un équilibre asymptotique stable où la taille de population est égale à la capacité de soutien. L'accroissement de la population au cours du temps est alors nul. Lorsque la densité est supérieure à K, le taux de mortalité est supérieur au taux de natalité et la population diminue jusqu'à K. Le deuxième point (A) correspond au point d'inflexion, lorsque le taux de croissance passe d'un accroissement monotone à un décroissement monotone. Ce point se produit à la moitié de la capacité de soutien (pour une fonction logistique standard).

      La croissance logistique est une relation continue et elle doit donc être discrétisée pour aboutir à des nombres entiers d'individus, ce qui est requis pour les modèles génétiques basés sur la coalescence. Pour répondre à cette contrainte, nous avons implémenté une fonction d'arrondi des nombres qui est discutée dans l'Annexe 4.6.


4.2.3. Dispersion, colonisation et migration

      La plupart des études visant à modéliser une dispersion des individus (généralement sous la forme de l'invasion d'un territoire) utilise des modèles de diffusion simples (voir par ex. Kot et al., 1996; Williamson, 1996; Shigesada et Kawasaki, 1997; Sharov et Liebhold, 1998). Ces modèles ont également été appliqués aux populations de chasseurs-cueilleurs (Steele et al., 1995; Young et Bettinger, 1995; Aoki et al., 1996; Steele et al., 1998; Eswaran, 2002), avec comme hypothèse sous-jacente que les individus se déplacent de manière aléatoire, et selon laquelle la somme des mouvements aléatoires conduit à une vague de progression (wave of advance) de la population.

      Le modèle de diffusion simple le plus influent, dit classique, est celui de Fisher-Skellam (Fisher (1937) et Skellam (1951)) définissant la dispersion d'individus sous la forme d'une équation différentielle partielle, composée d'un terme de croissance de population et d'un terme de dispersion (ou diffusion). Ce modèle est disponible dans FRICTION et il est discuté en détail dans l'Annexe 5.

      Un des grands avantages de l'utilisation du modèle de diffusion classique, sur une surface discrétisée en une grille de dèmes, est que la dynamique de dispersion est indépendante de la taille des dèmes. Par contre, un désavantage majeur est que le taux de migration entre deux dèmes adjacents va diminuer avec le temps: plus un dème est 'rempli', moins il recevra de migrants de ses voisins et enverra de migrants vers ceux-ci. Cela aboutit à un taux de migration nul lorsque les dèmes atteignent leur capacité de soutien. Ce comportement n'est pas très important lorsque l'on est uniquement intéressé par la dynamique démographique d'une population. Pour les simulations génétiques basées sur la coalescence, ce comportement est cependant inacceptable, comme nous le verrons dans le chapitre 4.3.5. En effet, lorsqu'une région atteint sa capacité de soutien, il est primordial que des migrants puissent continuer à être échangés entre les dèmes. Si ce n'est pas le cas, les gènes ne vont pas pouvoir se disperser et coalescer entre eux. Cette contrainte nous a menés à considérer d'autres modèles plus souples dans leurs implémentations. Nous proposons deux modèles que nous discutons dans les chapitres qui suivent.


4.2.3.1. Modèle linéaire simple

      Une alternative simple au modèle de diffusion classique est un modèle qui considère un taux d'émigration constant, indépendant de la taille de la population, de sorte que

      
(4.6)

      où est le nombre total d'émigrants au temps , et est la taille de la population dans le dème focal au temps . Il s'ensuit qu'à l'équilibre, lorsque la capacité de soutien d'un dème est atteinte, migrants sont échangés entre le dème focal et ses voisins.

      Le nombre d'émigrants ainsi déterminé doit ensuite être réparti sur les quatre dèmes voisins. Par souci de réalisme, nous avons choisi de considérer cette répartition comme dépendante de la friction des dèmes voisins. Une possibilité est de choisir le ou les dèmes voisins avec la friction la plus basse, et d'y envoyer la totalité des émigrants. Ce comportement résulterait en l'exclusion totale des milieux moins favorables à la dispersion, et ne répondrait pas au concept de diffusion/colonisation fixé pour cette étude. Nous préférerons donc une approche probabiliste, consistant à déterminer une probabilité directionnelle de migration, notée , qui est la probabilité relative d'une émigration dans un dème voisin (l'indice variant de 1 à 4). Il y aura donc émigration préférentielle vers les milieux de basse friction, où le mouvement est facilité. Si nous considérons que cette émigration préférentielle est simplement proportionnelle à la friction, nous pouvons écrire

      
(4.7)

      où est la friction du dème voisin . étant une probabilité relative, il s'ensuit que

      
(4.8)

      L'équation (4.8) présente une façon d'obtenir les probabilités directionnelles de migration, mais bien d'autres modèles peuvent être envisagés. Il est par exemple possible de donner un plus grand poids à la différence relative entre les valeurs de friction, en écrivant

      
(4.9)

      Le Tableau 4.1 donne des exemples numériques permettant de distinguer les spécificités des équations (4.7) et (4.9).

      
Tabl. 4.1. : Exemples numériques des probabilités directionnelles de migration (Pdir) selon les deux modèles discutés
 
 
Modèle 0.3 0.27 0.27 0.16
Modèle 0.45 0.23 0.23 0.09

      Les frictions relatives des quatre dèmes voisins (Nord, Est, Sud, Ouest) sont indiquées en tête de colonne.

      Ces exemples numériques nous montrent qu'avec le premier modèle (équation (4.7)), les probabilités directionnelles de migration sont relativement moins différentes qu'avec le deuxième modèle (équation (4.9)). En comparant, par exemple, les dèmes du nord et de l'ouest, il y a un facteur de deux entre la probabilité de migration au nord () et la probabilité de migration à l'ouest (), alors que ce même facteur est de cinq pour le deuxième modèle. Pour ce deuxième modèle, le rapport entre deux probabilités directionnelles est égal au rapport entre les valeurs de frictions relatives correspondantes. Bien que le rapport des probabilités directionnelles soit sensiblement différent entre les deux modèles, les comportements de dispersion sont extrêmement semblables. Nous avons mis cela en évidence par une comparaison des deux modèles sous diverses configurations environnementales (résultats non montrés).

      Au vu des grandes échelles spatiales et temporelles de ce travail, il est très difficile de savoir quel modèle probabiliste de direction de migration est le plus réaliste. Le choix du modèle doit forcément se faire sur la base d'une hypothèse de comportement des populations de chasseurs-cueilleurs. Sous le premier modèle, nous faisons l'hypothèse que l'environnement joue un rôle pour la direction de migration, mais que les probabilités directionnelles de migration vers des dèmes de haute friction restent relativement élevées. Sous le deuxième modèle, l'hypothèse est que l'environnement a un très grand rôle dans le choix directionnel de migration, avec des probabilités directionnelles de migration pouvant facilement être dix fois plus élevées pour les dèmes ayant une très faible friction que pour les dèmes ayant une très forte friction. Pour le reste de ce travail, nous avons choisi d'utiliser le premier modèle (équation(4.7)).

      Le nombre directionnel d'émigrants dans le dème au temps , noté , peut donc s'écrire

      
(4.10)

      Notons que si la friction n'est pas considérée, ou que l'on se trouve en milieu de friction homogène, est égal à 0.25. Les taux de migration et les probabilités directionnelles de migration sont compris entre 0 et 1. Il s'ensuit que les ne vont généralement pas être des nombres entiers, et nous sommes de nouveau confrontés à la nécessité d'arrondir ces nombres. D'arrondir le nombre à l'entier le plus proche s'est avéré inadéquat. Il existe en effet des cas particuliers où cette technique engendre un nombre total d'émigrants qui est plus grand que le nombre de personnes dans le dème, ce qui peut perturber le processus de coalescence. Une manière simple d'y remédier est de toujours arrondir vers le bas, en tronquant la partie fractionnaire. Le problème, en milieu homogène, est que le nombre total d'émigrants sera alors toujours un multiple de quatre, ce qui peut poser des problèmes dans des applications plus théorique où les petites variations des valeurs de sont importantes.

      La solution trouvée a été de répartir le nombre total de migrants () sur les quatre dèmes voisins en utilisant les déviations binomiales marginales d'une distribution multinomiale. Le calcul des migrants au nord (), à l'est (), au sud () et à l'ouest () se passe en quatre phases, selon

      
(4.11)

      où indique qu'une variable suit une Loi binomiale de probabilité pour la valeur .

      Ce processus assure que le nombre total d'émigrants est toujours , et que les espérances des sont égales à ce qui est calculé par l'équation (4.10). Un désavantage de cette solution est qu'elle nécessite le tirage de trois nombres aléatoires pour répartir les émigrants, ce qui peut augmenter très sensiblement le temps de calcul requis pour une simulation. Une simulation ne peut également plus être considérée comme purement déterministe, puisque des petites fluctuations de migrations, et donc de densités, apparaissent à cause des nombres aléatoires.

      Le modèle de dispersion simple présenté a souvent été utilisé (avec quelques variantes) pour l'expansion spatiale des populations humaines (voir par ex. Rendine et al., 1986; Barbujani et al., 1995). Ce modèle est celui utilisé dans l'article de Ray, Currat et Excoffier (2003), qui se trouve au chapitre 4.4.


4.2.3.2. Modèle densité-dépendant

      Le modèle linéaire simple (4.6) présenté au chapitre précédent, ainsi que nombre d'autres modèles de dispersion (pour une revue, voir Travis et al., 1999), fait l'hypothèse que le taux de dispersion est indépendant de la densité de la population. Plusieurs études empiriques montrent néanmoins que la dispersion peut être dépendante de la densité des populations locales. Une extension possible et plus réaliste est de rendre le calcul des taux de migration dépendant des densités des dèmes. De tels modèles sont dits 'densité-dépendants', bien qu'il serait plus judicieux de les appeler 'effectif-dépendants' comme l'ont souligné plusieurs auteurs (Wood et al., 1985; Relethford, 1986). Dans le cas où la surface qu'occupe chaque sous-population est identique, ces deux termes sont néanmoins similaires.

      Pour Relethford (1992), les taux de migration entre deux populations sont dépendants du 'taux de remplissage' des dèmes et de la distance séparant ceux-ci. S'appuyant sur un petit échantillon de 13 populations humaines réparties globalement, Relethford suggère que ses résultats vont dans la direction d'une densité-dépendance préférentiellement négative pour les populations humaines. Autrement dit, le flux de migration relatif est plus important d'une grande population vers une plus petite population (si un dème approche de sa capacité de soutien, il tendra à envoyer plus de migrants qu'un dème loin de sa capacité de soutien). Ce processus a également été observé pour d'autres mammifères (Wolff, 1997; Diffendorfer, 1998). Travis et al. (1999) ont quant à eux utilisé un modèle permettant l'évolution de stratégies de dispersion, et ont montré que le système évolue, dans la grande majorité des cas, vers une stratégie de dispersion densité-dépendante. La contrainte de leur modèle est que la relation entre densité de population et la probabilité de dispersion est linéaire, ce qui dans tous les cas donne une probabilité de migrer de 1 pour une certaine densité (généralement bien au-dessus de la capacité de soutien).

      Il existe de très nombreuses possibilités de combiner les différents paramètres démographiques du dème focal avec les mêmes paramètres pour les dèmes voisins. Nous l'avons vu, une grande incertitude règne sur les bons modèles à appliquer aux populations contemporaines de chasseurs-cueilleurs, et à plus forte raison aux populations paléolithiques. Il nous a donc semblé judicieux de construire un modèle simple, qui puisse se baser sur quelques comportements populationnels qui nous paraissaient réalistes. Le modèle final présenté est le résultat d'un grand nombre d'essais et de 'tâtonnements' mathématiques pour arriver à un comportement migratoire satisfaisant.

      Le modèle proposé ici tient compte non seulement de la densité-dépendance du taux de migration, mais reflète également une dépendance non linéaire, comme suggéré par Travis et al. (1999). Il répond à un certain nombre de contraintes démographiques et mathématiques:

  • La probabilité d'émigration doit être plafonnée, afin de ne pas approcher l'unité, ce qui engendrerait des comportements fluctuants, voir chaotiques, de la démographie;
  • La capacité de soutien du dème focal doit pouvoir être dépassée, sans produire un trop grand nombre de migrants;
  • La friction du dème focal est prise en compte comme facteur de retardement de l'émigration. L'idée est ici de dire qu'un environnement où il est difficile de se mouvoir (par ex. milieu de montagne) va 'obliger' la population à mieux supporter une grande densité avant d'accroître la dispersion;
  • La friction du dème voisin est prise en compte pour déterminer la probabilité directionnelle d'émigration. Les individus auront donc une probabilité plus élevée de se mouvoir dans une direction de basse friction.

      Dans ce modèle, le nombre de migrants envoyés est indépendant du taux d'occupation des dèmes voisins, mais dépendant du taux de remplissage et de la friction du dème focal. Le modèle de migration va être de forme logistique. Une manière alternative (à ce qui a été discuté dans le chapitre 4.2.2.) de représenter une courbe logistique est donnée par Brown et Rothery (1993, pp. 48-51):

      
(4.12)

      où est l'asymptote haute, est la valeur de pour laquelle la croissance est la plus grande, et détermine l'inflexion de la courbe (équivalent au taux de croissance dans la croissance logistique standard).

      Nous désirons exprimer la probabilité d'émigration du dème focal. La croissance de n'est pas calculée par rapport au temps, comme c'est souvent le cas avec les applications de la croissance logistique, mais au cours de l'accroissement de la taille de la population focale (). Nous pouvons donc substituer par . L'asymptote haute ne peut pas être mise à l'unité, puisque cela signifierait que tous les individus d'un dème peuvent migrer ensemble dans un dème voisin, et cela engendrerait des comportements oscillatoires non réalistes. L'asymptote haute est donc mise à une certaine valeur qui correspond à la fraction maximum d'individus migrants hors de la population. La valeur pour laquelle la croissance est maximum (point d'inflexion de la courbe) a été choisie égale à , où est la capacité de soutien de la population focale et est la friction de la population focale. joue ici le rôle de retardement du point d'inflexion, en étant codée entre 0 (basse friction, mouvements maximums) et 1 (haute friction, mouvements impossibles). Cela signifie que plus la friction du dème focal est haute, plus les émigrants mettront du temps à sortir 'en masse' du dème.

      En substituant les paramètres de l'équation (4.12), la probabilité d'émigration d'un individu s'exprime donc par

      
(4.13)

      Le paramètre détermine la vitesse de croissance de la probabilité d'émigration. Ce paramètre est néanmoins en conjonction avec , de sorte que le comportement de la croissance du nombre de migrants est très différent suivant la combinaison des valeurs données à et . Pour éviter cela, nous pouvons remplacer par une valeur dépendante de , par exemple , où est un paramètre définissant l'inflexion de la courbe, sans être un taux de croissance à proprement parlé. L'avantage est qu'après avoir trouvé une valeur appropriée pour , les migrations auront un comportement réaliste en milieu hétérogène quelle que soit la capacité de soutien. Il a été de plus démontré par analyse de sensibilité (voir plus loin au chapitre 4.6.3.) que la variation des résultats démographiques lorsque varie est négligeable, et nous pouvons donc fixer sa valeur. Puisque la croissance démographique d'un dème est plafonnée à , l'espérance du nombre total d'émigrants du dème focal peut être exprimée par . Nous avons donc

      
(4.14)

      Une fois le nombre d'émigrants déterminé, nous appliquons également une probabilité directionnelle de migration , définie dans l'équation (4.7). L'espérance du nombre de migrants passant du dème focal au dème est alors exprimée par soit

      
(4.15)

      Un dernier problème est posé lorsque les valeurs de sont très petites (entre 0 et 2). Selon certaines valeurs des autres paramètres, le nombre de migrants de l'équation (4.14) est alors presque toujours plus grand que 1. Le fait d'avoir perturbe grandement la dynamique démographique et doit être évité. La solution trouvée a été d'utiliser un terme de régulation , exprimé par

      
(4.16)

      Cela garantit un comportement adéquat dans la partie inférieure de la courbe. En ajoutant ce terme de régulation dans les équations (4.14) et (4.15), nous obtenons

      
(4.17)
(4.18)

      Une autre possibilité, mathématiquement plus simple, pour le terme de régulation est d'opter pour le rapport . En ajoutant ce terme à l'équation (4.14) et (4.15), nous obtenons

      
(4.19)
(4.20)

      Les différences de comportement entre les équations (4.17) et (4.19) sont mises en évidence dans la Figure 4.2. Ces différences sont particulièrement importantes lorsque la densité de population dépasse la capacité de soutien (): le terme de régulation exponentiel inverse () permet d'obtenir un nombre de migrants plafonné, alors que l'utilisation du terme de régulation simple () aboutit à un nombre de migrants augmentant linéairement. La variation temporelle des capacités de soutien, que nous verrons plus loin au chapitre 4.5.2., peut aboutir à des situations où . L'utilisation de ou de comme terme de régulation va alors déterminer comment la densité de population va être ramenée à la capacité de soutien: va favoriser une régulation par la décroissance logistique intrinsèque (mort des individus), tandis que va favoriser une régulation par l'émigration. Pour le reste de ce travail, nous avons choisi d'utiliser le terme de régulation .

      

Fig. 4.2. : Différence de comportement entre les équations (4.17) et (4.19) utilisant un terme de régulation distinct (Valeurs des paramètres: K=1000, F=1, MigrMax=0.2, d=5)

      La Figure 4.3 donne des exemples de l'accroissement du nombre de migrants lorsque chaque paramètre est varié pour l'équation (4.19).

      

Fig. 4.3. : Comportement du modèle sous différentes valeurs de ses paramètres

      Un seul paramètre est varié par graphique. Les valeurs des paramètres lorsqu'ils ne varient pas sont: K0=1000, MigrMax=0.2, d=5, F0=1.

      Pour les simulations en environnement statique et homogène, et en utilisant l'équation (4.19), l'asymptote de la courbe n'est pas atteinte car la densité ne dépasse pas la capacité de soutien. ne représente donc pas une variable dont la valeur peut être facilement dérivée de données démographiques. Une manière plus abordable de représenter ce seuil maximum de migration dans ces conditions est d'exprimer comme étant le pourcentage d'émigration lorsque , ou autrement dit lorsque le dème a atteint sa capacité de soutien. On peut exprimer ce nouveau pourcentage d'émigration (ou taux de migration) par , car il est équivalent au paramètre du modèle linéaire simple (voir équation (4.6)). Se servant de l'équation (4.19), nous pouvons donc écrire

      
(4.21)

      et donc

      
(4.22)

      Le Tableau 4.2 résume les différents modèles suivant les types de friction et de capacité de soutien utilisés.

      
Tabl. 4.2. : Résumé des équations du modèle de migration densité-dépendant
Friction Capacité de soutien Modèle =
uniforme uniforme ou variable
variable uniforme ou variable

      Le modèle densité-dépendant présenté dans ce chapitre permet de faire varier le comportement de migration en fonction de la densité de population. Lorsque l'environnement est hétérogène et que les frictions associées aux différents types d'environnement varient, nous pouvons nous attendre à des variations de vitesse d'expansion de la vague de migration. Dans un milieu de friction homogène, la valeur absolue de la friction va également influencer cette vitesse d'expansion, car elle déterminera le laps de temps à partir duquel les premiers migrants sont envoyés.

      Bien que ce modèle nous semble réaliste, il est évident que d'autres modèles sont possibles. Une non-dépendance de la migration envers la densité de population peut s'exprimer par un grand nombre d'équations différentes. Notre modèle a l'avantage d'être basé sur la courbe logistique et il est donc facilement compréhensible mathématiquement.


4.2.4. Stochasticité démographique

      La stochasticité démographique (événements aléatoires affectant les densités et les nombres de migrants) est naturellement présente dans une population réelle. Pour simuler ce processus, il est généralement utilisé une stochasticité sur le nombre de descendants, le nombre de migrants, et éventuellement sur une mortalité en cours d'émigration (voir par exemple Hirzel, 2001). Il nous a semblé judicieux de pouvoir introduire, le cas échéant, une stochasticité sur la densité et sur le nombre de migrants. Nous ne considérons pas la mortalité en cours d'émigration.

      Pour chacun des modèles de base discutés plus haut, nous avons implémenté sa contrepartie stochastique. Nous avons considéré que , le nombre total d'émigrants envoyés en dehors d'un dème, et , la densité locale après la croissance logistique (l'indice t+1 signifie que c'est la densité post-logistique), suivaient des lois de Poisson. Pour , l'espérance de cette loi est le nombre déterminé par l'équation (4.6) (pour le modèle linéaire simple) ou l'équation (4.14) (pour le modèle densité-dépendant), alors que pour l'espérance de cette loi est le nombre déterminé par l'équation (4.5). La Figure 4.4 donne un exemple d'historique de la densité de population et des nombres de migrants en utilisant le modèle linéaire simple stochastique.

      

Fig. 4.4. : Exemple d'historiques démographiques stochastiques pour un dème, en utilisant le modèle linéaire simple, avec une capacité de soutien de 500, un taux de croissance de 0.1, et un taux de migration de 0.2

      Pour certaines configurations environnementales, nous avons remarqué qu'un modèle a priori déterministe conduisait à de légères fluctuations de la densité ou de la migration lorsque la capacité de soutien était atteinte. Ces fluctuations pourraient provenir de plusieurs facteurs, dont celui de l'arrondi des nombres entiers, et auraient plus de chance de se produire dans des dèmes périphériques, là où la démographie peut subir des 'effets de bord'. Nous appelons ces fluctuations 'pseudo-stochastiques', et elles seront décrites plus en détail au chapitre 4.3.6.4. Un résumé des modèles démographiques (déterministes et stochastiques) implémentés dans FRICTION peut également être trouvé dans l'Annexe 4.4.


4.3. Le programme FRICTION


4.3.1. Structure générale

      La démarche générale que nous proposons (voir Figure 4.5) est tout d'abord l'utilisation des données environnementales que nous traduisons en paramètres démographiques (comme la capacité de soutien et la friction). Sur la base de ces données, les modèles démographiques vont alors permettre de générer une base de données démographiques stockant l'historique des densités de populations et des migrations. Cette base de données démographiques peut être directement utilisée pour des résultats graphiques, mais elle est surtout à la base des simulations génétiques utilisant la coalescence. Les simulations génétiques aboutissent à certains résultats graphiques (comme les densités des événements de coalescence) et à des données génétiques simulées qui sont ensuite analysées avec le logiciel ARLEQUIN (Schneider et al., 2000b).

      

Fig. 4.5. : Schéma général des entrées (inputs), des calculs et des sorties (outputs) liés au programme FRICTION

      Le but ultime de cette démarche est de pouvoir déterminer les paramètres démographiques qui expliquent le mieux les données génétiques observées dans les populations humaines contemporaines.


Automate cellulaire

      Les simulations démographiques, environnementales et génétiques qui étaient envisagées au début de ce travail ont nécessité une réflexion sur la structure de base dans laquelle elles allaient être implémentées. La structure que nous avons adoptée est celle de l'automate cellulaire.

      Un automate cellulaire (AC) peut être représenté comme une grille régulière (grid) qui divise une surface en un nombre discret de cellules de taille et de forme égales. Dans notre cas, ces cellules sont considérées comme des petites sous-populations et elles sont donc équivalentes à des dèmes. Chaque cellule est définie spatialement et peut donc être accédée individuellement. Différents états peuvent caractériser une cellule et les changements d'état sont dictés par des règles de transition (Parrott et Kok, 2000). Ces règles peuvent être influencées par des caractéristiques propres aux cellules, mais également par les états des cellules voisines. Les états des cellules sont typiquement mis à jour suivant un pas de temps discret et invariable. La Figure 4.6 montre un exemple de trois états distincts dans un automate cellulaire simple. Deux des cellules ont un état 'actif' qui leur permet d'interagir avec les cellules voisines.

      

Fig. 4.6. : Représentation schématique de quelques interactions possibles dans un automate cellulaire simple

      Trois états de cellule sont montrés (blanc, gris clair, et gris foncé). Les flèches pleines indiquent des interactions avec les cellules directement adjacentes et les flèches en pointillé avec les cellules en diagonale.

      Les automates cellulaires sont utilisés depuis les années 70 et trouvent des applications dans un grand nombre de domaines, comme par exemple la dynamique des populations animales (Johnson et al., 1992; Sharov et Liebhold, 1998; Hirzel, 2001) ou végétales (Hogeweg, 1988), la propagation des feux (Zhan et al., 1993; Li et Magill, 2001 ), la dispersion de maladies (Green, 1993) ou l'étude de niveaux de complexité dans la connectivité environnementale (Green, 1994; Wu, 1999).

      Avec les modèles basés sur des individus (individual-based models) et les modèles basés sur des agents (agent-based models) (pour une revue, voir Parrott et Kok, 2000), les automates cellulaires sont considérés comme des modèles basés sur des objets (object-based models). Chaque cellule peut en effet être considérée comme un objet pouvant interagir avec un certain nombre de cellules voisines. Comme nous l'avons dit au chapitre 0, le Système d'Information Géographique, utilisé pour traiter l'information environnementale, n'est pas adéquat pour simuler des règles de transition entre cellules. Nous avons donc dû construire notre propre outil de simulation en C++ (langage de programmation orienté-objet), ce qui a abouti au programme FRICTION.

      Le programme FRICTION est donc notre outil principal pour toutes les simulations démographiques, environnementales et génétiques. Sa programmation a été un processus continu depuis le début du projet et, s'il est actuellement finalisé, de nouvelles fonctionnalités peuvent lui être ajoutées. Nous avons pris soin, au cours de la programmation, de séparer au mieux les différentes fonctionnalités du programme. Ceci permet une maintenance facilitée du code et accélère la prise en main du programme lorsque de nouveaux collaborateurs intègrent l'équipe de programmation (comme cela est arrivé plusieurs fois en cours de projet).

      La plupart des AC recensés dans la littérature possèdent un petit nombre d'états (2-4) et les règles de transitions sont généralement simples. Contrairement à ces AC simples, l'implémentation de cette structure dans FRICTION est quant à elle très complexe. Du point de vue environnemental tout d'abord, chaque cellule est considérée comme une petite surface avec plusieurs paramètres, comme une capacité de soutien, une friction, une identification comme fleuve ou milieu côtier. Chaque combinaison particulière des valeurs de ces paramètres peut être considérée comme un 'état environnemental' distinct qui peut potentiellement varier au cours du temps.

      Chaque cellule a également, en tout temps, un 'état démographique'. D'un état initial 'vide' où aucun individu n'est présent, la cellule peut se remplir d'un certain nombre d'individus et être saturée lorsqu'elle atteint sa capacité de soutien. Les règles de transition démographiques peuvent également être complexes. Ces règles incorporent des variations locales de populations dues à la croissance intrinsèque, mais également à des échanges de migrants avec les cellules voisines, et peuvent donc intégrer des composantes stochastiques.

      Comme nous allons le voir, la structure en AC est aussi idéale pour les simulations génétiques envisagées dans ce travail. En effet, cette structure est similaire au modèle stepping-stone en deux dimensions, qui considère des sous-populations (dèmes) réparties uniformément, et qui échangent des gènes avec les dèmes directement adjacents. Trois modules principaux constituent le corps de FRICTION: il s'agit du module d'entrées-sorties des données, du module démographique et du module génétique. Avant de discuter de ces trois modules, nous voulons présenter les points importants du traitement d'uniformisation des données environnementales.


4.3.2. Uniformisation des données environnementales

      Dans sa forme actuelle, le programme FRICTION ne travaille pas avec des données vectorielles de types polygones ou lignes pour représenter l'environnement (mais voir Neuenschwander (in prep), pour une prise en compte des rivières vectorielles dans FRICTION). La structure en automate cellulaire implique que les données environnementales soient représentées au format raster. Cependant, certaines de nos données environnementales, comme les cartes de végétation ou les fleuves, sont initialement représentées au format vectoriel. Il est donc nécessaire de transformer ces données dans un format raster avant de pouvoir les utiliser dans FRICTION. La transformation vecteur-raster est aisée dans ARCVIEW et se fait avec les outils standards de l'extension d'ARCVIEW Spatial Analyst.

      Au cours du processus de changement de structure qui aboutit aux fichiers raster, que nous appelons 'grids', plusieurs étapes d'uniformisation sont nécessaires. En effet, les données environnementales peuvent provenir d'un fichier raster à partir d'une source publique sur Internet (comme un fichier hypsométrique), être le fruit d'un travail local de digitalisation au format vectoriel (comme les cartes de végétation), ou encore être disponibles au format vectoriel dans ARCVIEW (comme les fleuves). Lorsque tous ces fichiers sont transformés de manière brute en grids, une certaine hétérogénéité des formats des grids peut apparaître. Le programme FRICTION ne peut pas géoréférer des grids comme peut le faire ARCVIEW, et il ne peut donc pas superposer de manière correcte des cartes dont l'étendue ou la résolution serait différente. Ces cartes doivent donc passer par plusieurs étapes d'uniformisation avant de pouvoir être utilisées, de façon à ce qu'elles aient exactement le même nombre de lignes et de colonnes.

      La première de ces étapes est liée à la projection géographique dans laquelle sont enregistrés les grids. Celle-ci doit non seulement être identique pour tous les grids, mais elle doit être adéquate de façon à minimiser les distorsions spatiales qu'elle induit. Nous allons commencer par discuter en détail des projections, puisque c'est une étape préliminaire indispensable à tout travail d'uniformisation. Les problématiques liées à l'étendue et à la résolution seront discutées ensuite. Nous finirons par une discussion sur la classification des grids, dernière étape permettant de finaliser un fichier environnemental avant son importation dans FRICTION.


Projection cartographique

      Une projection cartographique est une tentative de représentation de la surface terrestre, ou d'une partie de celle-ci, sur une surface plane. La représentation en deux dimensions de ces surfaces terrestres induit systématiquement des distorsions géométriques des éléments représentés. Il existe trois types de distorsions principales portant sur 1) la distance, 2) la conformité et 3) l'aire. Certaines projections minimisent un des trois types de distorsion aux dépens des autres, alors que d'autres projections possèdent une distorsion modérée des trois types.

      Une projection équidistante représente correctement les distances géographiques à travers un ou deux points, mais la plupart des autres distances sont distordues. Une projection conforme manipule les distorsions de la distance afin de préserver localement les angles et les formes, mais pas les aires. Sur une carte en projection conforme, un petit cercle sur le globe va être projeté sur la carte en un cercle de taille différente. Une projection équivalente préserve les aires, mais pas les angles et les formes. Sur une carte en projection équivalente, un petit cercle sur le globe va être projeté sur la carte en une ellipse de même aire que le cercle.

      De nombreux ouvrages présentent les équations, les distorsions et les applications des différents types de projections existants (voir par exemple Snyder et Voxland, 1989; McDonnell, 1991; Kennedy et Kopp, 2000). Sachant qu'il n'y a pas de projection parfaite, le choix doit porter sur la surface d'étude, sur le genre d'opération à effectuer sur la carte, et sur le type de distorsion qu'il faut absolument minimiser. Lorsque la surface d'étude est relativement petite, limitée à un pays, ou même à un continent particulier, il est généralement aisé de déterminer la projection adéquate. En ce qui nous concerne, la surface d'étude et les méthodes employées ne rendent pas ce choix trivial pour les raisons suivantes:

  • L'Ancien Monde (situé entre les longitudes -20° et +180°) a la particularité de s'étendre sur une surface plus grande qu'un hémisphère, et nous ne pouvons pas utiliser une projection optimisée pour un hémisphère, comme par exemple la projection Lambert Azimuthal Equal-Area (Steinwand et al., 1995): nous devons donc utiliser une projection mondiale.
  • Il n'y a pas un seul type de distorsion que nous voulons minimiser. En effet, nous voulons tout d'abord limiter les distorsions de l'aire, de sorte que chaque cellule (ou pixel) de nos cartes ait la même surface. Ceci facilite grandement l'attribution, à chaque cellule, des valeurs de capacité de soutien qui sont exprimées par unité de surface. Nous devons également limiter les distorsions de distances, car des distances faussées peuvent altérer les probabilités de rencontre des gènes lors de nos simulations.
  • Dans ce travail, les simulations en monde réaliste se situent au sein d'une surface déterminée par l'étendue de l'Ancien Monde. Les chemins empruntés par les migrants, et donc par les gènes dans le cadre des simulations génétiques, peuvent potentiellement se situer n'importe où sur cette surface. Le choix de la meilleure projection ne peut donc pas se baser sur l'utilisation d'un méridien ou d'un parallèle de référence particulier 29 .

      Un très grand nombre de projections sont disponibles dans ARCVIEW. Nous avons sélectionné cinq projections (projection Hammer-Aitoff (ou de Hammer), projection de Miller, projection de Peters, projection de Robinson, projection sinusoïdale), sur la base d'un compromis entre la minimisation des distorsions des aires et la minimisation des distorsions des surfaces.

      Pour les raisons mentionnées ci-dessus, il n'est pas aisé de choisir a priori une projection particulière dans celles que nous avons sélectionnées. Pour faire un choix non arbitraire, nous proposons une méthodologie qui puisse tester les distorsions de projection pour une surface donnée. Cette méthodologie utilise des calculs de corrélation entre des distances géographiques et des distances 'de moindre coût' sur une surface raster. La méthodologie employée est relativement complexe et plusieurs programmes ont dû être développés pour les calculs. Nous avons également dû mettre en place une méthode statistique novatrice pour tester la significativité de la différence entre deux corrélations. Nous pensons que l'utilité de la méthodologie et des outils développés ici est potentiellement très importante car ceux-ci peuvent être utilisés dans d'autres contextes que le test des projections qui nous intéresse ici. Pour des raisons de fluidité de lecture de ce chapitre, nous avons préféré discuter de cette méthodologie, des outils développés et des résultats du test dans l'Annexe 3.

      Au vu des résultats du test présenté dans l'Annexe 3, nous avons choisi d'utiliser la projection de Hammer pour le reste du travail. Toutes les données environnementales utilisées au sein du programme FRICTION doivent donc être transformées en cette projection.

      La projection de données vectorielles est triviale puisqu'elle est basée sur une fonction mathématique permettant la projection individuelle de chaque point, ou vertex, composant les lignes et les polygones. Il n'en est pas de même de la projection des données raster. Ces dernières ont une structure matricielle dont les cellules carrées ne peuvent pas changer de forme. Les outils de reprojection disponibles sont souvent basés sur trois étapes distinctes qui sont (1) la définition d'une maille de points sur la surface du grid à projeter, (2) la projection vectorielle de la maille de point, et (3) la reconstruction du grid reprojeté en interpolant la maille de point. Lorsqu'un grid est projeté (ou plutôt reprojeté) de cette manière, cela engendre généralement une perte d'information et une déformation des données. La qualité de la reprojection dépend alors, d'une part, du nombre de points utilisés (la qualité augmente avec le nombre de points) et, d'autre part, de la méthode d'interpolation. Cette qualité peut être estimée de visu en comparant le résultat d'une reprojection d'un grid avec des éléments vectoriels correctement géoréférencés, comme un contour côtier par exemple.

      Nous avons testé plusieurs scripts de reprojection disponibles sur le site d'ESRI, dont notamment Grid Projector 30  et Reproject Grid 31 . Les résultats n'ont jamais été satisfaisants et des zones mal projetées apparaissaient constamment dans toutes les régions. Nous avons donc finalement opté pour une méthode simple consistant en la transformation d'un grid entier au format vectoriel, suivi de la reprojection du fichier vectoriel et de la transformation du fichier vectoriel reprojeté au format grid. Cette méthode s'est avérée exacte et sans zones mal projetées et elle a donc été appliquée sur tous les fichiers raster environnementaux. Cette méthode a, en revanche, le désavantage de générer un fichier vectoriel intermédiaire de très grande taille, spécialement si les données sont de types continues comme par exemple un fichier d'altitudes. Dans ce cas, en effet, chaque pixel est transformé vectoriellement en un petit carré. Cette méthode n'est donc pas recommandée avec un ordinateur peu puissant et possédant peu de mémoire vive.


Étendue et résolution

      Une fois les grids projetés dans la bonne projection, il est nécessaire d'uniformiser leur étendue et leur résolution. Dépendant du logiciel SIG utilisé, plusieurs méthodes permettent d'arriver à cette uniformisation. Dans ARCVIEW, la méthode qui nous a paru la plus adéquate est la suivante:

  1. Choisir un grid A qui possède l'étendue voulue;
  2. Utiliser l'outil Resample afin de rééchantillonner ce grid à la résolution voulue;
  3. Fixer les propriétés de l'analyse spatiale (Analysis/Properties) aux mêmes valeurs d'étendue et de résolution que le grid A rééchantillonné;
  4. Choisir un grid B et le retransformer en grid (Theme/Convert to grid);
  5. Recommencer au point 4 pour tous les grids environnementaux restants.

      Le choix de l'étendue est bien sûr dicté par la région d'intérêt pour les simulations. Il peut s'agir d'une région, d'un continent particulier ou du monde dans son ensemble. Il est important de noter que lors des simulations où l'environnement peut fluctuer (voir chapitre 4.5.3.), la baisse du niveau des océans peut étendre la surface d'un continent. Dans ce cas, l'étendue de tous les grids environnementaux doit alors être celle de la région d'intérêt au dernier maximum glaciaire, lorsque la surface des terres émergées était la plus grande. Le choix de la résolution est moins trivial. Nous verrons plus loin (chapitre 4.6.3.6) qu'elle détermine grandement la place en mémoire et les temps de calculs, et qu'elle doit donc être choisie de manière adéquate.

      Les étapes de l'étendue et de la résolution doivent permettre d'aboutir à une série de grids qui aient exactement la même dimension (nombre de lignes et nombre de colonnes) et les mêmes coordonnées de géoréférencement (des cellules en bas à gauche et en haut à droite). Les valeurs de ces paramètres peuvent être facilement vérifiées dans ARCVIEW en utilisant les outils de visualisation des propriétés des thèmes.


Reclassement des grids

      La quatrième étape est le reclassement des grids. Il s'agit ici de donner à chaque cellule sa valeur finale avant importation dans le programme FRICTION. Par exemple avec le grid des fleuves, chaque cellule fleuve doit avoir une valeur de 1 alors que les autres cellules de terre doivent avoir une valeur de 0. Dans ARCVIEW, les changements de classification sont gérés avec les outils Reclassification.

      Les capacités de soutien et les frictions attribuées aux différentes catégories de végétation ne sont pas lues à travers des grids. En effet, nous voulions une méthode souple qui permette de changer facilement ces valeurs sans passer par ARCVIEW. Nous utilisons à la place des tables de correspondance entre les identificateurs des catégories de végétation et les valeurs de capacités de soutien et de friction. Ces deux tables (Veg2K et Veg2F) sont utilisées quelle que soit la carte de végétation (présente potentielle ou LGM). Lorsque les deux cartes sont utilisées conjointement lors du dynamisme environnemental, il est donc important que l'union des catégories de végétation soit présente dans ces tables.


4.3.3. Module d'entrées-sorties

      Après avoir procédé à l'uniformisation des données, un certain nombre de données doivent être importées dans FRICTION avant de pouvoir procéder à une simulation démographique et à une simulation génétique. Les sorties graphiques et tabulaires de FRICTION peuvent également être reprises dans divers formats. L'ensemble de ce flot d'informations entrant et sortant de FRICTION peut être appelé le 'module d'entrées-sorties'. Nous allons parler ici des principaux outils utilisés dans ce module. Les étapes discutées sont schématisées dans la Figure 4.7.

      

Fig. 4.7. : Schéma complet des manipulations de données, comprenant le flot d'informations entre les différents environnements de travail, ainsi que du module d'entrées-sorties

      Les ovales gris indiquent des étapes de transformation des données. Voir le texte pour les explications.

      Après l'étape d'uniformisation des données, le programme GRID2TEXT est utilisé pour transformer chaque grid en format texte simple. Nous avons réalisé ce programme en C++ et il utilise la librairie API Gridio d'ESRI. Le programme TEXT2GRID a été réalisé de manière similaire et permet d'écrire un grid à partir d'un fichier texte exporté par FRICTION. Un fichier (header) contenant l'information de géoréférencement des grids est également produit par ce programme. Ce fichier contient des informations permettant de connaître l'étendue géographique de la carte, ainsi que sa résolution. L'Annexe 4.1 donne les détails de ce fichier header.

      Ce fichier header est unique pour tous les grids d'entrée dans FRICTION, d'où l'importance que ceux-ci aient tous une étendue géographique et une résolution identiques. Le fichier header permet également au programme TEXT2GRID de reconstruire des grids de sortie possédant les mêmes informations de géoréférencement que les grids d'entrée. La possibilité de sortir des résultats sous forme de grid est intéressante lorsque l'on veut pouvoir bénéficier des puissants outils de cartographie d'ARCVIEW. Une fois importés dans ARCVIEW, ces grids peuvent alors être modifiés dans leur aspect graphique, et ils peuvent être combinés avec d'autres couches d'information géoréférencées. Certaines fonctions de FRICTION permettent également de sortir des résultats tabulaires ou des images (bitmaps), qui peuvent alors être repris et travaillés dans les logiciels adéquats.

      
Tabl. 4.3. : Description des divers fichiers environnementaux utilisés dans FRICTION
Nom par défaut Type de donnée Description
ppveg.txt Matrice de données Définit la catégorie de végétation présente potentielle dans chaque cellule
lgmveg.txt Matrice de données Définit la catégorie de végétation LGM dans chaque cellule
river.txt Matrice de données Définit les cellules fleuves qui prennent la valeur de 1
altitude.txt Matrice de données Définit les altitudes relatives de chaque cellule, en mètre
roughness.txt Matrice de données Définit la rugosité de chaque cellule
header.txt Tabulaire Définit les paramètres utiles pour géoréférer les fichiers de matrice de données
Veg2K.txt Table de correspondance Définit les correspondances entre les catégories de végétation et les capacités de soutien
Veg2F.txt Table de correspondance Définit les correspondances entre les catégories de végétation et les frictions

      Les fichiers environnementaux au format grid constituent le corps principal des données qui vont permettre de construire un monde virtuel dans FRICTION. Le Tableau 4.3 donne une brève description des différents fichiers qui représentent l'ensemble des données environnementales. Les cellules côtières ne sont pas entrées via un fichier, mais elles sont identifiées directement dans FRICTION, comme nous le verrons dans le chapitre 4.5.3. Il est important de mentionner que nous avons gardé la représentation de cellules sans données (NoData dans ARCVIEW). Ces cellules ont une valeur de 99'999 dans le fichier texte, ce qui signifie généralement que ce sont des cellules géographiquement localisées dans la mer, ou dans une zone où les données ne sont pas connues. Comme nous le verrons plus loin, l'identification de ces cellules sans données permettra de gagner de la place mémoire lorsque le monde sera construit dans FRICTION.

      Outre les données environnementales sous forme de grid, des fichiers de coordonnées géographiques ponctuelles sont également utilisés. Il s'agit des fichiers indiquant les localisations initiales de la (ou des) population(s) initiale(s), ainsi que la localisation des échantillons génétiques. Ces données sont généralement d'abord visualisées dans ARCVIEW afin de contrôler leur emplacement par rapport aux autres éléments environnementaux. Une fois les vérifications faites, leurs coordonnées géographiques sont alors exportées au format texte. Ce traitement doit passer par une première exportation au format tabulaire dbase d'ARCVIEW, suivie d'une transformation au format texte (depuis Excel par exemple). Nous avons implémenté le traitement des coordonnées dans FRICTION de façon à pouvoir utiliser n'importe quelle projection cartographique. Les coordonnées peuvent ainsi être entrées en degrés décimaux (pour des données non projetées) ou en mètres/kilomètres (par exemple pour des données dans la projection de Hammer). Il faut cependant que les coordonnées des points soient dans la même projection que les données environnementales sous forme de grid. Il arrive souvent que les coordonnées trouvées dans la littérature soient indiquées en degré-minute-seconde (DMS), et elles doivent être alors transformées en degrés décimaux. La macro pour EXCEL dms2ddg, écrite en Visual Basic for Application, est disponible dans l'Annexe on-line de la thèse et permet de faire cette transformation de coordonnées.

      Lorsqu'une coordonnée géographique est lue par le programme FRICTION, elle doit nécessairement être associée à une des cellules du monde virtuel construit par le programme. C'est l'information de géoréférencement contenue dans le fichier header des fichiers environnementaux qui est utilisée pour cela. En effet, en connaissant les coordonnées de ces fichiers environnementaux, et leur résolution, un calcul simple permet d'identifier la cellule dans laquelle se trouve cette coordonnée. Des mécanismes de contrôle des coordonnées ont été implémentés, de sorte qu'un message d'erreur apparaît lorsqu'une coordonnée se trouve en dehors de l'étendue du monde ou dans des zones de mer.

      Un grand nombre de paramètres démographiques et génétiques sont nécessaires pour différencier les divers modèles implémentés dans FRICTION. Nous avons, dès le début, pris le parti de laisser à l'utilisateur le plus grand degré de souplesse quant à l'utilisation de ces paramètres, en permettant de les changer facilement. La version Windows du programme permet de changer tous les paramètres à travers des menus déroulants, des cases à cocher, des boutons radio et des zones de saisie. Pour la version console, la solution adéquate, dérivée d'expériences antérieures comme ARLEQUIN (Schneider et al., 2000b), a été de rassembler tous les paramètres dans un fichier texte Settings. L'utilisation de ce genre de fichier permet de préparer plusieurs simulations alternatives et de les lancer simultanément avec la version en ligne de commande de FRICTION. Un exemple de fichier Settings est présenté dans l'Annexe 4.5., avec les 58 paramètres que comprend actuellement ce fichier.

      

Fig. 4.8. : Interface graphique principale de FRICTION permettant de choisir les valeurs des paramètres, de construire le monde et de lancer une simulation

(1) gestion du fichier Settings
(2) gestion des paramètres démographiques
(3) gestion des paramètres environnementaux
(4) gestion des types de sorties graphiques

      La grande partie des paramètres est retrouvée dans l'interface graphique de FRICTION, présentée dans la Figure 4.8. Cette interface permet de lancer rapidement des simulations en changeant les paramètres à travers les différents boutons, cases à cocher, et menus déroulants. L'expérience a montré qu'une telle interface permet de faciliter grandement les étapes de test et de debugging d'un programme. Une fonction de sauvegarde des valeurs des paramètres utilisés permet, de plus, de créer un fichier Settings très facilement. L'Annexe 4.1. présente de manière détaillée la fonction BuildWorld qui permet de construire et d'initialiser un monde virtuel.


4.3.4. Module démographique

      Le module démographique du programme FRICTION prend en charge la démographie locale des cellules, ainsi que les migrations entre les cellules, grâce aux modèles démographiques discutés au chapitre 4.2. Nous voulons ici parler des différentes étapes d'une simulation démographique (représentées graphiquement dans la Figure 4.9.) telles qu'implémentées dans FRICTION.

      

Fig. 4.9. : Etapes principales d'une simulation démographique

      Une simulation démographique se décompose en un nombre t d'itérations temporelles qui correspondent au nombre de générations simulées. Cinq étapes de calcul sont faites par itération et par cellule (ces étapes seront détaillées lorsque nous parlerons des modèles démographiques):

  1. Calcul de la nouvelle taille de la population locale suite à un événement de croissance logistique;
  2. Calcul des probabilités individuelles d'émigration;
  3. Calcul des probabilités individuelles directionnelles de migration;
  4. Calcul du nombre effectif de migrants.

      Une fois ces calculs faits, le nombre de personnes dans une cellule au temps est mis à jour par

      
(4.21)

      où est le nombre de personnes donné par la croissance logistique, est le nombre d'émigrants et est le nombre d'immigrants provenant des cellules voisines.

      

Fig. 4.10. : Interface de FRICTION permettant de visualiser dynamiquement la démographie

(1) visualisation dynamique d'une variable démographique
(2) légende associée à la variable visualisée
(3) affichage dynamique de certains paramètres de simulation
(4) curseur permettant de naviguer temporellement dans la base de données démographiques
(5) choix de la variable démographique à visualiser

      Les résultats d'une simulation démographique sont généralement utilisés immédiatement comme base pour une simulation génétique. Il est néanmoins possible de visualiser différentes sorties graphiques des résultats démographiques. Nous avons pris particulièrement soin d'implémenter des routines de visualisation qui puissent nous aider à vérifier les comportements de nos modèles démographiques et environnementaux. Nous pouvons ainsi visualiser, pour chaque cellule, les densités de populations, le nombre d'émigrants, les directions préférentielles de migrations, les limites spatiales du front d'expansion et les temps d'arrivée. Les cartes de friction et de capacités de soutien peuvent également être obtenues. Il est aussi possible de zoomer dans la carte et d'exporter une vue au format Bitmap. Cette interface graphique est présentée dans la Figure 4.10, avec un exemple de carte de densité de population pour une simulation d'expansion à partir de l'Afrique de l'est. L'Annexe 6 présente également un outil de visualisation des variations de direction et d'intensité de la migration au cours du temps.

      Le processus démographique simule donc l'évolution démographique des sous-populations: les individus ne sont pas identifiés lors d'une simulation, seul la taille d'une sous-population (d'une cellule) et les nombres de migrants échangés sont connus et enregistrés. Cette structure est différente pour la simulation génétique.

      Pour les besoins des simulations génétiques, les historiques des tailles de populations et des nombres de migrants doivent être maintenus en mémoire centrale. Il était alors nécessaire d'optimiser la structure des objets C++ permettant le stockage de ces historiques, afin de minimiser l'espace disque requis et le temps d'accès aux données. Plusieurs solutions de compression ont été explorées, et elles sont discutées dans l'Annexe 4.2. Dans cette Annexe peuvent également être trouvées les différentes structures d'objet qui ont été implémentées pour le module démographique.

      Percevant l'utilité future de simuler un monde de grande taille à l'aide de notre cluster Linux, nous avons collaboré avec le Département d'Informatique de l'Université de Genève (Prof. Bastien Chopard) en vue de mettre sur pied une version 'parallèle' du programme FRICTION. La parallélisation d'un programme consiste à partager une charge de calcul et/ou de mémoire sur plusieurs ordinateurs connectés en réseau et travaillant simultanément. L'avantage d'une version parallèle de FRICTION est qu'un monde peut alors être géographiquement découpé en régions, chaque région étant simulée par un ordinateur. Cette configuration demande une charge mémoire par ordinateur qui est inversement proportionnelle au nombre d'ordinateurs à disposition. Une programmation en langage parallèle n'est cependant pas triviale et demande du temps. Un premier travail (Lutz, 2002) a permis de proposer plusieurs fonctions et objets permettant de mieux cerner les difficultés et les avantages de l'approche. Ce travail est une première étape vers un processus de parallélisation complète de FRICTION, si celle-ci devait s'avérer indispensable à l'avenir pour une application particulière.


4.3.5. Module génétique

      Le module génétique de FRICTION est implémenté à partir d'une version modifiée du logiciel SIMCOAL (Excoffier et al., 2000). Ce dernier permet de simuler la généalogie d'un ensemble de gènes dans des populations dont la démographie peut être arbitrairement complexe. Des mutations sont ensuite appliquées sur cette généalogie pour générer la diversité moléculaire d'un échantillon. L'intégration des routines génétiques de SIMCOAL avec la structure démographique de FRICTION n'a pas été simple et a demandé du temps. Il a été en effet nécessaire d'adapter ces routines à la structure en stepping stone (automate cellulaire) dans laquelle était implémentée la partie démographique. Cette adaptation, ainsi que les nombreuses fonctions génétiques qui sont venues enrichir le programme, ont été réalisées par Laurent Excoffier et Mathias Currat. C'est dans le travail de ce dernier (Currat, in prep) que peut être trouvée une discussion détaillée des fonctions génétiques de FRICTION. Une présentation sommaire des structures d'objets C++ du module génétique est trouvée dans l'Annexe 4.3.

      Plusieurs modèles sont utilisés par les généticiens des populations (Figure 4.11). Le modèle le plus simple est le modèle en archipel ou island model (voir Hedrick, 2000, p. 288). Dans ce modèle, les sous-populations échangent des migrants avec toutes les autres sous-populations, et les distances séparant les sous-populations ne sont pas prises en considération. Les sous-populations subissent des fluctuations indépendantes de leurs fréquences géniques, dépendant des effectifs de chaque population. Le modèle en archipel est mathématiquement très simple. Il sous-tend une grande partie de la théorie mathématique de Wright (1951; 1969) et est souvent utilisé pour des applications plutôt théoriques en génétique des populations (voir par ex. Wakeley, 1998; Wakeley, 2001; Eller, 2002).

      

Fig. 4.11. : Différents modèles utilisés en génétiques des populations

      Il est cependant difficile d'imaginer une situation empirique actuelle correspondant au modèle en archipel. Potentiellement, on pourrait considérer une île proche d'une grande population panmictique d'où les immigrants pourraient être considérés comme provenant d'une population à l'équilibre (trop grande pour être affectée par la dérive génétique). Mais, comme le soulignent Crow et Kimura (1970), les immigrants sont plus susceptibles de provenir de sous-populations voisines, plus semblables génétiquement, que de sous-populations plus lointaines. L'isolement par la distance semble donc inévitable (voir par ex. Barbujani et al., 1995), ce qui rend le modèle en archipel fort peu réaliste.

      Le modèle stepping stone (Kimura et Weiss, 1964) est, quant à lui, spatialement explicite, car il prend en compte la localisation spatiale des sous-populations. Celles-ci sont réparties uniformément et ne peuvent échanger des migrants qu'avec les sous-populations qui leur sont directement voisines. Le modèle stepping stone en une dimension est souvent utilisé dans des applications théoriques, puisqu'il permet généralement d'aboutir à des résultats mathématiquement bien plus simples qu'avec le modèle stepping stone en deux dimensions (voir par ex. Gandon et Rousset, 1999; Irwin et Taylor, 2000). Différentes catégories de modèles stepping stone peuvent être trouvées (pour une revue, voir Wilkins et Wakeley, 2002), prenant ou non en compte des échanges entre les sous-populations qui constituent les extrémités du vecteur (en une dimension, aboutissant à un cercle) ou de la matrice (en deux dimensions, aboutissant à un tore, voir chapitre 4.3.6.4). Certaines situations écologiques rencontrées par des populations naturelles peuvent justifier l'utilisation d'un modèle en une dimension, comme par exemple une série linéaire d'étangs dans un bassin versant, ou un ensemble de poches d'eau le long d'un bord de mer. Néanmoins, la grande majorité des situations naturelles, pour lesquelles existe une répartition surfacique des sous-populations, s'accommode mieux d'un modèle stepping-stone en deux dimensions. Notons cependant que la répartition uniforme des sous-populations dans ce modèle est une hypothèse simplificatrice, servant à représenter la répartition généralement continue des gènes sur une surface donnée.

      Dans un modèle stepping-stone, le dème est l'équivalent, en milieu continu, du concept de voisinage (neighborhood) de Wright (1946). La représentation stepping-stone et la notion de dème sont conceptuellement similaires à la représentation en automate cellulaire et à la notion de cellule, ou encore au mode image et à la notion de pixel.


Processus de coalescence

      Les simulations génétiques implémentées dans FRICTION sont basées sur l'approche par coalescence, théorie initialement décrite par Kingman (1982a; 1982b), et développée ultérieurement (Ewens, 1990; Hudson, 1990; Donnelly et Tavaré, 1995; Nordborg, 2001). Cette approche permet de reconstruire la généalogie d'une série de gènes (échantillonnés), jusqu'à leur ancêtre commun le plus récent (MRCA, Most Recent Common Ancestor). Le terme de coalescence fait référence au moment où, en remontant dans le passé, deux lignages (branches) quelconques d'une généalogie fusionnent. Cette fusion a lieu dans un individu qui a transmis obligatoirement au moins deux copies d'un même gène à des descendants distincts. Un temps de coalescence est alors simplement défini comme l'intervalle de temps écoulé jusqu'à un événement de coalescence. Le temps estimé qui sépare l'échantillonnage du MRCA est appelé TMRCA (Time to the Most Recent Common Ancestor). La Figure 4.12 donne une explication graphique de ces concepts (voir également Excoffier, 1997).

      

Fig. 4.12 : Exemple d'un arbre de coalescence de cinq gènes échantillonnés

      Dans une population diploïde de taille , il y a par définition copies d'un gène donné. Si la population est constante au cours du temps, la probabilité que deux gènes tirés aléatoirement dans la population soient issus d'une même copie à la génération précédente est de . La probabilité de coalescence est donc inversement proportionnelle à la taille de la population. Le temps moyen jusqu'au plus proche ancêtre commun des deux gènes est estimé par l'inverse de cette probabilité, soit générations. Pour un échantillon de gènes tirés de cette population, nous pouvons reconstruire leur généalogie en les considérant deux à deux (indépendamment des individus). Comme il existe paires de gènes différentes, avec chacune une probabilité de coalescer à la génération précédente, la probabilité totale pour qu'il y ait une coalescence quelconque à la génération précédente parmi les lignages de cet échantillon est

      
(4.22)

      Le temps attendu pour observer une première coalescence suit une Loi géométrique de paramètre , et sa moyenne est donnée par et est donc égale à . Après une première coalescence, il ne reste que paires de gènes, et le temps moyen pour passer de à lignages est de . Les temps moyens de coalescence deviennent donc de plus en plus long lorsque l'on se rapproche de l'ancêtre commun. Une discussion plus détaillée sur la coalescence et sur les événements démographiques inférés des arbres de coalescence observés ou simulés, peut être trouvée dans notre article (Ray et al., 2003) présenté au chapitre 4.4.

      L'élégance de la théorie de la coalescence provient du fait que le processus généalogique des gènes neutres 32  est complètement découplé du processus de mutation. La coalescence des lignages généalogiques et l'âge du MRCA ne dépendent pas de la vitesse d'accumulation des mutations au cours du temps. Par contre, plus la longueur totale de la généalogie d'un échantillon est grande, plus la diversité génétique de cet échantillon est grande. Le programme FRICTION utilise donc deux phases distinctes pour générer la diversité d'un échantillon, ce que nous allons discuter brièvement.


Génération de la diversité génétique dans le modèle stepping-stone 2D

      La première phase est la reconstruction, par la coalescence, de la généalogie d'un échantillon. Dans le modèle stepping-stone de FRICTION, cette reconstruction est nécessairement plus complexe que dans une seule population non subdivisée. En effet, dans FRICTION, les populations subissent des fluctuations de tailles et des migrants peuvent passer d'un dème à un autre. Comme un gène est nécessairement associé à un individu, les gènes vont pouvoir se mouvoir sur la surface simulée. Comment est alors reconstruite la généalogie des gènes échantillonnés?

      La Figure 4.13 représente schématiquement les événements possibles pour les gènes échantillonnés au cours de la reconstruction généalogique. Dans cette figure, nous considérons quatre dèmes voisins répartis le long d'un axe (pour simplifier l'explication). En début de simulation génétique (génération 0), deux échantillons de gènes sont spatialement localisés dans les dèmes: un échantillon de deux gènes dans le dème {1,1} et un échantillon de trois gènes dans le dème {1,3}. En remontant dans le temps, génération après génération, chaque gène peut subir deux types d'événement.

      Le premier événement possible est une migration depuis le dème jusqu'au dème voisin . La probabilité de cet événement à la génération est

      
(4.23)

      où est le nombre de migrants qui sont arrivés dans le dème puis le dème à la génération , et est la densité de population du dème à la génération . Cette probabilité est calculée pour tous les voisins d'un dème (de un à quatre).

      

Fig. 4.13. : Schématisation du processus de coalescence tel qu'implémenté dans FRICTION, aboutissant à un arbre de coalescence des gènes échantillonnés

      Le deuxième événement possible est un événement de coalescence, si au moins deux gènes se trouvent dans le même dème. La probabilité d'un événement de coalescence sous ces conditions est celle de l'équation (4.22) et peut être réécrite pour la génération , et pour des données haploïdes (où est le nombre total de gènes présents dans un dème), comme

      
(4.24)

      où est le nombre de lignages dans le dème à la génération .

      Les probabilités associées à ces deux événements sont calculées à chaque génération et pour chaque lignage restant, jusqu'à ce qu'il ne reste plus qu'un lignage (à la racine de l'arbre). Les événements de coalescence (ou noeuds) définissent ainsi la topologie de l'arbre de coalescence entre tous les gènes échantillonnés. On comprend alors mieux pourquoi l'historique d'une simulation démographique (densités et migrations) doit être stockée, de manière complète, en mémoire centrale 33 . Les mouvements probabilistes des gènes peuvent les amener potentiellement à se retrouver dans n'importe quel dème et à des générations qu'il n'est pas possible de déterminer a priori. A chaque génération, le processus de coalescence va donc puiser dans la base de données démographiques, afin d'en extraire les valeurs de taille de population et de nombre de migrants nécessaire aux calculs des probabilités.

      La deuxième phase de la simulation génétique consiste à créer la variabilité génétique des échantillons, sur la base de l'arbre de coalescence généré lors de la première phase. Des mutations sont ajoutées, de manière indépendante, sur l'arbre de coalescence, en faisant l'hypothèse d'un taux de mutation constant (comme illustré dans la Figure 4.14). Ce processus donne une identité génétique à chaque gène échantillonné. Deux gènes seront d'autant plus différents que la longueur totale des branches de l'arbre qui les sépare est grande. En effet, plus une branche est longue, plus le nombre de mutations le long de celle-ci est potentiellement grand.

      

Fig. 4.14. : Exemple d'arbre de coalescence

      Les points représentent des mutations aléatoires le long des branches de l'arbre, aboutissant à des séquences mutées.

      Une simulation génétique est donc extrêmement stochastique, puisque l'étape de création de la généalogie et le processus de mutation sont tous deux probabilistes. Un grand nombre de simulations génétiques doit donc être fait afin d'en sortir des statistiques moyennes et leurs variances associées. L'approche par coalescence ne simule pas l'historique de toute la population, mais seulement l'historique des gènes échantillonnés. Cette approche est donc très efficace du point de vue du temps de calcul et des besoins en mémoire.


Interface

      L'interface graphique pour les simulations génétiques est présentée dans la Figure 4.15. Les outils de visualisation de la partie démographique de FRICTION ont également été utilisés pour le processus de coalescence. La coalescence est un processus de calcul demandant un déroulement du temps (des générations) qui remonte dans la passé. La visualisation de ce déroulement du temps, inverse à celui de l'expansion démographique, aboutit à une contraction de l'aire de répartition de la population par une diminution du nombre de dèmes colonisés. Pendant ce processus, le 'mouvement des gènes' entre les dèmes se visualise de manière dynamique grâce à la couleur particulière (violet) de chaque dème actif (contenant au moins un gène). Cette visualisation est en soit un apport original du programme FRICTION, puisqu'elle n'est trouvée, à notre connaissance, nulle part ailleurs. Il est aussi possible de visualiser les densités d'événements de coalescence (comme dans la Figure 4.47) ou encore l'arbre de coalescence représenté spatialement superposé à la carte géographique (voir Currat, in prep). Ces possibilités sont autant d'aspects didactiques que peut apporter le programme FRICTION pour une meilleure compréhension des processus génétiques.

      

Fig. 4.15. : Interface de FRICTION permettant de choisir les paramètres génétiques pour les simulations de coalescence, et de visualiser dynamiquement les mouvements des gènes au cours des générations

      Les dèmes actifs (avec au moins un gène) sont représentés en violet. Les dèmes non actifs (sans gènes) sont représentés par un dégradé de couleur allant du noir (faible densité) au jaune (haute densité). La couleur blanche indique un dème non colonisé. (1) choix des paramètres de mutations propre au système génétique utilisé (séquence, RFLP, microsatellite, SNP), (2) choix des types de sorties, (3) choix du nombre de simulations et des paramètres graphiques, (4) affichage dynamique de certains paramètres de simulation, (5) affichage dynamique des emplacements des dèmes actifs (avec au moins un gène), et du déroulement de la simulation.


4.3.6. Expansions dans un espace discrétisé

      Les modèles démographiques que nous avons développés ont dû tenir compte de certaines contraintes imposées par l'utilisation du modèle stepping-stone et des processus de coalescence dans les simulations génétiques. La discrétisation de la surface simulée, ainsi que la nécessité de travailler avec des nombres entiers d'individus (tant pour la densité que pour les migrations), sont à l'origine de comportements démographiques particuliers qu'il convient de décrire.


4.3.6.1. Voisinage des cellules

      Dans un modèle d'automate cellulaire en 'damier' en deux dimensions, chaque cellule peut interagir avec un certain nombre de cellules voisines. Ce nombre peut être de quatre ou de huit si les cellules diagonales sont également prises en compte, mais il peut aussi être plus élevé (voir Figure 4.16). D'autres structures spatiales sont néanmoins possibles pour représenter un voisinage. On retrouve par exemple la structure d'automate cellulaire hexagonale (voir par exemple Hirzel, 2001) à six voisins, la structure triangulaire à trois voisins (Mithen et Reed, 2002), ou d'autres structures de grids irréguliers basées sur les diagrammes de Voronoi (Shi et Pang, 2000; Flache et Hegselmann, 2001; Pang et Shi, 2002) avec un nombre irrégulier de voisins. Ces structures complexes sont, selon leurs auteurs, plus réalistes. Il a cependant été montré par Flache et Hegselmann (2001) que le choix d'une structure particulière d'automate cellulaire (damier, hexagonale ou irrégulière) affecte généralement peu la plupart des dynamiques de migration. Ce résultat, et le fait que les structures hexagonales et irrégulières sont difficiles d'implémentation, nous ont fait définitivement choisir une approche en structure damier pour le programme FRICTION.

      

Fig. 4.16. : Les types de voisinage les plus utilisés en automate cellulaire

Adapté de Flache et Hegselmann(2001)

      Les processus de coalescence de FRICTION demandent que soient enregistrés pour tous les dèmes, en mémoire centrale, les historiques des tailles de population et des événements de migration vers les cellules voisines. Pour une optimisation de la mémoire demandée et de la vitesse d'exécution, il est donc évident que l'implémentation d'un voisinage de quatre cellules est bien plus efficace que la prise en compte de huit cellules voisines. Au delà des considérations d'optimisation, nous devons néanmoins nous assurer que le dynamisme démographique n'est pas trop affecté par cette simplification.

      En effet, il est généralement considéré qu'un voisinage de von Neuman peut poser différents problèmes pour la dynamique d'un modèle (Flache et Hegselmann, 2001), bien que ces problèmes dépendent grandement de l'application. Ce voisinage est par exemple non transitif, c'est-à-dire que si B est voisin de A, et C est voisin de A, alors B ne peut jamais être voisin de C. Il est néanmoins très difficile de prédire l'influence de cette propriété sur les modèles du présent travail, si un tel voisinage est utilisé.

      Un autre problème potentiel de l'utilisation d'un voisinage de von Neuman (Lee Hazelwood, comm. pers.) est le fait qu'il peut ralentir l'expansion spatiale et présenter une vague de progression, en milieu homogène, qui garde l'empreinte initiale de la 'croix' (comme dans la Figure 4.16). Ces comportements dépendent essentiellement de la dynamique spatiale du modèle d'expansion utilisé et il est très difficile de savoir leurs magnitudes a priori.

      Pour se représenter visuellement les différences de dynamique spatiale selon le voisinage choisi, nous avons modifié la structure de base de la matrice de cellules du programme FRICTION, afin de pouvoir utiliser huit voisins. Ceci a été grandement facilité par le choix initial de faire accéder chaque cellule à ses voisines via des pointeurs. Nous avons utilisé un monde carré de 25x25 cellules dans lequel nous avons simulé, depuis la cellule centrale, une expansion de 100 individus initiaux, à l'aide du modèle démographique linéaire simple. L'étendue des cellules colonisées, après divers nombres de générations, est représentée dans la Figure 4.17.

      

Fig. 4.17. : Comparaison de l'expansion spatiale lorsque 4 ou 8 voisins sont utilisés pour l'envoi d'émigrants

      Le monde utilisé est le monde simple de 25x25 dèmes, et le modèle démographique est le modèle linéaire simple avec K=500, taux de croissance=0.1, taux de migration=0.2.

      La première constatation est que la dynamique n'est pas très différente entre les deux implémentations. Étonnamment, après environ la 60ème génération, c'est la prise en compte de quatre voisins qui donne visuellement une vague de progression se rapprochant le plus du cercle (ce dernier étant attendu en milieu spatial non discrétisé). Dans la première partie de la simulation, nous retrouvons, par contre, une forme en losange pour les quatre voisins, qui va en s'atténuant. La prise en compte des huit voisins donne plutôt une forme carrée puisque les cellules le long des diagonales sont plus rapidement colonisées.

      La vitesse de colonisation varie entre les deux implémentations. Comme prévu intuitivement, la prise en compte de huit voisins permet une complète colonisation du monde légèrement plus rapide qu'avec quatre voisins, grâce aux possibilités de migration par les diagonales.

      Ces résultats peuvent être transposés pour des simulations dans un monde où l'environnement est hétérogène, et pour lequel il a été attesté que la prise en considération des cellules diagonales permet une colonisation légèrement plus rapide (Alexandre Hirzel, comm. pers.). Les différences observées entre les deux implémentations restent néanmoins peu significatives, et nous avons considéré, dans ce travail, que la non prise en considération des diagonales n'affectait pas les conclusions des expériences menées.


4.3.6.2. Effets des arrondis

      La nécessité de travailler avec des nombres entiers d'individus peut parfois mener à des courbes de croissance démographique qui présentent des singularités. Il est alors important de comprendre quels sont les paramètres à la base de ces comportements particuliers. Pour illustrer ces comportements, nous avons simulé une expansion dans un monde carré de 50 par 50 dèmes, de capacité de soutien uniforme égale à 100, à partir d'une population initiale de 100 individus se trouvant dans le dème central (position <25;25>). Les deux modèles démographiques (linéaire simple et densité-dépendant) ont été testés avec différentes valeurs pour le taux de croissance et le taux de migration. La Figure 4.18 présente l'historique de la densité de population pour le dème se situant à la position <27;31>.

      Outre le fait qu'une augmentation du taux de croissance ou du taux de migration résulte en une colonisation initiale plus rapide du dème considéré (ce qui avait été mis en évidence par Fisher (1937)), nous constatons dans la Figure 4.18 certains comportements singuliers. Dans cette Figure, le point (a) montre des 'décalages' de courbe lors de la phase de croissance. Ces décalages sont dus aux échanges de migrants. En effet, avec un taux de migration m de 0.1, ce n'est que lorsque la densité approche les 40 individus que quatre individus pourront être envoyés (un dans chaque direction). L'émigration d'individus a un impact sur la croissance de la population. Le deuxième décalage intervient aux alentours d'une densité de 80 individus, lorsque huit migrants sont envoyés. Ces décalages sont observés lorsque le modèle démographique utilisé arrondit les nombres d'individus vers le bas, et envoie donc des migrants par lot de quatre. Nous avons déjà discuté d'une méthode qui permette de s'affranchir de cette contrainte en répartissant un nombre calculé de migrants sur les quatre dèmes voisins, suivant une distribution multinomiale (équation (4.11)). Cette méthode n'est cependant pas déterministe, et aboutit à des fluctuations du nombre de migrants et de la densité, raison pour laquelle nous ne l'avons pas utilisée dans ce chapitre.

      

Fig. 4.18. : Courbe de croissance démographique selon les deux modèles démographiques et selon diverses valeurs du taux de croissance (r) et du taux de migration (m), K=100

      

      Les comportements particuliers relevés par des pointillés associés à des lettres minuscules sont discutés dans le texte.

      Le point (b) de la Figure 4.18 montre une fluctuation de la densité après un laps de temps environ égal à 170 générations. Ces fluctuations sont dues aux effets induits par les bords du monde simulé, et nous étudierons ce phénomène plus spécifiquement dans le chapitre 4.3.6.4.

      Le point (c) de la Figure 4.18 montre une fluctuation de densité très importante avec une valeur élevée du taux de migration, même pour un taux de croissance bas. Ces fluctuations surviennent rapidement lors du processus de croissance et se maintiennent pour le reste de la simulation. Ce phénomène n'apparaît qu'avec le modèle densité-dépendant. Il est dû au fait qu'avec ce modèle, l'augmentation du nombre de migrants envoyés est bien plus soudaine qu'avec le modèle linéaire simple pour lequel l'envoi des migrants est continu pendant la phase de croissance. Il s'ensuit que des dèmes voisins, qui sont toujours colonisés de manière asynchrone, vont échanger de grands nombres de migrants de manière décalée, ce qui permettra d'excéder la capacité de soutien, et donc d'envoyer encore plus de migrants dans les dèmes voisins, entraînant la mécanique de fluctuations.

      Les valeurs des paramètres qui mènent à ce comportement oscillatoire marqué sont cependant très difficiles à prévoir de manière analytique. Pour le modèle densité-dépendant, et pour des valeurs élevées du taux de migration et du taux de croissance, il est intéressant de constater que des variations minimes des valeurs du taux de croissance (r) ou du taux de migration (m) peuvent mener à des comportements très différents. Pour illustrer ce phénomène, nous donnons dans la Figure 4.8 trois exemples de courbes de densités pour lesquelles les paramètres susmentionnés sont très légèrement différents. On remarque que l'historique de densité a une forme très dissemblable selon les paramètres r et m. Ce phénomène répond à la définition d'un comportement chaotique (voir par exemple Ruxton et Rohani, 1998; Petrovskii et Malchow, 2001), en ce sens qu'une variation minime de la valeur d'un paramètre peut donner un résultat final (ici la densité en fin de simulation) très différent. Un seuil d'apparition du phénomène chaotique peut donc être considéré à partir d'un taux de migration de 0.5.

      

Fig. 4.8. : Visualisation d'un effet chaotique pour l'historique de la densité, sous le modèle densité-dépendant. r: taux de croissance, m: taux de migration, K=100

      La mise en évidence de ces comportements chaotiques nous montre que nos modèles ne peuvent être adéquats pour toutes les combinaisons de valeurs de nos paramètres. Pour les simulations qui vont être présentées dans le reste de ce travail, c'est principalement le modèle linéaire simple qui a été utilisé, car les résultats sont plus facilement interprétables sous ce modèle. Nous n'avons également pas utilisé des valeurs de taux de migration aussi extrêmes que dans les exemples ci-dessus, et n'avons donc pas rencontré ces comportements atypiques.


4.3.6.3. Effets du choix de la résolution spatiale

      Nous avons vu qu'il n'a pas été possible d'utiliser le modèle de diffusion classique, car celui-ci ne permet pas l'échange de migrants lorsque les dèmes ont atteint leur capacité de soutien. Les modèles développés ne possèdent donc pas une des propriétés du modèle classique de diffusion (discrétisé), à savoir l'indépendance du comportement d'expansion par rapport à la résolution spatiale choisie pour discrétiser le monde.

      Pour visualiser cette propriété, nous pouvons considérer un monde carré simple qui possède une capacité de soutien totale qui est constante sur toute sa surface. Nous discrétisons ensuite ce monde en un certain nombre de dèmes, en utilisant plusieurs résolutions alternatives, ce qui signifie que la capacité de soutien des dèmes va varier avec la résolution, puisque la capacité de soutien totale reste inchangée. Nous procédons ensuite à une expansion spatiale à partir du dème central, et avec une taille initiale de population égale à la capacité de soutien du dème. La Figure 4.9 montre les résultats graphiques des ces expansions avec quatre résolutions différentes.

      Nous voyons très clairement dans cette Figure que la dynamique d'expansion varie avec la résolution. Plus la résolution est petite, c'est-à-dire plus la taille d'un dème est grande, plus l'expansion se fait rapidement. La saturation du monde (lorsque tous les dèmes ont atteint leur capacité de soutien) augmente de manière approximativement linéaire avec la racine du nombre total de dèmes. La cause de ce comportement est essentiellement due au fait que le taux de migration est constant quelque soit la surface des dèmes. En effet, avec une valeur de m constante, le nombre de migrants M va être uniquement dépendant de la capacité de soutien, et M va donc diminuer lorsque K diminue conjointement à la taille de la cellule. Pour éviter cela, il faudrait idéalement pouvoir utiliser un taux de migration qui prenne en compte les surfaces des cellules, de manière similaire au taux de diffusion du modèle de diffusion classique (voirAnnexe 5). Le développement d'un modèle qui puisse à la fois répondre aux exigences de la coalescence et qui soit complètement indépendant de la résolution est cependant très complexe (Lee Hazelwood, comm. pers.), et n'a pas été envisagé dans le cadre de ce travail.

      Lorsqu'un monde simple, comme celui de la Figure 4.9, est utilisé pour étudier des relations entre démographie et génétique (ce que nous verrons dans le chapitre 4.4), le choix de la résolution est secondaire. En effet, dans un tel monde, il n'y a pas de notion de distances géographiques réelles, seuls importent le nombre de dèmes et les valeurs des paramètres démographiques (par ex. capacité de soutien, taux de migration). Au contraire, la discrétisation d'un monde réel implique que chaque dème va représenter une petite surface de ce monde réel, et plusieurs aspects doivent être alors pris en considération.

      

Fig. 4.9. : Dynamique d'expansion en monde carré, selon plusieurs résolutions, pour une capacité de soutien totale égale

      Les capacités de soutien indiquées (K) sont les valeurs par cellule. Le dégradé de gris des cellules indique leur densité de population. Le pointillé représente un état identique pour le reste des générations. Modèle utilisé: linéaire simple. Taux de croissance: 0.1, taux de migration: 0.2.

      Le premier de ces aspects est la taille d'une sous-population. Un dème, en effet, représente une sous-population homogène considérée comme panmictique (reproduction au hasard des individus). La surface choisie pour un dème doit donc aboutir à une taille raisonnable de sous-population.

      Le deuxième aspect à prendre en compte est lié aux migrations inter-dèmes. Lorsque la durée d'une itération temporelle est la génération, les individus ne peuvent se mouvoir que d'un dème au maximum par génération. Si la taille du dème est très petite, cela peut poser des problèmes de pertinences écologiques par rapport à l'espèce simulée. Pour les chasseurs-cueilleurs, par exemple, il ne serait pas pertinent de choisir une taille de dème de 1 kilomètre, car la vitesse de la vague de migration, au maximum 1 km/génération, serait beaucoup trop lente et non réaliste. Deux solutions peuvent être envisagées pour pallier ces limitations: (1) itération du temps par année, (2) déplacements de plusieurs cellules en une génération (migration à longue distance). La première solution n'est pas compliquée à implémenter pour la démographie. Elle pose par contre de grands problèmes pour le processus de coalescence, liés à la reconstruction de l'historique des taux de migration entre les dèmes contenant des gènes. La deuxième solution, difficile d'implémentation, demande une étude approfondie des paramètres à prendre en considération (distances, friction, etc.). L'exploration de la deuxième solution a été envisagée au sein d'une suite possible au projet Fond National lié à notre travail.

      En plus de la pertinence démographique et écologique de la taille d'un dème, des aspects informatiques sont également à prendre en considération. Les simulations de coalescence demandent d'enregistrer, en mémoire centrale, l'historique complet des tailles de population et des migrations de chaque dème. Pour une surface donnée, une diminution d'un facteur deux de la largeur d'un dème va multiplier par quatre le nombre total de dèmes, et va donc multiplier par quatre la place mémoire requise pour l'historique démographique de ces dèmes. Les temps de calcul vont également être multipliés dans une même proportion. Ces contraintes informatiques deviennent rapidement limitatives dans le choix de la résolution, et la configuration des ordinateurs utilisés est alors le facteur prépondérant à considérer.

      Pour ce travail, nous avons choisi une résolution de 100 kilomètres pour les simulations sur l'Ancien Monde. Cette résolution est un bon compromis au vu des différents aspects discutés précédemment. Elle s'avère également être du même ordre de grandeur que d'autres études similaires sur la dynamique des populations humaines à l'échelle continentale ou globale (exemples: 156 km (Rendine et al., 1986), environ 120 km 34  (Barbujani et al., 1995)).


4.3.6.4. Effets de bord

      Indépendamment de la résolution choisie pour discrétiser le monde, il existe toujours des dèmes qui se situent à la limite du monde. Dans un simple monde carré, ce bord est constitué des dèmes périphériques, alors que dans un monde plus réaliste, comme l'Ancien Monde, il s'agit des dèmes côtiers. Avec ces dèmes particuliers, certains 'effets de bord' peuvent apparaître. La raison de ces effets particuliers réside dans le fait qu'un nombre restreint de dèmes voisins est disponible pour la migration, en comparaison des dèmes centraux pour lesquels existent toujours quatre voisins (voir Figure 4.10).

      

Fig. 4.10. : Visualisation du nombre de cellules voisines (indiqué par un chiffre dans chaque cellule du monde)

      Dans le cas d'un milieu côtier, les effets de bords consistent en une migration proportionnellement plus forte le long de l'élément linéaire côtier, car les cellules de mer ne peuvent être utilisées pour recevoir les migrants. Ce comportement est réaliste et participe à la réalisation d'un monde démographiquement hétérogène.

      Lors de l'utilisation d'un monde simplifié (par exemple en carré), les bords du monde ne possèdent pas forcément une signification écologique particulière. Néanmoins, la prise en compte de ces dèmes particuliers peut perturber la dynamique d'une expansion, et engendrer ainsi un deuxième type d'effets de bord aboutissant à des fluctuations de densité de population. Un exemple est illustré dans la Figure 4.11. Dans cette Figure, nous avons simulé une expansion homogène à partir d'une population initiale située au centre du monde, et avons enregistré les densités de population à plusieurs intervalles de temps.

      Lorsque la vague de migration atteint les bords du monde, nous constatons l'apparition de perturbation des densités et des migrations dues aux effets de bord. Une 'vague de perturbation' des densités et des migrations est alors générée en direction du centre du monde, résultant en un effet 'damier' dans la représentation spatiale des densités (Figure 4.11A). Les nombres de migrants, pour chaque direction (nord, sud, est, ouest) fluctuent de un individu à chaque génération (Figure 4.11B), alors que la densité fluctue de quatre individus par génération (Figure 4.11C).

      

Fig. 4.11. : Effets de bord sur la démographie. (A) expansion dans un monde carré homogène (K=500)

      L'effet 'damier' (fluctuation des densités) a été rendu plus visible en exagérant le dégradé de gris; (B) historique du nombre de migrant pour le dème indiqué par une flèche blanche; (C) historique de la densité pour le même dème que sous (B). Les ovales en pointillé indiquent les fluctuations dues aux effets de bord.

      Ces fluctuations ne sont pas considérées comme réalistes, et elles peuvent généralement être négligées dans la plupart des applications. Néanmoins, elles peuvent être très gênantes lorsque le nombre de migrants ou la densité de population doit être stable et exactement connu, par exemple pour des études qui cherchent à mettre ce nombre en relation avec la valeur d'une statistique génétique. De plus, ces fluctuations ne peuvent pas être compressées dans FRICTION lorsqu'elles sont enregistrées dans l'objet de stockage TimeSto compressé (voir Annexe 4.2).

      Une solution pour éliminer complètement ces effets de fluctuation est de considérer le monde comme un tore (voir Figure 4.12). Dans un tore, chaque dème peut échanger des migrants avec quatre dèmes voisins, et la notion de bord du monde n'existe donc plus. Nous avons implémenté dans FRICTION la possibilité de considérer un monde comme un tore en redéfinissant les pointeurs des dèmes en bord de monde (Figure 4.12B). Cette configuration n'est évidemment pertinente qu'avec l'utilisation d'un monde simple, sans géographie. Avec un monde réaliste comme un continent, les passages d'individus entre les bords du monde n'ont pas de sens.

      

Fig. 4.12. : Représentation spatiale de la structure en tore (A) et de son implémentation dans FRICTION (B)

      Les flèches en B indiquent un pointeur (C++) réciproque entre les dèmes du bord du monde considérés.

      Bien que cette structure en tore soit très intéressante pour s'affranchir de certaines perturbations démographiques, nous ne conseillons pas de l'utiliser systématiquement. Les effets de bord peuvent en effet refléter des situations réalistes de barrières géographiques, et permettent, dans certains cas, de mettre en lumière des comportements démographiques ou génétiques intéressants. Le fait, par exemple, de ne pas avoir utilisé la structure en tore dans l'étude présentée au chapitre suivant, nous a permis de mettre en évidence l'impact potentiel d'un échantillonnage génétique situé à la périphérie du monde.


4.4. Etude de la diversité moléculaire des populations après une expansion spatiale


4.4.1. Résumé de l'étude

      Les liens qui relient l'histoire démographique d'une population et sa diversité génétique (des gènes neutres) ont pu être mis en évidence grâce notamment à la théorie de la coalescence. Bien que cette théorie ait été initialement développée dans le contexte d'une seule population, elle a été rapidement étendue pour prendre en compte des subdivisions de population, ainsi que des migrations potentielles entre ces subdivisions, dans des modèles en îles ou stepping-stone. Un exemple classique de l'influence de la démographie d'une population sur sa diversité moléculaire est la phylogénie en 'peigne' (ou en étoile), qui est obtenue si la population est passée par une récente expansion démographique (Slatkin et Hudson, 1991). Ce type de phylogénie mène à une distribution du nombre de différences par paire de gènes (la distribution mismatch) qui est unimodale (Rogers et Harpending, 1992). L'observation de cette forme de distribution pour plusieurs systèmes génétiques, et pour plusieurs populations, a mené nombre d'auteurs à suggérer que la plupart des populations humaines sont passées par une expansion démographique lors du Pléistocène supérieur (Rogers, 1995; Harpending et al., 1998; Schneider et Excoffier, 1999). Ces signaux d'expansion n'ont cependant pas été observés pour toutes les populations, notamment dans les populations de chasseurs-cueilleurs (Excoffier et Schneider, 1999), et il apparaît très clairement que les modèles démographiques actuels ne peuvent expliquer de manière claire et consistante la diversité moléculaire observée.

      Une des raisons de la difficulté à expliquer les données observées pourrait être que les inférences faites à partir de ces données se basent sur des modèles démographiques qui ne sont pas adéquats. Bien que des études se soient penchées sur l'effet de la subdivision d'une population sur la forme de la distribution mismatch, les effets des expansions spatiales ont été, quant à eux, fort négligés. Une expansion spatiale mène certainement à un accroissement de la taille effective globale d'une espèce, mais il n'est cependant pas connu si cette expansion spatiale produit une signature moléculaire identique à celle obtenue sous une expansion démographique dans une population non subdivisée. Pour répondre à cette question, cette étude utilise un cadre de simulation pour étudier les effets combinés d'expansions spatiales et démographiques sur les caractéristiques de la diversité moléculaire à l'intérieur d'un dème.

      Les simulations ont été réalisées à l'aide du programme FRICTION, dans un monde carré constitué d'un total de 2'500 dèmes (50x50 dèmes) de friction uniforme et de capacité de soutien uniforme égale à K. Au commencement d'une simulation démographique, un seul dème est occupé avec une densité de 100 individus haploïdes. Ce dème initial est localisé soit au centre du monde (position <25;25>), soit en périphérie du monde (position <5;5>). La croissance logistique et les migrations sont simulées pendant 4'000 générations avec le modèle linéaire simple (voir chapitre 0). A l'équilibre (lorsque la densité N atteint K), Km migrants sont envoyés par dème, et par génération, pour un taux de migration égale à m. Pour chaque simulation démographique, 1'000 simulations de coalescence ont été produites sur un échantillon de 30 gènes pour lesquels la diversité de 300 paires de base a été simulée.

      Les résultats montrent premièrement une différence notable de la distribution spatiale et temporelle des événements de coalescence selon la valeur de Nm. Avec une faible valeur de Nm (< environ 20 migrants), une majorité d'événements de coalescence sont récents et géographiquement proches de la localisation de l'échantillonnage, alors que pour une valeur de Nm plus élevée, la plupart des événements de coalescence sont beaucoup moins récents et situés proches de l'origine d'expansion. Ces différences temporelles des événements de coalescence par rapport au Nm se reportent dans les statistiques calculées sur la diversité moléculaire observée. Le nombre moyen de différences par paire, ainsi que le nombre de sites en ségrégation, augmentent avec la valeur de Nm.

      La forme de la distribution moyenne de la mismatch a été étudiée pour diverses combinaisons de K et de m, et il apparaît très clairement que cette forme dépend principalement du produit K x m, et non des valeurs absolues de K ou de m. Une grande valeur de Km produit une généalogie en peigne, et donc une distribution mismatch unimodale, alors qu'une faible valeur de Km produit une généalogie présentant à la fois des branches très courtes et des branches très longues, aboutissant à une distribution mismatch multimodale comportant un mode important pour la classe 0. Cette classe correspond aux paires de gènes qui ne différent par aucune mutation et qui ont donc un ancêtre commun récent.

      Bien que la plupart des populations humaines présentent une distribution mismatch (inférée à partir de la diversité mitochondriale) qui est unimodale, il a été observé que presque toutes les populations de chasseurs-cueilleurs présentent au contraire une distribution mismatch multimodale, avec une classe 0 importante (Excoffier et Schneider, 1999). Ce contraste a été interprété comme la conséquence d'une contraction récente de la taille des populations de chasseurs-cueilleurs, due à une fragmentation de leurs habitats menant à une diminution de leur taille effective. Nos résultats donnent néanmoins une explication différente et plus parcimonieuse des différences de distributions mismatchs entre les populations de chasseurs-cueilleurs et les populations post-Néolithique. En faisant l'hypothèse que la distribution présente des populations humaines résulte d'une expansion spatiale, ces différences de distributions mismatchs viendraient alors simplement du fait que les populations post-Néolithiques ont une plus grande capacité de soutien (et donc une plus grande valeur de Km) que les populations de chasseurs-cueilleurs.

      Nous avons également simulé un accroissement de la capacité de soutien des dèmes pendant le processus d'expansion spatiale, ce qui mène à une croissance démographique, ainsi qu'à une augmentation du nombre de migrants. Les résultats montrent qu'une expansion démographique (passant d'un Nm de 10 à un Nm de 100) ayant eu lieu il y a au moins 100 générations, mène à une distribution mismatch unimodale, comme si la taille des dèmes avait toujours été dix fois plus grande. Au contraire, des expansions démographiques plus récentes mènent à une distribution mismatch multimodale. La valeur de Nm qui prévaut pendant la phase récente est donc le facteur déterminant pour les caractéristiques de la diversité moléculaire à l'intérieur d'un dème. Cela rend notre modèle relativement robuste aux histoires démographiques complexes des populations naturelles ayant passé, depuis leur existence, par de nombreuses fluctuations de taille de population.

      Lorsque l'échantillonnage était situé dans la périphérie du monde, nous avons remarqué une légère baisse de diversité moléculaire pour des faibles valeurs de Nm, et cela quelle que soit l'origine de dispersion. Dans la périphérie, les gènes peuvent moins diffuser, car ils rencontrent la barrière du bord du monde. La probabilité qu'ils coalescent pendant la phase récente du processus de coalescence augmente alors, ce qui mène à un excédent d'événements de coalescence récents. Cela nous a suggéré que pour des espèces avec des capacités de migration faibles, la diversité moléculaire à l'intérieur des échantillons devrait être affectée par des barrières géographiques.

      Suite aux dernières glaciations, des expansions spatiales se sont très certainement produites à partir de zones refuges dans lesquelles des populations de petites tailles ont pu subsister. Puisque la forme de la distribution mismatch, et particulièrement la fréquence des événements de coalescence récents, dépendent des taux de migration récents, il devrait être possible d'estimer des taux d'émigration en échantillonnant des individus provenant d'un même dème et en étudiant leur diversité moléculaire. En utilisant des marqueurs génétiques liés au sexe (chromosome Y ou mitochondriaux), il serait possible de mettre en évidence des caractéristiques de migration ou des tailles efficaces différentes selon le sexe. Une procédure d'estimation des valeurs de Nm à partir d'un seul échantillon, tiré d'une population ayant subi une expansion spatiale récente, est actuellement en cours d'investigation.

      Cette étude a permis de faire la distinction entre les signatures génétiques laissées par des expansions spatiales et démographiques, et a permis de mettre en évidence l'influence prépondérante du nombre de migrants sur ces signatures. Les méthodes disponibles permettant d'estimer les niveaux de flux génique sont généralement dépendantes d'une série d'échantillons. Le flux génique est alors estimé entre les dèmes depuis lesquels les échantillons sont supposés être tirés (voir par ex. Beerli et Felsenstein, 2001). Cela implique que les dèmes échantillonnés échangent des migrants et qu'il est possible de définir la limite géographique des dèmes. La validité de ces deux hypothèses est généralement assez difficile à montrer, mais elle n'est pas nécessaire pour l'analyse d'un seul échantillon. Nous sommes donc confiants que l'analyse des caractéristiques de la diversité moléculaire d'échantillons tirés d'un seul dème permettrait d'obtenir des informations importantes sur l'historique démographique des nombreuses populations ayant passé par une expansion spatiale récente.


4.4.2. Article

      L'étude est présentée, dès la page suivante, sous la forme de l'article paru dans le journal Molecular Biology and Evolution.

      http://mbe.oupjournals.org/cgi/content/full/20/1/76 [accès restreint aux abonnés]


4.5. Simulations sur l'Ancien Monde


4.5.1. Complexifier un monde simple

      L'étude présentée au chapitre précédent a pu mettre en relief l'utilité du programme FRICTION comme outil de simulation pour répondre à des questions dans un monde carré. Un monde carré et homogène est une bonne représentation pour simuler certains processus simples, et pour étudier les variations de certaines réponses (comme la diversité génétique) en faisant varier un nombre limité de paramètres (comme la taille d'un dème et le taux de migration). Les résultats obtenus dans le monde simple peuvent être ensuite extrapolés au monde réel, comme nous l'avons fait dans l'étude précédente concernant les populations de chasseurs-cueilleurs.

      Lorsque des résultats d'expériences utilisant des échantillons de gènes simulés doivent être comparés aux résultats obtenus avec des échantillons de gènes observés, il est important que les conditions de simulation reflètent au mieux les conditions réelles. Il n'est alors plus possible de travailler dans un monde carré, et un monde plus réaliste doit être construit. La première étape de réalisme consiste à représenter les contours des continents, ce qui revient à considérer les masses océaniques comme des barrières totales aux mouvements des individus. Nous pouvons ensuite considérer une variation spatiale de la capacité de soutien et de la friction des différents éléments environnementaux que nous avons retenus (voir chapitre 3). Finalement, un dernier niveau de réalisme consiste à implémenter une variation temporelle de l'environnement.

      Toutes les simulations en monde réaliste de ce travail ont été réalisées sur la surface de l'Ancien Monde, sans prise en considération des Amériques. Ce choix a découlé de notre collaboration avec l'équipe du Dr James Steele (University of Southampton). Cette équipe s'occupe, entre autre, de développer des modèles de la dispersion des chasseurs-cueilleurs dans les Amériques, dispersion dont la spécificité est d'être un événement récent et rapide (voir chapitre 2.2.2). Une mise en commun future des modèles développés par nos deux équipes est envisagée, et permettrait d'avoir un outil de simulation qui puisse prendre en considération des spécificités régionales.

      Les chapitres qui suivent discutent des méthodes principales que nous avons développées afin de pouvoir simuler un dynamisme temporel de l'environnement. Nous commencerons par discuter de la fluctuation de la végétation. Nous poursuivrons en parlant du traitement particulier qu'ont nécessité les milieux côtiers, ainsi que de l'implémentation des changements du niveau des océans. Nous finirons par donner des exemples d'expansions de population dans la configuration réaliste de l'Ancien Monde.


4.5.2. Variabilité temporelle de la végétation

      En partant de l'hypothèse de base que les fluctuations environnementales ont eu un impact significatif sur la dynamique de dispersion des Hommes modernes (voir l'introduction du chapitre 3), nous avons décidé d'implémenter un mécanisme qui permette de simuler ce dynamisme. Dans nos modèles, la végétation est à la base des valeurs de friction et de capacité de soutien attribuées aux dèmes. Si différents types de couverture végétale se succèdent, les ressources liées à ces types de végétation vont varier, impliquant des variations démographiques (densités et migrations). Ces variations démographiques vont alors potentiellement avoir un effet sur le processus de coalescence et sur la diversité génétique d'un ensemble d'échantillons.

      Nous avons vu au chapitre 3.3 que nous n'avons à disposition qu'un nombre très restreint de cartes de végétation à certaines périodes clés. Considérer chacune de ces cartes comme représentative de la végétation pendant la période qui la sépare de la prochaine carte disponible n'est pas très réaliste. En effet, cela engendrerait des changements de végétation trop abrupts entre deux cartes. De plus, nous n'avons pas de carte de végétation pour la période antérieure au dernier maximum glaciaire. Pour une simulation sur les 100'000 dernières années, cela impliquerait alors d'avoir une carte identique pendant environ 80'000 ans, ce qui ne peut plus être considéré comme une simulation dynamique. L'implémentation d'un mécanisme plus réaliste de variabilité temporelle de la végétation consiste donc à trouver un moyen de représenter dans le temps, à intervalle régulier, une carte de capacité de soutien et une carte de friction qui reflètent la variation supposée de la végétation.

      L'évolution spatiale et temporelle de polygones, tels que des zones de végétation, nécessite que ces zones gardent une topologie distincte lors de leurs évolutions. La topologie définit l'unité d'une zone comme un objet distinct. Le développement de techniques SIG qui permettent de conserver la topologie de zones qui évoluent spatialement et temporellement n'en est qu'à ses débuts. Des cadres théoriques sont disponibles (voir par ex. Claramunt et Jiang, 2001; Tzouramanis et al., 2002), mais ils sont très complexes et il n'est pas encore possible de les intégrer dans des structures SIG ou automate cellulaire.

      Pour obtenir une zone spatialement intermédiaire entre deux états extrêmes connus, il existe la technique du morphing. Cette technique a, par exemple, été utilisée dans notre laboratoire, pour étudier la perception des différences entre des visages humains de différentes ethnies et des visages 'hybrides' reconstitués à l'aide du morphing (Roessli, 1998; Mossiere, 2000). Le morphing utilise des points d'ancrage vectoriels sur les images de types raster afin d'interpoler les éléments de l'image pour générer des stades intermédiaires.

      Dans le cadre d'un dynamisme de végétation, l'utilisation d'une technique dérivée du morphing permettrait d'obtenir des zones de végétation intermédiaires entre deux états extrêmes (végétation présente potentielle et végétation LGM). Cela pourrait simuler, de manière relativement réaliste, les stades de retrait ou d'expansion d'un patch de végétation. Bien qu'attrayante, cette technique pose les problèmes suivants:

  • contrairement au morphing entre deux visages, les éléments de végétation individuels ne se retrouvent pas tous dans les deux états extrêmes. Entre deux cartes de végétation à différentes périodes, certaines zones de végétation disparaissent complètement, d'autres se scindent en plusieurs entités, alors que des zones fusionnent pour donner une zone plus grande. Pour la construction de stades intermédiaires, il existe alors un grand nombre de possibilités. En certaines localisations, il serait possible d'utiliser des données palynologiques afin d'en déduire le stade intermédiaire le plus probable. Néanmoins, pour la grande majorité des localisations et des périodes, les informations paléobotaniques ne sont pas disponibles, et le choix de l'état intermédiaire serait alors purement arbitraire (ou laissé au choix du logiciel de morphing).
  • les routines d'implémentation des techniques de morphing sont complexes et ne sont généralement pas disponibles en code source directement intégrable dans un programme comme FRICTION.

      Pour ces raisons, nous avons renoncé à nous lancer dans l'intégration d'une technique dérivée du morphing, et avons préféré une approche que l'on peut qualifier par le terme de 'fondu-enchaîné'. Cette approche consiste à faire varier individuellement la capacité de soutien de chaque dème, en interpolant entre les valeurs extrêmes dérivées des cartes de végétation connues pour certaines périodes climatiques. Il n'y a donc plus la notion de zones de végétation, chaque dème étant une petite surface indépendante. Les deux cartes de végétation 'extrêmes' sont d'une part celle de la végétation présente potentielle (présentée au chapitre 3.3.3) et celle de la végétation au dernier maximum glaciaire (présentée au chapitre 3.3.2). Ces deux cartes peuvent être considérées, dans la période qui nous intéresse, comme étant aux deux extrémités d'un continuum de température globale, avec une température relativement haute présentement, et une température relativement basse au LGM, même si des périodes plus chaudes ou plus froides sont apparues ponctuellement.

      L'idée est d'utiliser les variations de cette température globale comme l'élément déterminant des variations relatives de la végétation. Si la température globale est proche de la température actuelle, la végétation va ressembler à la végétation actuelle. Si cette température est proche de la température au LGM, la végétation va ressembler à la végétation du LGM. L'hypothèse principale est alors de considérer que la température est le facteur important de variation de la végétation. Nous sommes cependant conscients que cette température n'est pas seule en cause. D'autres facteurs comme le type de substrat, l'humidité et la compétition inter-spécifique sont également responsables des variations du couvert végétal (Spikins, 2000). Ces facteurs ont également varié dans le temps, avec des relations (directes ou indirectes) à la température qui sont complexes et que nous ne pouvons pas prendre en compte ici. Néanmoins, la température est généralement considérée comme un facteur important, et des études paléobotaniques ont montré des corrélations entre sa variation et la variation de la végétation (voir par ex. Dorale et al., 1998; Shi et al., 2000).

      En utilisation la variation d'une mesure globale de température, nous faisons également l'hypothèse que ces variations sont reflétées, dans une même proportion, sur toute la surface continentale considérée. Des études ont montré des fortes corrélations entre les paléotempératures inférées d'étude en Antarctique et au Groenland, suggérant effectivement une certaine homogénéité des variations au niveau global, même si la synchronisation des variations est parfois décalée de plusieurs siècles, voir millénaires (Blunier et Brook, 2001). Une étude basée sur des données européennes, spécifique à la période interglaciaire précédente (127-110 ka), a également montré que cette période peut être considérée comme analogue à l'époque actuelle (Holocène) du point de vue du climat (Rioual et al., 2001).


Utilisation de températures préhistoriques

      Des données de températures relatives (par rapport aux températures présentes) ont été dérivées des données des calottes glaciaires provenant du lac Vostok en Antarctique. Ce lac gelé fournit depuis longtemps des carottes extrêmement profondes, permettant de remonter dans l'historique climatique terrestre jusqu'à 420'000 ans (Petit et al., 1999). Les données que nous avons utilisées proviennent d'une base de données (Chapellaz et Jouzel, 1992) rassemblée par un collectif d'auteurs (Lorius et al., 1985; Jouzel et al., 1987; Petit et al., 1990; Ritz, 1992; Jouzel et al., 1993; Sowers et al., 1993; Waelbroeck et al., 1995; Jouzel et al., 1996) pour le programme paléoclimatique de la National Oceanic and Atmospheric Administration aux États-Unis. Plusieurs échelles de temps sont disponibles suivant le modèle choisi. Nous avons utilisé l'échelle temporelle de Jouzel et al. (1996) qui a été obtenue grâce à un modèle prenant en compte un grand nombre de paramètres glaciologiques. Les valeurs de températures relatives sont dérivées des concentrations d'isotopes du deutérium dans les gaz retrouvés dans les bulles d'air des carottes de glace, après application d'un modèle complexe prenant en compte les changements isotopiques de l'eau de mer. La courbe de ces températures, pour la période qui nous intéresse, est présentée dans la Figure 4.13.

      

Fig. 4.13. : Courbe de températures relatives des données provenant des carottes glaciaires du lac Vostok

(Jouzel et al., 1996)

      Dans le programme FRICTION, chaque dème a accès à sa végétation pour les deux périodes extrêmes. Les valeurs de capacité de soutien et de friction peuvent donc être calculées à l'aide des tables de correspondance entre ces valeurs et les catégories de végétation (voir chapitre 4.3.2). Pour obtenir une valeur de capacité de soutien à un temps donné , nous procédons à une simple interpolation entre les valeurs de capacité de soutien des deux périodes extrêmes. Cette interpolation utilise la valeur de la courbe de température de Vostok au temps comme indicateur de la position relative entre les deux périodes extrêmes. La capacité de soutien d'un dème est alors calculée par

      
(4.25)

      où et sont respectivement les capacités de soutien de la végétation présente potentielle et de la végétation au dernier maximum glaciaire, et et sont respectivement les valeurs de températures relatives de Vostok au temps et lors du dernier maximum glaciaire.

      De manière similaire, nous obtenons la friction d'un dème à un temps donné par

      
(4.26)

      où et sont respectivement les frictions de la végétation présente potentielle et de la végétation au dernier maximum glaciaire.

      Ce processus d'interpolation et sa représentation graphique ont été également implémentés dans un module spécifique du programme FRICTION. Ce module, présenté à la Figure 4.14, permet d'obtenir une carte de capacité de soutien (et une carte de friction) pour n'importe quelle période comprise dans l'intervalle de temps des données de Vostok. Ce module peut être utilisé indépendamment pour explorer les cartes intermédiaires obtenues, et pour générer des sorties images.

      Le module d'interpolation des valeurs de friction et de capacité de soutien de chaque dème est également utilisé lors d'une simulation en environnement dynamique, où les routines sont lancées à intervalle régulier. La valeur de l'intervalle du changement dynamique délimite le nombre de cartes intermédiaires qui seront générées pendant le processus. Le temps absolu du commencement d'une simulation est ici important, puisqu'il déterminera la valeur initiale de température relative et donc les valeurs initiales de capacité de soutien et de friction.

      

Fig. 4.14. : Module de végétation dynamique de FRICTION

(1) carte de capacité de soutien de la végétation présente potentielle
(2) carte de capacité de soutien de la végétation au dernier maximum glaciaire
(3) carte hybride obtenue pour la période à -80'500
(4) courbe du changement relatif de température (degrés) tiré des carottes glaciaires de Vostok
(5) échelle de capacité de soutien (nombre de personnes) pour les trois cartes de végétation

      Lors d'une simulation dynamique, la densité de population et les migrations vont varier en fonction des fluctuations de la capacité de soutien. Ce phénomène est illustré pour la densité de population, et pour trois localisations géographiques dans la Figure 4.15. Pour le semi-désert sub-saharien (Figure 4.15A), nous remarquons que la courbe de variation des densités ressemble à la courbe des températures de Vostok, alors que cette courbe est inversée pour l'Inde (Figure 4.15B). Ces courbes dépendent en effet des valeurs de capacité de soutien pour les deux périodes extrêmes que nous considérons. Pour d'autres localisations, comme la France (Figure 4.15C), les valeurs de capacité de soutien ne varient pas énormément entre les deux stades de végétation, ce qui se traduit par une variation de densité moins prononcée. De plus, plus la durée de l'intervalle entre deux changements de végétation est courte, plus les variations de densité vont suivre la courbe initiale des températures relatives.

      

Fig. 4.15. : Exemple de courbes de densité au cours du temps pour une simulation dynamique

      

      Le changement de végétation a lieu tous les 500 ans, ou toutes les 16 générations pour un temps de génération de 30 ans. Les flèches montrent sur la carte le dème considéré dans (A) le semi-désert sub-saharien, (B) l'Inde, (C) la France.

      Un des avantages de notre approche est qu'elle pourrait permettre, potentiellement, de prendre en compte d'autres cartes de végétation connues, si elles étaient disponibles. Il serait alors possible d'intégrer ces cartes dans le processus d'interpolation et ainsi de rendre les états intermédiaires plus réalistes.

      Toutefois, une implémentation réaliste du dynamisme de la végétation est difficile, car elle dépend fortement des données climatiques et paléobotaniques à disposition, ainsi que de la connaissance des mécanismes de transition, parfois très rapides, entre des états environnementaux distincts. Il est possible que notre méthode doive être modifiée pour certaines simulations régionales particulières. Nous pensons notamment à des études simulant des processus de refuge/recolonisation, comme en Europe par exemple (voir Bocquet-Appel et Demars, 2000a). Une implémentation ressemblant davantage au morphing pourrait alors être utile pour permettre à une espèce simulée de suivre un habitat, à la végétation particulière, qui serait lui aussi en expansion/recolonisation. Aux échelles spatiales et temporelles de la présente étude, nous avons cependant préféré implémenter un mécanisme simple de variation de la végétation.


4.5.3. Identification des côtes

      Les côtes font partie, avec les fleuves, des éléments linéaires qui peuvent posséder une capacité de soutien et une friction différentes du milieu qui les environne. L'identification des fleuves se fait de manière simple, par l'importation d'une carte définissant les cellules qui auront la propriété 'fleuve' pendant la durée d'une simulation. Nous avons décidé de ne pas implémenter un mécanisme similaire pour l'identification des côtes, et cela pour les raisons suivantes:

  • Chaque carte de végétation peut avoir une ligne côtière différente selon la période représentée, ce qui signifierait devoir importer une carte des côtes par carte de végétation;
  • Les cartes de végétation et de rugosité devraient avoir un contour côtier correspondant exactement à celui d'une carte des côtes, de façon à éviter des décalages de superposition entraînant des problèmes pour le calcul des capacités de soutien et des frictions;
  • La fluctuation du niveau des océans, que nous discuterons dans le prochain chapitre, implique une géographie changeante des côtes, difficilement réalisable avec l'importation de plusieurs cartes côtières.

      Les côtes sont, par définition, entourées par une ou plusieurs cellules de mer. Ces cellules de mer sont identifiées, dans FRICTION, après que toutes les cartes environnementales ont été importées. Ces cellules représentent également les surfaces pour lesquelles les informations environnementales complètes n'ont pu être déterminées. Le processus de détermination des côtes consiste alors à parcourir toutes les cellules 'non-mer' du monde, et à assigner la propriété 'côte' aux cellules adjacentes à au moins une cellule de mer.

      Comme nous utilisons seulement les quatre voisins directs pour les échanges de migrants entre cellules adjacentes, le cordon de cellules qui représente les côtes doit pouvoir permettre un échange continu d'individus dans ce milieu, sans devoir rencontrer de milieu terrestre 'non-côte'. Pour que cette propriété soit réalisée, l'identification d'une cellule côte se produit lorsqu'une des huit cellules adjacentes (les quatre cellules directes et les quatre cellules diagonales) est une cellule de mer. Une représentation du processus d'identification est présentée dans la Figure 4.16.

      

Fig. 4.16. : Identification des cellules côtes (au moins une cellule de mer sur les huit cellules voisines)


4.5.4. Fluctuations du niveau des océans

      La fluctuation du niveau des océans pendant le Pléistocène supérieur a modifié drastiquement l'étendue des terres émergées en certains endroits. Nous avons implémenté un mécanisme qui puisse représenter ces changements côtiers de manière dynamique, en procédant à une variation du niveau des océans à intervalle régulier. Comme nous l'avons vu au chapitre 3.6.1., deux fichiers d'entrée sont nécessaires pour implémenter ce dynamisme côtier. Nous avons d'abord besoin de la courbe du niveau relatif de la mer au cours du Pléistocène. Ce fichier comprend deux colonnes, l'une contenant le niveau relatif de la mer (en mètres), et l'autre le temps absolu (en années BP) auquel peut être attribué ce niveau. Le deuxième fichier est celui de la bathymétrie, représenté sous forme d'un grid dont chaque cellule possède une valeur d'altitude relative au niveau des mers contemporain.

      Le processus de changement dynamique du niveau des océans se produit à intervalle régulier, toutes les n années (cet intervalle est flexible). Ce processus est synchrone avec celui du changement de la végétation. Comme pour la variabilité temporelle de la végétation, le temps absolu du commencement d'une simulation est important, puisqu'il déterminera le niveau initial de la mer, et donc la surface des terres émergées. Toutes les n années, le processus de changement dynamique sera lancé et procédera aux étapes suivantes:

  1. Identification du niveau relatif de la mer grâce au temps courant de la simulation;
  2. Attribution de l'état immergé/émergé à chaque cellule , grâce à son altitude relative (dérivée du fichier bathymétrique), selon:

      Au niveau du programme FRICTION, le statut 'immergé' ne va pas détruire la cellule (au sens du langage C++), mais va simplement la rendre inaccessible pour l'immigration. Lorsqu'une simulation dynamique est lancée, les modèles démographiques vont donc vérifier l'état de la cellule, et ne pas envoyer de migrants dans les cellules immergées. Lorsqu'une cellule immergée devient émergée suite à un abaissement du niveau de la mer, la taille de population de la cellule est nulle et elle peut donc être colonisée.

      Un problème se pose lorsqu'une cellule émergée devient immergée et que sa taille de population n'est pas nulle. Que fait-on de la population en place? Il ne serait pas réaliste de faire disparaître simplement les individus, puisque ceux-ci auraient largement le temps de se mouvoir pendant l'intervalle de temps entre deux changements dynamiques. Nous avons donc du implémenter une étape de migration supplémentaire dans ce cas particulier, qui consiste à envoyer la totalité des individus dans les cellules voisines qui sont émergées. Lorsque toutes les cellules voisines sont immergées, nous avons néanmoins implémenté la disparition de la population du dème en question. Notons que la probabilité de rencontrer ce dernier cas augmente avec l'intervalle de changement dynamique. En effet, un grand intervalle va amplifier la différence de niveau des mers, et va donc potentiellement immerger des grandes surfaces, ce qui se traduit par un plus grand nombre de cellules immergées qui n'ont aucune voisine émergée.

      Lorsque la nouvelle étendue des terres émergées est définie, il faut procéder à une réassignation des cellules qui constituent les milieux côtiers. Pour cela, l'algorithme présenté au chapitre précédent est appliqué. La réassignation des côtes nécessite également de recalculer les valeurs de friction et de capacité de soutien pour toutes les nouvelles cellules côtières, ainsi que pour les anciennes cellules côtières qui n'ont plus ce statut.

      Les séquences des étapes décrites précédemment sont schématisées dans la Figure 4.28, où sont également mentionnées les étapes du dynamisme de végétation. Le mécanisme central (déclencheur du dynamisme) est appelé à intervalle régulier, toutes les n années, pour permettre les changements des côtes et de la végétation.

      

Fig. 4.28. : Schéma des étapes du dynamisme environnemental (côtier et de végétation) tel qu'implémenté dans FRICTION

      Le déclencheur du dynamisme détermine le pas de temps des changements ainsi que les valeurs de températures servant aux calculs des cartes intermédiaires. Les mécanismes dynamiques sont synchrones entre les côtes et la végétation.

      Les étapes du dynamisme environnemental sont nombreuses et constituent un facteur d'augmentation significative du temps d'exécution d'une simulation. Ce temps augmente linéairement avec la diminution de l'intervalle entre deux changements dynamiques. Le choix de la valeur de cet intervalle peut donc être important pour une étude nécessitant un grand nombre de simulations dynamiques, et pour laquelle une petite valeur d'intervalle aboutirait à un temps total de simulation très élevé.


4.5.5. Expansions démographiques et spatiales

      Une simulation d'expansion dans un monde réaliste implique que l'on définisse l'origine géographique de l'expansion, ainsi que son origine temporelle. Nous avons vu dans les discussions du chapitre 2.2 que donner une valeur à ces origines reste très arbitraire. Le choix de ces origines dépend du modèle d'évolution que l'on veut représenter. La Figure 4.29 donne un exemple de simulation d'expansion depuis l'Afrique de l'est, en considérant alternativement un milieu homogène et un milieu hétérogène. Ces simulations ont utilisé le modèle démographique linéaire simple, avec 3'000 générations de 30 ans, et pour une origine temporelle située à 90 ka. L'expansion simulée correspond donc à un modèle d'origine unique avec une diffusion simple de type 'out of Africa'.

      La première constatation, au vu de cette Figure, est que la dynamique de dispersion est relativement similaire entre le monde à capacité de soutien uniforme ou à capacité de soutien hétérogène. Les différentes régions sont colonisées à peu près au même moment. Des différences sont cependant notables entre les deux configurations du monde, notamment le fait que la zone saharienne (indiquée par une flèche dans la Figure) est colonisée plus lentement. Dans cette zone, la haute friction couplée à une capacité de soutien basse ralentit la vitesse d'avancement de l'expansion.

      Avec le monde hétérogène, les variations de densités reflètent les variations de capacité de soutien sous-jacentes dues à la végétation, ainsi qu'aux fleuves et aux milieux côtiers. Ces variations de densités provoquent des variations de migration selon les régions, de sorte que la dynamique de migration, contrairement à la dynamique d'expansion, est très différente selon une configuration du monde homogène ou hétérogène.

      Les expansions que nous simulons aboutissent à une vague de colonisation qui va traverser tous les milieux. Toutes les régions sont alors colonisées après un laps de temps plus ou moins proportionnel à la distance séparant les régions de l'origine de dispersion. L'Europe, par exemple, est colonisée relativement vite (environ 20 ka) à partir d'une expansion depuis l'Afrique de l'est, alors que l'Australie est atteinte environ 40 ka après le début de l'expansion. Ces durées ne peuvent pas être mises en concordance avec des intervalles de temps attestés, tout au plus pouvons nous dire que leur ordre de grandeurs restent raisonnables par rapport aux théories de dispersion de l'Homme de type 'origine unique' (voir chapitre 2.2). Il ne serait, par contre, pas approprié de faire correspondre des temps d'arrivées absolus dans différentes régions avec les estimations tirées des données archéologiques. Ce serait une démarche similaire à un processus de calibration, et nous aborderons ces problèmes à la fin de ce chapitre.

      

Fig. 4.29. : Simulations d'expansion depuis l'Afrique de l'est avec le modèle démographique linéaire simple, en milieu homogène où K=500 (A), et en milieu hétérogène (B)

      L'intensité du dégradé de gris, pour les zones colonisées, est proportionnelle à la valeur des densités de population. Les temps sont indiqués en années depuis l'origine temporelle de dispersion, en considérant un temps de génération de 30 ans. r=0.1, m=0.2. La flèche montre l'expansion ralentie dans le Sahara.

      Le choix du modèle démographique utilisé peut également influencer la dynamique d'expansion. La Figure 4.30 (A, B, C, D) présente l'état de l'expansion spatiale après 1'000 générations pour le monde uniforme ou hétérogène et en utilisant le modèle démographique linéaire simple ou le modèle densité-dépendant. Pour l'environnement uniforme (A et B), nous pouvons constater que les vitesses d'expansion sous les deux modèles sont très semblables, bien que cette vitesse soit légèrement plus faible pour le modèle densité-dépendant. Ceci est dû au fait que la friction, également uniforme, a été fixée à 0.5 dans cette simulation. Cette valeur de la friction n'influence pas le comportement du modèle linéaire simple, mais elle retarde quelque peu l'envoi de migrants pour le modèle densité-dépendant, d'où la vitesse d'expansion réduite. En environnement hétérogène (C et D), les valeurs de friction attribuées aux différents environnements (voir Tableau 3.2) sont souvent plus faibles (0.1). Ceci a pour conséquence un envoi bien plus précoce des migrants, et amène ainsi la vague de progression à être légèrement plus rapide qu'avec le modèle linéaire simple.

      La simple observation visuelle de résultats démographiques, dans ce monde réaliste, ne peut pas être utilisée pour émettre des conclusions sur les différences de diversité génétique simulée entre les deux modèles. La Figure 4.30 (E, F, G, H) présente les densités des événements de coalescence obtenues sur 20 simulations génétiques (ces cartes sont similaires à celles de la Figure 1 (C,D) de notre article du chapitre 4.4). Comme attendu, ces événements de coalescence se produisent dans le monde uniforme de manière relativement homogène sur la surface considérée. En effet, avec une capacité de soutien de 500 et un taux de migration de 0.2, la valeur de Nm (nombre de migrants) est égale à 100. Nous avons pu mettre en évidence (voir chapitre 4.4.) qu'une telle valeur de Nm permet à une majorité de gènes de diffuser en dehors du dème échantillonné. En considérant le déroulement du temps à l'envers, la plupart des événements de coalescence vont alors se produire lorsque les gènes seront ramenés à l'origine de dispersion, ce qui se traduit par une répartition spatiale relativement homogène de ces événements.

      A l'inverse, l'hétérogénéité environnementale se traduit par des valeurs de Nm très différentes selon les régions. Ces variations de Nm dépendent principalement des différences de capacité de soutien, car le taux de migration (m) est constant pour tous les milieux. Les régions à capacité de soutien basse vont permettre aux gènes de coalescer rapidement, alors que les régions à capacité de soutien plus haute permettront la dispersion des gènes.

      

Fig. 4.30. : Densités de population après 1000 générations (A, B, C, D) et densités cumulées des événements de coalescence pour 20 simulations génétiques (E, F, G, H) obtenues par l'utilisation de deux modèles démographiques (linéaire simple et densité-dépendant) et deux types d'environnement (K uniforme et K hétérogène), r=0.1, m=0.2

      Pour les configurations d'environnement uniforme, la friction a été fixée à 0.5.

      Notons également l'occurrence de 'goulots d'étranglement spatiaux' qui peuvent être définis comme des zones entourées de barrières à la migration. On retrouve cette situation, dans notre monde simulé, dans le sud-est asiatique entre Sumatra et l'Australie. Cette chaîne de dèmes augmente la probabilité que plusieurs gènes se retrouvent dans un même dème et coalescent. Un cas similaire se produit également dans le Levant (entre l'Afrique et le Proche-Orient). Avec une origine en Afrique de l'est, un grand nombre de gènes échantillonnés en dehors d'Afrique vont se retrouver simultanément dans ce goulot d'étranglement spatial lorsqu'il seront ramenés vers l'origine de dispersion par le retour de la vague de migration. Un grand nombre d'événements de coalescence vont alors s'y produire, augmentant la différenciation génétique simulée entre les échantillons africains et non-africains.

      Contrairement aux différences de capacité de soutien, les différences de friction ne modifient pas les valeurs de Nm à l'équilibre. Ces différences de friction vont cependant faire varier les probabilités directionnelles de migration, de sorte qu'il est possible que deux gènes géographiquement éloignés et séparés par des dèmes de faible friction aient une plus grande probabilité de coalescer que deux gènes proches séparés par des dèmes avec des frictions élevées. Dans un monde à friction homogène, par contre, la probabilité que deux gènes de deux échantillons différents se rencontrent est directement proportionnelle à la distance géographique qui sépare les échantillons (les contours continentaux influencent également cette probabilité).

      La diversité moléculaire entre les échantillons simulés est donc potentiellement très différente dans un monde homogène ou dans un monde hétérogène. Nous étudierons certains aspects de l'impact de l'hétérogénéité de l'environnement sur des réponses génétiques dans la dernière partie de ce travail, mais une approche plus complète de la problématique sera trouvée dans le travail complémentaire au nôtre de Mathias Currat (Currat, in prep).


Milieux désertiques

      Une particularité des modèles de dispersion que nous utilisons est qu'ils aboutissent toujours à la saturation d'un milieu donné, c'est-à-dire que la capacité de soutien est atteinte après un certain temps pour tous les dèmes colonisés. Cette particularité amène des milieux comme les déserts à être saturés, ce qui peut poser un problème de réalisme. En effet, ces milieux n'ont jamais été saturés, car leurs ressources ne sont pas réparties uniformément, mais subsistent abondamment en certains endroits, alors que d'autres endroits sont complètement inhabitables. Nous savons néanmoins que des mouvements d'individus ont existé de tout temps dans ces milieux, et que des migrations les ont traversés. Considérer ces déserts comme complètement imperméables n'est alors pas forcément plus réaliste.

      L'option qui a été prise dans ce travail est de considérer une capacité de soutien très basse pour les milieux désertiques (généralement 50 individus par dème de 10'000 km2), et une friction relativement haute. La conséquence de ce choix pour la dynamique de dispersion est un ralentissement de la colonisation pour ces milieux (voir Figure 4.29B). Du point de vue génétique, moins d'événements de coalescence vont se produire dans les déserts, comme on peut le constater en comparant la Figure 4.30E et la Figure 4.30G. Cela est dû principalement à l'effet barrière de ces milieux qui va conduire les gènes situés en périphérie des déserts à coalescer essentiellement entre eux. Notons cependant que si un échantillon se trouvait directement dans les zones désertiques, les gènes coalesceraient principalement dans leur dème d'origine (à cause du faible Nm, dû à une faible capacité de soutien), ce qui se traduirait par un seul pixel noir dans les Figures.

      Le traitement que nous avons appliqué aux zones désertiques nous semble être une approximation satisfaisante pour aboutir à un effet de 'barrière' aux migrations. Nous mettrons en évidence au chapitre suivant, de manière plus formelle, l'importance des variations de capacité de soutien des déserts pour la variation de la vitesse d'expansion.


Calibration des modèles démographiques

      La calibration est le processus par lequel les valeurs de certains paramètres sont modifiées, de sorte que la réponse étudiée (par exemple un temps d'arrivée) soit en adéquation avec certaines données observées. Dans notre cas, nous pourrions imaginer qu'un exercice de calibration puisse utiliser les datations des plus anciens fossiles ou vestiges archéologiques humains dans toutes les régions de l'Ancien Monde comme les périodes potentielles d'arrivée des Hommes modernes dans ces régions, afin d'aboutir à un modèle d'expansion qui explique au mieux ces différences de datation. Nous pensons, cependant, qu'une telle calibration est très difficile, et cela pour les raisons suivantes:

  1. Le matériel fossile et les vestiges humains sont très lacunaires et hétérogènes, spatialement et temporellement, pour ces périodes anciennes. Les datations des squelettes ou des vestiges archéologiques ont souvent une grande incertitude associée. De plus, il n'est pas possible de savoir si les individus fossilisés retrouvés ont eu des descendants. Un modèle d'expansion calibré selon ces dates d'arrivée serait alors extrêmement discutable et dépendrait en partie de datations qui sont encore controversées.
  2. La calibration d'un modèle d'expansion devrait obligatoirement se faire sur la base d'un modèle évolutif défini a priori. Un modèle calibré selon une dispersion out of Africa depuis l'Afrique de l'est ne pourrait pas être utilisé pour tester une expansion depuis un autre endroit, et encore moins avec un modèle évolutif sous-jacent de type multirégional. Cela est problématique lorsque la localisation de l'expansion est justement un paramètre qui peut varier, comme c'est le cas dans notre étude d'assignation d'origine du chapitre 4.7.
  3. Comme nous le verrons dans le chapitre suivant, les variations de certains paramètres démographiques sont la cause de grandes variations dans la dynamique d'expansion. Les incertitudes des valeurs à attribuer à ces paramètres particuliers sont souvent importantes. Les résultats d'expansion d'un modèle calibré sous ces conditions auraient alors une grande incertitude associée.

      En partant de l'hypothèse que nos modèles sont relativement réalistes, ils peuvent donc être utilisés pour tester différents scénarios de dispersion. Les données génétiques simulées selon ces divers scénarios peuvent alors être comparées aux données observées, et des inférences, prudentes, peuvent être faites de ces comparaisons afin de proposer les scénarios démographiques les plus probables. Cette démarche constitue un des buts ultimes du projet FRICTION, et est envisagée comme la suite logique de ce travail. Si les données génétiques sont à la base de cette démarche, nous pouvons également envisager l'utilisation de données archéologiques.

      En effet, la possibilité de pouvoir modéliser des variations temporelles des capacités de soutien, et donc des densités de population, est intéressante dans un contexte où des données de densités de vestiges archéologiques sont disponibles pour plusieurs périodes. Ces variations temporelles de densités observées pourraient être comparées à plusieurs scénarios démographiques et environnementaux alternatifs, et ces comparaisons pourraient permettre de proposer les scénarios démographiques les plus probables. Cette approche s'envisage particulièrement à une échelle spatiale et temporelle réduite. Un exemple pourrait être la diffusion néolithique en Europe, car il existe maintenant des bases de données très fournies sur des datations au radiocarbone d'un grand nombre de vestiges, et des applications permettant leurs visualisations spatiale et dynamique existent (Russell et Steele, 2001). Bien que de nombreux développements restent encore à faire, l'apport de ces données et modèles archéologiques à nos techniques de simulation génétique par la coalescence est de toute évidence très prometteur pour mieux comprendre des événements particuliers de l'évolution humaine.

      Les exemples de simulation d'expansion présentés dans ce chapitre ont été réalisés sous quelques conditions différentes de simulation. Certains paramètres n'ont pas été variés, comme par exemple le taux de croissance et le taux de migration. De plus, il n'est parfois pas aisé de distinguer visuellement les variations d'une réponse démographique, comme un temps d'arrivée, entre différentes simulations. Un outil statistique permettant de mettre en évidence les variations de certaines réponses, en fonction des valeurs des paramètres démographiques et environnementaux, nous est donné par l'analyse de sensibilité. Nous allons aborder cet outil dans le chapitre suivant.


4.6. Analyses de sensibilité


4.6.1. Introduction

      L'analyse de sensibilité (AS) consiste à étudier comment la variation du (ou des) résultat(s) d'un modèle peut être attribuée à la variation (à l'incertitude) des paramètres d'entrée du modèle (Saltelli, 2000). Autrement dit, l'AS détermine la contribution des paramètres dans l'incertitude de la prédiction. Conjointement à l'AS, il est souvent procédé à une analyse d'incertitude (AI) de manière à quantifier l'incertitude totale associée à la réponse d'un modèle par rapport aux incertitudes liées aux paramètres d'entrées.

      Bien que l'AS soit un outil puissant pour étudier la structure d'un modèle, cette technique est trop peu utilisée (Burgman, 2000), surtout dans les études similaires à celles de ce travail, soit le développement de modèles en écologie et en génétique des populations. Preuve en est le peu d'articles qui font mention de ces techniques (mais voir par ex. Stoms et al., 1992; Schippers et al., 1996 ; MacDonald et Rushton, 2003). Néanmoins, les analyses de sensibilité sont très utiles, entre autres pour déterminer (a) quels sont les paramètres qui contribuent le plus à la variabilité des résultats et qui requièrent des recherches supplémentaires afin de diminuer leurs incertitudes associées, (b) les paramètres (ou les parties d'un modèle) qui sont non significatifs et qui peuvent être éliminés du modèle final, (c) s'il y a des régions de l'espace des paramètres d'entrée pour laquelle la variation du modèle est maximum, (d) les régions de l'espace des paramètres d'entrée pouvant être utilisées dans un exercice de calibration, et (e) si des (groupes de) paramètres interagissent entre eux. Dans le cadre du programme FRICTION, les points (a), (b) et (d) sont particulièrement importants, et nous les aborderons dans les applications d'AS de ce chapitre.

      

Fig. 4.31. : Schéma des différentes étapes d'une analyse de sensibilité classique

      Il existe de nombreuses méthodes d'AS (pour une discussion, voir l'Annexe 7.1) qui ont chacune leurs avantages et inconvénients selon le modèle testé et les types d'analyses désirés. La plupart de ces méthodes sont cependant basées sur un schéma standard (illustré à la Figure 4.31) qui consiste à échantillonner, selon une distribution de probabilité, des valeurs pour chaque paramètre d'entrée, et à évaluer de manière itérative le modèle en utilisant les valeurs échantillonnées. La distribution de sortie des résultats est alors analysée (AI), et les méthodes d'AS permettent de décomposer la variance des résultats (AS). Les analyses peuvent alors mener à reconsidérer la structure du modèle ainsi que les distributions des paramètres d'entrée.

      Le modèle d'expansion spatial et démographique de FRICTION est un modèle complexe: il est non linéaire; il contient des paramètres d'entrée discrets et des seuils (par ex. une émigration à partir d'une certaine densité); il est modulaire (des calculs peuvent se passer dans une certaine partie du modèle, leurs résultats être agrégés et passés à un autre module); et il est enfin potentiellement non monotone (spécialement en environnements dynamiques). La non linéarité et la modularité suggèrent fortement que des interactions entre paramètres peuvent être importantes (Frey et Patil, 2002). La structure de notre modèle justifie donc complètement l'utilisation d'une méthode d'AS globale basée sur la variance qui puisse prendre en compte cette complexité. L'Annexe 7.2 discute spécifiquement des méthodes d'AS basées sur la variance, et explique notre choix d'utiliser la méthode FAST (Fourier Amplitude Sensitivity Test) (Saltelli et al., 1999), ainsi que de tester également la méthode de Morris (Morris, 1991).

      Nous allons commencer par expliquer comment l'implémentation de ces outils a été réalisée dans FRICTION. Nous présenterons ensuite deux applications d'AS. La première permettra d'étudier les modèles démographiques dans le monde simple utilisé dans le chapitre 4.4., et la deuxième étudiera ces mêmes modèles dans la configuration plus réaliste de l'Ancien Monde.


4.6.2. Implémentation de l'analyse de sensibilité dans FRICTION

      Après une revue des différents outils d'AS (sur Internet et à travers Chan et al. (2000a)), nous avons choisi d'utiliser le programme SIMLAB (Saltelli et Tarantola, 2001), développé par la Commission Européenne. Plusieurs méthodes d'AS (dont Morris et FAST) sont implémentées dans ce programme qui comprend également des outils d'analyses graphiques pour les résultats. C'est également un outil en développement continu, avec un forum on-line 35  qui permet une interaction aisée avec ses développeurs. Finalement, le code source en C++ de ce programme est disponible, ce qui permettrait, à moyen terme, d'utiliser certaines routines d'AS directement au sein du code FRICTION.

      

Fig. 4.32. : Schéma de la relation entre les programmes SIMLAB et FRICTION, et le cluster Linux pour l'obtention d'une analyse de sensibilité

      Les boîtes rectangulaires sont les programmes et les ovales sont les scripts Linux. Les divers fichiers textes sont représentés par des rectangles lignés.

      L'utilisation du programme SIMLAB a nécessité un développement spécifique de plusieurs outils annexes (scripts) afin de l'intégrer au programme FRICTION et de l'utiliser sur le cluster Linux. La Figure 4.32 donne le schéma des interactions entre les différents programmes, scripts et supports pour l'obtention d'une analyse de sensibilité. Le programme SIMLAB est utilisé pour générer l'échantillonnage des valeurs des paramètres d'entrée (Sample File), qui est ensuite séparé à l'aide d'un script Linux en autant de noeuds disponibles sur le cluster. Chaque noeud va alors exécuter le programme FRICTION en utilisant les jeux de paramètres spécifiés dans les fichiers individuels, et un fichier de paramètres de simulations (Settings File) identique pour chaque noeud. A la fin des simulations, un script va fusionner les fichiers de résultats de chaque noeud en un fichier unique (Outputs File) qui va être lu par SIMLAB dans son module post-processeur. Les analyses des résultats se font alors dans SIMLAB, d'où peuvent être tirés le fichier de sortie (Results File) et les représentations graphiques. Les différents scripts sont disponibles sur l'annexe on-line de la thèse.

      La plupart des conclusions tirées de l'analyse des distributions mismatchs en monde simplifié (voir article au chapitre 4.4) se sont basées sur un certain nombre de réplications des simulations avec plusieurs valeurs des paramètres, attribuées de manière relativement subjective. Un des buts était de déterminer pour quel intervalle de valeurs l'on pouvait percevoir un changement qualitatif de la distribution mismatch. Il s'agissait en fait d'un exercice d'analyse de sensibilité puisque la variation des résultats était inférée aux variations attribuées aux paramètres d'entrée. Afin de procéder à une analyse de sensibilité qualitative robuste sur ces résultats, et sur tout résultat impliquant des comparaisons de statistiques génétiques résumées (summary statistics), il conviendrait de déterminer les variables réponses les plus adéquates pour les questions posées. Ces variables devraient utiliser le maximum d'information d'une distribution telle que la distribution mismatch, tout en prenant en compte les variations stochastiques inhérentes au processus de coalescence. Une recherche statistique approfondie (en cours à l'Université de Berne/CMPG) est encore nécessaire pour aboutir au choix des variables appropriées, et nous n'avons donc pas mené d'AS sur des réponses génétiques. Néanmoins, plusieurs analyses d'AS génétiques sont présentées dans le travail complémentaire au nôtre de Mathias Currat (Currat, in prep).

      Les deux chapitres suivants présentent des applications des analyses de sensibilité sur des réponses de simulations d'expansions démographiques en monde simplifié et en monde réaliste. En plus de donner des résultats importants pour des exercices futurs de simulation, ces applications ont été choisies afin de donner un aperçu des possibilités offertes par les méthodes d'analyse de sensibilité. Le nombre d'évaluations du modèle pour les expériences utilisant la méthode FAST a toujours été égal à 200k, où k est le nombre de paramètres de l'expérience.


4.6.3. Applications des analyses de sensibilité en monde carré uniforme

      Le monde carré uniforme utilisé pour cette application d'AS possède la même configuration que celui de l'article de Ray et al. (2003) (chapitre 4.4.), soit 50x50 dèmes, un départ d'expansion de 100 individus au centre du monde, et 4'000 générations simulées. Le choix des paramètres variés et des réponses étudiées s'est fait de manière à avoir un bon aperçu du comportement démographique de nos modèles, afin de déterminer quels paramètres sont les plus responsables de la variabilité des réponses étudiées. Nous sommes également intéressés de savoir si certains des paramètres n'interviennent pas de manière significative dans les réponses démographiques, afin de pouvoir fixer leur valeur. Les résultats tabulaires détaillés des analyses présentées dans ce chapitre se trouvent dans l'Annexe 7.3.


Paramètres d'entrée

      Six paramètres ont été variés selon le schéma présenté dans le Tableau 4.4. Les trois premiers paramètres sont le taux de croissance, le taux de migration et la capacité de soutien. Ces paramètres possèdent un intervalle de valeurs souvent incertain dont nous avons essayé de cadrer l'étendue dans le Chapitre 2.3. Les trois derniers paramètres du Tableau 4.4 sont directement liés à la structure de nos modèles démographiques. Le paramètre DEMOGRAPHIC_MODEL est un paramètre booléen qui détermine quel modèle démographique est utilisé entre nos deux modèles de base linéaire simple et densité-dépendant (voir Chapitre 4.2.3). Ces deux modèles diffèrent par la relation qui lie la densité et le nombre d'émigrants. Le paramètre FLUCTUATION_AROUND_K est également booléen, et détermine si l'on permet la fluctuation des densités due aux effets de bord, une fois que la capacité de soutien est atteinte. Comme nous ne voulions pas travailler ici avec un monde représenté en tore (voir chapitre 4.3.6.4), nous avons implémenté une fonction spéciale qui permet directement d'éliminer une suite de nombres fluctuants dans l'objet TimeSto.

      
Tabl. 4.4. : Descriptions, fonctions de distribution de probabilité et intervalles des valeurs pour les paramètres utilisés pour l'analyse de sensibilité sur le monde simple carré
Paramètre Description PDFa Intervalle
GROWTH_RATE Taux de croissance Uniforme 0.01 - 0.2
MIGRK_MAX Taux de migration Uniforme 0.05 - 0.3
CARRYING_CAPACITY Capacité de soutien Log Uniforme 100 - 10'000
DEMOGRAPHIC_MODEL 1 = modèle linéaire simple
2 = modèle densité-dépendant
Uniforme discrète 1 - 3
FLUCTUATION_AROUND_K 1 = pas de fluctuations de K
2 = fluctuations de K
Uniforme discrète 1 - 3
LOGISTIC_SLOPE_D Paramètre influençant la pente de la courbe pour le modèle logistique Uniforme 1 - 10
a Probability Distribution Function (PDF), ou fonction de distribution de probabilité

      Le paramètre LOGISTIC_SLOPE_D représente la valeur du paramètre d qui est la pente de la courbe d'émigration pour le modèle densité-dépendant. Les valeurs échantillonnées pour ce paramètre ne sont donc pas utilisées lorsque le modèle linéaire simple est employé, ce dont s'accommode parfaitement la méthode FAST (Stefano Tarantola, comm. pers.).

      Les fonctions de distribution de probabilité (PDF, Probability Distribution Function) des paramètres sont toutes uniformes, excepté pour la capacité de soutien pour laquelle une distribution uniforme logarithmique a été choisie afin que les probabilités d'échantillonnage soient les mêmes dans les sous-intervalles de valeurs 100-1'000 et 1'000-10'000.


Variables de sortie

      Trois variables de sortie d'ordre démographiques et une variable d'ordre informatique ont été choisies. Ces quatre réponses sont:

  1. temps de colonisation du monde. Cette variable est liée à la vitesse d'expansion de la vague de progression de la colonisation. Elle représente le nombre de générations après lequel il y a au moins un individu dans chaque dème du monde.
  2. moyenne du nombre d'émigrants en fin de simulation. Pour les modèles simples basés sur le modèle linéaire simple, le nombre d'émigrants par dème en fin de simulation (en faisant l'hypothèse que tous les dèmes sont saturés en individus) est connu et égal à Nm, où N est la densité et m est le taux de migration. La réponse est ici la moyenne sur tous les dèmes, et prend donc en compte les éventuelles valeurs de Nm modifiées pour les dèmes se trouvant au bord du monde.
  3. moyenne du nombre cumulé de migrants envoyés pendant les 50 premières générations. Ce nombre est similaire à la réponse nº 2, sauf que le nombre d'émigrants par dème est la moyenne sur les 50 premières générations suivant la colonisation de ce dème. Ce nombre renseigne sur les fluctuations ayant lieu pendant la phase de colonisation du dème, informations qui ne peuvent être tirées de l'état final, comme pour la réponse nº 2.
  4. temps d'exécution de la simulation. Cette valeur est retournée sans effort technique particulier, et permet de comparer des temps de calculs pour des options différentes d'implémentation de certaines routines.

Résultats de l'AS par la méthode FAST

      Les résultats de l'analyse d'incertitude sont présentés dans la Figure 4.33A. Il s'agit de la distribution des quatre variables de sortie. Les résultats de l'analyse de sensibilité sont montrés dans la Figure 4.33B et représentent les pourcentages de la variance des variables réponses attribués à chaque paramètre d'entrée.

      

Fig. 4.33. : Résultats des analyses d'incertitude et de sensibilité pour les simulations en monde carré pour les quatre variables de réponses décrites dans le paragraphe précédent

A) Analyses d'incertitude. Les abscisses des graphiques correspondent aux fréquences absolues des réponses du modèle. Les valeurs extrêmes des ordonnées sont les réponses minimum et maximum observées.

B) Analyses de sensibilité. Pourcentages de la variance des variables réponses attribués à chaque paramètre d'entrée. Seuls les paramètres importants sont indiqués. Les pourcentages ont été obtenus par les indices de sensibilité d'ordre totaux de la méthode FAST.

      La première réponse, le temps de colonisation, est affectée principalement par le taux de croissance (57%) et par le taux de migration (22%). Pour expliquer ce résultat, nous pouvons nous rappeler que la dynamique de la vague de progression démographique avec nos modèles est assez semblable à celle obtenue avec un modèle de diffusion classique (voir Annexe 5). Pour la diffusion classique, les résultats analytiques sur la vitesse () de la vague de progression en deux dimensions donnent une importance relative similaire au taux de croissance () et à la constante de diffusion (, analogue à un taux de migration). Dans nos modèles, le taux de croissance et le taux de migration sont donc importants pour la vitesse d'expansion et donc pour le temps de colonisation. Le fait de savoir que le taux de croissance est apparemment plus important que le taux de migration pour la variation du temps de colonisation est important. En effet, si une grande incertitude règne sur l'intervalle du taux de croissance, il ne servirait a rien de vouloir calibrer un modèle en faisant varier d'autres paramètres. Nous reparlerons de cela lors des simulations sur le monde réaliste, dans le chapitre suivant.

      Pour cette même réponse, nous pouvons également noter la faible influence (3%) de la capacité de soutien (K) pour la variation du temps de colonisation. Des variations de la capacité de soutien n'auront donc qu'une influence minime par rapport aux variations appliquées au taux de croissance et au taux de dispersion.

      L'importance relative du taux de croissance et du taux de migration est quantifiée par l'AS, mais l'AS ne peut donner directement les intervalles de valeurs de ces paramètres qui donnent un grand ou un petit temps de colonisation. Pour répondre à cette question, et de manière plus générale pour explorer les résultats d'une analyse d'incertitude, il existe le logiciel UNICORN (UNcertainty analysIs with CORrelatioNs 36 , (Cooke, 2002)). Ce logiciel est un outil très puissant pour déterminer quelles valeurs d'un certain nombre de paramètres sont responsables d'un intervalle de valeur d'une variable de sortie. La Figure 4.34 montre une sortie cobweb de ce logiciel pour les paramètres et la réponse 'temps de colonisation'. Le principe de la représentation cobweb est de relier par un trait, pour chaque simulation, les valeurs échantillonnées des paramètres d'entrée et les valeurs des variables de sortie. Si cela est fait pour toutes les simulations, on obtient le graphique de la Figure 4.34(A). Il est alors possible de conditionner un sous-intervalle de valeurs pour le temps de colonisation, ce qui enlève tous les traits qui ne sont pas associés aux valeurs de ce sous-intervalle. C'est ce que nous avons fait dans la Figure 4.34(B), où le sous-intervalle des grandes valeurs du temps de colonisation est sélectionné. Nous pouvons alors constater que ce sont uniquement les basses valeurs du taux de croissance qui en sont responsables, alors que les valeurs du taux de migration (deuxième colonne) ne sont pas restreintes à un sous-intervalle particulier, mais prennent toutes les valeurs de l'intervalle.

      

Fig. 4.34. : Sorties graphiques du logiciel d'analyse d'incertitude UNICORN

(A) Diagramme cobweb non conditionné des valeurs échantillonnées des paramètres d'entrée (six colonnes de gauche) et de la réponse associée 'temps de colonisation' (colonne de droite).

(B) Diagramme similaire, mais conditionné sur les grandes valeurs de temps de colonisation (encadré rectangulaire), montrant les valeurs associées du taux de croissance (encadré ovale).

      La deuxième réponse étudiée est le nombre d'émigrants à l'équilibre (lorsque N=K). Cette réponse dépend mathématiquement, pour les modèles démographiques utilisés, de la capacité de soutien et du taux de migration, puisque le nombre d'émigrants est alors égal à Km. Seuls ces deux paramètres devraient ressortir dans l'AS. En vu des résultats, ces deux paramètres sont en effet les paramètres prépondérants, avec un pourcentage de la variance de 61% attribué à la capacité de soutien, et un pourcentage de 16% pour le taux de migration. Le fait que d'autres paramètres soient mis en évidence, notamment la pente logistique (10%) et le choix du modèle démographique (9%), suggère que d'autres processus viennent modifier ce nombre d'émigrants à l'équilibre. Une possibilité est que des valeurs différentes de densité apparaissent dans les dèmes se situant dans les bords du monde, impliquant des nombres d'émigrants qui ne sont pas égaux à ceux des dèmes situés au centre du monde. La moyenne du nombre d'émigrants sur tous les dèmes prend alors en compte ces 'effets de bord', dont l'intensité varie avec la combinaison des valeurs des paramètres d'entrée. Pour tester cette hypothèse, nous avons implémenté la même simulation dans le monde carré, mais en permettant au monde d'être représenté comme un tore (voir chapitre 4.3.6.4). L'implémentation en tore permet à tous les dèmes d'avoir le même nombre de dèmes voisins, et uniformise le comportement démographique de tous les dèmes.

      Les résultats de la simulation en tore (voir Annexe 7.3) ne sont qualitativement pas différents de la simulation en monde carré. L'ordre d'importance des paramètres est le même pour toutes les réponses étudiées, bien que quantitativement, des différences de l'ordre de quelques pourcents apparaissent pour certains paramètres. En vu de ces résultats, nous pouvons conclure que les effets de bord n'ont pas d'influence notable sur la variance du nombre moyen de migrants à l'équilibre. Le fait que les paramètres 'pente logistique' et 'choix du modèle démographique' influencent légèrement ce nombre de migrants à l'équilibre provient certainement du fait que lorsque le modèle densité-dépendant est utilisé, des arrondis de valeurs différents peuvent se produire à l'équilibre, selon la valeur de la pente logistique. Ces différentes valeurs d'arrondis participent à faire varier le nombre de migrants à l'équilibre, d'où la mise en évidence dans l'AS des paramètres incriminés.

      La troisième réponse étudiée, la moyenne du nombre d'émigrants envoyés pendant les 50 premières générations suivant la colonisation (appelée nombre d'émigrants cumulés), est influencée par le taux de croissance et le modèle démographique, en plus du taux de migration et de la capacité de soutien. Pendant la phase de colonisation (qui peut durer plus ou moins que 50 générations) le nombre d'émigrants est relié à la croissance démographique du dème. Le taux de croissance, qui contrôle la pente de la courbe de croissance, intervient donc dans la variance du nombre d'émigrants cumulés. Le choix du modèle démographique participe lui aussi à varier ce nombre puisque dans la phase de colonisation, la relation entre le nombre d'émigrants et la densité est soit linéaire (modèle linéaire simple), soit exponentielle (modèle densité-dépendant).

      Les résultats de l'AS sur cette troisième réponse démographique montrent la pluralité des paramètres qui interviennent dans la variance du nombre de migrants pendant la phase de colonisation. Ceci est intéressant au vu des études plus théoriques qui peuvent être menées avec un monde simplifié dans FRICTION. Dans notre étude sur la diversité moléculaire intra-dème (présentée au chapitre 4.4.), nous avions mis en évidence que pour des petites valeurs de Nm (<20), une majorité d'événements de coalescence étaient situés dans le dème échantillonné ou ses alentours. Cependant, une quantité non négligeable de ces événements se produit lorsque des gènes se retrouvent dans le front de migration de l'expansion (pendant la 'collecting phase'). Les probabilités de rencontre des gènes, et donc de coalescence, pendant cette phase dépendent en partie des nombres de migrants échangés entre dèmes. Les résultats de l'analyse de sensibilité montrent que des variations de ce nombre de migrants peuvent être dues à des variations du taux de croissance (que nous avions considéré comme constant dans l'étude de diversité moléculaire intra-dème). Il serait alors intéressant d'étudier spécifiquement l'impact des variations de ce taux de croissance sur la diversité moléculaire. Si un effet important des variations de ce taux était mis en évidence, cela pourrait justifier, pour des études futures dans un monde réaliste, de prendre en compte des taux de croissance spécifiques aux différents environnements considérés. Bien entendu, le choix de considérer des taux de croissance variables devrait également être justifié par des études anthropologiques, mais ce genre d'information est actuellement encore trop peu disponible.

      Les trois réponses démographiques sont très peu influencées (quelques pourcents) par le choix de permettre ou non des fluctuations démographiques de la densité à l'équilibre. Les trois réponses sont également peu influencées (maximum 10%) par la valeur de la pente logistique du modèle démographique MigMaxLogistic. La conséquence de ce résultat est de fixer la valeur de ce paramètre pour toutes les simulations à venir qui utiliseront ces réponses démographiques. Cette décision met en avant l'une des difficultés inhérentes aux résultats d'une analyse de sensibilité globale comme FAST. La théorie ne nous fournit pas un seuil de pourcentage en-dessous duquel la contribution d'un paramètre, pour une réponse particulière, peut être considérée comme négligeable. La décision de fixer la valeur d'un paramètre doit être faite en vue de la question posée et du nombre de paramètres qui sont considérés.

      La quatrième réponse est le temps d'exécution d'une simulation. La forme de la distribution de sortie de cette réponse (Figure 4.33A, point 4) suggère une distribution bimodale. Pour définir quel était le ou les paramètres responsables de ces deux modes, nous avons utilisé le logiciel UNICORN. La Figure 4.35 montre les diagrammes cobweb conditionnés sur les grandes et petites valeurs de la réponse 'temps d'exécution d'une simulation'. Nous pouvons constater que les modes de gauche et droite sont dus, respectivement, à l'implémentation ou non des fluctuations dans le modèle. C'est effectivement ce paramètre qui a le plus grand pourcentage (29%) de la variance du temps d'exécution. Les fluctuations de la densité ne permettent pas la compression des données avec l'objet TimeSto standard (l'objet TimeSto est discuté dans l'Annexe 4.2). Ceci a pour effet une augmentation conséquente de la taille de l'objet TimeSto, et donc une augmentation du temps d'accès aux valeurs stockées dans cet objet, mais également une augmentation du nombre d'exécutions des routines d'écriture des valeurs, ce qui augmente le temps d'exécution totale d'une simulation. Les deux paramètres qui suivent, par ordre d'importance, sont le taux de croissance (24%) et la pente logistique (16%). Cela peut s'expliquer par le fait que ces deux paramètres sont en partie responsables de la variation de la durée de la phase de croissance démographique. Cette variation est reflétée dans la taille de l'objet TimeSto, et donc dans le temps d'exécution.

      

Fig. 4.35. : Sorties graphiques du logiciel d'analyse d'incertitude UNICORN

(A) Diagramme cobweb conditionné sur les grandes valeurs de la réponse 'temps d'exécution' (encadré rectangulaire).

(B) Diagramme similaire, mais conditionné sur les petites valeurs du temps d'exécution (encadré rectangulaire). Pour les deux diagrammes, les encadrés ovales montrent les valeurs associées du paramètre d'entrée 'Fluctuation'.

      Les résultats sur les paramètres importants pour le temps d'exécution peuvent permettre d'optimiser les calculs d'un programme. Dans le cas de FRICTION, ces résultats nous ont fait comprendre l'importance des fluctuations de densité pour le temps total d'une simulation. Ces fluctuations étant enregistrées dans l'objet TimeSto, nous avons alors reconsidéré sa structure afin de permettre une exécution plus rapide des calculs (voir l'Annexe 4.2). L'AS sur des réponses d'ordre 'informatique' peut donc s'avérer être un outil utile, pouvant complémenter un programme profiler 37 , et permettant de mettre en évidence, pour une situation de simulation particulière (ici le monde carré), l'importance de certains paramètres du modèle.


Résultats de l'AS par la méthode de Morris

      La méthode FAST étant une méthode globale quantitative, elle a demandé un nombre relativement élevé (1'200) d'évaluations du modèle. Nous pouvons nous poser la question de savoir si une méthode plus simple et demandant bien moins d'évaluations aurait donné les mêmes résultats. Pour y répondre, nous avons utilisé une méthode de screening, la méthode de Morris discutée à l'Annexe 7.1, pour évaluer les mêmes paramètres avec les mêmes intervalles de valeurs que ceux du Tableau 4.4. Un échantillonnage de dix valeurs par intervalle a été réalisé, résultant en un total de 60 évaluations du modèle. Les résultats de la moyenne et de l'écart-type de la distribution des effets élémentaires obtenus par la méthode de Morris sont présentés dans la Figure 4.36 et sont comparés, dans cette même Figure, avec les résultats obtenus précédemment par la méthode FAST.

      Pour la lecture de la Figure 4.36, rappelons que les valeurs des moyennes de la distribution des effets élémentaires permettent de classer les paramètres par ordre d'importance pour la variation d'une réponse. Les valeurs d'écart-type de cette distribution permettent de déterminer si les effets non-linéaires et d'interactions entre paramètres sont très importants (écart-type élevé) ou peu importants (écart-type peu élevé).

      

Fig. 4.36. : Comparaison des analyses de sensibilité avec la méthode FAST et la méthode de Morris sur l'expansion en monde carré

      Les axes x et y représentent respectivement la moyenne (M) et l'écart-type (ET) de la distribution des effets élémentaires obtenus par la méthode de Morris. Les graphiques en fromage de la méthode FAST sont repris de la Figure 4.33 pour comparaison, et les paramètres les plus importants selon cette méthode sont reliés par un trait à leur représentation selon la méthode de Morris.

      En comparant visuellement les résultats des deux méthodes FAST et Morris, nous remarquons que le paramètre dont le pourcentage FAST est le plus élevé possède systématiquement la moyenne de distribution Morris la plus élevée. Il en est de même pour les deuxièmes paramètres les plus influents pour les réponses 1 et 2. Pour les réponses 3 et 4, les classements ne sont pas toujours similaires. Par exemple pour la réponse 3, le paramètre DEMOGRAPHIC_MODEL est classé en quatrième position alors qu'il sortait en deuxième position avec la méthode FAST, et pour la réponse 4, le paramètre GROWTH_RATE, en deuxième position avec la méthode FAST, est en dernière position avec la méthode de Morris. Ce dernier exemple nous montre que l'importance du taux de croissance aurait été complètement sous-estimée en utilisant uniquement la méthode de Morris.

      Cet exercice de comparaison entre méthodes d'AS nous montre qu'une méthode de screening basée sur un petit nombre d'évaluations du modèle est capable de sortir le paramètre le plus influant, mais que des différences de classement d'importance apparaissent ensuite. Ces résultats ne sont cependant valables que pour le genre de modèle utilisé ici. Nous ne pouvons pas généraliser, car une autre structure mathématique du modèle sous-jacent pourrait donner des résultats très différents. Nous pouvons néanmoins conseiller d'utiliser la méthode de screening de Morris lorsque l'on veut un aperçu rapide du paramètre le plus influent, ou lorsque le temps d'exécution d'une simulation est très grand, tout en sachant que cette méthode ne permet pas l'analyse d'incertitude et que seule une méthode globale quantitative comme FAST peut donner des résultats robustes d'attribution des causes de variation d'une réponse.


Conclusion de l'application en monde carré

      L'utilisation de l'AS sur le monde carré a permis de mettre en évidence l'utilité de cette technique pour la compréhension de certains comportements de nos modèles. L'importance avérée du taux de croissance pour la variation du temps de colonisation est un résultat important. Les expansions spatiales et démographiques de ce chapitre se sont limitées à une configuration simple du monde. Dans le chapitre suivant, nous proposons une approche d'AS similaire, mais avec une configuration de simulations plus réaliste prenant en compte l'étendue de l'Ancien Monde et l'hétérogénéité spatiale, et temporelle, de la capacité de soutien et de la friction.


4.6.4. Applications des analyses de sensibilité en monde réaliste

      Le monde utilisé pour cette application d'AS est l'Ancien Monde dans la projection de Hammer. La question posée est ici de déterminer la répartition, entre des paramètres démographiques et des paramètres environnementaux, de la vitesse d'un processus de colonisation de l'ancien monde. Nous nous intéressons pour cela à la variance du temps d'arrivée au nord-ouest de l'Australie, à partir d'une expansion dont l'origine se situe en Afrique de l'est. Cette configuration de simulation se situe dans le cadre d'un scénario de dispersion de type Out of Africa. Le choix de L'Australie comme arrivée de l'expansion est dû au fait que c'est une des localisations géographiques les plus éloignées de l'Afrique de l'est (en ne prenant pas en compte les Amériques), ce qui maximise la variance des variables réponses étudiées.

      Les simulations ont été réalisées avec le modèle de migration densité-dépendant (dont le paramètre d a été fixé à la valeur 5), et une taille initiale de population de 100 individus. Les paramètres environnementaux qui ont été choisis pour les simulations qui vont suivre peuvent potentiellement agir de manière fort complexe dans la détermination des réponses du modèle. Nous expliquerons néanmoins certains résultats au vu de notre connaissance mathématique du modèle utilisé. Les résultats tabulaires détaillés des analyses présentées dans ce chapitre, ainsi que les valeurs de friction et capacité de soutien utilisées, se trouvent dans l'Annexe 7.


Paramètres d'entrée

      La première expérience utilise la variation de huit paramètres, dont les descriptions, distributions et intervalles sont présentés dans le Tableau 4.5. Les résultats des simulations en monde carré du chapitre précédent ont permis de déterminer que le taux de croissance était le paramètre prépondérant pour la variation de la vitesse d'expansion. Le temps d'arrivée en Australie étant directement lié à la vitesse d'expansion, il est logiquement attendu que le taux de croissance ressorte également comme le paramètre prépondérant pour cette réponse. Afin de mieux discriminer entre les attributions de la variance de la réponse aux autres paramètres d'entrée, nous avons fixé la valeur du taux de croissance à 0.1.

      L'intervalle des valeurs du taux de migration est identique à celui utilisé dans le chapitre précédent. La prise en compte du type de végétation (présente potentielle ou LGM) et de son dynamisme va permettre de quantifier l'importance de ces paramètres. Notons qu'une simulation dynamique (DYNAMISM = 1) va obligatoirement prendre en compte les deux types de végétation, quelle que soit la valeur du paramètre VEGETATION_TYPE. Les quatre derniers paramètres concernent spécifiquement l'impact de la prise en compte des rivières et des côtes comme corridors de migration, par la variation de leur friction et de leur capacité de soutien.

      
Tabl. 4.5. : Descriptions, fonctions de distribution de probabilité et intervalles des valeurs pour les paramètres utilisés pour l'analyse de sensibilité sur le monde réaliste (ancien monde)
Paramètre Description PDFa Intervalle (valeurs)
MIGRK_MAX Taux de migration Uniforme 0.05 - 0.3
VEGETATION_TYPE Type de végétation
0 = présente
1 = LGM
Uniforme discrète 0/1
DYNAMISM Prise en compte du dynamisme
0 = non
1 = oui
Uniforme discrète 0/1
DYNAMIC_CHANGE_TIME Durée (en années) de l'intervalle du changement dynamique Uniforme discrète 300 - 2000
RIV_FRIC_CHANGE_FACT Paramètre de changement de la friction des rivières Uniforme 0.2 - 1
RIV_K_CHANGE_FACT Paramètre de changement de la capacité de soutien des rivières Uniforme 1-10
COAST_FRIC_CHANGE_FACT Paramètre de changement de la friction des côtes Uniforme 0.2 - 1
COAST_K_CHANGE_FACT Paramètre de changement de la capacité de soutien des côtes Uniforme 1-10
a Probability Distribution Function (PDF), ou fonction de distribution de probabilité


Variables de sortie

      Deux variables de sortie sont étudiées. La première est le temps d'arrivée au nord-ouest de l'Australie. Cette valeur est obtenue à la fin de chaque simulation en examinant l'historique de la taille de population à la localisation choisie, et en déterminant à quelle génération cette taille n'est plus nulle. Cette variable est particulièrement pertinente dans le cadre de cette analyse, car elle est liée à la vitesse d'expansion de la vague de progression de la colonisation. L'Australie se trouve également à l'autre extrémité de l'Ancien Monde par rapport à une expansion initialement située en Afrique. Ceci permet à la vague de progression de rencontrer la plupart des environnements, et la variance du temps d'arrivée de cette vague est donc potentiellement influencée par les variations de capacités de soutien de ces environnements.

      La deuxième réponse étudiée est le temps d'exécution de la simulation, de façon similaire au chapitre précédent.


Résultats de l'AS pour les paramètres environnementaux

      Au vu des résultats sur le monde carré du chapitre précédent, il était attendu que le taux de migration ressorte de manière prépondérante dans la liste des paramètres importants. Les résultats de l'analyse FAST pour les indices d'ordre totaux (voir Annexe 7.3) révèlent que la variance sur le temps d'arrivée est attribuée pour 93% au taux de migration, la variance résiduelle étant attribuée à 7% aux autres paramètres. Cette grande importance du taux de migration montre que les paramètres démographiques sont de loin les plus importants, par rapport aux paramètres environnementaux, pour déterminer la vitesse d'expansion du processus de colonisation. Mentionnons également que la variance résiduelle imputée aux variables environnementales serait encore diminuée si le taux de croissance avait été pris en considération comme paramètre d'entrée.

      Avec l'utilisation du taux de migration comme paramètre d'entrée, il n'est pas aisé de mettre en évidence les importances relatives des paramètres environnementaux, puisque les pourcentages de variance attribuée à ces derniers sont très petits. Afin de mieux discerner ces importances relatives, nous avons réitéré l'expérience en fixant le taux de migration à 0.2, et en gardant les sept autres paramètres. Les résultats sont présentés dans la Figure 4.37.

      

Fig. 4.37. : Résultats des analyses d'incertitude et de sensibilité pour les paramètres environnementaux dans les simulations en monde réaliste, pour deux réponses du modèle (temps d'arrivée en Australie et temps d'exécution)

(A) Analyses d'incertitude. Les abscisses des graphiques correspondent aux fréquences absolues des réponses du modèle. Les valeurs extrêmes des ordonnées sont les réponses minimum et maximum observées.

(B) Analyses de sensibilité. Pourcentages de la variance des variables réponses attribués à chaque paramètre d'entrée. Seuls les paramètres importants sont indiqués. Les pourcentages ont été obtenus par les indices de sensibilité d'ordre totaux de la méthode FAST.

      Les résultats sur la distribution de la variance pour le temps d'arrivée en Australie montrent une importance prépondérante du type de végétation utilisé (29%), suivi de l'utilisation ou non du dynamisme environnemental (20%). Les deux types de végétation (présente potentielle ou LGM) génèrent des cartes de capacité de soutien et de friction différentes, et il n'est donc pas étonnant que cela se traduisent en des vitesses d'expansion différentes selon le choix de la végétation. L'utilisation du dynamisme implique également des cartes de capacités de soutien et de friction différentes de celles obtenues lorsque la simulation est statique. Cela participe également à la variation du temps d'arrivée en Australie. Nous pouvons aussi remarquer une influence de la durée de l'intervalle dynamique (12%). La durée de cet intervalle définit le nombre total de changements environnementaux pendant la durée d'une simulation, et participe ainsi à faire varier le temps d'arrivée.

      Les quatre paramètres définissant, pour les côtes et les fleuves, les paramètres de changements de la capacité de soutien et de la friction se partagent les 39% restants. Cela signifie que lorsque les côtes et les fleuves, quand ils sont pondérés de manière à représenter des corridors de migration, influencent la dynamique de migration et la vitesse d'expansion. Ce résultat n'était pas évident en utilisant une simple visualisation de la vague de progression de la migration, ce que nous avions abordé au chapitre 4.5.5.

      La seconde réponse étudiée, le temps d'exécution de la simulation, est principalement influencée par le dynamisme (54%), suivi de la durée de l'intervalle dynamique (17%). L'utilisation des processus dynamiques implique un grand nombre de calculs supplémentaires, ce qui se reflète dans une augmentation de la durée d'exécution de la simulation. Cette durée est aussi influencée par la durée de l'intervalle dynamique. En effet, plus cette durée est courte, plus le nombre de fois que le processus dynamique est enclenché est grand, participant ainsi à la variation du temps d'exécution total de la simulation.


AS des variables de végétation

      Les expériences précédentes ont permis de déterminer l'importance de certains paramètres démographiques et environnementaux sur le temps d'arrivée en Australie. Ce type d'approche est précieux pour connaître les paramètres pour lesquels une attention particulière est demandée pour le choix de l'intervalle de ses valeurs. Il est également possible d'utiliser ces analyses de sensibilité pour déterminer quels types d'environnement influencent plus particulièrement une réponse d'un modèle. L'idée est ici de considérer certains types d'environnements particuliers comme autant de paramètres d'entrée différents dans l'analyse. Si une variable particulière (ici la capacité de soutien), propre à chaque environnement, est échantillonnée de manière indépendante, il est alors possible d'attribuer la variance d'une réponse à ces zones particulières. Nous allons illustrer notre propos par une expérience de variation des capacités de soutien liées aux types de végétation.

      Cette expérience consiste à considérer les huit types de végétation de la carte de végétation présente potentielle simplifiée (voir Annexe 2) comme autant de paramètres indépendants, en leur attribuant spécifiquement un intervalle réaliste de capacités de soutien. Nous avons pour cela développé une fonction spécifique dans FRICTION qui permet de modifier indépendamment la capacité de soutien de chaque type de végétation. Comme chaque dème 'connaît' sa végétation, la fonction va utiliser, au début de chaque simulation, la valeur échantillonnée de K de cette végétation particulière, et va l'attribuer à chaque dème de cette végétation.

      Un paramètre supplémentaire, le type de végétation (présente potentielle et LGM), permet également de savoir si le choix de ce type de végétation est important pour la variance des résultats. Nous avons de plus utilisé une propriété supplémentaire que nous offre l'analyse FAST. Il est en effet possible de grouper des paramètres dans des sous-groupes de paramètres. Cela permet de limiter le nombre d'évaluations du modèle, car un sous-groupe est alors considéré comme un seul paramètre et nécessite donc un nombre de valeurs échantillonnées égal à celui nécessaire pour un seul paramètre. Cela implique par contre que les résultats de l'AS ne peuvent être attribués qu'aux sous-groupes, perdant ainsi l'information détaillée associée à chaque paramètre individuel.

      
Tabl. 4.6. : Descriptions, fonctions de distribution de probabilité et intervalles des valeurs pour les paramètres utilisés pour l'analyse de sensibilité sur le monde réaliste (Ancien Monde)
Paramètre Sous-groupe Description PDFa Intervalle de valeurs
VEGETATION_TYPE Type de végétation Type de végétation
0 = présente
1 = LGM
Uniforme discret 0/1
KDESERT Désert Capacité de soutien du désert Uniforme discret 25 - 75
KSEMIDESERT Semi-désert Capacité de soutien du semi-désert Uniforme discret 507 - 1521
KWARMFOREST Forêts Capacité de soutien des forêts chaudes Uniforme discret 1240 - 3720
KTEMPFOREST Forêts Capacité de soutien des forêts tempérées Uniforme discret 1261 - 3783
KCOLDFOREST Forêts Capacité de soutien des forêts froides Uniforme discret 357 - 1071
KWARMPLAIN Plaines Capacité de soutien des plaines chaudes Uniforme discret 1225 - 3675
KTEMPPLAIN Plaines Capacité de soutien des plaines tempérées Uniforme discret 246 - 738
KCOLDPLAIN Plaines Capacité de soutien des plaines froides Uniforme discret 140 - 420
a Probability Distribution Function (PDF), ou fonction de distribution de probabilité

      Le sous-groupe auquel appartient chaque paramètre est indiqué.

      Les descriptions, distributions et intervalles des huit paramètres sont présentés dans le Tableau 4.6. Nous avons fait deux sous-groupes de paramètres, l'un avec les trois végétations de forêts, l'autre avec les trois végétations de plaines. Nous avons gardé le désert et le semi-désert comme paramètres indépendants, car nous voulions avoir une réponse différenciée entre ces deux types d'environnements. L'utilisation des sous-groupes diminue le nombre de paramètres de neuf à cinq, contribuant de fait à réduire le nombre nécessaire de simulations (passant de 1800 à 1000).

      Les intervalles des valeurs attribués aux paramètres du Tableau 4.6 ont été obtenus en prenant la valeur des estimations de la capacité de soutien moyenne pour la catégorie de végétation simplifiée (voir Annexe 2), et en ajoutant arbitrairement une fraction de 50% de cette moyenne de part et d'autre. Nous obtenons de cette façon des intervalles qui ont des magnitudes de valeurs similaires.

      

Fig. 4.38. : Résultats des analyses d'incertitude et de sensibilité pour les paramètres de végétation dans les simulations en monde réaliste, pour la réponse du temps d'arrivée en Australie

(A) Analyse d'incertitude. Les abscisses des graphiques correspondent aux fréquences absolues de la réponse du modèle. Les valeurs extrêmes des ordonnées sont les réponses minimums et maxima observées.

(B) Analyses de sensibilité. Pourcentage de la variance de la variable réponse attribué à chaque paramètre d'entrée. Les pourcentages ont été obtenus par les indices de sensibilité d'ordre totaux de la méthode FAST.

      Les résultats sur la réponse du temps d'arrivée en Australie montrent une relative importance du type de végétation (54%). Les déserts apparaissent ensuite comme importants (30%) en regard des trois autres types d'environnement qui se partagent une contribution de variance de seulement 16%. Cela signifie que des variations de la capacité de soutien des zones désertiques aboutissent à une plus grande variation du temps d'arrivée en Australie que des variations appliquées à tout autre type de végétation. L'importance des zones désertiques n'est pas due à une surface plus importante de ces zones, puisque les milieux de plaines ont une surface bien plus grande, mais bien aux faibles valeurs de capacités de soutien choisies pour ces milieux. Ce résultat était attendu puisque nous avions délibérément choisi des faibles valeurs de capacité de soutien pour modéliser une dispersion lente dans ces milieux. Des valeurs faibles de capacité de soutien impliquent des nombres de migrants très bas qui sont sensibles aux arrondis en nombres entiers, surtout lorsque l'arrondi se fait entre 0 et 1 migrant. Dans ces cas particuliers, une petite hausse de la capacité de soutien peut permettre l'émigration bien plus tôt, impliquant une variation relativement grande du temps d'arrivée en Australie. Les résultats obtenus confirment que le traitement particulier des capacités de soutien et des frictions des zones désertiques permet d'influencer la vitesse de la vague de progression de la dispersion, lorsque les taux de croissance et les taux de dispersion sont maintenus constants. Le fait que des variations relativement faibles des valeurs de capacité de soutien dans ces milieux puissent avoir une grande influence sur la dynamique de dispersion suggère qu'un effort particulier doit être mené sur la manière de simuler une expansion dans les milieux à très basse capacité de soutien.


Conclusion de l'application en monde réaliste

      Avec cette application des AS en monde réaliste, nous avons premièrement pu mettre en évidence l'importance des paramètres démographiques, par rapport aux paramètres environnementaux, dans la dynamique d'expansion. Ceci prend de l'importance lorsqu'un jeu de simulations doit être préparé, et que les valeurs de tous les paramètres doivent être fixées. Pour la plupart des simulations en monde réaliste (cela sera le cas des simulations présentées au chapitre 4.7), il n'est pas possible de tester un grand nombre de jeux de valeurs des paramètres, car le temps nécessaire à l'obtention des résultats finaux est prohibitif. Il est alors important de savoir quels sont les paramètres qui influencent particulièrement la dynamique de dispersion. La plupart des simulations demandent, par exemple, que la dispersion spatiale atteigne toutes les localisations où l'on procède à un échantillonnage génétique. En connaissant les paramètres qui influencent cette dispersion, il est alors possible d'ajuster les valeurs de ces paramètres afin d'obtenir le comportement désiré.

      Nous avons également pu confirmer, dans ce chapitre, le rôle particulier des zones désertiques. Nous savons que ces milieux ont très certainement joué un rôle prépondérant pour les migrations humaines. Il est donc nécessaire d'arriver à prendre en compte ces milieux de manière adéquate, tant par les valeurs de friction et de capacité de soutien à attribuer, qu'à travers les processus démographiques particuliers que ces milieux requièrent.

      Avec les outils d'analyse de sensibilité liés au programme FRICTION, nous avons à notre disposition un outil puissant d'analyse de modèle. Les statistiques génétiques pourront également être utilisées comme variables réponses de manière similaire à ce qui a été présenté dans les derniers chapitres. Il sera alors possible d'utiliser les outils d'AS pour étudier de manière fine les conséquences de la variation des paramètres démographiques et environnementaux sur ces statistiques génétiques. Cela pourra être envisagé dans un cadre plus théorique, similaire à celui utilisé pour notre étude sur la diversité moléculaire (voir chapitre 4.4), mais également dans un cadre plus appliqué en utilisant l'Ancien Monde et des données environnementales réalistes.


4.7. Comparaison des diversités moléculaires obtenues sous des scénarios démographiques et environnementaux distincts


4.7.1. Buts

      Si nous nous replaçons dans le cadre des données génétiques observées actuellement sur l'Ancien Monde, une hypothèse possible est qu'une origine unique de dispersion a contribué grandement à la diversité observée. Nous avons vu, cependant, que la localisation géographique de cette origine n'est pas déterminée, et qu'elle reste un sujet de controverse parmi les chercheurs, même si la plupart d'entre eux favorisent plutôt une origine africaine, voir plus précisément est-africaine. Le développement de l'outil FRICTION est une opportunité de pouvoir tester diverses origines de dispersion, ainsi que divers modèles démographiques, et de comparer les données génétiques simulées avec les données observées. Lorsque les statistiques de comparaison entre ces données seront complètement développées, elles permettront de tester un grand nombre de scénarios démographiques, dans le but ultime de pouvoir discriminer entre différents scénarios évolutifs.

      Avant d'en arriver à ce stade, il nous reste à passer par une étape cruciale, qui répondra à la question de savoir si nos différents modèles démographiques et génétiques peuvent produire des données suffisamment dissemblables entre elles. En effet, le processus de coalescence est par essence très stochastique. Sur la base d'une simulation démographique, deux arbres de coalescence peuvent avoir une topologie et une longueur très différente, et par conséquent conduire à une diversité moléculaire très dissemblable. Lors de notre étude sur le monde simple (chapitre 4.4), nous avions montré que la diversité génétique est en partie influencée par le produit, Nm, de la densité de population par le taux de migration. Ces résultats nous ont confortés dans l'opinion que différents mécanismes démographiques produisent des signatures génétiques distinctes. Qu'en est-il maintenant de la diversité génétique générée dans un monde bien plus complexe, dans lequel le mouvement des gènes va potentiellement être influencé par l'hétérogénéité du paysage, traduit en des valeurs différentes de capacité de soutien et de friction? Est-ce que les données génétiques obtenues sous ces conditions, et pour des modèles démographiques différents, sont suffisamment distinctes pour être en mesure d'en inférer le modèle démographique utilisé pour les générer?

      Cette dernière question est extrêmement importante. Nos modèles sont en effet développés sur la base de données et de processus environnementaux, démographiques et génétiques, pour lesquels nous avons pris soin d'incorporer un réalisme relativement élevé. Si, quelle que soit l'origine de dispersion (par exemple Afrique, Europe, Asie), nous obtenons des données simulées qui sont très semblables entre elles, nous ne pourrons pas justifier d'utiliser plus tard des données observées pour en soutenir un scénario de dispersion particulier. Si, par contre, différents modèles démographiques génèrent des données génétiques suffisamment distinctes, nous pourrons tester ces modèles sur des données génétiques observées. Cette dernière étape se faisant, bien sûr, sous diverses hypothèses de réalisme des modèles utilisés.

      Pour répondre à la question posée, nous avons dû développer une méthodologie de calculs qui puisse traiter un très grand nombre de résultats de simulation, et qui puisse résumer ces résultats sous la forme de statistiques simples et pertinentes. Avec cette méthodologie, nous voulions pouvoir désigner l'origine géographique probable d'un processus d'expansion spatiale et démographique, en fonction d'un ensemble de données génétiques simulées et observées. Cette origine géographique probable est celle qui donne lieu à des données génétiques simulées qui sont les plus proches des données génétiques observées. La notion de 'plus proche' est traduite dans notre contexte par les données simulées qui sont le plus corrélées aux données observées. Le développement de cette méthodologie a été relativement long, mais son aboutissement a permis d'avoir à disposition des outils souples dans leur configuration, et qui permettent, comme nous allons le voir, d'étudier les effets de différentes variables. Nous allons commencer par décrire cette méthodologie et les outils développés, dont certains d'entre eux seront repris plus en détail dans les Annexes. Nous présenterons ensuite le type de donnée génétique que nous allons simuler, en justifiant l'utilisation de données multilocus.

      Différents tests seront alors présentés. Chacun de ces tests est une petite étude qui répond à une question particulière, que nous poserons chaque fois en introduction. Nous commencerons par les questions relatives au degré avec lequel nos modèles peuvent discriminer entre des données génétiques générées depuis plusieurs origines différentes. Nous continuerons par analyser les impacts de la prise en compte de régions, plutôt que d'origines géographiquement ponctuelles. Les effet de l'hétérogénéité de l'environnement et de son dynamisme seront alors abordés. Nous finirons par la question majeure de ce travail, à savoir si des modèles évolutifs extrêmes (origine unique et évolution multirégionale) peuvent être différenciés.


4.7.2. Méthodes et outils

      La méthodologie générale qui a été implémentée consiste à simuler des expansions spatiales depuis plusieurs origines géographiques potentielles. Pour chacune de ces origines, un grand nombre de simulations génétiques sont alors faites sur la base d'un jeu d'échantillons génétiques spatialement répartis sur l'Ancien Monde. Les données ADN simulées sont de type SNP (Single Nucleotide Polymorphism). Une fois obtenue la totalité des résultats génétiques pour toutes les origines, il est alors possible de comparer les résultats d'une origine avec l'ensemble des résultats des autres origines.

      Ce processus de comparaison aboutit à ce qu'on peut appeler une assignation d'origine, qui peut être résumée succinctement de la façon suivante:

  • Prendre les résultats génétiques d'une simulation x, obtenus par une expansion spatiale depuis une origine i;
  • Comparer ces résultats à tous les résultats des autres simulations, obtenus par une expansion spatiale depuis l'origine i, ainsi que depuis toutes les autres origines j;
  • Si les résultats de la simulation x sont plus semblables aux résultats des simulations obtenues en utilisant l'origine i, qu'ils ne le sont des simulations obtenues en utilisant les origines j, cette simulation est dite bien assignée. Dans le cas contraire, cette simulation est mal assignée.

      Ces assignations d'origines constituent le corps d'un processus complexe de comparaison de résultats de simulations qu'il nous faut maintenant détailler, afin de mieux comprendre les résultats présentés dans les chapitres suivants.


Détermination des origines de dispersion

      La première étape a été de considérer un ensemble d'origines potentielles de dispersion depuis lesquelles les simulations démographiques allaient être lancées. Pour déterminer ces origines, nous avons opté pour un quadrillage régulier de l'Ancien Monde tous les 2000 kilomètres. Cette méthode nous affranchit d'un choix subjectif des localisations. La Figure 4.39A montre l'emplacement des 25 origines générées selon cette méthode. Notons que les origines n° 17, 22, et 24 ont dû être légèrement déplacées de leur configuration initiale, afin qu'elles se retrouvent sur la surface continentale actuelle.

      

Fig. 4.39. : Emplacement des 25 origines après quadrillage de l'Ancien Monde tous les 2000 kilomètres

(A) Localisations géographiques et identificateurs des 25 origines simulées. Les origines sont espacées régulièrement tous les 2000 kilomètres.

(B) Localisations géographiques des 24 échantillons utilisés. Les coordonnées des origines et des échantillons peuvent être trouvées dans l'Annexe 8.

      Le quadrillage des origines nous a paru satisfaisant, car il couvre bien l'ensemble des continents, et le nombre total d'origines reste raisonnable au vu des calculs à effectuer. Pour ce dernier point, afin de garder un nombre d'origines égal à 25, nous n'avons pas considéré les quelques origines qui auraient dû se trouver dans les très hautes latitudes (au nord de la Russie) suivant le quadrillage uniforme. La Figure 4.39B indique l'emplacement des 24 échantillons génétiques simulés (de 30 gènes chacun). Le choix des localisations de ces échantillons s'est fait sur la base des données du HGDP (Human Genome Diversity Project) et du CEPH (Centre d'Étude du Polymorphisme Humain) (voir Cann et al., 2002). Pour compléter la répartition géographique de ces échantillons, nous avons ajouté cinq localisations (voir l'Annexe 8).

      Les données environnementales utilisées pour les simulations sont toutes projetées dans la projection de Hammer, comme nous l'avons justifié au chapitre 4.3.2. Dans cette projection, il n'est pas trivial d'obtenir un fichier de points régulièrement espacés, car les scripts ARCVIEW pouvant générer ces grilles de points fonctionnent généralement avec des données non-projetées 38 . D'autre part, il est important de passer par une étape de contrôle de positionnement des points, de sorte que tous les points se retrouvent sur les surfaces continentales actuelles. Nous avons donc mis en place une méthodologie pour générer un fichier de points régulièrement espacés et vérifiés, qui puisse être ensuite importé dans FRICTION.

      Cette méthodologie est schématisée dans la Figure 4.40. La première étape consiste en l'écriture manuelle dans EXCEL du jeu de coordonnées régulièrement espacées. Ces coordonnées sont ensuite exportées dans ARCVIEW pour permettre de visualiser les points sous forme d'un event theme 39 . Les points sont alors vérifiés visuellement, et tout modification des coordonnées est faite dans EXCEL, jusqu'à ce que l'ensemble des points soient correctement placés sur la surface continentale. Lorsque la table est finalisée dans ARCVIEW, elle est exportée au format texte, et un formatage final des coordonnées est fait dans un éditeur de texte afin de correspondre au format d'entrée de FRICTION.

      

Fig. 4.40. : Schéma de l'obtention d'un fichier texte de coordonnées de points régulièrement espacés en vue d'une simulation dans FRICTION

      Une fois le jeu d'origines obtenu par la méthode ci-dessus, nous avons procédé à une simulation démographique par origine. Pour toutes les simulations présentées dans ce chapitre, nous avons utilisé le modèle de dispersion simple (modèle linéaire simple), non stochastique, de sorte que les résultats démographiques soient déterministes. L'utilisation d'un modèle stochastique aurait demandé de multiplier le nombre de simulations par un facteur 100 ou 1'000, de façon à pouvoir estimer la variance des résultats. Cela n'était pas possible avec la puissance de calcul dont nous disposions et cela malgré le fait que nous ayons pu utiliser un cluster Linux de 40 machines. A moins qu'il n'en soit mentionné autrement, le taux de croissance a été fixé, par génération, à 0.3 et le taux de migration à 0.1.

      Pour chaque simulation démographique, nous avons procédé à 5'000 simulations génétiques. L'ensemble des résultats génétiques, pour la totalité des 25 origines simulées, aboutit à un fichier texte qui comporte 125'000 lignes. Chaque ligne correspond au résultat d'une simulation génétique, consistant en la linéarisation d'une matrice de par paire entre les 24 échantillons génétiques de la Figure 4.93 (les indices seront expliqués plus loin). Cet énorme fichier de résultats prend une place mémoire d'environ 600 Mb et il n'est donc pas aisé de travailler avec un tel fichier. C'est pourquoi nous avons développé un programme spécifique, CORRELATOR, pouvant travailler avec ce fichier, et faire les nombreuses étapes de calculs qui vont être expliquées dans les paragraphes suivants. La structure et les paramètres du programme CORRELATOR sont expliqués de manière plus détaillée dans l'Annexe 9.


Calculs des assignations

      Le processus de calcul des assignations est un processus itératif, qui va parcourir les résultats des simulations de chaque origine, et les comparer aux résultats des simulations des autres origines. Ces calculs se font sur un ensemble de R origines (N simulations par origine), avec comme but d'aboutir à des statistiques qui résument l'ensemble des résultats, et qui permettent de pouvoir comparer diverses configurations initiales des simulations. Nous allons maintenant expliquer les quatre étapes principales aboutissant à l'assignation, à une origine géographique, des résultats d'un ensemble de simulations génétiques:

  1. La première étape consiste à considérer une simulation, appelons-la simulation focale, parmi la première moitié des simulations obtenues avec l'origine de dispersion i. Nous considérons la deuxième moitié 40  des N/2 simulations comme des pseudo-observations. La simulation focale est alors comparée aux N/2 simulations qui constituent cette seconde moitié des simulations obtenues avec l'origine de dispersion i. Chaque comparaison consiste à calculer une corrélation entre les matrices de par paire obtenues pour chaque simulation (qui sont sous forme de deux matrices linéarisées et ) par le coefficient de Pearson (Sokal et Rohlf, 1981, p. 565), selon
  2. (4.27)
  3. , et .
  4. Le calcul des corrélations entre la simulation focale et les N/2 autres simulations de l'origine i aboutit à une distribution de corrélation. En comparant la simulation focale avec les N/2 simulations des autres origines, nous obtenons un ensemble de N/2 distributions de corrélation. Comme il n'est pas aisé de travailler avec la distribution totale, nous avons décidé d'en extraire certains percentiles comme résumés statistiques. Nous avons choisi de garder la moyenne de la distribution, les percentiles 50% (médiane), 60%, 70%, 80%, 90%, et la corrélation maximum (percentile 100%).
  5. Ces résumés statistiques de la distribution sont enregistrés dans une table, où chaque ligne correspond à une origine.
  6. Cette table va permettre de décider à quelle origine est assignée la simulation focale. Pour chacun des percentiles, nous allons en effet déterminer quelle origine donne lieu à la plus grande valeur du percentile. Pour chacune de ces origines assignées (une par percentile), nous incrémentons alors son nombre d'assignations.

      Toutes les étapes précédemment discutées ont été réalisées pour une seule simulation focale de l'origine i. Ces étapes sont ensuite répétées pour toutes les N/2 simulations de l'origine i, afin d'obtenir une fréquence d'assignation moyenne pour l'origine i.


Modèles démographiques utilisés

      Toutes les simulations avec origine unique ont été réalisées avec le modèle de migration linéaire simple. 4'000 générations sont simulées avec un temps de génération de 30 ans, ce qui aboutit à une simulation sur 120'000 ans. La population initiale est fixée à 100 individus, quelle que soit la capacité de soutien du dème de l'origine de départ. Les valeurs des autres paramètres démographiques seront discutées de cas en cas. Les paramètres du scénario démographique du modèle multirégional seront discutés lorsque nous aborderons ce modèle dans le chapitre 4.7.4.5.

      Le modèle d'origine unique que nous utilisons est schématisé dans la Figure 4.41. Comme nous voulions procéder à une comparaison des données provenant d'un scénario à origine unique et d'un scénario multirégional, nous avons dû implémenter une procédure supplémentaire qui permette d'obtenir des temps de coalescence comparables entre les deux scénarios. Cette procédure consiste à permettre un goulot d'étranglement démographique de 100 individus, pendant 10 générations, juste avant le début de l'expansion spatiale, précédé par un effectif efficace de la population de 10'000 individus pendant 30'000 générations (équivalent à une période tau de 780'000 ans). Un effectif final de 100 individus permet alors de forcer le processus de coalescence à se terminer. Nous reparlerons plus en détail de cette contrainte démographique lorsque nous aborderons le scénario multirégional au chapitre 4.7.4.5.

      

Fig. 4.41. : Schéma du modèle d'origine unique utilisé


4.7.3. Données génétiques simulées

      Chaque simulation génétique consiste à générer une généalogie de 24 échantillons de 30 gènes. Les localisations géographiques de ces échantillons ont été illustrées dans la Figure 4.39.


SNPs

      Les données génétiques simulées sont du type SNP (prononcé 'snip'). Un SNP est défini comme un nucléotide possédant deux états dans l'ensemble des échantillons. Les SNPs sont donc considérés comme des systèmes bialléliques. Les SNPs sont abondamment distribués à travers le génome, avec une fréquence d'environ 1 par 1'000 paires de base (Brookes, 1999). Un grand nombre d'études ont montré que certains SNPs sont associés à la diversité entre populations, et sont responsables de la susceptibilité à certaines maladies, ainsi que des réponses individuelles aux médicaments (pour une revue, voir Shastry, 2002). Pour ces raisons, un grand effort de cartographie génétique a été mis en place ces dernières années par plusieurs instituts de recherche, et a mené à la découverte de plus de 1,4 millions de SNPs (disponibles par le SNP Consortium (Thorisson et Stein, 2003), http://snp.cshl.org). Notre choix de simuler des SNPs, plutôt que des données de séquence, s'inscrit dans la volonté de pouvoir tester, valider et mettre à disposition des outils de simulation qui pourront être utilisés avec le type de données prédominantes dans les années à venir.

      Des locus bialléliques, comme les SNPs, contiennent moins d'information que des locus multialléliques comme des microsatellites (répétitions de courtes séquences de quelques nucléotides) ou des séquences d'ADN. Il est cependant possible de considérer plusieurs SNPs comme complètement liés. Ce cas correspond à la situation où plusieurs SNPs se trouvent suffisamment proches les uns des autres sur un même chromosome pour négliger la recombinaison. Un locus de plusieurs SNPs liés est alors considéré comme un haplotype (polymorphisme multiallélique), et contient donc plus d'information génétique qu'un seul SNP.

      Dans les études publiées, un SNP n'est considéré que lorsque sa fréquence totale dans tous les échantillons, ou que sa fréquence dans au moins un échantillon, dépasse une certaine valeur (qui varie selon les études). En-dessous de ces fréquences critiques, il est considéré que le SNP en question n'est pas assez informatif. Pour toutes les simulations de ce chapitre, nous avons considéré une fréquence minimale totale de 0.05, ou une fréquence minimale dans au moins un échantillon de 0.20. Les détails d'implémentation des processus de génération des données SNP peuvent être trouvés dans Currat (in prep). Nous allons maintenant brièvement expliquer le type de résultat génétique que nous allons produire, et la méthodologie qui a été développée pour générer des données multilocus.


Résultats génétiques et données multilocus

      Afin de pouvoir résumer les résultats d'une simulation génétique sur l'Ancien Monde, nous avons besoin d'utiliser une statistique qui incorpore une certaine information spatiale sur les populations, c'est-à-dire qui puisse prendre en compte les différences entre des échantillons (inter-dèmes). Nous ne pouvons donc pas utiliser une distribution mismatch ou les statistique Fs de Fu (Fu, 1997) et D de Tajima (Tajima, 1989), comme nous l'avions fait dans notre étude sur la diversité moléculaire intra-dème (voir chapitre 4.4). Ces statistiques ne peuvent en effet donner des informations que sur une seule population.

      Nous avons donc choisi de résumer les résultats d'une simulation génétique par une matrice de par paire entre tous les échantillons simulés. L'indice est un indice de fixation indiquant le degré de subdivision d'une population. Il est égal à la corrélation de deux gènes pris dans un dème (ou subdivision) de la population, par rapport à deux gènes pris au hasard dans la population totale (pour une discussion des indices de fixation, voir Excoffier, 2001). Cet indice peut être exprimé en terme de temps de coalescence par (Slatkin, 1991)

      
(4.28)

      où est le temps moyen de coalescence de deux gènes tirés de deux échantillons, et est le temps moyen de coalescence de deux gènes tirés du même échantillon.

      Dans le cadre de nos simulations, les indices sont calculés avec les outils de l'analyse de la variance moléculaire (AMOVA, Analysis of MOlecular VAriance, Excoffier et al.(1992)), implémentée dans le logiciel ARLEQUIN (Schneider et al., 2000b), qui prend en compte les fréquences géniques et l'information moléculaire du polymorphisme considéré. AMOVA analyse la variance moléculaire d'une population structurée, c'est-à-dire comprenant des sous-populations d'individus séparées selon divers critères (par ex. environnementaux, linguistiques, culturels). AMOVA est une analyse hiérarchique, car elle partitionne la variance moléculaire totale en des composants de covariance (Rousset, 2001). Pour une hiérarchisation à deux niveaux (ensemble des populations, populations), la variance moléculaire totale () peut être décomposée en un composant de covariance dû aux différences entre haplotypes à l'intérieur d'une population () et un composant de covariance dû aux différences entre haplotypes entre différentes populations (), de sorte que (Cockerham, 1969; 1973).

      Pour l'obtention d'une matrice de par paire, nous ne considérons chaque fois qu'un groupe de deux populations (de taille et ) et nous simulons des données haploïdes, de sorte que l'indice peut être exprimé par

      
(4.29)

      où , et .

      Le logiciel ARLEQUIN a été modifié afin de lister individuellement les valeurs de et de , plutôt que l'indice calculé. Cette manipulation était nécessaire afin de pouvoir calculer des sur des données multilocus.


Données multilocus

      Lorsque locus sont utilisés, il est possible de calculer un indice moyen, non biaisé (Weir et Cockerham, 1984), en utilisant les composants de covariance de chaque locus , par

      
(4.30)

      Pour obtenir un fichier de résultats multilocus sur locus, nous pouvons combiner les résultats de simulations de coalescence, puisque l'histoire généalogique de chaque locus est par définition indépendante. Le fichier initial des résultats de simulation peut alors produire tous les fichiers multilocus désirés. Il existe cependant plusieurs manières de combiner les simulations. Cette problématique est abordée dans l'Annexe 10, dans laquelle figurent également différents tests sur les utilisations de ces méthodes. Sur la base de 5'000 simulations, nous avons échantillonné aléatoirement, avec remise, 5'000 groupes de simulations. Les indices moyens sont alors calculés au sein de chaque groupe pour chaque paire d'échantillons selon l'équation (4.30), ce qui aboutit à un fichier de résultats multilocus dont la forme est similaire au fichier initial des résultats génétiques. Le calcul des assignations d'origine peut donc être mené de manière identique pour le fichier initial et pour chaque fichier multilocus.


Résumé complet des étapes de calculs

      Les étapes de calculs permettant d'aboutir aux résultats finaux résumés sont nombreuses. Plusieurs programmes sont utilisés, et différents scripts Linux ont dû être développés pour permettre d'automatiser certaines étapes. La mise en place du processus complet de calcul a demandé un grand effort de réflexion, afin que les étapes de calculs puissent être bien automatisées, que le temps de calcul global reste raisonnable et que la prise en main de ces outils par d'autres utilisateurs soit facilitée. La Figure 4.42. présente le processus complet de calcul, ainsi que les noms des scripts développés. Ces scripts peuvent être trouvés dans l'Annexe on-line de la thèse (http://cmpg.unibe.ch/thesis/ray/online_annex.htm).

      

Fig. 4.42. : Schéma des étapes nécessaires pour l'obtention des résultats d'assignations d'origine

      Le processus complet doit être répété pour chaque configuration initiale différente de la démographie ou de l'environnement. Les boîtes grisées indiquent des programmes. Les scripts Linux développés pour les calculs sont indiqués en italique.


4.7.4. Résultats et discussions

      Les sous-chapitres suivants présentent les résultats de plusieurs expériences liées aux fréquences d'assignation d'origine. Nous devons mentionner le fait que la plupart des discussions qui vont suivre se basent sur des différences de fréquences moyennes d'assignation entre diverses configurations des simulations. Nous n'avons pas d'outils statistiques qui nous permettent de tester la significativité d'une différence observée entre deux fréquences moyennes.


4.7.4.1. Effets de l'augmentation du nombre de locus

      La première question qui s'impose dans cette étude est le degré de discrimination de nos modèles par rapport au nombre de locus SNP utilisés. Pour répondre à cette question, nous avons procédé à l'énumération des assignations obtenues avec 1 locus de 4 SNPs liés, puis avons fait les mêmes calculs sur des fichiers multilocus à 2, 5, 10, 20, 25, 50, 75, et 100 locus. Le monde considéré est de friction et de capacité de soutien (K=500) uniformes. Une fréquence de bonne assignation est définie comme la fréquence à laquelle un jeu de simulations, obtenu depuis une origine géographique donnée, est assigné à l'origine depuis laquelle ce jeu de simulations a été généré. En faisant la moyenne de ces fréquences pour les 25 origines géographiques considérées, nous obtenons une fréquence moyenne de bonne assignation (que nous appelons, pour simplifier, 'fréquence moyenne d'assignation') pour chaque percentile considéré. La Figure 4.43 présente les résultats sous forme de ces fréquences moyennes d'assignation pour chaque nombre de locus (les valeurs numériques de ces fréquences moyennes, ainsi que leurs écart-types associés, peuvent être trouvés dans l'Annexe 11).

      Au vu des résultats de la Figure 4.43, nous constatons que l'accroissement du nombre de locus augmente remarquablement la fréquence moyenne d'assignation. Avec un seul locus considéré, cette fréquence se situe entre 10 et 15% selon le percentile utilisé, alors qu'avec 100 locus, cette fréquence est entre 90 et 95%. L'utilisation de différents percentiles donne des résultats relativement proches, mais nous remarquons que c'est systématiquement le percentile 90% (F_rp90) qui donne les fréquences les plus hautes, et qui est donc la statistique qui permet la meilleure assignation (et qui est donc mieux à même de discriminer entre des résultats de simulations réalisées depuis des origines différentes). Nous allons donc utiliser ce percentile pour le reste des observations et des discussions de ce chapitre.

      

Fig. 4.43. : Fréquences moyennes d'assignation pour les sept percentiles des distributions de corrélation, et pour différents nombres de locus de quatre SNPs liés

      En utilisant uniquement les résultats du percentile 90%, nous pouvons mieux visualiser la progression de la fréquence moyenne d'assignation en fonction du nombre de locus. Cette progression est illustrée dans la Figure 4.44. Nous avons également indiqué, dans cette Figure, les scores de bonne assignation. Ces scores indiquent, sous forme de fréquences, combien d'origines, sur les 25 origines au total, ont été correctement assignées.

      La progression de la fréquence moyenne d'assignation est régulière, en tendant vers l'unité, alors que les scores d'assignation augmentent et se stabilisent plus rapidement. Cela signifie que la plupart des origines sont bien assignées à partir d'un nombre assez bas de locus. A partir de 20 locus, 24 origines sur 25 sont bien assignées (score de 96%), et ce score reste inchangé pour un nombre supérieur de locus. Il est intéressant de constater que c'est l'origine numéro 25 (une des deux origines australiennes) qui est systématiquement mal assignée. Nous reparlerons plus tard des spécificités des origines australiennes et de leurs conséquences sur les résultats.

      

Fig. 4.44. : Fréquences moyennes d'assignation, et score de bonne assignation pour le percentile 90%

      Ces premiers résultats sont importants et encourageants. En effet, ils montrent qu'avec un nombre suffisant de locus, la probabilité moyenne de retrouver l'origine de dispersion, parmi les 25 origines possibles, s'approche de un. Les simulations démographiques générées en considérant diverses origines sont donc suffisamment différentes pour donner lieu à des résultats génétiques qui peuvent être différenciés en considérant plusieurs locus. Rappelons que si ça n'avait pas été le cas, nous aurions eu peu d'espoir que toute la méthodologie implémentée dans FRICTION puisse permettre de simuler des généalogies génétiques réalistes à l'échelle de l'Ancien Monde.

      Pour les simulations de ce chapitre, nous avons utilisé une configuration simple de l'Ancien Monde, en considérant sa friction et sa capacité de soutien comme uniforme. Nous pouvons nous attendre à ce qu'une hétérogénéité de l'environnement contribue à différencier encore davantage les généalogies obtenues sous diverses origines géographiques. Avant d'étudier l'impact de cette hétérogénéité, il est intéressant de comprendre les effets du choix du nombre de locus liés.


4.7.4.2. Effets de l'hétérozygotie des locus

      Nous avons vu, dans le chapitre précédent, que l'augmentation du nombre de locus est un moyen de pouvoir accroître l'information contenue dans les données génétiques, et permet ainsi de mieux différencier entre les résultats de simulations à origines géographiques différentes. Un autre paramètre qui influence l'information génétique contenue à un locus est le nombre de SNPs liés (hétérozygotie). Comme nous pouvons simuler des locus à un SNP ou à plusieurs SNPs liés, il est alors possible d'étudier les résultats d'assignation d'origine selon diverses configurations des locus.

      La question est alors de savoir s'il est préférable, pour un même nombre total de SNP utilisé, de considérer beaucoup de locus à un SNP ou moins de locus, mais à plusieurs SNPs liés. C'est une question d'intérêt pour nombre d'études qui doivent faire des choix de typage.

      Pour répondre à cette question dans le cadre de nos simulations, nous présentons dans la Figure 4.45. les fréquences moyennes d'assignation pour plusieurs nombres totaux de SNPs. Une partie des données multilocus a été obtenue avec des données initiales de 1 SNP par locus, l'autre partie ayant été obtenue avec des données initiales de 4 SNPs liés par locus. Ces résultats ont été obtenus avec la même configuration du monde que dans le chapitre précédent.

      

Fig. 4.45. : Fréquences moyennes d'assignation, et scores de bonne assignation pour le percentile 90% (scénario uniforme) pour 1 ou 4 SNPs liés

      L'axe horizontal est donné en nombre total de SNPs (nombre de locus x nombre de SNPs liés).

      Les résultats montrent que pour un nombre total de SNPs égal, les fréquences d'assignation sont supérieures si l'on considère des locus à 1 SNP plutôt que des locus à 4 SNPs liés. Cela signifie que l'information génétique apportée par la multiplication des locus est supérieure à l'information qu'apporte le polymorphisme de l'haplotype de 4 SNPs.

      Ce résultat découle des caractéristiques du processus évolutif que nous simulons. En effet, à l'échelle de l'Ancien Monde et pour le nombre de générations utilisé, la variance dans le processus de coalescence est très grande. L'information apportée par les histoires évolutives indépendantes des différents locus est alors importante. 100 locus à un SNP possèdent donc plus d'information que 25 locus à quatre SNPs liés, malgré le fait que la diversité génétique au niveau haplotypique soit plus élevée pour les locus à SNPs liés. Pour des applications dans lesquelles la variance évolutive serait beaucoup plus faible (par ex. un nombre de génération ou de dèmes très bas), l'utilisation de SNPs liés peut être plus avantageuse, grâce à cette diversité haplotypique plus élevée.

      Ces résultats nous seront utiles lorsqu'il s'agira d'utiliser des données observées pour tester les origines potentielles avec nos modèles. Pour un nombre total similaire de SNP, il sera alors plus judicieux d'utiliser une base de données comportant beaucoup de locus et des SNPs indépendants, plutôt que moins de locus à plusieurs SNPs liés.


4.7.4.3. Effet de l'hétérogénéité spatiale et temporelle de l'environnement

      Nous avons vu que des choix alternatifs de l'hétérogénéité spatiale de l'environnement amènent à une histoire démographique différente, et aboutissent donc à une diversité génétique distincte par les processus de coalescence. Dans le cadre des tests d'assignation d'origine, il est alors intéressant de pouvoir mettre en évidence l'impact de cette hétérogénéité spatiale sur les fréquences moyennes d'assignation, ainsi que l'impact d'une hétérogénéité temporelle en simulant les variations de végétation au cours du temps.

      Pour simuler l'hétérogénéité de l'Ancien Monde, nous avons utilisé la carte de végétation présente avec les valeurs de capacité de soutien dérivées des données de Binford (2001) (discutées au chapitre 3.3.5), ainsi que les valeurs de friction du Tableau 3.2. Cette configuration environnementale est dite 'peu hétérogène'. Une deuxième configuration, dite 'très hétérogène', consiste à prendre en plus en considération une capacité de soutien plus haute (d'un facteur deux) pour les côtes et les rivières. Du point de vue de la friction, cette deuxième configuration combine la friction due à la végétation avec la friction due aux reliefs (en terme de rugosité, voir chapitre 3.4.2), en prenant la moyenne de ces deux frictions. Nous considérons également une friction plus basse (d'un facteur deux) pour les côtes et les rivières.

      Pour la prise en compte du dynamisme environnemental, nous avons procédé à une simulation dans un monde similaire à celui de la configuration 'très hétérogène', en y ajoutant une fluctuation de la végétation tous les 500 ans (ou 16 générations). Par souci de réalisme, nous n'avons pas considéré un pont terrestre permanent entre l'Australie et le sud-est asiatique. Nous avons fait coïncider l'apparition de ce pont terrestre avec le dernier maximum glaciaire, aux alentours de 21 ka. La conséquence de cela pour les origines simulées depuis l'Australie est importante, car dans ce cas-là les migrants n'auront que 21'000 ans (à partir de l'apparition du pont terrestre) pour disperser dans le reste du monde et atteindre les localisations des échantillons génétiques. Pour que cela soit réalisable, nous avons dû augmenter quelque peu la vitesse du front d'expansion de la dispersion, en fixant la valeur du taux de croissance à 0.45 et la valeur du taux de migration à 0.15.

      

Fig. 4.46. : Comparaison des fréquences moyennes d'assignation entre quatre scénarios environnementaux (uniforme, peu hétérogène, très hétérogène et dynamique), et pour le percentile 90%

      Les écart-types de chaque valeur sont également indiqué et sont reliés par des pointillés.

      La Figure 4.46. présente les résultats des fréquences moyennes d'assignation pour les deux scénarios d'hétérogénéité et pour le scénario avec un environnement dynamique. Nous y avons également ajouté les résultats obtenus précédemment pour le monde uniforme, afin de faciliter la comparaison.


Hétérogénéité spatiale de l'environnment

      Les résultats montrent premièrement que les fréquences moyennes d'assignation augmentent, pour un nombre de locus donné, avec le niveau d'hétérogénéité spatiale simulé. La configuration sans hétérogénéité ('uniforme') a systématiquement les fréquences les plus basses, alors que la configuration 'très hétérogène' donne des fréquences légèrement supérieures à celles de la configuration 'peu hétérogène'. Ceci est spécialement vérifié pour les petits nombres de locus (entre 1 et 25), puisqu'à partir de 50 locus les fréquences pour les deux niveaux d'hétérogénéité sont très similaires.

      Ces résultats sont liés à la réduction de la variabilité des processus de coalescence lorsque l'hétérogénéité de l'environnement augmente. En effet, cette hétérogénéité va favoriser des valeurs de capacité de soutien différentes autour de chaque origine. Puisque nous avons un taux de migration constant, la valeur de Nm (le nombre de migrants à l'équilibre, voir notre article au chapitre 4.4) des dèmes va être influencée par la valeur de capacité de soutien. Les valeurs de Nm pour les dèmes échantillonnés sont les mêmes pour toutes les simulations effectuées, alors que ces valeurs de Nm varient pour les dèmes d'origine de dispersion, puisque l'origine de dispersion se trouvera dans des environnements différents selon les cas. Les meilleures fréquences d'assignation pour les configurations hétérogènes pourraient donc s'expliquer, en partie, par ces variations de Nm pour chaque origine. Il est aussi assez intuitif d'imaginer que l'hétérogénéité de l'environnement aboutit à des historiques de migration (et donc de probabilité de rencontre de lignages au cours de la coalescence) qui peuvent être bien plus différents, selon l'origine de dispersion, que dans un environnement homogène. Dans un environnement hétérogène, la diversité moléculaire simulée porte alors 'une signature' plus marquée de l'origine de dispersion, ce qui augmente les fréquences moyennes d'assignation. Avec une hétérogénéité croissante, ces 'signatures' sont encore plus marquées, ce qui est observé ici. Comme discuté dans les perspectives de notre article au chapitre 4.4, nous attendons beaucoup de l'étude des paramètres responsables de la diversité moléculaire inter-dème lors d'une expansion spatiale. Il ne fait nul doute que les résultats d'une telle étude permettront d'expliquer de manière plus précise le rôle de l'hétérogénéité de l'environnement pour cette diversité moléculaire.


Hétérogénéité temporelle de l'environnement (dynamisme)

      En ce qui concerne les résultats du dynamisme, nous constatons dans la Figure 4.46. que les fréquences d'assignation sont très similaires, mais légèrement inférieures, aux configurations hétérogènes. Bien que les différences soient minimes et que nous ne sachions pas si elles sont statistiquement différentes, nous pouvons proposer une explication pour ces fréquences inférieures en configuration dynamique. Lors d'une simulation dynamique, les capacités de soutien et de friction varient au cours du temps, ce qui produit, d'une part, des fluctuations importantes de densité de population dans la plupart des dèmes, et, d'autre part, des probabilités directionnelles de migration qui varient dans les dèmes se situant aux frontières entre deux zones de migration. Lors du processus de coalescence, lorsque les lignages se 'déplacent' entre les dèmes et coalescent entre eux, ces fluctuations démographiques vont augmenter la variance (sur plusieurs simulations) du cheminement spatial d'un lignage donné et donc de l'emplacement des événements de coalescence liés à ce lignage. Avec une augmentation de la variance dans la reconstruction des généalogies, une fausse assignation d'origine est plus probable, ce qui diminue la fréquence moyenne d'assignation. Pour illustrer ce dernier point, nous montrons dans la Figure 4.47. les cartes de densité d'événements de coalescence sur les 5'000 simulations, et pour les quatre configurations d'environnement.

      

Fig. 4.47. : Exemples de cartes de densités des événements de coalescence pour les quatre scénarios

      Les flèches indiquent l'origine de dispersion.

      Comme cela avait été mis en évidence dans notre article du chapitre 4.4, nous remarquons tout d'abord les grandes densités de coalescence autour de l'emplacement des échantillons, ainsi qu'autour de l'origine de dispersion. En environnement uniforme, ces événements de coalescence sont distribués de manière bien plus homogène que pour les trois autres configurations dans lesquelles l'environnement est hétérogène. Alors que les différences entre les configurations 'peu hétérogène' et 'très hétérogène' peuvent difficilement être mises en évidence dans cette Figure, les emplacements des événements de coalescence sont plus 'diffus' pour la configuration 'dynamique' sur toute la surface de l'Ancien Monde. Cela pourrait être relié à la plus grande variance des mouvements des lignages dans le processus de coalescence. Si nous ajoutons à cette constatation que la plus grande 'diffusion' dans les emplacements des événements de coalescence est observée pour la configuration 'uniforme', nous pouvons donc postuler qu'une haute fréquence d'assignation est plutôt associée à une configuration d'environnement qui permet moins de variance dans la localisation des événements de coalescence.


Localisations des fausses assignations

      Lorsqu'une simulation assigne de manière erronée une origine, il est intéressant de pouvoir visualiser quelle autre origine est assignée à la place. Est-ce plutôt une origine proche géographiquement de la vraie origine de dispersion? Pour répondre à cette question, nous pouvons utiliser les nombres absolus d'assignations correctes à chaque origine en considérant une origine focale (ici l'origine n° 10 en Afrique de l'est). Nous donnons un exemple de ces nombres pour une dispersion à partir de l'origine n° 10 (Afrique de l'est), avec la configuration 'très hétérogène', dans la Figure 4.48. Dans cette Figure, les 2'500 comparaisons de résultats inter-origines sont réparties spatialement selon l'origine assignée.

      

Fig. 4.48. : Répartition spatiale des assignations d'origine pour les simulations avec une origine en Afrique de l'est (origine n° 10), et pour différents nombres de locus (4 SNPs liés)

      Les grosseurs de points sont relatives au nombre d'assignations (voir la légende). Le nombre d'assignations à la bonne origine n° 10 est indiqué pour chaque carte.

      Nous remarquons dans cette Figure qu'un petit nombre de locus résulte en des fausses assignations d'origines qui se trouvent réparties sur la totalité du monde. En augmentant le nombre de locus, les fausses assignations ont tendance à se situer dans les origines proches de l'origine de dispersion. Ces résultats suggèrent que même avec un nombre relativement restreint de locus, il serait possible de retrouver la région dans laquelle a eu lieu l'origine de dispersion. Une application sur cette notion de région est proposée au chapitre suivant.


4.7.4.4. Assignation régionale

      Les résultats obtenus au chapitre précédent nous ont montré que les 'fausses assignations' d'origine désignaient principalement des origines se situant dans la même région que l'origine simulée. Il est donc important de savoir comment les fréquences d'assignation par région varient avec l'augmentation du nombre de locus. Pour cela, nous avons partagé l'Ancien Monde en quatre grandes régions, comme illustré dans la Figure 4.49. La définition de ces régions correspond aux résultats de l'étude récente de Rosenberg et al. (2002) (voir également les commentaires de Excoffier (2003) et de Excoffier et Hamilton (2003), ainsi que la réponse de Rosenberg et al. (2003)). Dans cette étude, 1056 individus appartenant à 52 populations ont été analysés pour 377 locus microsatellites. Les auteurs ont utilisé le programme STRUCTURE (Pritchard et al., 2000) qui permet de trouver, pour chaque individu, la proportion de son génome qui provient d'une 'population' dont la constitution génétique (inconnue) est estimée par le même procédé. Avec l'hypothèse d'un partage en 5 sous-groupes, l'assignation des individus aboutit à cinq 'populations' représentées géographiquement par les régions de la Figure 4.49 (la cinquième région, non visible, est l'ensemble des Amériques).

      

Fig. 4.49. : Définition des quatre régions géographiques utilisées dans les tests d'assignation par région

      Le choix des régions est basé sur les travaux de Rosenberg et al. (2002).

      Pour le test d'assignation régionale, les résultats d'assignation de chaque origine vont être attribués à la région dans laquelle se trouve l'origine simulée. Une fausse assignation se produit lorsque l'origine assignée se trouve dans une autre région que l'origine simulée. Afin de faire ces calculs d'assignations régionales de façon rapide et automatique, nous avons développé le programme REGIONS. Ce programme permet de définir des régions géographiques, en indiquant les numéros d'origines faisant partie de chaque région. Les fichiers de résultats sont ensuite explorés pour chaque origine afin d'en extraire les nombres d'assignations et de calculer les fréquences d'assignations par région. La description de ce programme peut être trouvée dans l'Annexe 9.

      Les fréquences d'assignation par région, pour le scénario uniforme, sont données dans le Tableau 4.7. Au vu de ce Tableau, nous constatons que les fréquences d'assignation par région augmentent rapidement avec le nombre de locus. Ces fréquences sont également plus élevées, comme nous l'avons déjà constaté, avec l'utilisation de quatre SNPs liés, plutôt qu'un seul SNP, par locus. Si l'on explore les résultats par région, les fréquences sont très similaires pour les régions 1, 2 et 3. Pour la région 4 (les deux origines australiennes), les fréquences varient par contre énormément selon le nombre de locus considéré, ces fréquences étant généralement plus basses que pour les trois autres régions. La raison de ce comportement provient très certainement du fait que seules deux origines font partie de cette région. Il est alors beaucoup plus fréquent qu'une fausse assignation d'origine tombe dans une origine située en dehors de la région 4, ce qui constitue alors une fausse assignation régional. Il est aussi possible que ces résultats soient liés à la particularité géographique des deux origines australiennes. Celles-ci sont en effet séparées de la masse du continent asiatique par la bande relativement étroite du sud-est asiatique. Cette bande constitue en quelque sorte un 'goulot d'étranglement spatial' (voir chapitre 4.5.5). Comme nous l'avons déjà dit, les études futures sur les déterminants de la diversité moléculaire inter-dème pourraient mettre en évidence des particularités de la variance des généalogies en présence de tels goulots d'étranglement spatiaux, ce qui pourrait expliquer les fréquences obtenues pour les origines australiennes.

      Nous avons vu au chapitre précédent que les fausses assignations d'origine se produisent pour une origine qui se trouve aux alentours de l'origine simulée. Dans le cadre des assignations par région, nous pouvons alors postuler qu'une fausse assignation de région aura plus de chance de se produire pour des origines simulées qui se trouvent proches d'une séparation entre deux régions. Pour illustrer cela, nous présentons dans la Figure 4.50 les fréquences d'assignation à la bonne région pour chaque origine, et pour les quatre configurations de l'environnement. Nous constatons particulièrement bien, dans cette Figure, que les origines proches des frontières entre régions ont généralement une plus grande fréquence de fausse assignation que les origines situées loin de ces frontières.

      
Tabl. 4.7. : Résultats des assignations des 25 origines aux quatre régions, pour des locus à 1 SNP ou 4 SNPs liés
1 SNP, percentile 90%
1 locus Région Score Fréquence
1 6867/17500(7) 0.392
2 12797/25000(10) 0.512
3 6125/15000(6) 0.408
4 2283/5000(2) 0.457
Total 28072/62500 0.450
25 locus Région Score Fréquence
1 13358/17500(7) 0.763
2 20201/25000(10) 0.808
3 12718/15000(6) 0.848
4 441/5000(2) 0.088
Total 46718/62500 0.747
2 locus Région Score Fréquence
1 7250/17500(7) 0.414
2 13631/25000(10) 0.545
3 5419/15000(6) 0.361
4 3304/5000(2) 0.661
Total 29604/62500 0.474
50 locus Région Score Fréquence
1 15517/17500(7) 0.887
2 22633/25000(10) 0.906
3 13950/15000(6) 0.930
4 1405/5000(2) 0.281
Total 53505/62500 0.856
5 locus Région Score Fréquence
1 8413/17500(7) 0.481
2 13303/25000(10) 0.532
3 7892/15000(6) 0.526
4 2874/5000(2) 0.575
Total 32482/62500 0.520
75 locus Région Score Fréquence
1 16175/17500(7) 0.924
2 23538/25000(10) 0.941
3 14479/15000(6) 0.966
4 2334/5000(2) 0.467
Total 56526/62500 0.904
10 locus Région Score Fréquence
1 9397/17500(7) 0.537
2 16639/25000(10) 0.670
3 10603/15000(6) 0.707
4 1538/5000(2) 0.308
Total 38177/62500 0.611
100 locus Région Score Fréquence
1 16583/17500(7) 0.948
2 23986/25000(10) 0.960
3 14710/15000(6) 0.981
4 3226/5000(2) 0.645
Total 58505/62500 0.936
20 locus Région Score Fréquence
1 12382/17500(7) 0.708
2 19427/25000(10) 0.777
3 12158/15000(6) 0.811
4 423/5000(2) 0.085
Total 44390/62500 0.710
   
4 SNP, percentile 90%
1 locus Région Score Fréquence
1 7333/17500(7) 0.419
2 12678/25000(10) 0.507
3 6399/15000(6) 0.427
4 3166/5000(2) 0.633
Total 29576/62500 0.473
25 locus Région Score Fréquence
1 15420/17500(7) 0.881
2 22571/25000(10) 0.903
3 14275/15000(6) 0.952
4 2350/5000(2) 0.470
Total 54616/62500 0.874
2 locus Région Score Fréquence
1 8309/17500(7) 0.475
2 12747/25000(10) 0.510
3 8976/15000(6) 0.598
4 2596/5000(2) 0.519
Total 32628/62500 0.522
50 locus Région Score Fréquence
1 16810/17500(7) 0.961
2 23923/25000(10) 0.957
3 14802/15000(6) 0.987
4 4181/5000(2) 0.836
Total 59716/62500 0.955
5 locus Région Score Fréquence
1 10370/17500(7) 0.593
2 16690/25000(10) 0.668
3 11603/15000(6) 0.774
4 652/5000(2) 0.130
Total 39315/62500 0.629
75 locus Région Score Fréquence
1 17168/17500(7) 0.981
2 24463/25000(10) 0.979
3 14909/15000(6) 0.994
4 4634/5000(2) 0.927
Total 61174/62500 0.979
10 locus Région Score Fréquence
1 12894/17500(7) 0.737
2 19436/25000(10) 0.777
3 12854/15000(6) 0.857
4 685/5000(2) 0.137
Total 45869/62500 0.734
100 locus Région Score Fréquence
1 17351/17500(7) 0.991
2 24751/25000(10) 0.990
3 14969/15000(6) 0.998
4 4832/5000(2) 0.966
Total 61903/62500 0.990
20 locus Région Score Fréquence
1 15372/17500(7) 0.878
2 21762/25000(10) 0.870
3 13914/15000(6) 0.928
4 1797/5000(2) 0.359
Total 52845/62500 0.846
   

      Les numéros de région correspondent à ceux mentionnés dans la Figure 4.39. Les scores sont donnés selon: nombre d'assignations dans la région/nombre total de simulations depuis cette région (nombre d'origines dans la région).

      

Fig. 4.50. : Fréquence d'assignation à la bonne région (portion noire) et de fausse assignation (portion blanche), pour chaque origine

      Les quatre scénarios sont traités pour 25 ou 50 locus (4 SNPs liés par locus). Les séparations entre les quatre régions sont indiquées par des traits noirs.


4.7.4.5. Origine unique ou évolution multirégionale?

      Toutes les simulations présentées jusqu'à présent ont été réalisées à partir d'une origine unique de dispersion. La théorie multirégionale (voir chapitre 2.2.1) prédit, quant à elle, que la diversité moléculaire humaine observée n'est pas due à une origine unique de dispersion récente. Cette théorie suppose qu'un intervalle de temps de plusieurs centaines de milliers d'années s'est produit depuis la première dispersion d'Homo erectus, et que des échanges de migrants ont eu lieu pendant cette période entre les différentes régions continentales de l'Ancien Monde. Selon cette théorie, il y a donc eu une continuité dans les échanges génétiques entre populations, ce qui se traduit par un processus de coalescence des gènes qui remonte à la période ancestrale de la première dispersion d'Homo erectus.

      Dans le contexte des deux grandes théories, multirégionale ou origine unique, nous pouvons envisager de répondre à une question très intéressante grâce à la méthodologie des assignations d'origine: à quel degré une diversité moléculaire simulée sous l'une des deux théories peut-elle être similaire à celle obtenue sous l'autre théorie? Cette question est importante, car s'il s'avérait que cette diversité moléculaire ne pouvait être différenciée sous ces deux théories, il y aurait peu de chance de pouvoir utiliser des données génétiques observées pour différencier plusieurs scénarios d'évolution.

      Il n'est pas trivial de simuler un processus lié à la théorie multirégionale, surtout en ce qui concerne la définition géographique des populations régionales et des intensités de migration entre ces populations. Nous avons décidé de simuler trois populations situées géographiquement en Afrique, Europe et Asie, comme dans Takahata et al. (2001). Nous considérons un modèle multirégional simple, sans prise en compte de grands événements migratoires ponctuels, comme l'a proposé Templeton (2002) (voir Figure 2.1). La Figure 4.51 illustre le schéma de simulation utilisé.

      Notre modèle consiste à simuler trois expansions spatiales distinctes pendant 4'000 générations, à partir des trois régions géographiques mentionnées ci-dessus. En remontant dans le temps, lorsque le processus de coalescence dépasse la 4'000ème génération, les trois 'populations' régionales restent subdivisées, mais un certain nombre de migrants peuvent être échangés entre ces populations pendant un temps tau fixé à 780'000 ans. Le nombre total de générations simulées pendant tout le processus est donc de 30'000, ce qui est équivalent à 900'000 ans pour une durée de génération de 30 ans. Le nombre de générations simulées correspond au temps qui séparerait la fin de la première dispersion d'Homo erectus de la période contemporaine. Une très grande incertitude règne sur cette valeur de temps, mais la valeur de 900'000 ans est raisonnable et similaire à celle utilisée dans d'autres études (Takahata et al., 2001). En fin de simulation génétique, tous les lignages restants sont ramenés dans un 'dème' commun de densité de population égale à 100, ce qui permet de terminer rapidement le processus de coalescence.

      

Fig. 4.51. : Schéma du modèle multirégional

      Les flèches grises indiquent que des gènes peuvent émigrer d'une région à une autre.

      L'expansion spatiale simulée pendant les 4'000 premières générations se produit sous un scénario démographique et environnemental donné, identique à un des scénarios de base déjà utilisé dans les paragraphes précédents pour les expansions depuis une origine unique. En plus de ces scénarios de base, nous avons considéré neuf scénarios multirégionaux, dont chacun possède une combinaison différente des effectifs efficaces des populations régionales, ainsi que des taux de migration entre ces populations. Ces scénarios sont présentés dans le Tableau 4.8. La première séparation des scénarios s'est faite sur la base de la valeur Nm (nombre d'émigrants par génération), qui prend les valeurs 0.1, 1 et 10. Ces valeurs de Nm sont obtenues, par région, en multipliant l'effectif efficace N par le taux d'émigration m propres à la région. La valeur de m est également la probabilité d'émigration pour un gène se trouvant dans la population régionale. Pour obtenir les valeurs de Nm utilisées, les valeurs de m sont donc généralement petites (en accord avec la théorie multirégionale), car les effectifs efficaces sont relativement grands. Lorsqu'un gène émigre d'une région donnée, il est aléatoirement dirigé vers l'une des deux régions réceptrices.

      Les scénarios n° 1, 2 et 3 considèrent un effectif efficace et un taux d'émigration identiques pour les trois régions. L'intensité de la migration est donc similaire entre les régions.

      Pour les scénarios n° 4, 5 et 6, cet effectif efficace a été fixé à une valeur relative beaucoup plus grande (10'000) pour l'Afrique que pour les deux autres régions (500). Les taux d'émigration ont été ajustés de sorte que l'intensité de la migration soit la même depuis chaque région. La valeur de 10'000 pour l'effectif efficace africain est régulièrement trouvée dans la littérature, avec parfois des valeurs estimées un peu plus grandes (entre 10'000 et 20'000) selon le système génétique utilisé (Hammer, 1995; Takahata et al., 1995; Sherry et al., 1997; Takahata et Satta, 1997; Bergström et al., 1998; Harpending et al., 1998; Kaessmann et al., 1999). Cette configuration de simulation, avec un effectif efficace beaucoup plus grand pour l'Afrique, correspond également à ce qui peut être trouvé dans les travaux de Takahata et al. (2001). Ces auteurs ont pu mettre en évidence, par simulation, que des scénarios multirégionaux arborant une différence de taille efficace entre régions similaires à nos scénarios n° 4, 5 et 6 pouvaient expliquer les données observées pour certains systèmes génétiques.

      Les scénarios n° 7, 8 et 9 considèrent des effectifs efficaces identiques aux trois scénarios précédents, mais la valeur de m est identique pour les trois régions. L'intensité de la migration est donc 20 fois plus forte depuis l'Afrique que depuis l'une des deux autres régions. La Figure 4.52. schématise les intensités de migration et les effectifs efficaces pour les trois groupes de scénario.

      
Tabl. 4.8. : Scénarios multirégionaux testés. Nm correspond au produit de Ne par la probabilité d'émigration m
Scénario Ne
(effectif efficace)
m
taux d'émigration ou probabilité d'émigration pour chaque gène)
  Afrique Europe Asie   Afrique Eur/Asie
1 Nm = 0.1 (partout) 5'000 5'000 5'000   0.00002 0.00002
2 Nm = 1 (partout) 5'000 5'000 5'000   0.0002 0.0002
3 Nm = 10 (partout) 5'000 5'000 5'000   0.002 0.002
4 Nm = 0.1 (partout) 10'000 500 500   0.00001 0.0002
5 Nm = 1 (partout) 10'000 500 500   0.0001 0.002
6 Nm = 10 (partout) 10'000 500 500   0.001 0.02
7 Nm = 0.1 (en Afrique) 10'000 500 500   0.00001 0.00001
8 Nm = 1 (en Afrique) 10'000 500 500   0.0001 0.0001
9 Nm = 10 (en Afrique) 10'000 500 500   0.001 0.001

      

Fig. 4.52. : Schéma des scénarios multirégionaux

      Les flèches représentent les migrations entre les régions, l'épaisseur des flèches étant relative à l'intensité du flux migratoire (Nm). La taille de chaque région est proportionnelle à son effectif efficace.

      Les effectifs efficaces des trois populations régionales pendant la deuxième phase de coalescence peuvent donc parfois prendre des valeurs relativement élevées de plusieurs milliers d'individus. Ces effectifs efficaces élevés ne peuvent généralement pas être contenus dans un seul dème au début de l'expansion spatiale, car la capacité de soutien des dèmes ne le permet pas. Pour permettre de simuler un effectif élevé des populations initiales, nous avons implémenté un mécanisme permettant de répartir un nombre arbitraire d'individus sur un ensemble de dèmes en fonction de leur capacité de soutien. Une illustration des résultats d'une telle répartition est trouvée dans la Figure 4.53. Le mécanisme de répartition est implémenté par le biais d'une fonction récursive qui va explorer les dèmes, autour d'un dème central, dans le sens des aiguilles d'une montre. Les individus sont assignés à chaque dème visité en le saturant à sa capacité de soutien. Le mécanisme de répartition des individus s'arrête lorsque tous les individus ont été attribués à un dème.

      

Fig. 4.53. : Localisation des trois origines pour les scénarios multirégionaux

      A chaque origine, 5'000 individus sont répartis dans un environnement hétérogène (configuration 'très hétérogène'), selon la capacité de soutien des dèmes. L'intensité du gris correspond à la densité de population dans le dème. Ces effectifs efficaces initiaux correspondent aux scénarios multirégionaux n° 1, 2 et 3.

      Avec chaque configuration environnementale ('uniforme', 'peu hétérogène', 'très hétérogène' et 'dynamique'), nous avons procédé à 5'000 simulations pour chaque scénario multirégional. Pour une configuration environnementale donnée, nous avions les résultats pour 25 scénarios d'origine unique, ainsi que pour 9 scénarios d'évolution multirégionale. La première question était alors de savoir combien de simulations à origine unique pouvaient être assignées à un scénario d'évolution multirégionale, et vice-versa. La démarche pour répondre à cette question a été la suivante:

  1. Les résultats des simulations multirégionales ont été ajoutés au fichier des résultats des simulations à origine unique;
  2. Chaque scénario multirégional a été considéré comme une 'origine' alternative à laquelle pouvaient être assignés les résultats d'une simulation;
  3. Deux 'régions' ont été définies: la première région était l'ensemble des 25 origines uniques, et la deuxième région était l'ensemble des neuf 'origines' multirégionales;
  4. Le programme REGIONS (voir Annexe 9) a ensuite été utilisé, sur la base des deux 'régions', afin de déterminer les assignations de chaque simulation. Les résultats d'une simulation pouvaient donc être assignés à un des 25 scénarios d'origine unique ou à un des neuf scénarios d'évolution multirégionale. Dans ce contexte, l'assignation correcte d'une simulation se produit lorsqu'une simulation à origine unique est assignée à n'importe quel scénario à origine unique, ou lorsqu'une simulation d'évolution multirégionale est assignée à n'importe quel scénario d'évolution multirégionale. Une fausse assignation est donc définie lorsqu'une simulation est assignée au faux scénario évolutif.

      Les résultats de cette démarche pour la configuration 'très hétérogène' sont trouvés dans le Tableau 4.9. Les résultats pour les trois autres configurations sont très similaires et sont présentés dans l'Annexe 11.

      
Tabl. 4.9. : Fréquences de bonne assignation entre les scénarios à origine unique (O.U.) et les scénarios d'évolution multirégionale (E.M.), pour la configuration de l'environnement 'très hétérogène', et pour 1 un 4 SNPs liés
1 SNP, percentile 90%, scénario 'très hétérogène'
1 locus Scénario Score Fréquence
O.U. 56001/62500(25) 0.896
E.M. 5781/22500(9) 0.257
Total 61782/85000 0.727
25 locus Scénario Score Fréquence
O.U. 61203/62500(25) 0.979
E.M. 22428/22500(9) 0.997
Total 83631/85000 0.984
2 locus Scénario Score Fréquence
O.U. 56949/62500(25) 0.911
E.M. 9356/22500(9) 0.416
Total 66305/85000 0.780
50 locus Scénario Score Fréquence
O.U. 62105/62500(25) 0.994
E.M. 22499/22500(9) 1.000
Total 84604/85000 0.995
5 locus Scénario Score Fréquence
O.U. 59807/62500(25) 0.957
E.M. 15728/22500(9) 0.699
Total 75535/85000 0.889
75 locus Scénario Score Fréquence
O.U. 62403/62500(25) 0.998
E.M. 22500/22500(9) 1.000
Total 84903/85000 0.999
10 locus Scénario Score Fréquence
O.U. 60656/62500(25) 0.970
E.M. 20834/22500(9) 0.926
Total 81490/85000 0.959
100 locus Scénario Score Fréquence
O.U. 62479/62500(25) 1.000
E.M. 22500/22500(9) 1.000
Total 84979/85000 1.000
20 locus Scénario Score Fréquence
O.U. 60961/62500(25) 0.975
E.M. 22290/22500(9) 0.991
Total 83251/85000 0.979
   
4 SNPs liés, percentile 90%, scénario 'très hétérogène'
1 locus Scénario Score Fréquence
O.U. 58872/62500(25) 0.942
E.M. 11937/22500(9) 0.531
Total 70809/85000 0.833
25 locus Scénario Score Fréquence
O.U. 62314/62500(25) 0.997
E.M. 22499/22500(9) 1.000
Total 84813/85000 0.998
2 locus Scénario Score Fréquence
O.U. 59286/62500(25) 0.949
E.M. 17836/22500(9) 0.793
Total 77122/85000 0.907
50 locus Scénario Score Fréquence
O.U. 62496/62500(25) 1.000
E.M. 22500/22500(9) 1.000
Total 84996/85000 1.000
5 locus Scénario Score Fréquence
O.U. 60358/62500(25) 0.966
E.M. 21931/22500(9) 0.975
Total 82289/85000 0.968
75 locus Scénario Score Fréquence
O.U. 62500/62500(25) 1.000
E.M. 22500/22500(9) 1.000
Total 85000/85000 1.000
10 locus Scénario Score Fréquence
O.U. 60992/62500(25) 0.976
E.M. 22427/22500(9) 0.997
Total 83419/85000 0.981
100 locus Scénario Score Fréquence
O.U. 62500/62500(25) 1.000
E.M. 22500/22500(9) 1.000
Total 85000/85000 1.000
20 locus Scénario Score Fréquence
O.U. 62136/62500(25) 0.994
E.M. 22499/22500(9) 1.000
Total 84635/85000 0.996
   

      Les scores sont donnés selon: nombre d'assignations selon un type de scénario/nombre total de simulations avec ce type de scénario (nombre de scénarios).

      Les résultats montrent une grande fréquence d'assignation correcte des scénarios à origine unique. Avec un seul locus, 89.6% (1 SNP) et 94.2% (4 SNPs liés) des simulations sont bien assignées. A partir de 20 locus, plus de 97% (1 SNP) et 99% (4 SNPs liés) des simulations sont correctement assignées. Pour les simulations provenant des scénarios d'évolution multirégionale, le score d'assignement correct est très bas avec un locus (25.7% pour 1 SNP et 53.1% pour 4 SNPs liés), mais à partir de 10 locus, 92.6% (pour 1 SNP) et 99.7% (pour 4 SNPs liés) des simulations multirégionales sont correctement assignées. A partir de 50 locus de 4 SNPs liés (ou 100 locus de 1SNP), les résultats génétiques obtenus sous une histoire démographique à origine unique se différencient complètement des résultats obtenus sous une histoire démographique à multiples origines. Si des données observées à un seul locus étaient utilisées dans une comparaison avec des données simulées, les résultats du Tableau 4.9 suggèrent donc qu'il serait difficile d'exclure la possibilité d'un scénario de type multirégional pour la diversité moléculaire observée. Cependant, l'utilisation de suffisamment de locus permet la distinction entre les deux scénarios évolutifs extrêmes.

      Bien qu'à partir d'un certain nombre de locus il n'y ait pas de fausses assignations entre les deux modèles évolutifs, cela ne veut pas dire qu'il n'y ait pas de fausses assignations au sein de l'ensemble des scénarios multirégionaux. Le Tableau 4.10 donne les scores d'assignation de ces neuf scénarios multirégionaux pour la configuration 'très hétérogène' et les données simulées sur 50 locus à quatre SNPs liés.

      
Tabl. 4.10. : Score d'assignation pour chaque scénario d'évolution multirégionale, et pour la configuration 'très hétérogène' avec 50 locus à 4 SNPs liés
Scénario simulé Scénario assigné Score sur 2500 Scénario simulé Scénario assigné Score sur 2500 Scénario simulé Scénario assigné Score sur 2500
1 1
2
3
4
5
6
7
8
9
2499
0
0
1
0
0
0
0
0
4 1
2
3
4
5
6
7
8
9
214
0
0
2244
0
0
34
8
0
7
1
2
3
4
5
6
7
8
9
0
0
0
0
0
0
2500
0
0
2 1
2
3
4
5
6
7
8
9
0
2473
0
0
27
0
0
0
0
5 1
2
3
4
5
6
7
8
9
0
326
0
0
2093
0
0
0
81
8 1
2
3
4
5
6
7
8
9
0
0
0
27
0
0
3
2470
0
3 1
2
3
4
5
6
7
8
9
0
0
2433
0
0
67
0
0
0
6 1
2
3
4
5
6
7
8
9
0
0
676
0
0
1824
0
0
0
9


1
2
3
4
5
6
7
8
9
0
2
0
0
91
0
0
1
2406

      La répartition des 2'500 assignations se fait ici uniquement parmi les neuf scénarios d'évolution multirégionale.

      Deux constatations peuvent être tirées de l'observation de ces scores. La première est la tendance très marquée, pour les six premiers scénarios, d'avoir des fausses assignations qui tombent principalement dans un scénario de même valeur de Nm que le scénario simulé. Nous pouvons expliquer cela par le fait que si nous considérons chaque région comme un dème, des valeurs similaires de Nm vont amener les topologies d'arbres de coalescence à se ressembler fortement, en moyenne. Les probabilités de fausses assignations sous ces conditions sont donc plus fortes qu'entre des scénarios qui n'ont pas les mêmes valeurs de Nm. Cette tendance n'est pas observée pour les trois derniers scénarios (n° 7, 8, 9). Ces scénarios ont la particularité d'avoir des valeurs de Nm qui ne sont pas identiques pour toutes les régions, et les généalogies générées vont donc être peu semblables à celles des six premiers scénarios. Ceci explique pourquoi les fausses assignations ne tombent pas dans des scénarios de même Nm.

      La deuxième constatation est l'augmentation du nombre de fausses assignations lorsque la valeur de Nm augmente, ce qui est observé pour les trois groupes de scénarios. Cela peut être expliqué par le fait qu'une plus grande valeur de Nm augmente la proportion de gènes qui dispersent entre les régions, par rapport à la proportion des gènes qui coalescent dans la région où ils se sont retrouvés initialement. La dispersion des gènes entre les régions aura tendance à mélanger les gènes des échantillons, en 'brouillant' la signature géographique de ceux-ci, et va donc contribuer à augmenter la variance des généalogies (et donc celle des matrices de FST par paire d'échantillons), ce qui augmentera la probabilité de fausses assignations.

      Toutes ces tendances sont retrouvées pour les autres configurations de l'environnement, ainsi que pour des nombres différents de locus (résultats non montrés).


4.7.5. Implications des résultats

      La méthodologie d'assignation d'origine a permis de mettre en évidence plusieurs aspects des données simulées avec les modèles démographiques et génétiques implémentés dans FRICTION. Il s'agit maintenant de discuter des implications de ces résultats dans le contexte de l'utilisation future de données génétiques observées.

      La nécessité de l'utilisation de données multilocus est régulièrement mise en avant dans les études en génétique des populations humaines. Notre méthodologie d'obtention de données multilocus nous a effectivement montré que l'utilisation d'un seul locus n'était pas informative: avec une majorité de simulations qui étaient assignées à la fausse origine, les fréquences moyennes d'assignation étaient très basses. La variance dans le processus de coalescence, à nos échelles temporelles et spatiales, est très importante, et seule l'information combinée des histoires évolutives indépendantes de plusieurs locus peut permettre de différencier les scénarios démographiques. Les données observées utilisées devraient donc être choisies de façon à maximiser le nombre de locus disponibles.

      Nous avons vu que les origines de dispersion sont mieux assignées dans des configurations d'environnement où les capacités de soutien et les frictions sont hétérogènes. Cette hétérogénéité permet d'obtenir des signatures génétiques des origines de dispersion qui sont plus fortes que dans un monde où l'environnement est uniforme. Les localisations géographiques des échantillons peuvent également influencer les fréquences d'assignation. En effet, les capacités de soutien des dèmes échantillonnés influencent le nombre d'événements de coalescence terminaux d'un arbre de coalescence. Si tous les dèmes échantillonnés se trouvaient dans des milieux possédant de faibles capacités de soutien (par exemple des milieux désertiques), beaucoup d'événements de coalescence récents se produiraient, ce qui diminuerait la longueur totale des arbres de coalescence, et cela qu'elle que soit l'origine de dispersion. Pour éviter d'obtenir ce genre de données simulées biaisées, il convient de choisir un ensemble de dèmes échantillonnés qui puissent couvrir, dans la mesure du possible, les différents environnements. Cela peut être réalisé en choisissant un nombre relativement élevé d'échantillons (24 dans notre cas) qui soient plus ou moins bien répartis sur toute la surface du monde simulé.

      Les configurations hétérogènes sont, par définition, plus réalistes que la configuration de l'environnement uniforme. Au vu des meilleures fréquences d'assignation en milieu hétérogène, l'effort d'incorporation de réalisme, du point de vue de cette hétérogénéité du paysage, se justifie donc complètement lorsque des données observées seront comparées à des données simulées.

      La configuration environnementale que nous considérons comme la plus réaliste est celle permettant une fluctuation de l'environnement au cours du temps (configuration 'dynamique'). Nous avons vu cependant que les résultats d'assignation étaient très proches entre le scénario dynamique et les scénarios hétérogènes, spécialement avec un grand nombre de locus. Cela suggère qu'il serait éventuellement possible de s'affranchir d'une simulation dynamique, plus lourde, et que les statistiques de comparaison seraient néanmoins très proches.

      Sous l'hypothèse de l'origine unique, le processus historique de dispersion de l'Homme moderne sur l'Ancien Monde peut être raisonnablement considéré comme s'approchant d'un processus de diffusion, mais nous savons que la dispersion réelle a été bien plus complexe, avec par exemple des dispersions à longue distance, des processus de refuge/recolonisation, et des goulots d'étranglement démographiques et spatiaux. Ces événements ont eu une influence certaine sur les fréquences alléliques observées, de sorte que plusieurs origines pourraient être assignées de manière relativement semblable lors de la comparaison de données simulées et observées. Dans ces conditions, il est donc plus raisonnable d'imaginer pouvoir déterminer la région, plutôt que l'origine géographique, de la dispersion initiale. Nos simulations sur les assignations régionales nous ont effectivement montré qu'une assignation par région permettait d'obtenir des fréquences d'assignation bien plus élevées que les fréquences d'assignation des origines géographiques ponctuelles.

      Nos résultats obtenus avec les scénarios multirégionaux peuvent être confrontés avec ceux de Takahata et al. (2001). Ces auteurs ont utilisé un modèle multirégional semblable au nôtre, dont les trois régions continentales (Afrique, Europe et Asie) pouvaient échanger un certain nombre de migrants à chaque génération. En utilisant un processus de simulation par coalescence, ils ont pu montrer que lorsque l'effectif efficace de l'Afrique était beaucoup plus grand que celui de l'Europe et de l'Asie (de l'ordre d'un facteur 10, ce qui correspond à nos scénarios n° 4, 5, 6), les racines des 1'000 arbres de coalescence simulés se trouvaient en Afrique dans plus de 87% des cas. Sous ces conditions démographiques, ces auteurs concluent qu'il n'est alors pas possible de distinguer si des données simulées avec un scénario d'évolution multirégionale ont été générées avec un scénario multirégional plutôt qu'avec un scénario d'évolution utilisant une origine unique africaine. Par extension, si la séquence ancestrale inférée d'un ensemble d'échantillons observés, pour un système génétique donné, était trouvée en Afrique, il ne serait pas possible d'exclure un scénario évolutif de type multirégional avec un effectif efficace de l'Afrique dix fois plus important que celui de l'Europe et de l'Asie.

      Les simulations de Takahata et al. (2001) ont été réalisées avec un seul locus. Leurs résultats sont donc confirmés par nos simulations, dans le sens que nous ne pouvons différencier entre scénarios d'évolution multirégionale et scénarios à origine unique sur la base d'un seul locus. Nos résultats apportent cependant une perspective nouvelle, à savoir qu'il est possible de distinguer entre ces deux scénarios extrêmes avec suffisamment de locus. Il suffit en effet de simuler 20 locus à un SNP pour pouvoir distinguer le modèle évolutif utilisé. Ce résultat est très important, car il suggère que la diversité moléculaire de données observées (avec suffisamment de locus) pourrait être assignée sans grande ambiguïté à l'un ou l'autre de ces deux scénarios extrêmes.

      Bien entendu, une telle utilisation de données observées implique de faire l'hypothèse que l'évolution de l'Homme moderne découle, en grande partie, d'un processus similaire à l'un de ces deux scénarios. Des difficultés d'interprétation des résultats pourraient survenir si ces données découlaient d'un processus démographique intermédiaire à ces deux scénarios. En effet, en regard de certaines analyses de données, certains auteurs (comme par exemple Templeton (2002) ou Excoffier (2002)) favorisent des scénarios d'évolution dits 'hybrides' qui considèrent plusieurs événements démographiques majeurs distincts. Il est possible que seuls de tels scénarios hybrides puissent être habilités à représenter correctement la diversité génétique observée. Si des données observées découlaient d'un scénario d'évolution hybride, nous pourrions nous attendre à ce que les valeurs de corrélation moyenne entre données simulées et données observées soient très faibles, et que le test de comparaison (percentile 90% de la distribution de corrélations) aboutisse à une grande proportion de fausses assignations entre les deux modèles extrêmes. Si tel était le cas, nous aurions un signal qui motiverait l'implémentation et les tests d'un scénario hybride. Une augmentation des corrélations, ainsi que des fréquences d'assignation (par rapport aux scénarios multirégionaux ou à origine unique), permettrait à ce nouveau scénario hybride d'être favorisé quant à l'explication de la diversité moléculaire actuelle.

      L'utilisation d'autres scénarios de friction et de capacités de soutien pourrait potentiellement faire varier les fréquences d'assignation, mais nous restons persuadé que c'est le niveau d'hétérogénéité (uniforme, peu ou très hétérogène, dynamique) qui prime sur les valeurs absolues données aux capacités de soutien et aux frictions. Pour approcher cette question de manière quantitative, les simulations d'assignation d'origine pourraient être utilisées dans un cadre d'analyse de sensibilité. Des paramètres comme le degré d'hétérogénéité du paysage, l'intervalle temporelle du changement de la végétation pour le scénario dynamique ou le nombre de génération d'une simulation pourraient être variés individuellement suivant la méthode de Morris ou simultanément suivant la méthode FAST (voir chapitre 4.6.). Les paramètres influençant de manière importante les fréquences d'assignation seraient ainsi mis en évidence, ce qui permettrait d'orienter les recherches futures concernant l'augmentation du réalisme des simulations. Il est malheureusement impossible, actuellement, d'envisager de telles analyses de sensibilité. Le temps d'exécution complet d'un processus (simulations génétiques et calculs des fréquences d'assignation) est en effet relativement élevé (environ 24 heures sur 40 ordinateurs), ce qui est prohibitif lorsque des centaines de processus doivent être évalués. De plus, des interventions humaines (pour lancer des scripts) sont encore nécessaires à plusieurs reprises pendant les simulations, ce qui empêche l'automatisation complète des calculs, étape indispensable lors d'une démarche d'analyse de sensibilité.

      Nous avons simulé uniquement des données SNP. Ce type de données, nous l'avons vu, est le plus simple, puisqu'un locus de un SNP est biallélique. Avec quatre SNPs liés, le nombre maximum d'allèles par locus est de 16 (24), mais ce nombre reste très raisonnable en comparaison du nombre d'allèles qui peut être trouvé pour des microsatellites ou des séquences d'ADN. Les résultats de fréquences d'assignation correcte que nous avons obtenus dans ce chapitre peuvent donc être considérés comme étant une 'borne inférieure': pour un nombre de locus donné, l'utilisation d'un autre type de donnée génétique plus polymorphe donnera potentiellement des fréquences d'assignation plus élevées.

      La méthode d'assignation d'origines que nous avons développée s'appuie sur des corrélations entre données simulées et observées. D'autres approches sont cependant possibles, comme par exemple les approches Bayésiennes qui utilisent des distributions de probabilité a priori des paramètres d'entrées d'un modèle. Les valeurs des paramètres sont alors échantillonnées de façon aléatoire dans leur plage de variation et suivant la distribution qui les caractérise. Des statistiques génétiques sont ensuite calculées pour chaque échantillon de valeurs des paramètres, et elles peuvent être comparées aux statistiques génétiques inférées de données observées. Les valeurs des paramètres qui expliquent le mieux les données observées peuvent ainsi être estimées. Ces approches ont le désavantage de demander un très grand nombre de simulations afin de pouvoir estimer de manière robuste les valeurs des paramètres. Elles sont donc pour l'instant impossible à utiliser dans une configuration de monde réaliste, pour laquelle le nombre de dèmes considérés et le nombre de générations sont trop élevés. Notre méthode a donc l'avantage de fournir une méthodologie de test puissante pour n'importe quel configuration d'environnement. Bien qu'elle ait été utilisée pour étudier les assignations d'origines en ne considérant que des données simulées, elle constituera également l'outil de base pour comparer les données génétiques simulées avec des données génétiques observées.


5. Conclusion générale et perspectives

      En conclusion de ce travail, nous aimerions prendre du recul quant aux diverses méthodologies proposées et aux résultats obtenus, et les considérer dans leur ensemble. Plusieurs applications et perspectives se sont dégagées de notre étude, et nous les discuterons également.

      Nous avons pu examiner les données environnementales et démographiques à disposition, et réfléchir à la façon dont elles pouvaient être utilisées conjointement à des données génétiques pour des simulations de la dynamique d'expansion des Hommes modernes lors du Pléistocène. Ces réflexions se sont matérialisées sous la forme du programme FRICTION, autour duquel gravitent de nombreux outils annexes (par ex. CORRELATOR, REGIONS) développés pour analyser efficacement certaines données. La phase de développement qui a mené à la réalisation de FRICTION a été longue (évaluée à plus de deux ans), et les ressources humaines de plusieurs personnes ont dû être combinées en parallèle. L'aboutissement de ce développement peut donc, en soi, être considéré comme un résultat important.

      Notre travail a permis d'aboutir à plusieurs aspects innovants par rapport à d'autres approches existantes qui visaient également à simuler des données génétiques sur la base de simulations démographiques dans un modèle stepping-stone. Les approches sur la diffusion démique en Europe (Rendine et al., 1986; Barbujani et al., 1995) utilisent toutes des simulations de variation des fréquences alléliques au cours du temps. Ces simulations impliquent que ces fréquences soient calculées pour chaque dème et à chaque génération, ce qui rend les processus de calculs fastidieux lorsque le nombre de dèmes et le nombre de générations sont grands. Notre approche par la coalescence s'est quant à elle avérée être extrêmement efficace, car elle permet de ne simuler que les dèmes échantillonnés. Un nombre bien plus élevé de simulations et de scénarios peuvent alors être envisagés. En plus des fréquences alléliques, notre approche permet également d'obtenir une information moléculaire sur les données génétiques simulées. Elle est de ce fait appropriée lorsqu'il s'agit d'obtenir des statistiques moléculaires pour étudier des signatures d'expansion spatiale ou démographique au sein d'une population.

      Bien que Barbujani et al. (1995) aient proposé des modèles qui permettaient que les montagnes et les plaines influencent les probabilités de migration entre les dèmes, notre approche est plus réaliste. Elle permet en effet de simuler une hétérogénéité spatiale de l'environnement qui prend en compte un plus grand nombre de variables influençant potentiellement la démographie des populations. Conjointement à cette hétérogénéité spatiale, nos modèles peuvent considérer une hétérogénéité temporelle de la capacité de soutien et de la friction des dèmes.

      Notre volonté de pouvoir faire le lien entre les processus démographiques et l'environnement physique a permis de mettre en place une base de données environnementales sur le relief terrestre, les milieux côtiers, les fleuves et la végétation. Mis à part le relief terrestre, que l'on peut considérer comme constant, les trois autres variables ont subi d'importantes fluctuations pendant le Pléistocène. Les milieux côtiers ont été extrêmement modifiés en certaines localisations (par ex. sud-est asiatique), à cause de la fluctuation du niveau des océans qui a atteint son minimum relatif (120m) lors du dernier maximum glaciaire. Nous avons vu que ces fluctuations peuvent être simulées en utilisant les données bathymétriques. Les ponts terrestres qui sont survenus en plusieurs localisations et pendant certaines périodes (notamment au détroit d'Afar, au Japon, etc.) sont alors relativement bien modélisés. Alors que les réseaux hydrographiques actuels sont bien documentés, les cartes de paléofleuves en sont encore à un stade très précoce, et nous ne pouvons pas encore utiliser ce genre d'information, ce qui nous a obligé à ne considérer que le réseau fluvial actuel.

      Un des soucis qui a sous-tendu ce travail a été de proposer des modèles imprégnés d'un certain réalisme, c'est-à-dire qui reflétaient des relations de cause à effet considérées comme réalistes entre l'environnement physique, la démographie des chasseurs-cueilleurs et la diversité moléculaire d'échantillons de gènes. Les échelles temporelle (le Pléistocène supérieur) et spatiale (l'Ancien Monde) que nous voulions pouvoir simuler pour l'évolution des humains rendent cependant impossible la construction de modèles généralistes qui pourraient prétendre à un bon réalisme pour toutes les périodes et toutes les régions géographiques. En effet, les populations de chasseurs-cueilleurs sont passées par de nombreuses transitions culturelles et techniques, et par des adaptations à certains environnements qui ont grandement modifié l'efficacité d'exploitation des ressources. Ces changements ont très probablement été à l'origine de diverses phases d'expansions démographiques et spatiales, alors que les variations environnementales et les grands cycles glaciaires ont eu un impact sur les fluctuations de densité de population et ont provoqué l'apparition de zones refuges pendant certaines périodes. Dans ces conditions extrêmes de stochasticité, il peut paraître complètement illusoire d'attribuer le terme 'réaliste' à tout modèle de simulation d'évolution humaine. Néanmoins, malgré la complexité des histoires démographiques régionales ayant mené à la différenciation génétique actuelle, il est probable que certains grands événements démographiques à l'échelle de l'Ancien Monde aient laissé des traces suffisamment visibles dans notre patrimoine génétique contemporain pour que nous espérions les mettre en évidence à travers une approche par simulation. Aussi difficile que soit la simulation réaliste des variations environnementales, nous avons pris le parti de considérer ces variations dans nos modèles, plutôt que de considérer qu'elles n'ont joué aucun rôle et de les ignorer.

      Les modèles démographiques relativement simples que nous avons utilisés dans ce travail aboutissent à des comportements d'expansion spatiale proches de ceux obtenus par un modèle de diffusion classique. Le nombre limité de paramètres de ces modèles permet d'explorer plus facilement leurs comportements sous divers scénarios démographiques ou environnementaux. Nous avons ainsi pu mettre en évidence le rôle important du nombre de migrants (le facteur Nm) dans la diversité moléculaire intra-dème, et ainsi proposer une explication simple des différences génétiques observées entre les populations contemporaines de chasseurs-cueilleurs et les populations dites post-Néolithique.

      Bien que ces modèles simples sacrifient nécessairement une partie de réalisme, nous restons persuadé que l'ajout de complexité n'était pas justifié dans le contexte relativement exploratoire de ce travail. En effet, une grande incertitude règne sur les valeurs à attribuer aux paramètres comme les taux de migration et les taux de croissance. Les valeurs de ces paramètres, nous l'avons vu, ont une grande influence non seulement sur la vitesse de la vague de progression d'une expansion (comme initialement décrit par Fisher (1937)), mais également (en tout cas pour le taux de migration) sur certaines signatures moléculaires comme la distribution des différences par paires de gènes (distribution mismatch). Augmenter la complexité par un accroissement du nombre de paramètres amplifie presque obligatoirement l'incertitude sur tout résultat démographique ou génétique, ce qui rend plus incertaines les comparaisons entre différents scénarios évolutifs. De plus, l'utilisation de modèles simples permet la comparaison de résultats avec des études similaires, et permet parfois de faire le parallèle entre des résultats simulés et des résultats analytiques. Avec un modèle plus complexe, il arrive en effet qu'un résultat particulier (démographique ou génétique) soit le fruit d'une interaction entre plusieurs paramètres et il est alors difficile de le mettre en évidence.

      Des avantages que procurent ces modèles simples découlent également leurs limites. Nous ne pouvons, en effet, simuler qu'un processus d'expansion unique (ou plusieurs expansions simultanées dans le cadre du scénario multirégional). Comme nous l'avons discuté, il est possible que seuls des modèles démographiquement plus complexes parviennent à expliquer de manière satisfaisante la diversité moléculaire observée. Ces modèles complexes devraient alors être confrontés à nos modèles plus simples, de façon à mettre en évidence, de manières quantitative, les variations de certaines réponses des modèles. La disponibilité des analyses de sensibilité dans FRICTION est très importante dans cette optique de comparaison de modèle. Elle permettra, par exemple, d'explorer de manière fine les variations de certaines réponses génétiques en fonction des variations des paramètres démographiques des modèles (voir Currat, in prep).

      La variable environnementale qui a demandé le plus d'effort d'intégration a été la végétation. Les relations qu'entretiennent les populations de chasseurs-cueilleurs avec la végétation (via les ressources qu'elle procure) ont été considérées comme particulièrement importantes. Il était alors indispensable d'avoir une bonne représentation de l'hétérogénéité spatiale de cette végétation. Une recherche intensive sur les données de végétation existantes nous a montré que peu de cartes surfaciques étaient disponibles, puisque la plupart des données sont retrouvées sous forme de relevés palynologiques ponctuels. Un intense travail cartographique a donc dû être mené pour aboutir aux deux cartes de végétation mondiale (présente potentielle et dernier maximum glaciaire). La réalisation de ces cartes nous a révélé la grande utilité d'Internet comme système de consultation permettant à nombre de chercheurs de donner leurs commentaires et suggestions afin d'arriver à des cartes 'consensuelles'. Ces cartes de paléovégétation sont appelées, par essence, à être continuellement modifiées grâce aux accumulations de nouvelles données et il serait important de maintenir un processus de mise à jour dans les années à venir. La mise à disposition de ces cartes sous un format digital a répondu à une forte demande de la part de la communauté scientifique. De nombreux groupes de recherche les ont déjà utilisées et nous pensons qu'elles peuvent être à l'origine de nouvelles applications en paléoécologie, en relation avec l'Homme moderne ou avec d'autres espèces.

      La base de données environnementales nous a permis de transcrire de manière simple les variations présumées des ressources en termes de capacités de soutien, ainsi qu'en termes de probabilités directionnelles de migration à travers les valeurs de friction. Nous avons vu que les capacités de soutien pouvaient raisonnablement être dérivées des données de densités de populations contemporaines. Les valeurs de friction, quant à elles, ont été beaucoup plus difficiles à estimer. Les réflexions sur ces valeurs de friction se sont basées sur l'hypothèse que les choix directionnels de mouvement étaient principalement dictés par l'évitement des zones pénibles à traverser. Nous sommes conscient de la simplicité de cet énoncé. Les déterminants directionnels peuvent en effet découler d'autres facteurs tels que la disponibilité des ressources, la compétition intra- et inter-spécifique ou encore les affiliations linguistiques. Ces déterminants peuvent avoir plus ou moins d'influence selon la région et la période, mais la pertinence de leur intégration dans un modèle général à nos échelles de travail reste très incertaine. Avec l'utilisation croissante et démocratisée des modèles informatiques, nous attendons cependant beaucoup des groupes de recherche en archéologie, qui pourraient exploiter des bases de données de datations de vestiges archéologiques à l'échelle régionale (notamment en Europe de l'ouest). Ces datations pourraient être utilisées conjointement à divers scénarios de friction dans un exercice de simulation. Sous l'hypothèse que les variations temporelles de visibilité de ces vestiges archéologiques sont liées aux processus de dispersion, les valeurs de friction les plus pertinentes pourraient ainsi être déterminées.

      Pour arriver à simuler une hétérogénéité temporelle de l'environnement, nous avons considéré un mécanisme dynamique basé sur les variations de températures relatives globales. Ce mécanisme a permis de modéliser le comportement principal voulu, soit une variation des capacités de soutien et des migrations au niveau de chaque dème et au cours du temps. Nous nous sommes par contre rendu compte de la limite principale de l'approche, qui consiste à ne pas pouvoir simuler de manière satisfaisante une dynamique de refuge/recolonisation. Cette dynamique a potentiellement joué un grand rôle dans la différenciation génétique humaine et les perspectives liées à son implémentation sont donc très grandes, ce que nous discutons plus loin.

      Grâce au développement des programmes CORRELATOR et REGIONS, nous avons pu utiliser l'outil FRICTION dans une approche visant à identifier des origines potentielles de dispersion sur la base de données génétiques. Cette approche s'est avérée particulièrement intéressante dans l'optique de pouvoir différencier des scénarios d'évolution extrêmes tels que ceux prônant une origine unique ou une évolution multirégionale. Contrairement à d'autres approches, comme celle de Takahata et al. (2001), nous avons pu montrer l'importance de l'utilisation de données multilocus et avons pu quantifier, en fonction du nombre de locus, l'augmentation de la fréquence d'assignation correcte de données simulées. Ces résultats seront très précieux lorsqu'il s'agira d'utiliser des données observées pour en inférer le scénario d'évolution le plus probable.

      Les données observées proviennent, par définition, d'une seule réalisation du processus de différenciation extrêmement stochastique qui a eu lieu au cours du Pléistocène supérieur. Dans le cadre de notre approche, l'information donnée par un ou quelques locus ne peut être raisonnablement utilisée pour des comparaisons fiables entre données simulées et données observées. Comme nous l'avons montré, seule l'utilisation conjointe de plusieurs dizaines de locus est pertinente, ce qui peut être envisagé avec des données de type SNP ou microsatellite. L'effort futur doit donc se concentrer sur la sélection de ces données observées. Dans cette optique, la disponibilité au CEPH de données microsatellite sur 377 locus (Rosenberg et al., 2002), et pour 52 populations, est très prometteuse.

      Le processus de développement de l'outil FRICTION a été difficile. En effet, une longue période d'apprentissage des techniques de programmation a été nécessaire. Elle a ensuite été suivie par une implémentation successive d'un très grand nombre de fonctions et de modules, dont certains n'ont pu être réalisés que grâce au travail conjoint de plusieurs programmeurs. La puissance de calcul à disposition a également évolué tout au long de ce travail. En commençant avec un, puis deux processeurs, nous avons pu alors bénéficier d'une croissance de puissance qui a culminé avec le cluster Linux de 40 machines du CMPG (Université de Berne). Les changements rapides des supports de simulation à disposition ont demandé que nous nous adaptions tant au point de vue des structures de données du programme, que des applications que nous pouvions alors réaliser avec cette puissance supplémentaire. L'environnement de développement multi-programmeurs a permis de grandes synergies dans les réflexions et les choix qui ont dû être faits tout au long du développement de FRICTION. Nous sommes convaincus que cet aspect du travail a contribué grandement à l'aboutissement des objectifs initiaux. Le développement du programme FRICTION a permis de poser les bases d'un outil solide qui est néanmoins appelé à être complété et à évoluer grandement dans les projets planifiés pour les années à venir. Il est donc très important que le 'passage de témoin' sur les connaissances du programme soit fait de façon adéquate aux chercheurs qui sont en train d'intégrer ou qui intégrerons ces projets. Cela peut être envisagé par une documentation adéquate, mais également par une interaction humaine intensive entre les membres du projet. Nous avouons volontiers certains manquements de notre part dans cette démarche, certainement dus au fait que l'ampleur qu'allaient prendre les programmes développés pouvait difficilement être perçue dès le début du projet. Fort de ces expériences, nous ne pouvons alors que conseiller une planification et une documentation soutenues dès le début des futurs projets liés à FRICTION.

      De nombreuses questions et idées ont émergé pendant la durée de ce travail, grâce particulièrement aux foisonnements de discussions entre les membres du projet, ainsi qu'au travers des nombreux contacts fructueux avec des collègues généticiens, archéologues, anthropologues et écologues. Le travail interdisciplinaire intense nécessaire à sa réalisation et les applications qui ont été présentées dans ce travail (et dans celui, complémentaire, de Mathias Currat (in prep)) permettent de se rendre compte des potentialités des méthodologies qui ont été mises en place. Plusieurs perspectives se dégagent alors de ce travail et nous voulons présenter les principales.


Perspectives

      Le traitement particulier que nous avons appliqué aux zones désertiques (basse capacité de soutien et haute friction) nous semble être une approximation satisfaisante pour aboutir à un effet 'barrière' aux migrations. Il serait cependant très intéressant de modéliser ces zones de manière plus réaliste. La difficulté majeure est de réussir à représenter la caractéristique 'oasis', c'est-à-dire la concentration spatiale et localisée de ressources entourées d'une matrice de non-habitat. La variation temporelle de ces ressources agrégées est également une caractéristique importante de ces milieux. Les comportements voulus pourraient être approchés par des fonctions probabilistes qui attribueraient aux dèmes des capacités de soutien différentes à chaque génération (ou à un intervalle de temps plus grand). L'implémentation de ces comportements permettrait de faire de nombreux tests intéressants spécifiques au Sahara. En quantifiant le flux génique entre l'Afrique du Nord et l'Afrique sub-saharienne selon plusieurs scénarios environnementaux et démographiques, il serait alors possible de mieux comprendre le rôle de cet environnement dans la différenciation génétique de certaines populations.

      Une autre limitation que nous avons identifiée a été le comportement particulier des fleuves et des côtes, qui ont été considérés comme des corridors à la migration. Les capacités de soutien plus hautes et les frictions plus basses permettent un mouvement de gènes plus intense le long de ces éléments, mais les dèmes adjacents à ces corridors sont colonisés très rapidement, car quelques migrants y sont toujours envoyés. Les dispersions ne sont alors pas localisées principalement le long de ces corridors. Une possibilité pour réussir à modéliser ce comportement serait de permettre la dispersion uniquement à travers les dèmes de ces corridors pendant une certaine période, puis de relâcher cette contrainte par la suite. Modéliser une migration spécifiquement fluviale pourrait être intéressante pour des événements tels que la néolithisation de l'Europe. La phase de dispersion des agriculteurs pendant cet événement majeur se serait potentiellement produite le long du réseau fluvial européen (Mazurié de Keroualin, 2001, p.37). Il serait alors intéressant d'intégrer ce réalisme supplémentaire par des études visant à quantifier la structure génétique des populations de chasseurs-cueilleurs et d'agriculteurs lors de leur phase de cohabitation (voir Currat, in prep).

      Nous avons évoqué à plusieurs reprises les goulots d'étranglement spatiaux, qui sont ces chaînes de dèmes entourées de barrières à la migration (comme le sud-est asiatique). Ces goulots ont très certainement joué un rôle important au cours de l'évolution humaine. Il serait intéressant que l'on étudie spécifiquement l'impact de ces goulots sur la différenciation génétique des populations humaines. Cette étude pourrait être envisagée, dans un premier temps, à l'aide d'une configuration simple du monde (similaire à celle utilisée dans notre étude de la diversité moléculaire intra-dème au chapitre 4.4.), afin de permettre un contrôle complet de la taille du goulot. Une possibilité d'extension en monde réaliste pourrait être d'étudier plus spécifiquement le rôle de l'Amérique Centrale comme goulot d'étranglement spatial entre les populations d'Amérique du Nord et du Sud. Les modèles de dispersion développés pour cette région par l'équipe du Dr James Steele pourraient constituer une aide précieuse afin d'augmenter le niveau de réalisme d'une telle étude.

      Le modèle stepping-stone que nous avons utilisé, au travers d'une structure en automate cellulaire, à la particularité de ne pas permettre des migrations à longues distances, c'est-à-dire des déplacements de plusieurs dèmes en une génération. Il a été attesté, par simulation, que ce type de migrations pouvait avoir un impact significatif sur la différenciation génétique (Nichols et Hewitt, 1994; Ibrahim et al., 1996). Les migrants à longue distance ont tendance à établir de nouvelles colonies qui favorisent la colonisation rapide d'une région. La diversité génétique de ces colonies diminue également rapidement par l'effet de la dérive génétique. Puisqu'il est très probable que ce genre de migrations a eu lieu de manière répétée pendant l'évolution humaine, l'implémentation de celles-ci dans FRICTION serait très intéressante. En effet, il serait alors possible de quantifier, à l'échelle de l'Ancien Monde, l'impact démographique et génétique de certains déplacements rapides de groupes d'individus entre certaines régions (par exemple entre l'Afrique et l'Asie, ou entre l'Asie et l'Europe). Ces migrations à longues distances pourraient également être utilisées pour des déplacements préférentiels le long de certains environnements (comme les milieux côtiers), en permettant ainsi d'implémenter des modèles tel que ceux qui supposent une colonisation ancienne de l'Australie grâce aux migrations côtières rapides.

      La méthodologie d'assignation d'origine a permis de mettre en évidence l'augmentation des fréquences d'assignation, entre données simulées et pseudo-observées, selon le nombre de locus et le degré d'hétérogénéité environnementale. Une extension intéressante de cette approche serait de pouvoir quantifier les fréquences d'assignation lorsque les données pseudo-observées sont générées avec un scénario environnemental différent de celui des données simulées. Imaginons, par exemple, que des données pseudo-observées et générées sous un scénario d'environnement dynamique soient relativement bien assignées à leur origine d'expansion en les comparant à des données simulées sous un scénario d'environnement uniforme. Ce résultat serait important lorsque des données observées seront utilisées, car il ne serait alors pas forcément nécessaire d'utiliser un environnement dynamique, bien plus lourd en terme de temps d'exécution des simulations.

      Nous avons vu que les fluctuations temporelles de l'environnement, telles qu'elles ont été implémentées dans ce travail, peuvent très difficilement représenter une dynamique de refuge/recolonisation. L'implémentation réaliste de ces dynamiques environnementales reste un des grands 'challenges' de notre approche. Elle permettrait de répondre à des questions liées aux refuges glaciaires en Europe, dont on suppose qu'ils ont eu une influence sur la différenciation des populations européennes. Il est possible que la seule solution, pour parvenir à représenter des migrations importantes vers une région particulière, soit d'implémenter une sorte d''attracteur' de population. Cette attracteur permettrait d'obtenir des probabilités directionnelles de migration qui ne soient pas seulement liées aux dèmes adjacents, mais qui soient calculées en fonction de la localisation de l'attracteur. Si celui-ci est une zone refuge, le comportement modélisé pourrait alors permettre aux individus de migrer en direction de cette zone. Cette problématique de refuge/recolonisation va être abordée au sein du projet Fond National 'Effect of range expansions and contractions on genetic diversity within species' (attribué au Prof. Laurent Excoffier, Université de Berne) qui est la suite du projet à la base de notre travail.

      Nos modèles ne permettent pas de représenter des scénarios d'évolution, dits 'hybrides', qui considèrent plusieurs événements démographiques majeurs distincts, comme par exemple plusieurs vagues de migration en dehors d'Afrique, suivies d'une migration plus tardive d'Asie vers l'Afrique (Templeton, 2002). La mise en place de tels scénarios élargirait les possibilités de simulation et permettrait de comparer les diversités moléculaires obtenues sous les deux modèles extrêmes (expansion unique, évolution multirégionale). L'implémentation d'un modèle hybride est cependant très compliquée, car elle demande de pouvoir simuler de manière adéquate des expansions spatiales dans des environnements qui seraient potentiellement déjà occupés par d'autres populations. Des mécanismes d'extinctions régionales ou de compétitions inter-populationnelles devraient alors être pris en considération (voir Currat (in prep) pour un exemple sur la transition néolithique en Europe).

      La stochasticité démographique, bien que réaliste, n'est pas facilement utilisable en conjonction avec des modèles génétiques utilisant la coalescence. En effet, les processus de coalescence sont par essence extrêmement stochastiques, et nous devons donc procéder à des milliers de simulations d'arbres de coalescence pour en inférer des statistiques résumées qui soient robustes. Prendre en compte cette stochasticité démographique impliquerait de multiplier le nombre de simulations génétiques par plusieurs centaines ou milliers de simulations démographiques. Dans un monde simulé comme l'Ancien Monde, il n'est pas encore envisageable de pouvoir procéder à autant de simulations. Cependant, lorsque la puissance informatique permettra de le faire, il sera possible d'estimer la variance génétique totale de manière plus réaliste.

      Nos contacts avec les archéologues de l'Université de Southampton ont permis d'envisager une collaboration future plus étroite. Les bases de données sur les datations et les densités de vestiges archéologiques pourraient permettre une calibration de certains modèles d'expansion grâce à la possibilité, dans FRICTION, de pouvoir générer des variations temporelles des densités de population. Des données génétiques et archéologiques seraient ainsi utilisées conjointement pour tenter de mieux comprendre l'historique de peuplement de certaines régions comme l'Europe ou les Amériques.

      Si l'Homme a été au centre de nos préoccupations dans ce travail, les méthodologies développées peuvent tout à fait s'appliquer à d'autres espèces. Il serait cependant nécessaire de reconstituer une base de données environnementales adaptée à chaque espèce considérée. Une application régionale pourrait par exemple demander des données à résolution plus élevée. Les valeurs des capacités de soutien et des frictions devraient également être estimées pour chaque espèce, ce qui n'est pas toujours trivial. Dans le cadre du projet Fond National mentionné ci-dessus, un projet visant à simuler une dynamique démographique et génétique des poissons d'eau douce est en cours de développement. Pour ce faire, une structure de donnée vectorielle doit être implémentée dans FRICTION, car l'arborescence du réseau hydrographique ne se prête pas bien à une représentation uniquement raster. La disponibilité conjointe de ces différentes structures de données dans FRICTION est très prometteuse, car elle permettra d'ouvrir le champ des espèces pouvant être modélisées.

      Sans l'aspect génétique, les simulations uniquement démographiques peuvent également être très utiles pour des projets liés à la conservation des espèces ou de l'environnement. Nous pensons particulièrement à la problématique des espèces invasives, qui est d'intérêt capital pour certaines régions de type insulaire comme l'Australie. Les mécanismes d'invasion se déroulent généralement très rapidement, et ils ont l'avantage, pour certaines espèces, d'être très bien documentés du point de vue démographique. Sous ces conditions, il est possible de calibrer un modèle d'expansion en fonction des taux de croissance et de dispersion. Avec un tel modèle à disposition dans FRICTION, des prédictions pourraient être faites sur l'état spatial futur d'une invasion. Ces prédictions pourraient ainsi contribuer à l'élaboration de stratégies pour minimiser l'impact environnemental de ces espèces invasives.

      Les expansions spatiales et démographiques des humains modernes au cours du Pléistocène supérieur ont nécessairement été très complexes. Nous ne pourrons sans doute jamais comprendre complètement les détails de ces expansions, ainsi que les routes empruntées dans les phases de colonisation des différents continents. Avec l'outil FRICTION, nous avons à disposition une formidable opportunité de pouvoir massivement explorer un grand nombre de scénarios évolutifs, et de pouvoir comparer des données génétiques simulées et observées. Nous espérons que les méthodologies d'analyse de données et les résultats mis en évidence dans ce travail exploratoire seront la base de nombreux projets dans les années à venir. Il y a, à la clé, la potentialité de mieux cerner les processus évolutifs liés à notre espèce.


[Précédent] [Suivant]