Nous présentons ici notre modélisation des capacités de simulation et de calcul, basée sur un formalisme d'opérateur. Nous ne nous intéressons pas dans ce chapitre aux points concernant le couplage avec notre modélisation logique, qui seront présentés au chapitre 6.
Notre modélisation des capacités de calcul et de simulation est moins avancée que celle des capacités logiques. Dans une large mesure, nous considérons les opérateurs que nous allons présenter ici comme des boîtes noires. Nous sommes cependant en mesure d’indiquer un ensemble de contraintes qu’ils doivent vérifier. Une partie de ces contraintes est issue de certaines données observables (que nous présentons au cours du paragraphe 5.1). D’autres contraintes doivent être prises en compte afin de permettre une interaction correcte entre le module logique et les opérateurs.
Nous présenterons donc au cours du paragraphe 5.2, les caractéristiques et le fonctionnement que nous postulons pour les opérateurs. Nous verrons ensuite, au cours du paragraphe 5.3, les lieux où l’apprentissage est possible dans notre modélisation. Enfin, une synthèse de notre modélisation est présentée au paragraphe 5.4.
Nous présentons ici les données qu’une modélisation des capacités de calcul et de simulation doit être capable d’expliquer. En nous basant sur les résultats d’une analyse menée par Kurt VanLehn, nous présentons notre analyse d’une base de protocoles de résolution de la tour de Hanoï à cinq disques par des sujets humains. Nous terminons ce paragraphe par une synthèse des constatations à expliquer.
Comme l’indique par exemple Kurt VanLehn dans [VAN 89], les sujets humains en situation de résolution de problème maintiennent en mémoire un état du problème, et démontrent la capacité de le faire évoluer en appliquant à cet état du problème des opérations de transformations.
Kurt VanLehn, dans [VAN 89], indique que les informations minimales que le sujet doit obtenir à partir de l’énoncé d’un problème sont :
· L’état initial du problème
· Un (ou des) opérateur(s) permettant de transformer un état du problème en un autre état du problème.
· Un (ou des) test(s) permettant de savoir si un état du problème constitue une solution.
Nous partageons cette analyse en nuançant le troisième point. Le terme de test peut laisser penser qu’un travail de calcul reste nécessairement à faire sur les nouveaux états atteints au cours de l’exploration du problème afin de déterminer si chacun de ces états constitue un état solution. Nous reformulerons pour notre part le troisième point de VanLehn en considérant que l’énoncé du problème doit donner au sujet un moyen de reconnaître si un état du problème est ou non un état solution.
C’est à dessein que nous employons ici le terme vague de «reconnaître». Nous verrons au cours du chapitre consacré au couplage (chapitre 6) que c’est le module logique qui effectue cette reconnaissance. Le terme «reconnaître» est utilisé car les règles d’indésirabilité (qui nous serviront à représenter les buts) fonctionnent comme des détecteurs. Le point important est que cette reconnaissance s’effectue sans aucun calcul.
Dans le même article, afin d’illustrer les notions d’espace problème et d’opérateur, VanLehn analyse la résolution du problème suivant :
Trois hommes veulent traverser une rivière. Ils trouvent un bateau, mais c’est un très petit bateau. Il ne pourra supporter que 200 livres. Les hommes s’appellent Grand, Moyen et Petit. Grand pèse 200 livres, Moyen pèse 120 livres et Petit pèse 80 livres. Comment peuvent-ils tous traverser ? Ils pourraient avoir besoin de faire plusieurs trajets avec le bateau.
L’analyse de la résolution par «Cathy» (9 ans) montre qu’elle utilise comme unique description du problème des relations du type (Sur X Y) ou X appartient à l’ensemble {Petit, Moyen, Grand, Bateau} et ou Y appartient à l’ensemble {Départ, Arrivée}. De la même manière Cathy n’utilise qu’un unique opérateur qui peut être représenté par (Navigue X Y Z) et qui indique que l’ensemble X navigue de Y vers Z. X appartient ici à l’ensemble {{G}, {M}, {P}, {M, P}} (car Cathy ne mentionne que des mouvements légaux au cours de sa résolution), alors que Y et Z appartiennent à l’ensemble {Départ, Arrivée}.
Nous retirons de cette analyse que les sujets disposent d’une représentation de l’état des problèmes qu’ils cherchent à résoudre, et d’opérateurs permettant de modifier ces états du problème. Enfin, comme une opération permet de passer d’un état du problème à un autre état du problème, nous adopterons comme représentation générale des opérateurs un triplet de la forme :
(Situation Initiale, Opération, Situation Finale)
qui indique que l’application de Opération à Situation Initiale fournit le résultat Situation Finale.
L’étude de l’évolution du comportement d’un sujet initialement novice montre une amélioration de ses performances accompagnée d’un appauvrissement des verbalisations qu’il produit. Nous prenons le parti de découper cette évolution en trois phases dans cette présentation, bien qu’il soit sans doute difficile de déterminer avec précision quelles sont ces trois phases.
Au début de sa première résolution, les coups joués par un sujet novice paraissent aléatoires (voir par exemple les énoncés 1 à 16 de ane1.res dans l’annexe A)[1]. Ces coups peuvent être accompagnés de commentaires exprimant le fait que le sujet ne voit rien de pertinent à faire (lau1.res, énoncé 14). Certains sujets expriment toutefois qu’il est préférable de jouer un coup apparemment non intéressant plutôt que de ne rien faire (oli1.res, énoncé 8). La question qui se pose alors est de savoir si ces coups sont effectivement sélectionnés de manière aléatoire.
Rapidement, les verbalisations des sujets s’appauvrissent, laissant apparaître des successions de coups où seul le mouvement est énoncé (voir à ce titre la différence de verbalisation entre cla1.res et cla2.res). Ce comportement est parfois observé dès le milieu de la première résolution (srg1.res, énoncés 37 à 46). La résolution devient généralement plus rapide et comporte moins de retours en arrière (voir par exemple la différence de performance dans phi1.res entre les deux groupes d’énoncés 1 à 19 et 20 à 42). Le chemin choisi n’est pas encore optimum, mais des séquences optimales de coups apparaissent (cat1.res, énoncés 19 à 27). Cette évolution se poursuit au fur et à mesure des résolutions, la solution choisie se rapprochant de la solution optimale, et les verbalisations autres que les instructions de coups à jouer devenant de plus en rares.
Cette évolution se poursuit jusqu’à observer une résolution parfaite et une absence totale (ou quasi totale) de verbalisation (cat6.res). Cette grande automatisation, et cette faculté de pouvoir résoudre le problème sans émettre des indices de réflexion nous amène à qualifier ces sujets «d’experts».
Il ne s’agit pas d’experts au sens usuel du terme, car les sujets n’ont appris le chemin optimum qu’à partir de la situation initiale. Leur expertise sur le problème n’est donc pas totale. Le plus gros disque n’est ainsi quasiment jamais placé sur le piton intermédiaire. On notera que cela implique le fait qu’un tiers de l’espace problème n’est jamais exploré.
En outre, la résolution peut être optimale sans que les sujets n’en aient conscience (voir par exemple le dernier énoncé (33) de cla5.res : après une résolution optimale, le sujet indique «il y a peut-être plus simple à faire encore»), et la structure récursive du problème n’est pas nécessairement comprise par eux. Il est toutefois possible de considérer que les opérations de déplacement de disques (et les séquences de déplacements de disques) sont parfaitement maîtrisées par les sujets.
Deux questions se posent maintenant à nous. Nous devons d’abord choisir une représentation permettant d’expliquer la capacité des sujets à faire changer l’état du problème, et rendant possible le calcul de suites de coups. Nous devons également résoudre le problème suivant : comment expliquer la convergence rapide vers la solution optimale des résolutions humaines alors que ceux-ci n’ont pas encore compris la structure récursive de la tour de Hanoï ?
Deux contraintes doivent être respectées par les opérateurs. La première de ces contraintes est qu’ils doivent permettre de faire évoluer l’état du problème par le biais d’une opération élémentaire. La deuxième contrainte est qu’ils doivent pouvoir permettre de calculer des suites d’opérations. La représentation :
(Situation Initiale, Opération, Situation Finale)
vérifie ces deux contraintes (la première par construction, la seconde car Situation Finale appartennant au domaine d’application de Opération, elle peut être fournie en entrée de l’opérateur afin de calculer l’opération suivante de la suite d’opérations).
Notons également que nous ne postulons pas de langage de représentation pour les opérateurs (contrairement à [VAN 90] ou [NEW 72b] par exemple), car rien ne nous semble plaider en faveur d’un tel langage de représentation pour des opérations de déplacement ou de calcul. En d’autres termes, pour chaque opérateur, nous considérons que la représentation interne est une représentation proche de celle perçue par le sujet. Dans le cadre de la tour de Hanoï, il s’agira de trois pitons sur lesquels sont posées des piles de disque (que nous représenterons de manière syntaxique dans nos simulations sous la forme de trois listes ordonnées de disques). C’est en cela que nous considérons les opérateurs comme des boîtes noires, sur lesquelles pèsent un certain nombre de contraintes.
L’élément le plus surprenant de l’analyse des protocoles de résolution est la rapide convergence des sujets vers la solution optimale, sans que ceux-ci ne réalisent l’aspect récursif du problème de la tour de Hanoï, et parfois même sans qu’ils ne réalisent que la solution choisie est optimale.
Par ailleurs, en début de résolution, les sujets effectuent des coups non motivés, en exprimant l’idée qu’il vaut mieux jouer un coup apparemment inutile plutôt que de ne rien faire. De fait, que les coups joués par le sujet soient des coups optimaux ou non, et que les sujets soient performants ou non, peu de coups sont justifiés par eux en terme de réalisation d’un but.
Les premiers coups joués par les sujets novices pourraient éventuellement être considérés comme des coups joués au hasard. Mais cette explication ne permet pas alors d’expliquer les bons coups joués par la suite. Comme les coups performants ne sont pas plus justifiés que les coups novices, il devient difficile d’accepter l’explication du hasard pour ces derniers. Si on ne s’intéresse pas à la qualité des opérations choisies par les sujets, il n’y a en effet pas de différence apparente dans les verbalisations des sujets entre les bons et les mauvais coups.
Nous rejetons donc l’hypothèse de coups initiaux aléatoires, et nous proposons l’organisation des opérateurs en préférences. Dans une situation donnée, l’opérateur proposera en premier un coup préféré parmi les coups qui lui paraissent possibles. Ces préférences sont susceptibles d’évoluer avec l’expérience, ce qui leur permet de converger vers un ensemble de préférences optimales : dans une situation donnée, un sujet entraîné aura tendance à envisager d’abord le coup optimal. Cette hypothèse présente l’avantage d’expliquer à la fois les comportements des sujets novices et des sujets «experts» (au sens du paragraphe 5.1.2.3). Comme nous le verrons au cours du paragraphe 7.1.2.2, la comparaison entre ces deux hypothèses concurrentes (hasard contre préférence) tourne à l’avantage des préférences.
La représentation choisie afin de modéliser les capacités de calcul et de simulation est une représentation à base d'opérateurs. Un opérateur est une "boîte noire" capable d'effectuer des opérations élémentaires sur un état du problème.
La première capacité que nous postulons pour les opérateurs est la possibilité d’effectuer des transformations élémentaires de l’état du problème. Nous sommes alors en mesure de proposer la forme canonique de la représentation d’un opérateur, et nous pouvons déduire de cette représentation que les opérateurs peuvent s’appliquer de manière récursive.
Il existe a priori une grande variété dans la représentation de l’état d’un problème, en fonction de la précision avec laquelle on désire décrire cet état. Notre modélisation étant basée sur l'observation du comportement des sujets en situation de résolution de problème, nous ne postulons pas que les sujets maintiennent dans leur représentation de l'état du problème autre chose que ce qu'ils peuvent modifier. En effet, seules les parties de la représentation sur lesquelles peut agir un opérateur sont susceptibles d'apparaître dans le comportement du sujet. Il n'est donc pas nécessaire de postuler plus que les modifiables dans cette représentation.
Cette restriction ne signifie pas que seuls les éléments qui sont effectivement modifiés au cours de la résolution soient représentés. Nous représenterons tous les éléments que l’opérateur est capable de modifier.
Nous postulons qu’un opérateur n’est initialement capable que d’actions élémentaires. Une action élémentaire est une modification de l’état du problème par l’application d’une unique transformation. L’expérience aidant, il est possible que l’opérateur regroupe en une opération plusieurs transformations, mais nous postulons que ceci n’est pas le cas pour un novice. Dans le cas de la tour de Hanoï, par exemple, un novice sera capable de déplacer un disque d’un piton vers un autre piton. Un sujet plus expérimenté sera capable d’envisager le déplacement du couple constitué des deux plus petits disques.
Cette distinction peut paraître non fondée, dans la mesure où une opération condensée n’est que l’application successive de plusieurs opérations élémentaires. Mais cette distinction prend son sens si l’on considère qu’un sujet n’est capable d’envisager simultanément qu’un nombre limité d’états du monde, et donc d’opérations.
Nous sommes maintenant en mesure de proposer la forme canonique utilisée pour représenter les opérateurs. Nous représenterons un opérateur sous la forme d’un triplet :
(Situation Initiale, Opération, Situation Finale)
La situation initiale étant la situation avant l’application de l’opération, et la situation finale étant la situation une fois l’opération effectuée.
Un opérateur est bien entendu lié à la tâche qu’il permet de résoudre. Il sera donc nécessaire de développer un nouvel opérateur à chaque fois qu’on sera confronté à une nouvelle tache. Les expériences d’Evelyne Clément et Jean-François Richard sur les isomorphes de la tour de Hanoï [CLE 97] démontrent ce point puisqu’un sujet pourra avoir des performances très différentes sur deux tâches ayant un espace-problème identique, mais faisant intervenir un opérateur différent, au moins du point de vue du sujet tentant de résoudre la tâche.
La forme canonique d’un opérateur autorise son application récursive puisque les situations finale et initiale sont toutes deux des états du problème. Il est donc possible de prendre en entrée d’un opérateur la sortie produite par ce même (ou un autre) opérateur. La représentation choisie permet donc d’expliquer la capacité d’un sujet à envisager une succession d’opérations. En outre, comme nous le verrons au paragraphe 5.3.2, cette capacité peut autoriser le mécanisme de compilation (condenser en une seule opération plusieurs opérations fréquemment effectuées en séquence).
Afin d’éviter l’obtention d’un modèle capable de résoudre un problème par l’exploration complète de l’espace-problème, cette capacité à envisager une succession d’opérations est limitée en terme de profondeur. Les expérimentations que nous avons menées nous ont conduit à fixer cette limite de profondeur à 2[2].
La modélisation que nous avons adoptée pour représenter les capacités logiques des individus nous pousse à postuler une forme particulière de réversibilité pour les opérateurs. Comme nous le verrons au cours du chapitre 6, cette forme de réversibilité est nécessaire pour permettre d’expliquer le comportement des sujets en situation d’impasse[3].
Nous présentons donc ici deux notions de réversibilité. La première correspond à la notion classique de fonction inverse d’une fonction donnée. Nous ne postulons pas cette capacité pour nos opérateurs, mais nous la présentons dans le seul but de la différencier de la seconde forme de réversibilité, qui autorise le déblocage en situation d’impasse en fournissant une situation où il est possible d’effectuer une opération désirée.
Le calcul du chemin inverse correspond à la forme classique de la réversibilité. Cette réversibilité permettrait de répondre à des questions de la forme «quelle opération appliquée à quelle situation initiale à permis de fournir la situation finale donnée ?». En terme de flux de données, cela reviendrait à interroger l’opérateur :
(Situation Initiale, Opération, Situation Finale)
avec Situation Finale en flux d’entrée et le couple (Situation Initiale, Opération) en flux de sortie. Une version moins forte de cette forme de réversibilité pourrait être un appel avec (Opération, Situation Finale) en flux d’entrée et Situation Initiale en flux de sortie. Même cette forme affaiblie de réversibilité nous paraît peu crédible (comme l’illustre par exemple la difficulté de parcourir mentalement un alphabet à l’envers). Mais la principale raison qui nous pousse à ne pas postuler une telle capacité est qu’elle ne jouerait aucun rôle dans notre modélisation.
Le module logique est capable de produire une situation contre-factuelle où une problématique donnée est cassée. Si la problématique en question constitue l’objectif courant d’une personne en situation de résolution de problème, la situation contre-factuelle produite correspond à une situation où le problème courant est résolu.
Si un opérateur est capable de proposer une situation intermédiaire où la transition de l’état courant à l’état contre-factuel est réalisable, cette situation intermédiaire peut-être acceptée comme sous-but par le module logique, ce qui permet alors de sortir des situations d’impasses.
Nous postulons que les opérateurs sont capables d’effectuer de telles propositions. Le mécanisme postulé se déroule en deux phases. Dans un premier temps, l’opérateur est appelé avec en flux d’entrée la situation courante en tant que situation initiale et la situation contre-factuelle en tant que situation finale. L’opération est alors un flux de sortie. Cependant, si la situation initiale est entièrement instanciée, l’opérateur ne pourra fournir aucune réponse (car sinon, il aurait déjà pu proposer l’opération que l’on recherche dans le cadre de son comportement direct[4]). Seules les différences entre les situation réelles et contre-factuelles seront donc passées à l’opérateur. A titre d’exemple, pour la tour de Hanoï à 5 disques, si l’objectif courant est de placer le disque 5 en C et qu’il est en A dans la situation courante, l’appel à l’opérateur aura pour forme :
((5)()() : ? : ()()(5))
Si l’opérateur est capable de fournir une opération autorisant la transition souhaitée (5 de A en C dans notre exemple), il va se rappeler lui-même avec comme flux d’entrée l’opération déterminée à l’étape précédente et avec comme flux de sortie la situation initiale (la situation finale ne jouant pas de rôle dans la suite de l’opération de sortie d’impasse, elle peut être indifféremment renseignée ou pas par l’opérateur). La situation initiale nouvellement calculée peut être alors transmise au module logique qui va la considérer comme un sous-but à atteindre. Dans notre exemple, cela donne :
((5)(1 2 3 4)() : 5 de A en C : non pertinent)
Il est à noter que plusieurs situations peuvent parfois permettre une opération désirée. Nous n’émettons aucune hypothèse quant à la manière de sélectionner une de ces hypothèses. Dans nos expérimentations sur la tour de Hanoï, les éléments pertinents de la situation initiale étaient déterminés de manière unique en fonction de l’opération désirée, et le problème du choix ne s’est pas posé. Dans nos expérimentations sur la trigonométrie, la première situation trouvée par l’opérateur (qui dépend de l’ordre dans lequel nous écrivons les clauses PROLOG de l’opérateur) était retenue.
Il convient également de noter que les hypothèses que nous avons émises ne garantissent pas que la situation initiale résultante est une situation accessible. La base de protocole que nous avons utilisée nous propose un tel exemple de situation rendant possible la résolution du problème, mais ne pouvant pas être atteinte à partir de la situation courante (lau1.res, énoncé 29). Dans la situation ()(432)(51), le sujet énonce «en fait il faudrait que j’ai cette pyramide là mais à l'envers, pour pouvoir prendre chaque pièce pour les mettre sur le C». Après avoir placé le disque 1 sur le piton A, il se rend compte qu’il ne pourra mettre son plan à exécution, en détectant la violation de consigne quant il envisage le déplacement 2 de B en A, et il abandonne la résolution courante.
L’étude que nous avons menée sur la résolution du problème de la tour de Hanoï par des sujets humains nous amène à poser une hypothèse supplémentaire sur les opérateurs. Un sujet novice, au cours de sa première résolution ne détecte aucun coup pertinent. Après une phase d’inaction, le sujet effectue toutefois un mouvement en le justifiant par un commentaire analogue à «il faut bien faire quelque chose». Quand le sujet a acquis une certaine expérience, la résolution devient plus performante, les hésitations et les interruptions se font moins nombreuses, et les traces de réflexion se font également moins nombreuses dans ces verbalisations.
Aux alentours de la cinquième résolution, le sujet ne verbalise plus que les déplacements, et semble adopter un comportement automatique (des protocoles de résolution par des sujets novices, accompagnés d’une transcription des verbalisations effectuées par eux au cours de cette résolution, sont proposés en annexe A). Nous allons proposer un mécanisme unique permettant de rendre compte de ces différents types de comportement : l’organisation des opérateurs en préférences.
Nous formulons pour les opérateurs l’hypothèse que l’ordre dans lesquels les différents coups sont envisagés n’est pas aléatoire. Nous utilisons la notion de préférence pour expliquer l’ordre d’évaluation des coups, et nous utilisons l’idée que ces préférences évoluent au cours du temps pour éclaircir le comportement des sujets en situation de résolution de problème.
L’hypothèse est que l’opérateur va fournir en séquence l’ensemble des coups qu’il peut proposer à partir de la situation présente, et qu’il va les fournir dans un ordre particulier. Nous appelons cet ordre ‘préférence’ en référence au comportement des sujets novices, qui ‘préfèrent’ jouer un coup plutôt qu’un autre quand rien ne paraît pertinent.
Nous formulons en outre l’hypothèse que les préférences dépendent du contexte, en considérant que le contexte est une partie de la situation courante.
Nous postulons que dans une situation donnée un opérateur va fournir en séquence l’ensemble des opérations qu’il est capable de calculer. Dans une situation où plusieurs coups sont proposables par l’opérateur, les opérations seront proposées selon un ordre déterminé. Nous postulons que cet ordre est susceptible de varier au cours du temps, et qu’il dépend du contexte. Le contexte est constitué d’éléments de la situation courante. Nous postulons enfin que ce contexte peut évoluer (essentiellement s’enrichir) avec l’expérience. A titre d’exemple, nous avons utilisé comme contexte pour notre simulation de la tour de Hanoï le couple :
(piton de départ, position du disque 5)
Dans les situations où plusieurs disques étaient autorisés à se déplacer, le déplacement du plus petit disque était proposé en premier (mais ces situations ne se présentent qu’à l’issue d’un déblocage et sont donc peu fréquentes). Ainsi les préférences dans notre simulation pourraient être :
(A, A) : B puis C
(A, ØA) : C puis B
(B, A) : A puis C
(B, ØA) : A puis C
(C, A) : A puis B
(C, ØA) : A puis B
Nous allons maintenant examiner en quoi l’organisation des opérateurs en préférence permet une explication qualitative des différents comportements observés.
L’organisation des opérateurs en terme de préférences permet d’expliquer pourquoi les sujets novices choisissent un coup plutôt qu’un autre dans des situations où rien ne paraît pertinent : il suffit de considérer que le sujet effectue alors le coup préféré de l’opérateur.
L’évolution des préférences au cours du temps, ainsi que l’expansion du contexte, permet d’expliquer les progrès des sujets avec l’expérience. Si, dans une situation donnée, un déplacement est meilleur que les autres, il se verra préféré sur le long terme. L’opérateur évoluera donc au cours du temps pour devenir de plus en plus performant (il proposera le meilleur coup avant de proposer les autres). Par ailleurs, l’augmentation du contexte au cours du temps permet de donner de plus en plus de finesse à l’opérateur, en augmentant sa capacité à discriminer des situations. Poussé à l’extrême, l’opérateur peut expliquer le comportement des véritables experts, qui reconnaissent les situations de leur domaine d’expertise plus qu’ils ne les analysent et qui savent immédiatement quoi faire dans une situation donnée.
Une question reste cependant en suspens : comment se fait l’évolution des préférences au cours du temps ? L’existence des préférences est validée par notre comparaison entre les modèles avec et sans préférence. Mais dans cette expérimentation, nous ne cherchons pas à prédire les évolutions. Nous nous contentons d’en prendre acte après coup (en modifiant la préférence responsable d’une déviation par rapport au sujet). Les expérimentations que nous avons menées au niveau qualitatif (essayer de suivre parfaitement un protocole) ne nous ont pas permis de découvrir de règle simple d’évolution pour les préférences.
Notons enfin que l’hypothèse selon laquelle le contexte des préférences évolue avec le temps est, compte tenu des expérimentations que nous avons menées, superflue (nous ne l’avons pas intégrée dans nos expérimentations). Cette hypothèse a cependant le mérite d’expliquer le développement de l’expertise. Nous ne la conserverons pas dans notre modèle final, puisque nous ne l’avons pas testée, mais nous serions fortement tentés de la réintroduire dans de futures versions.
Nous venons de présenter la représentation des connaissances et les mécanismes de fonctionnement de la partie de notre modélisation consacrée aux capacités de calcul et de simulation. Nous allons maintenant spécifier les lieux possibles de l’apprentissage au sein des opérateurs. Nous nous bornerons à préciser l’ensemble des lieux où un mécanisme d’apprentissage peut apparaître, sans prendre position sur la réalité de tels mécanismes. Un travail important de développement de cette partie de notre modélisation semble en effet nécessaire avant de pouvoir envisager une expérimentation de ces capacités d’apprentissage. Ce paragraphe peut donc être considéré comme un paragraphe de prospective, et nous ne reprendrons pas par la suite les propositions que nous allons faire maintenant.
Deux types d’apprentissage sont possibles dans la partie calculatoire de notre modèle. Le premier type d’apprentissage est lié à l’évolution des préférences au cours du temps, qui permet d’obtenir une exploration plus performante de l’espace-problème quand l’expérience augmente. Le second type d’apprentissage est plus classique en résolution de problème : il s’agit de la compilation des connaissances procédurales, qui deviendra pour nous la compilation des opérateurs : avec l’expérience, des suites d’opérations répétées souvent peuvent être mémorisées en tant que macro-opération.
L’apprentissage sur les préférences se déroule toujours de la même manière : l’ordre des préférences dans un contexte donné est modifié. La cause de cette modification est ici la question pertinente. Nous proposons ici deux causes possibles d’apprentissage, à savoir l’apprentissage en cas de blocage (que nous définirons au chapitre suivant) et l’apprentissage en cas de contradiction entre les préférences et l’évaluation de la situation par le module logique.
Avant d’aborder ces deux lieux d’apprentissage, signalons une conséquence importante de cette façon d’apprendre : un opérateur performant ne demande pas la mémorisation d’une quantité d’information plus importante qu’un opérateur «maladroit». En outre, il n’est plus nécessaire dans cette optique de mémoriser l’enchaînement des opérations permettant de résoudre un problème de manière correcte. Si un sujet est capable de résoudre un problème sans commettre d’erreur, c’est que l’opérateur a convergé vers ses préférences optimales. Dans cette situation, et à condition que l’opérateur se soit stabilisé, la prochaine résolution par le même sujet sera, elle aussi, optimale. En d’autres termes, le sujet sera capable de résoudre le problème comme s’il avait mémorisé chacune des étapes de la résolution, alors qu’il n’aura fait qu’optimiser ses préférences. On obtient donc un système de mémorisation particulièrement efficace en terme de quantité d’information stockée.
L’hypothèse selon laquelle le contexte des préférences augmenterait avec l’expérience serait elle plus gourmande en capacité de mémorisation. Cependant, cette hypothèse devant servir à expliquer le comportement de sujet ayant des années de travail sur un domaine donné, cette demande accrue en terme de mémoire n’est pas absolument inenvisageable.
Comme nous le verrons au cours du chapitre 6, le module logique peut valider un coup (ou une suite de coups) proposé par l’opérateur, et ce même si le coup (ou la suite de coups) validé par le module logique n’est pas le préféré de l’opérateur. Le coup choisi par le sujet sera alors un coup différent du coup préféré de l’opérateur. Cette situation est une situation favorable à l’apprentissage puisqu’il suffit de placer en tête des préférences le coup validé par le module logique. Notons cependant qu’il s’agirait ici d’un apprentissage en une fois, et gouverné par des contraintes logiques, ce qui semble peu compatible avec les caractéristiques analogiques des opérateurs. Reste que ce type d’apprentissage, au moment d’un conflit entre les modules logiques et opératoires, est une possibilité envisageable.
La plupart des modélisations cognitives existantes considèrent les impasses comme des lieux d’apprentissage privilégiés (voire comme l’unique lieu de l’apprentissage). La situation d’impasse, comme nous le verrons au chapitre suivant, à ceci de particulier qu’elle amène le module logique à produire des contre-factuels. Elle marque donc un moment particulier dans une résolution de problème, et peut alors être considérée comme un lieu possible de modification des préférences. De fait, le système ne peut se trouver en situation d’impasse qu’à l’issue d’une exploration libre, où le choix des mouvements effectués est exclusivement fixé par les préférences. On pourrait donc envisager de modifier la préférence du dernier contexte avant la situation d’impasse. Cependant, une telle modification, effectuée de manière systématique risque de poser un problème de stabilité pour les préférences des opérateurs, que nous allons présenter maintenant.
Le fait que le sujet se retrouve en situation d’impasse ne signifie pas de manière systématique que le dernier choix effectué par les préférences soit mauvais. Un mauvais choix antérieur ou une discrimination insuffisante par le contexte peuvent aussi être des causes de l’impasse rencontrée. Si les préférences sont systématiquement modifiées après chaque impasse (ce que nous avons expérimenté), elles ne se stabilisent pas. Il devient alors impossible de les voir converger vers le jeu de préférence optimum.
Afin d’éviter ce problème de stabilité, il devient nécessaire de postuler que la capacité des préférences à se modifier diminue avec l’expérience. Un sujet novice verra donc ses préférences se modifier souvent alors qu’un sujet plus expérimenté ne les verra se modifier que rarement. A titre d’exemple, le nombre moyen de modifications de préférence détecté par notre simulation des protocoles dont nous disposons donne :
Essai 1 : 5,143
Essai 2 : 5,429
Essai 3 : 5
Essai 4 : 4, 429
Essai 5 : 3,286
Essai 6 : 3,333
Essai 7 : 3
Ces résultats semblent indiquer une légère tendance à la baisse du nombre de modifications des préférences. Notons cependant que, d’une part, nous ne disposons pas d’une base de protocoles suffisamment grande pour tirer des enseignements statistiques de cette tendance et que, d’autre part, ces résultats supposent que les sujets se comportent exactement comme notre simulation (ce qui n’est pas le cas, puisqu’un certain nombre de différences non dues aux préférences existent entre les protocoles et nos simulations (91 sur 1462 coups, soit 6,2%)). Nous ne tirons donc pas de conséquence définitive de cette apparente diminution du nombre de changement de préférence au cours des résolutions successives, mais nous nous bornons à constater que la tendance semble être celle que notre modélisation prédit.
Notons enfin qu’un sujet peut voir une ou des préférences optimales se modifier. Notre modélisation ne garantit en effet pas qu’une résolution optimale soit dépourvue d’impasse. Il est donc possible de voir temporairement se dégrader les performances d’un sujet donné. Cependant, les performances d’un sujet devraient être, sur le long terme, en progression.
Une seconde forme d’apprentissage est possible au sein de notre modélisation. Il s’agit de la compilation (ou concaténation) d’opérations. Après avoir présenté le principe de fonctionnement d’une telle compilation, nous envisagerons comment une telle compilation peut être aidée par la planification de la résolution.
La compilation ou concaténation d’opérations est proposée en 1972 par Fikes, Hart et Nilsson [FIK 72] sous le terme de compounding. L’idée est que l’application répétée d’une succession d’opérations donne naissance à un macro-opérateur qui transforme l’état initial de la première opération en l’état final de la dernière opération. Formellement, sur un exemple à deux opérations (où E1, E2 et E3 sont des états du problème, O1 et O2 sont des opérations et où O2°O1 désigne la composition de l’opération O1 par l’opération O2), cela donne :
(E1, O1, E2)
(E2, O2, E3)
® (E1, O2°O1, E3)
Cette macro-opération se rajoute à l’ensemble des opérations que peut calculer l’opérateur à partir de E1, et sera a priori préférée à l’opération O1 (car sinon, cette concaténation perd de son intérêt, puisqu’elle ne sera en général vue qu’après les opérations qui la composent). Cette concaténation permettrait d’expliquer l’augmentation apparente de la profondeur de calcul qui accompagne l’expérience.
Compte tenu du degré d’avancement de notre modélisation des opérateurs, nous ne sommes pas en mesure de proposer un mécanisme plus détaillé d’une telle compilation. Cependant, la planification de la résolution d’un problème (effectuée par le biais du module logique) peut constituer un élément favorisant une telle compilation, en forçant la répétition d’actions permettant d’atteindre un sous-but (ou un ensemble de sous-buts) donné, comme nous allons le voir maintenant.
Nous verrons dans le chapitre suivant que le module logique permet de planifier et de mémoriser la planification de la résolution d’un problème. Le rôle de cette planification va être de diriger l’exploration de l’espace-problème vers l’état solution (où vers l’un de ces états, s’il y en a plusieurs), en permettant la création de sous-buts plus accessibles par l’exploration car plus proches (en terme d’opérations) de l’état courant. Comme l’orientation par le module logique est prioritaire sur l’orientation par les préférences, l’opérateur va être amené à sélectionner des séquences d’opérations qui ne correspondent pas nécessairement à ses préférences.
Si une séquence d’opérations ainsi forcée par le module logique se répète suffisamment, soit parce que cette séquence est nécessaire pour atteindre plusieurs sous-buts apparaissant dans la planification, soit parce que le sujet résout un nombre suffisant de problèmes similaires, le principe de compounding présenté plus haut va créer un macro-opérateur réalisant cette série d’opérations. Le module logique aura donc permis la création d’une macro-opération préférée dans un contexte donné. On voit donc ici apparaître un mécanisme de développement de connaissances opératoires à partir de connaissances logiques.
En outre, les sous-objectifs étant représentés par des règles d’indésirabilité, les sous-objectifs que résoudront ce macro-opérateur disparaîtront à terme de la planification mémorisée par le sujet[5]. Ce mécanisme de compounding permet donc d’expliquer, compte tenu du fonctionnement général du modèle, le transfert de connaissances logiques vers les connaissances opératoires.
Nous sommes maintenant en mesure de proposer une synthèse de notre modélisation des capacités de calcul des sujets humains, basée sur un formalisme d’opérateur. Nous nous limitons dans cette synthèse aux éléments que nous avons effectivement testés au cours de nos expérimentations.
Les opérateurs prennent la forme suivante :
(Etat1, Action, Etat2)
où Etat2 est l’état résultant de l’application de Action à Etat1. Etat1 et Etat2 sont des situations du problème envisagées, et Action est une opération calculable à partir de Etat1.
Nous postulons deux mécanismes de fonctionnement pour nos opérateurs. Le premier permet une exploration locale de l’espace-problème, et le second fournit une situation où une action envisagée est possible.
Les opérateurs permettent une exploration locale de l’espace-problème, guidée par les préférences. Cette exploration s’appuie sur la capacité qu’ont les opérateurs de s’appeler en boucle, et le guidage au sein de l’espace-problème est effectué par le biais de préférences.
Les opérateurs sont capables de proposer en séquence l’ensemble des situations accessibles à partir de l’état-problème courant. Les opérateurs peuvent se rappeler eux-mêmes en se transmettant comme nouvel état initial l’état résultant de leur première application. Cette capacité d’exploration est limitée en terme de profondeur. Les expérimentations que nous avons menées nous ont conduit à fixer cette limite de profondeur à 2.
Les opérateurs sont donc capables de proposer en séquence l’ensemble des situations accessibles en une ou deux opérations à partir de l’état problème courant.
L’ordre de proposition des états accessibles n’est pas aléatoire. Il est fourni par un jeu de préférences dépendant du contexte, et qui peuvent varier au cours du temps. Le contexte est constitué d’éléments de l’état-problème. Les préférences indiquent que dans une situation donnée, une opération donnée sera envisagée avant une autre opération donnée. Les préférences ordonnent totalement les opérations réalisables dans une situation donnée.
Les opérateurs sont capables de proposer une situation où une action envisagée est réalisable. Cette proposition s’effectue en deux étapes. Dans un premier temps, l’action à entreprendre est reconnue par l’opérateur, puis dans un second temps, celui-ci propose une situation où cette action est réalisable.
Dans un premier temps, l’opérateur recherche une opération rendant possible une transformation envisagée. L’opérateur reçoit en entrée des situations initiale et finale partiellement instanciées. Il sélectionne alors une opération dont l’application à la situation initiale fournit la situation finale. Si cette étape échoue, l’opérateur ne sera pas capable d’effectuer une proposition.
L’opérateur se rappelle alors lui-même, en se fournissant en entrée l’opération déterminée à l’étape précédente. Il propose en sortie une situation initiale où cette opération est réalisable. La question de savoir si l’opérateur fournit conjointement l’étape résultante de l’application de l’opération à l’étape initiale ainsi déterminée n’est pas pertinente (cette situation finale ne jouant aucun rôle dans notre modélisation).
[1] L’annexe A propose la base de protocole que nous avons utilisée dans cette étude. Nous nous contenterons dans ce chapitre de fournir des exemples illustrant nos constatations, afin de ne pas alourdir le texte. La véritable justification des idées que nous défendons dans ce chapitre n’est de toute façon pas constituée par une analyse de ces protocoles, mais par les bons résultats que nous obtenons en simulation. Nous fournissons toutefois les protocoles, afin de permettre au lecteur intéressé de se forger sa propre opinion sur la pertinence de nos choix.
[2] Il s’agit d’un constat empirique : les meilleures performances de notre modèle sont obtenues avec une profondeur d’exploration fixée à 2.
[3] En résolution de problème, le terme impasse désigne soit une situation où rien n’apparaît possible pour le sujet, soit une situation où il n’est pas possible de prendre une décision. Pour nous, une situation d’impasse est une situation où aucune des actions envisageables ne semblent pertinentes et où le sujet estime avoir suffisamment exploré le voisinage de l’état courant du problème. Nous conservons cependant le terme d’impasse car le sujet est effectivement bloqué : dans la situation courante, rien ne lui paraît pertinent.
[4] Avec Situation Courante en flux d’entrée et le couple (Opération, Situation Contre-factuelle) en flux de sortie.
[5] La situation indésirable représentant la négation de ce sous-objectif sera résolue en une seule opération. Elle perdra de fait son indésirabilité, puisqu’elle sera très facile à résoudre.