Chapitre 6 : Le couplage

Comment les sujets humains résolvent-ils des problèmes ? Nous proposons ici une modélisation de cette capacité, dont nous présentons deux versions résumées dans [AUR 97] et [AUR 98a], en nous basant sur un couplage entre les capacités de calcul et les capacités logiques que nous avons précédemment exposées. Afin d’expliquer ce comportement, il nous faut aborder les points suivants :

· L’exploration locale de l’espace-problème.

· La représentation des objectifs et l’évaluation des situations rencontrées. Nous expliquerons alors le fonctionnement exploratoire de notre modèle à partir du couplage des deux points évoqués.

· La capacité de sortir des situations de blocage.

· Le fait que les sujets ne résolvent pas de manière parfaite les problèmes qu’ils rencontrent pour la première fois.

· Le fait que les sujets ne résolvent pas de manière satisfaisante des problèmes de logique simple, alors que nous leur postulons des capacités logiques.

6.1 Les responsabilités

Nous proposons d’expliquer les capacités humaines de résolution de problème par un couplage entre deux modules autonomes de traitement. Avant de rentrer dans le détail du modèle, nous devons répondre à la question de la responsabilité de chacun des modules au sein des traitements. Comme nous l’avons vu au cours du chapitre 4, la logique est capable de détecter si une situation est indésirable. Comme, nous l’avons vu au cours du chapitre 5, les opérateurs sont capables de proposer des coups légaux à partir d’une situation donnée. Nous pouvons maintenant présenter l’hypothèse principale de la thèse que nous défendons :

La résolution de problème peut être modélisée par le biais de deux types de capacités :

· Les capacités de transformation du problème, qui sont effectuées par le biais d’opérateurs, dont l’unique rôle est de proposer des transformations et des situations, et qui n’ont aucun pouvoir d’évaluation.

· Les capacités logiques, dont le rôle est d’évaluer les situations rencontrées. Les capacités logiques ne sont pas capables d’envisager des transformations au sein de l’espace-problème, mais peuvent émettre des hypothèses (i.e. envisager les conséquences de la négation d’un fait connu).

Nous allons maintenant examiner dans le détail les responsabilités de nos deux modules.

6.1.1 Le pouvoir de proposition : l’opérateur

Le rôle des opérateurs dans une résolution de problème est d’effectuer des propositions. Partant d’une situation donnée, l’opérateur est capable de proposer des opérations ou des séries d’opérations légales et accompagne ces propositions des états associés du problème. Partant de la situation actuelle et d’une situation contre-factuelle partiellement instantiée, l’opérateur est capable de proposer une situation contre-factuelle partiellement instantiée plus proche de la situation réelle et permettant une action amenant à la situation contre-factuelle initiale.

6.1.1.1 Proposition hiérarchique par l’opérateur d’une série d’action

Un opérateur est capable, à la demande, de fournir de manière séquentielle et en suivant l’ordre des préférences pour le contexte donné, l’ensemble des opérations légales dans la situation qui lui est fournie. Il est également capable de fournir, toujours en séquence et en suivant l’ordre des préférences, des suites d’opérations légales dans la situation fournie, en s’appliquant aux situations résultantes qu’il propose. Cette capacité de proposition est limitée par une profondeur maximum dépendant de l’expérience du sujet sur le domaine.

Dans nos expérimentations, une profondeur de calcul de 2 se révèle suffisante pour expliquer le comportement des sujets, si nous acceptons l’hypothèse que l’expérience permet de construire des opérateurs capables de réaliser plusieurs opérations élémentaires en une seule opération, comme le propose [FIK 72].

A titre d’exemple, sur la situation initiale de la tour de Hanoï, et en préférant déplacer le disque 1 d’abord vers le piton B, l’opérateur proposera :

(1 2 3 4 5) () () 1 en B (2 3 4 5) (1) ()

(1 2 3 4 5) () () 1 en C (2 3 4 5) () (1)

(1 2 3 4 5) () () 1 en B puis 2 en C (3 4 5) (1) (2)

(1 2 3 4 5) () () 1 en C puis 2 en B (3 4 5) (2) (1)

6.1.1.2 Proposition par l’opérateur d’une situation satisfaisant un contre-factuel

Un opérateur est capable de fournir, à la demande, un état du problème partiellement spécifié où une opération légale permet d’atteindre une situation contre-factuelle. Le calcul d’une telle situation se déroule en deux étapes.

Au cours de la première étape, l’opérateur accepte en entrée deux situations partiellement instantiées. La première situation est la situation réelle. La deuxième est la situation contre-factuelle. Dans ces deux situations ne sont représentés que les éléments ayant changé entre la situation réelle et la situation contre-factuelle. L’opérateur détermine alors une opération permettant de passer de la situation réelle à la situation contre-factuelle. A titre d’exemple sur le problème de la tour de Hanoï, si la situation réelle est (5) () () et que la situation contre-factuelle est () () (5), l’opérateur proposera le mouvement «5 de A en C».

Au cours de la seconde étape, l’opérateur va prendre en entrée le mouvement qu’il a déterminé au cours de la première étape, et fournira en sortie une position partiellement instantiée où ce mouvement est légal. Dans le cas de la tour de Hanoï, si le mouvement déterminé est «4 de B en C», l’opérateur fournira la situation (1 2 3) (4) (). On notera que le disque 5 n’intervient pas dans la situation fournie ici par l’opérateur. Cela est dû au fait que sa position est indifférente quand le disque que l’on désire déplacer est le disque 4. C’est en cela que les situations proposées par l’opérateur ne sont que partiellement instanciées.

6.1.2 Le pouvoir de décision : la logique

Le rôle du module logique dans une résolution de problème est d’évaluer les propositions de situations accessibles fournies par l’opérateur puis d’évaluer quels sont les éléments de la situation courante qui posent problème quand l’opérateur ne propose plus rien.

6.1.2.1 Validation par la logique d’une série d’actions envisagée par l’opérateur

En situation de résolution de problème, au moins une règle d’indésirabilité est saturée, puisque sinon, le problème est résolu. Le module logique va évaluer chacune des situations que va lui proposer l’opérateur. Si dans une des situations proposées, au moins une des règles d’indésirabilité n’est plus saturée, le module logique validera l’action associée. Si toutes les règles d’indésirabilités restent saturées dans la nouvelle situation proposée, le coup proposé est rejeté. A titre d’exemple, dans le cas de la tour de Hanoï, si l’indésirabilité saturée est :

[[non (5 en C)], []] Þ Indésirable

et que la situation courante est :

(1 5) (2 3 4) ()

si l’opérateur propose la situation résultante :

(5) (2 3 4) (1)

l’indésirabilité courante restera saturée et le coup associé («1 de A en C») sera rejeté. Par contre, si l’opérateur propose la situation résultante :

() (1 2 3 4) (5)

l’indésirabilité courante ne sera plus saturée et la séquence de coup associée («1 de A en B puis 5 de A en C») sera validée, et donc effectuée.

6.1.2.2 Création de sous-buts par la prise en compte d’une situation satisfaisant un contre-factuel

Quand dans tous les états accessibles (compte tenu de la limite de profondeur de l’opérateur) les indésirabilités courantes restent saturées, le mécanisme de recherche s’interrompt, faute de proposition de la part de l’opérateur. Nous qualifierons cette situation de «situation de blocage» ou «d’impasse». Dans une telle situation, le mécanisme de production de contre-factuel va permettre de sortir de l’impasse. Dans un premier temps, le module logique va produire une situation contre-factuelle désirable et cohérente (i.e. une situation ou aucune des règles d’indésirabilité courante ni aucune des règles de paradoxe n’est saturée). Il va ensuite fournir le couple des situations [actuelle, contre-factuelle] à l’opérateur qui retournera une situation autorisant la transition souhaitée. Cette situation sera alors traduite en une nouvelle règle d’indésirabilité (et sera donc prise comme nouveau sous-objectif).

La nouvelle règle créée comportera dans son menu la règle saturée ayant amené la production contre-factuelle. En effet, il n’est intéressant d’atteindre un sous-but que tant que le but l’ayant généré n’est pas atteint. Si le but était omis dans le menu, la règle correspondant au sous-but perturberait la résolution une fois le but atteint. La nouvelle règle créée aura donc la forme :

[[non (Sous-But)], [non (But)]] Þ Indésirable

On peut alors se demander pourquoi introduire le but dans le menu plutôt que dans le noyau. De fait, si on l’introduit dans le noyau, la nouvelle règle ainsi créée :

[[non (Sous-But), non(But)], []] Þ Indésirable

est masquée par la règle :

[[non (But)], []] Þ Indésirable

En effet, la règle courte sera toujours saturée quand la règle longue le sera, et c’est sa saturation qui risque d’être détectée. En cas de blocage ultérieur, les productions contre-factuelles pourraient porter à nouveau sur le but, ce qui pourrait entraîner une boucle infinie dans le processus de résolution.

On peut alors s’étonner de voir apparaître le but dans le menu d’une règle si l’on se souvient de la définition du menu. Un terme apparaît dans le menu quand sa négation est considérée comme «improbable». Comment considérer comme improbable la réalisation d’un objectif que l’on cherche à atteindre ?

Pour comprendre la solution de ce problème apparent, il faut revenir à la définition de la modalité improbable. Un terme sera jugé improbable si le quotient R/P est faible, où R représente le nombre de fois où le terme à pris la valeur de vérité jugée improbable et P le nombre de fois où une situation comparable a été rencontrée (dans le cadre de la situation de problème, cela revient à considérer l’ensemble des points visités de l’espace-problème depuis que la règle d’indésirabilité courante est saturée).

Une procédure de sortie d’impasse étant en cours, l’objectif poursuivi n’a jamais été réalisé, puisque sinon la règle d’indésirabilité serait cassée et le processus de sortie d’impasse n’aurait pas été activé. R vaut donc 0. Il est donc licite de mémoriser la règle :

(But) Þ Improbable

Le processus de création d’un sous-but peut donc se résumer ainsi :

· Production par le module logique d’une situation contre-factuelle non indésirable et cohérente.

· Génération par l’opérateur d’une opération permettant de passer de la situation réelle à la situation contre-factuelle.

· Génération par l’opérateur d’une situation initiale où l’opération calculée à l’étape précédente est possible.

· Production de la nouvelle règle d’indésirabilité, dont le noyau est constitué de la traduction de la situation-objectif calculée à l’étape précédente, et dont le menu est constitué de la règle d’indésirabilité saturée ayant conduit à la production contre-factuelle.

A titre d’exemple, dans le cas de la tour de Hanoï, avec comme situation courante (3 4 5) (2) (1), et avec comme indésirabilité saturée :

[[non (5 en C)], []] Þ Indésirable

on a :

5 en C : Faux

5 en A : Vrai

Le module logique produit d’abord le contre-factuel :

5 en C : Vrai (CF)

La règle paradoxale :

[[5 en A, 5 en C], []] Þ Paradoxal

qui exprime le fait qu’un disque ne puisse pas se trouver simultanément sur deux pitons différents est alors saturée, ce qui entraîne la production du contre-factuel :

5 en A : Faux (CF)

L’opérateur est alors appelé avec le couple [réelle : (5) () (), contre-factuelle : () () (5)] et il fournit en réponse la situation () (1 2 3 4) () qui servira à calculer le nouveau sous-but qui prendra la forme :

[[non (4 en B)], [non (5 en C)]] Þ Indésirable

6.2 Fonctionnement du modèle

Nous pouvons maintenant aborder la présentation du fonctionnement de la résolution de problème. Nous utiliserons un exemple de résolution sur la tour de Hanoï afin d’illustrer notre propos, exemple que nous conserverons tout au long de ce paragraphe.

6.2.1 Exploration contrôlée de l’espace de recherche

La méthode générale de la résolution est constituée par une exploration contrôlée de l’espace de recherche. Celle-ci est basée sur un aller retour entre le module logique et l’opérateur, que nous allons présenter maintenant.

6.2.1.1 L’aller retour entre l’opérateur et la logique

Afin de résoudre un problème, la méthode suivante est utilisée :

· Initialisation : l’objectif du problème est mémorisé en règles d’indésirabilité.

· Recherche : l’opérateur propose en séquence les situations qu’il sait atteindre. Le module logique valide la première situation dans laquelle au moins une des indésirabilités n’est plus saturée.

Sur la tour de Hanoï, considérons la situation (1 5) (2 3 4) () où la seule indésirabilité saturée est :

[[non (5 en C)], []] Þ Indésirable

Les indésirabilités suivantes font également partie des indésirabilités connues par le système (il s’agit de la traduction du but du jeu que nous avons utilisé dans nos simulations[1]), mais elles sont masquées dans la situation courante, puisque, à ce stade de la résolution, 5 n’est pas en C :

[[non (4 en C), 5 en C], []] Þ Indésirable

[[non (3 en C), 5 en C, 4 en C], []] Þ Indésirable

[[non (2 en C), 5 en C, 4 en C, 3 en C], []] Þ Indésirable

[[non (1 en C), 5 en C, 4 en C, 3 en C, 2 en C], []] Þ Indésirable

Dans cette situation, l’opérateur va proposer en séquence, dans un ordre dépendant des préférences de l’opérateur, les situations qui lui sont accessibles. Le module logique refusera alors chacune des situations où l’indésirabilité reste saturée et validera la première situation proposée où l’indésirabilité n’est plus saturée. Ce qui donne :

Opérateur Logique

1 de A en B : (5) (1 2 3 4) () Non

1 de A en C : (5) (2 3 4) (1) Non

1 de A en B, 5 de A en C : () (1 2 3 4) (5) Oui

La série de coups proposée est alors effectuée, et le processus de résolution est relancé avec la nouvelle indésirabilité saturée :

[[non (4 en C), 5 en C], [] Þ Indésirable

6.2.1.2 Limitation de la profondeur de recherche

Une première manière d’envisager la résolution est de considérer que ce que nous venons de présenter constitue la totalité du modèle. Dans de telles conditions, l’opérateur, dans la situation initiale (1 2 3 4 5) () () évalue toutes les compositions de coups possibles, puis propose finalement :

Opérateur Logique

1 de A en C, 2 de A en B, 1 de C en B, 3 de A en C,

1 de B en A, 2 de B en C, 1 de A en C, 4 de A en B,

1 de C en B, 2 de C en A, 1 de B en A, 3 de C en B,

1 de A en C, 2 de A en B, 1 de C en B, 5 de A en C :

() (1 2 3 4) (5) Oui

La résolution reprend alors, et la solution est nécessairement optimale. On obtient donc un modèle qui prédit qu’un sujet novice résoudra de manière optimale dès son premier essai le problème de la tour de Hanoï.

Afin de résoudre cette difficulté, nous avons introduit une limitation dans la capacité de calcul en profondeur de l’opérateur. La question de la valeur de cette profondeur reste ouverte. Toutefois, en utilisant une profondeur de 2, nous avons obtenu de bons résultats en reproduction de protocoles de résolution par des sujets humains, comme nous le verrons au cours de notre troisième partie. Cette limitation exprime simplement le fait que les capacités humaines de calcul mental sont limitées en terme de profondeur.

6.2.2 Sortie des impasses

L’introduction de cette limitation de la profondeur de calcul crée un nouveau problème, en faisant apparaître des situations de blocage, que nous allons étudier maintenant.

Avant d’indiquer ce que nous appellerons «situation de blocage», nous devons préciser que nous ne parlons pas nécessairement de blocage réel. Certains problèmes peuvent être insolubles, mais ce n’est pas le point qui nous occupe ici. Nous nous intéresserons aux situations ou la procédure précédemment décrite échoue. Ainsi, la tour de Hanoï ne présente jamais de situation où il n’est plus possible de résoudre le problème. Cependant, nous exhiberons dans la tour de Hanoï des situations où la recherche précédemment décrite échoue. Ce comportement de notre modèle est cohérent avec les verbalisations des sujets novices qui expriment fréquemment au cours de leurs premières résolutions le sentiment qu’ils ont d’être bloqués (cf. Annexe A, cla1.res, énoncé 8).

6.2.2.1 Les situations de blocage

Nous appellerons situation de blocage une situation ou la recherche décrite précédemment a échoué. En d’autres termes :

· Situation de blocage : état du problème où chacune des situations accessibles dans la limite de profondeur de l’opérateur laisse saturées les indésirabilités courantes.

Une manière intuitive de se représenter la procédure d’exploration locale est de considérer que l’on dispose d’un spot lumineux que l’on déplace au sein de l’espace-problème, centré sur la situation courante et de rayon égal à la profondeur de l’opérateur. Le module logique «voit» l’ensemble des situations éclairées, et déplace le spot vers une situation intéressante (i.e. une situation «moins» problématique). Dans cette manière de voir les choses, une situation de blocage est une situation où l’ensemble des points éclairés par le spot sont «également» problématiques.

Sur la tour de Hanoï, considérons la situation initiale (1 2 3 4 5) () () où la seule indésirabilité saturée est :

[[non (5 en C)], []] Þ Indésirable

Avec une profondeur de 2, on obtient :

Opérateur Logique

1 de A en B : (2 3 4 5) (1) () Non

1 de A en C : (2 3 4 5) () (1) Non

1 de A en B, 2 de A en C : (3 4 5) (1) (2) Non

1 de A en C, 2 de A en B : (3 4 5) (2) (1) Non

L’opérateur s’arrête ensuite de proposer des situations puisqu’il a atteint sa limite de profondeur, et le modèle est bloqué. Cette situation peut se représenter selon l’image que nous avons prise (et en utilisant la représentation classique de l’espace-problème de la tour de Hanoï) par :

La figure 6-1 représente le sommet de l’espace-problème de la tour de Hanoï. Chaque ligne représente le déplacement d’un disque, et chaque intersection un état du problème. La position 1 est la position initiale (1 2 3 4 5) () (). La position 2 est la position à l’issue du déplacement du disque 1 sur le trajet de la solution optimale (1 de A en C), soit (2 3 4 5) () (1). Dans la figure présentée, le problème est dans sa position initiale, et la partie éclairée indique l’ensemble des situations accessibles avec un opérateur de profondeur 2. Dans l’ensemble des situations accessibles, le disque 5 est toujours en A, et l’indésirabilité courante est toujours saturée.

6.2.2.2 Le déblocage

Dans une telle situation, le déblocage va s’effectuer par un aller-retour entre le module logique et l’opérateur. Plus précisément, le processus de déblocage se déroule en trois phases :

· La résolution du problème par le module logique, par le biais d’une production contre-factuelle.

· La proposition par l’opérateur d’une situation permettant d’atteindre la situation contre-factuelle, et plus proche dans l’espace-problème de la situation courante.

· La prise en compte en tant qu’objectif par le module logique de la situation proposée ainsi par l’opérateur.

La résolution de la problématique s’effectue par la production d’une situation contre-factuelle. Pour cela, le module logique choisit le premier terme non encore nié de la première indésirabilité saturée, et le nie. Ce processus est réitéré alors jusqu’à ce qu’aucune règle d’incompatibilité ne soit saturée. La situation contre-factuelle est alors rendue non indésirable et cohérente, et cette situation contre-factuelle peut-être transmise à l’opérateur.

Sur la tour de Hanoï, et dans la situation initiale (1 2 3 4 5) () (), la seule règle d’indésirabilité saturée est :

[[non (5 en C)], []] Þ Indésirable

Le contre-factuel 5 en C est donc produit, ce qui sature la règle d’incompatibilité :

[[5 en C, 5 en A], []] Þ Paradoxal

Le contre-factuel non (5 en A) est donc produit et la situation n’est plus ni indésirable ni paradoxale.

On remarquera que dans une production contre-factuelle, une seule règle d’indésirabilité sera traitée. Si ce n’était pas le cas, il se pourrait que la génération contre-factuelle, en rendant non saturées les règles d’indésirabilité qui l’étaient précédemment, rende saturées des règles qui ne l’étaient pas. Ainsi, dans l’exemple que nous venons de prendre, la règle :

[[non (4 en C), 5 en C], []] Þ Indésirable

deviendrait saturée (5 est en C par contre-factuel, et 4 n’est pas en C). Si l’on désirait traiter toutes les règles d’indésirabilités, on serait donc amené à produire les contre-factuels 4 en C et non (4 en A).

Mais dans ce cas, les règles d’indésirabilité suivantes :

[[non (3 en C), 5 en C, 4 en C], []] Þ Indésirable

[[non (2 en C), 5 en C, 4 en C, 3 en C], []] Þ Indésirable

[[non (1 en C), 5 en C, 4 en C, 3 en C, 2 en C], []] Þ Indésirable

produiraient en cascade les contre-factuels 3 en C, non (3 en A), 2 en C, non (2 en A), 1 en C et non (1 en A). La première production contre-factuelle générerait dans ces conditions la situation contre-factuelle où le problème est entièrement résolu. Le processus de déblocage ne conduirait alors pas à la génération d’un sous-objectif, mais plutôt à la génération de l’objectif initial du problème (i.e. le but du jeu). On se limitera donc au traitement de la règle d’indésirabilité saturée au moment du début de la production contre-factuelle.

Une fois la production contre-factuelle terminée, les situations réelle et contre-factuelle, limitées aux seuls éléments ayant changé de valeur de vérité (car les autres ne jouent aucun rôle logique dans la problématique courante), sont transmises à l’opérateur. Celui-ci considère que la situation réelle constitue la situation initiale, et que la situation contre-factuelle constitue la situation résultante. Dans l’exemple que nous traitons, cela donne :

Module logique Opérateur

Réelle : 5 en A, non (5 en C) Initiale : (5) () ()

Contre-Factuelle : non (5 en A), 5 en C Finale : () () (5)

L’opérateur propose alors, dans l’ordre de ses préférences, la première opération permettant de passer de la situation réelle à la situation contre-factuelle. Dans l’exemple que nous traitons, l’opérateur propose donc l’unique opération permettant cette transition, à savoir 5 de A en C.

Dans un deuxième temps, l’opérateur prend en entrée l’opération qu’il vient de déterminer. Il va alors fournir une situation instantiée (la première trouvée dans l’ordre des préférences) où cette opération est possible. Dans l’exemple que nous traitons, l’opérateur propose la seule situation où le coup 5 de A en C est possible, à savoir (5) (1 2 3 4) ().

La situation trouvée est alors retournée au module logique qui va la transformer en un nouveau sous-but, sous la forme de règles d’indésirabilité. Ces nouvelles règles porteront dans leur menu la règle d’indésirabilité saturée ayant mené à la production contre-factuelle. Dans les noyaux seront placés les termes correspondant à la traduction de la situation retournée par l’opérateur. Dans l’exemple traité, cela donne successivement :

[[non (4 en B)], [non (5 en C)]] Þ Indésirable

[[non (3 en B)], [non (5 en C), 4 en B]] Þ Indésirable

[[non (2 en B)], [non (5 en C), 4 en B, 3 en B]] Þ Indésirable

[[non (1 en B)], [non (5 en C), 4 en B, 3 en B, 2 en B]] Þ Indésirable

Nous limitons la mémorisation à la règle d’indésirabilité la plus courte saturée (i.e. celle contenant le plus petit nombre de termes, et qui est saturée dans la situation réelle). En effet, l’expérimentation que nous avons menée nous montre que la mémorisation d’une unique règle suffit à expliquer correctement le comportement des sujets. Nous décidons de nous en contenter puisque cela pose moins de contraintes sur la capacité de mémorisation des sujets. Enfin, nous ignorons les règles qui dans la situation courante ne sont pas saturées, puisqu’elles sont invisibles dans ce cas.

Dans le cas particulier de la tour de Hanoï, cela équivaut à ne considérer dans la situation retournée par l’opérateur que le plus grand disque qui n’est pas encore à sa place dans la situation réelle. C’est d’ailleurs ainsi que nous avons effectué le filtrage dans nos simulations.

Dans l’exemple que nous traitons, cela donne :

[[non (4 en B)], [non (5 en C)]] Þ Indésirable

Une fois cette mémorisation effectuée, la résolution peut reprendre. La situation n’est plus bloquante car même si la situation courante est la même que celle précédant la production contre-factuelle, l’objectif à atteindre n’est pas le même.

Si l’on reprend l’image du spot se déplaçant sur l’espace-problème, la position du spot n’a pas bougé au cours de la procédure de sortie d’impasse, mais la zone à atteindre s’est agrandie (l’espace-solution de la règle ayant conduit à la production contre-factuelle est nécessairement inclus dans l'espace-solution de la règle produite par la production contre-factuelle, puisque tous les termes de la règle précédant la production sont présents dans le menu de la règle la suivant). L’indésirabilité courante définit en effet une partition de l’espace-problème :

· La première partie de cette partition est constituée de l’ensemble des points où cette indésirabilité est saturée. Nous appellerons cet ensemble de points ‘espace problématique’.

· La seconde partie de cette partition est naturellement constituée de l’ensemble des points où cette règle d’indésirabilité n’est pas saturée. Nous appellerons cet ensemble de points ‘espace solution’.

On peut maintenant se représenter la procédure de résolution en deux étapes : l’opérateur éclaire une partie de l’espace-problème et le module logique choisit dans cet espace éclairé un point de l’espace-solution. Si cela n’est pas possible, une interaction entre le module logique et l’opérateur permet de définir une nouvelle partition de l’espace-problème. Cette nouvelle partition possède un espace problématique plus petit (i.e. de cardinal plus faible) que la partition précédente. Réciproquement, l’espace-solution de la nouvelle partition est plus grand que l’espace solution de la partition précédente. Cela doit permettre de créer une intersection entre l’espace-solution et la zone éclairée.

6.2.3 L’exploration libre

Cependant, le modèle obtenu n’est toujours pas satisfaisant. En effet, les mécanismes décrits précédemment rendent maintenant la résolution trop performante en comparaison des résolutions humaines.

6.2.3.1 Un premier modèle trop puissant

La seule résolution que peut mener le modèle tel que nous l’avons présenté est la résolution optimale. En effet, quelle que soit la situation, on se retrouve dans une des deux situations suivantes :

· L’opérateur n’est pas capable de résoudre la problématique courante. Dans chacun des états accessibles, l’indésirabilité courante reste saturée. Le processus de déblocage est donc utilisé, et un sous-but plus simple à atteindre est calculé.

· L’opérateur est capable de résoudre la problématique courante. Dans ce cas, le chemin emprunté dans l’espace-problème pour résoudre la problématique sera le chemin le plus court en nombre d’opérations à effectuer, puisque tous les points de l’espace-problème accessible à une profondeur donnée seront examinés avant de débuter l’évaluation des points accessibles à la profondeur suivante.

Le modèle que nous avons développé jusqu’à présent n’est donc capable d’effectuer que les coups permettant de se rapprocher directement de l’objectif. Sur la tour de Hanoï, cela conduit à une résolution optimale du problème par adoption de la stratégie récursive. La difficulté consiste donc maintenant à affaiblir notre modèle afin qu’il soit capable de dupliquer le comportement non optimal des sujets.

6.2.3.2 Validation de coups ‘neutres’

La solution à ce problème nous a été inspirée par les verbalisations des sujets. Un sujet novice exprime en effet fréquemment en début de résolution le sentiment qu’il a d’être bloqué. Il n’exprime pas le fait qu’il n’y ait rien à faire dans la situation courante, mais plutôt qu’aucun des coups envisageables ne lui paraît intéressant. Mais le sujet effectue alors toutefois des actions, en accompagnant celles-ci d’un commentaire de la forme : «il faut bien faire quelque chose» (Annexe A, ane1.res, énoncé 18).

Nous avons repris cette idée à notre compte, en autorisant temporairement, dans les situations de blocage, une exploration ‘libre’ de l’espace de recherche. Pour cela, le module logique va valider pendant un nombre donné de coups les opérations préférées de l’opérateur.

Si nous reprenons notre image du spot lumineux, nous pouvons donc présenter la résolution de problème de la manière suivante :

· L’opérateur est centré sur la situation courante, et éclaire dans l’espace problème l’ensemble des points qu’il est capable d’atteindre en tenant compte de sa limitation de profondeur.

· L’indésirabilité saturée dans la situation courante permet de constituer une partition de l’espace-problème en espace problématique et espace-solution. Résoudre le problème courant revient donc à amener le centre du spot sur un point de l’espace-solution.

· Dans un premier temps, le module logique vérifie si un (ou plusieurs) des points éclairés par le spot fait partie de l’espace-solution. Dans ce cas, le spot se déplace par le chemin le plus court vers ce point (ou vers un de ces points).

· Quand ce n’est pas le cas, le spot est autorisé à se déplacer selon ses préférences au sein de l’espace-problème pendant un nombre limité de coup. La première étape est répétée à l’issue de chacun de ses déplacements libres.

· Enfin, si l’exploration libre ne permet pas de résoudre dans les limites de sa profondeur le problème courant, le processus de déblocage, qui consiste à calculer une nouvelle partition plus facile à atteindre (car d’espace-solution plus grand), est invoqué, et le processus de résolution est alors relancé à sa première étape.

La validation par le module logique de coups ‘neutres’ subit une restriction. Les coups amenant à saturer une indésirabilité qui ne l’était pas précédemment sont proscrits, afin d’éviter de défaire ce qui vient d’être fait précédemment.

Reprenons notre exemple de la tour de Hanoï dans sa situation initiale (1 2 3 4 5) () (), avec comme unique règle saturée :

[[non (5 en C)], []] Þ Indésirable

On prend un opérateur de profondeur 2, avec une profondeur d’exploration libre de 2. Enfin, on prend comme préférence pour l’opérateur :

Contexte (piton départ) Préférences

A B puis C

B C puis A

C B puis A

On obtient la résolution suivante :

Opérateur Logique

1 de A en B : (2 3 4 5) (1) () Non

1 de A en C : (2 3 4 5) () (1) Non

1 de A en B, 2 de A en C : (3 4 5) (1) (2) Non

1 de A en C, 2 de A en B : (3 4 5) (2) (1) Non

1 de A en B : (2 3 4 5) (1) () Oui (libre)

Le coup 1 de A en B est effectué. Le nouvel état du problème est donc (2 3 4 5) (1) (). Le processus de recherche est alors relancé. Dans notre résolution de la tour de Hanoï, nous avons interdit à l’opérateur d’envisager de déplacer consécutivement deux fois le même disque, sauf juste après la production d’un contre factuel, suivant en cela le comportement observé des sujets. On obtient donc :

Opérateur Logique

2 de A en C : (3 4 5) (1) (2) Non

2 de A en C, 1 de B en C : (3 4 5) () (1 2) Non

2 de A en C, 1 de B en A : (1 3 4 5) () (2) Non

2 de A en C : (3 4 5) (1) (2) Oui (libre)

Le processus d’exploration est alors relancé une troisième fois, en interdisant cette fois l’exploration libre (puisque la profondeur d’exploration libre maximale a été atteinte) :

Opérateur Logique

1 de B en C : (3 4 5) () (1 2) Non

1 de B en A : (1 3 4 5) () (2) Non

1 de B en C, 3 de A en B : (4 5) (3) (1 2) Non

1 de B en A, 2 de C en B : (1 3 4 5) (2) () Non

L’exploration s’arrête alors, et le processus de résolution d’impasse est appelé. Il produit, comme nous l’avons vu précédemment, la règle d’indésirabilité :

[[non (4 en B)], [non (5 en C)]] Þ Indésirable

Le processus d’exploration est alors relancé à son commencement, et la résolution peut se poursuivre[2].

6.2.4 Retour sur GPS

Comme nous l’avons vu au cours de notre revue de la littérature, la modélisation à partir de GPS [ERN 69] permet de prédire correctement la difficulté d’un état du problème, en prédisant que la probabilité d’apparition d’un coup non optimal augmente avec le nombre de sous-buts nécessaires pour déterminer le coup optimal [EGA 74]. Pourtant, le comportement des sujets humains ne semblent pas suivre celui de GPS, puisque les sujets semblent raisonner vers l’avant, et qu’ils envisagent des suites d’actions plutôt que des actions individuelles [GRE 78].

La modélisation que nous proposons permet de lever cette contradiction. Le fait de raisonner vers l’avant et d’envisager des suites d’actions sont deux des composantes de notre modélisation. En cela, la modélisation proposée est compatible avec les constations de Greeno [GRE 78]. Mais notre modélisation prédit aussi l’augmentation de la difficulté (telle qu’elle est mesurée) avec l’augmentation du nombre de sous-buts. Notre modèle ne calcule un sous but qu’à l’issue d’une exploration libre. Plus le nombre de sous-buts à calculer pour déterminer le mouvement optimal sera important, et plus le nombre d’explorations libres déjà effectuées devra être important pour que le dernier sous-but soit présent en mémoire de travail au moment où l’on atteint l’état du problème visé[3]. La corrélation entre la profondeur des buts et la difficulté apparente de l’état du problème est donc expliquée par notre modèle, bien qu’il s’agisse d’un effet de bord.

Afin de conclure sur GPS, nous noterons que notre modélisation ne fonctionne pas par analyse des fins et des moyens. Notre modèle ne cherche pas à réduire les différences entre l’état courant et l’état final, et ne possède d’ailleurs pas de mécanismes pour mesurer cette différence. Cependant, dans des situations où les aspects indésirables de l’état courant sont indépendants, le comportement de notre modèle peut recouper celui de GPS, si les différences exprimées dans GPS sont les traits indésirables de la situation courante, et si la hiérarchie de ces différences recoupe la hiérarchie que nous pouvons établir entre les différentes indésirabilités à partir de leurs valeurs conversationnelles.

Notre modélisation est maintenant satisfaisante, puisqu’elle permet de reproduire le comportement humain en situation de résolution de problème avec une fidélité acceptable, comme nous le verrons au chapitre 7. Il nous reste maintenant à répondre aux interrogations que pourrait susciter cette modélisation.

6.3 L’absence d’une pile de buts

Les notions de but courant et de sous-but conduisent naturellement à la notion de pile de buts. Une pile est une mémoire où seul le dernier élément mémorisé, aussi appelé le sommet de la pile, est visible. Quand le sommet de la pile est supprimé, le dernier élément mémorisé parmi les éléments restants redevient visible (on dit alors que l’on dépile).

Il peut donc paraître étonnant qu’aucune référence à une quelconque pile de but n’apparaisse dans ce document. Après avoir présenté comment fonctionnerait le modèle s’il utilisait une telle notion, nous expliquerons pourquoi nous l’avons supprimée.

6.3.1 Modélisation intégrant une pile de but

Au cours de la résolution de problèmes combinatoires, les sujets humains démontrent des capacités de planification, comme la capacité de diviser le problème en sous-problèmes plus simples. Cette capacité nécessite d’être capable, une fois le sous-but poursuivi atteint, de se remémorer le but nécessitant la réalisation du dit sous-but. Une manière simple de modéliser cette capacité est d’utiliser une pile de but, que nous allons présenter maintenant.

6.3.1.1 Représentation avec une pile

Une pile est une liste ordonnée par la date d’entrée dans la pile. Seul le dernier élément de la pile est accessible. On appelle ce dernier élément le sommet de la pile. En d’autres termes, le sommet masque le reste de la pile. Le sommet de la pile peut être ôté de celle-ci. Dans ce cas, l’élément suivant devient le nouveau sommet de la pile.

Cette structure permet de représenter un ensemble de buts et de sous-buts. A la base de la pile, on placera le problème à résoudre, puis on empilera par la suite, au fur et à mesure qu’on les calculera, les sous-buts permettant de résoudre le but. Enfin, quand un sous-but et atteint, on le supprime de la pile de buts, et le but ayant généré ce sous-but apparaît alors en sommet de pile.

Par exemple, la pile de but d’un problème de la tour de Hanoï pourrait en cours de résolution prendre la forme suivante (le sommet de la pile étant ici présenté en premier) :

Mettre le disque 4 en B

Mettre le disque 5 en C

Mettre tous les disques en C

6.3.1.2 Fonctionnement de notre modèle avec une pile de but

Dans notre modélisation, utiliser la notion de pile reviendrait à empiler les règles d’indésirabilités. Nous considérons que seule la règle en sommet de pile est visible. On appelle cette règle la règle courante d’indésirabilité. Quand, à l’issue d’une production contre-factuelle, une nouvelle règle d’indésirabilité est créée, elle est placée en sommet de pile. Ainsi, à la fin de l’exemple que nous avons traité au paragraphe 6.2.3.2, la pile de but serait la suivante :

[non (4 en B)] Þ Indésirable

[non (5 en C)] Þ Indésirable

On notera que la notation en noyau et menu disparaît si on utilise une pile. Elle n’est en effet ici plus nécessaire puisque c’est la structure de pile qui indique que le sommet est sous-but des éléments qu’il masque.

6.3.2 Les problèmes posés par la pile de but

Il semblerait donc que la modélisation à l’aide d’une pile de but soit plus simple que celle que nous ayons adoptée. Cependant, cette modélisation pose des problèmes que nous allons aborder maintenant. Nous réaliserons finalement qu’elle est moins parcimonieuse que notre propre modélisation, et qu’en outre elle ne permet pas d’expliquer correctement le bénéfice qu’apporte l’expérience en résolution de problème.

6.3.2.1 Mémorisation des planifications

L’expérience sur un problème permet de résoudre plus aisément ce problème en remplaçant la réflexion par un rappel d’éléments mémorisés. Un sujet possédant de l’expertise dans un domaine n’a plus besoin d’effectuer un travail de planification aussi important qu'un sujet novice. Certes, l’expert démontre une bonne capacité de planification en résolvant les problèmes de son domaine sans erreur et sans opération inutile. Cependant, cela n’est possible que parce qu’il remplace le calcul d’une planification par le rappel d’une planification mémorisée. Devant un problème de son domaine, l’expert sait ce qu’il doit faire pour le résoudre efficacement.

Mémoriser la démarche suivie pour résoudre un problème revient à mémoriser la pile de but. Mais cela ne peut se faire de manière aisée car la pile de but varie au cours de la résolution. Le problème vient du fait que des sous-buts différents peuvent se retrouver successivement à la même position dans la pile. Si l’on désire faire porter la mémorisation sur la pile, on se doit alors de mémoriser une fourche.

Pour illustrer notre propos, considérons un problème où la réalisation d’un but A nécessite la réalisation successive de deux sous-buts B et C. La pile de but contient alors successivement au cours de la résolution :

A 1^ère étape

B 2^ème étape

A 3^ème étape (B résolu)

C 4^ème étape

La première possibilité consisterait à prétendre que l’on mémorise successivement l’ensemble des états de la pile. Dans l’exemple simple (un unique but et seulement deux sous-buts), cela nécessiterait de mémoriser au minimum deux états différents de la pile (les étapes 2 et 4), et il nous faudrait ensuite expliquer les mécanismes permettant le rappel de la seconde pile une fois que le premier sous-but de la première pile mémorisée a été atteint. Ce qui peut se concevoir pour un problème simple devient plus difficilement défendable quand le problème devient complexe. Chaque fourche rencontrée dans la résolution nécessitant la mémorisation de deux piles, le nombre total (comptés en sous-buts) de termes à mémoriser est de l’ordre du double produit du nombre de fourche par la longueur moyenne de la pile au moment d’une fourche. Ainsi, sur la tour de Hanoï à cinq disques, il faudrait mémoriser 10 éléments de la pile (et 6 piles successives), alors que la tour de Hanoï à 6 disques nécessiterait la mémorisation de 24 éléments (et 11 piles). Cette explosion combinatoire nous fait abandonner cette première vision de l’apprentissage.

Une deuxième manière de voir les choses consiste à considérer que l’on mémorise les fourches en tant que fourche. Mais dans ce cas là, on ne mémorise plus une pile, mais un arbre. Il nous faut alors proposer un mécanisme qui permet d’aller modifier en cours de résolution ce qui a été déjà mémorisé à chaque nouvelle fourche. Nous abandonnons cette hypothèse devant la complexité des mécanismes à mettre en œuvre pour la mémorisation.

Une troisième hypothèse serait que la mémorisation se fait sous forme de pile, mais que chacun des sous-buts de la pile n’est mémorisé qu’au moment où il est atteint. Dans ce cas, le premier élément mémorisé ne doit plus être le dernier accessible, mais le premier. On aurait donc une pile comme outil de planification, mais une file (une pile dont le premier élément accessible est le premier élément à y être entré) comme outil de mémorisation. En outre, deux sous-buts d’un but donné ne serait plus vus comme tels, le premier sous-but atteint devenant alors un sous-but apparent du second sous-but.

La dernière hypothèse consiste à mémoriser non pas la pile des buts au cours de la résolution, mais plutôt la liste des buts résolus, dans l’ordre dans lequel ils se résolvent. La planification effectuée au cours de la première résolution se transforme alors en algorithme à suivre pour résoudre un problème donné. Nous ne rejetons pas cette hypothèse à condition de considérer que l’algorithme est appris par morceaux. En effet, la mémorisation du script dans son ensemble ne permet pas d’expliquer le transfert d’expertise d’un problème à un autre, puisque l’algorithme du nouveau problème serait partiellement différent.

On remarquera que, dans cette dernière hypothèse, la pile ne joue aucun rôle dans la mémorisation de la planification. En d’autres termes, cette dernière manière d’effectuer une mémorisation ne nous apporte pas d’information sur la nécessité de modéliser la planification par une pile de but.

6.3.2.2 Pile de but et mémoire de travail

Il n’apparaît pas possible de postuler la conservation de l’état de la pile de but ailleurs que dans une mémoire de travail. Les capacités de stockage des mémoires de travail étant limitées, la pile de but aura nécessairement une profondeur limitée. Ce point ne pose pas de problème pour la résolution de problèmes où le besoin de profondeur est limité, mais devient problématique pour des problèmes plus complexes.

En outre, dans des situations où il existe plusieurs moyens de décomposer un but en sous-buts, on peut observer des abandons de sous-buts. La planification devient alors non déterministe, et l’on peut observer plusieurs tentatives de décomposition[4]. Or, lorsqu’un élément est dépilé, il est a priori perdu. Dans l’hypothèse de l’utilisation d’une pile de but, il faudrait donc prévoir des mécanismes de mémorisation de tentatives infructueuses, accompagnées de leur contexte. Dans l’hypothèse d’un stockage en mémoire de travail, on risque de se heurter à nouveau au problème de la limitation de la mémoire à court terme (mémoire à court terme par ailleurs déjà mobilisée en partie par les capacités de calcul). Une modélisation des capacités humaines de résolution de problème utilisant une pile de but devra donc au minimum être capable d’expliquer comment les limitations de la mémoire à court terme seront contournées.

6.3.2.3 Impossibilité d’effectuer des courts-circuits

Il est parfois possible d’atteindre un but sans atteindre le sous-but initialement calculé. Si l’on se refuse à postuler des capacités particulières pour vérifier l’ensemble des éléments de la pile dans chacune des situations rencontrées au cours de la résolution, il devient impossible d’effectuer un ‘court-circuit’ sur la pile (i.e. dépiler un élément situé au milieu de la pile, ce qui entraîne de dépiler également tous les éléments situés au-dessus de lui). En d’autres termes, le modèle avec pile prédit qu’aucun court-circuit ne sera jamais constaté dans une résolution par un sujet humain.

Les objections présentées contre l’utilisation d’une pile de buts ne suffisent pas pour l’écarter définitivement. Cependant, une modélisation faisant l’économie d’une telle pile, en évitant les objections que nous lui avons opposées et proposant dans le même temps des mécanismes permettant de reproduire les fonctionnalités intéressantes d’une telle pile, devra être retenue, puisque posant moins de problèmes d’une part, et effectuant moins d’hypothèses d’autre part.

6.3.3 Se passer de la pile de but

Nous allons donc maintenant examiner comment la modélisation que nous avons retenue répond bien aux problèmes que nous venons d’évoque après avoir vu comment le fonctionnement des règles d’indésirabilité en noyau et menu permet de reproduire les mécanismes intéressants d’une pile de but.

6.3.3.1 Simulation d’une pile de but à partir de notre modèle

La modélisation des objectifs par le biais de règles d’indésirabilité permet de reproduire le comportement de la pile de but, à savoir :

· Accessibilité apparente du dernier élément empilé, et de lui seul. Cela est obtenu par le fait que les règles d’indésirabilité plus anciennes que la dernière calculée ont vu leurs termes passer dans le menu. Elles ne sont donc temporairement plus visibles.

· Possibilité d’ajouter un élément en sommet de pile, quand un nouveau sous-objectif est calculé. Cela est obtenu en mémorisant la règle d’indésirabilité calculée au cours de la production contre-factuelle. Le sommet précédent de la pile simulée est alors masqué puisqu’il passe dans le menu du nouvel élément

· Possibilité d’ôter le sommet de la pile quand le sous-objectif courant a été atteint. Cela est une des conséquences de la définition des règles d’indésirabilité. Puisque les règles fonctionnent en détecteur, elles deviennent invisibles dès qu’elles sont saturées.

Il reste cependant un dernier point à expliquer. Le fait d’ôter un élément du sommet de la pile doit permettre de rendre apparent l’élément précédemment empilé. Or le terme contenu dans cet indésirabilité a été marqué comme improbable. Le fait d’atteindre le sous-objectif calculé ne rend pas plus probable la réalisation de l’objectif courant, puisque le nombre de fois où la valeur de vérité improbable de ce terme a été rencontrée n’a pas évolué. Pour comprendre comment fonctionne le dépilage, il nous faut revenir à la définition de la zone de pertinence que nous avons vue au cours du paragraphe 4.1.1.2.

Nous avons dit qu’une situation serait d’autant plus problématique que la valeur de l’information conversationnelle, notée I(D, P), serait grande. Rappelons pour mémoire la formule de calcul de I(D, P), où D représente la désirabilité (entre –1 et 1) et P la probabilité a priori :

I(D,P) = |ln(((1-|D|)P)^-1)|

En d’autre terme, une situation sera d’autant plus problématique que la valeur de |D| sera proche de 1 et que celle de P sera proche de 0. Or, au cours de la première résolution d’un problème donné, les règles d’indésirabilité empilées le sont parce qu’elles n’ont jamais été résolues. Dans ces conditions, la probabilité a priori de la non-satisfaction de chacune des règles empilées vaut 1.

En prenant comme hypothèse supplémentaire que les nouvelles règles créées ont une indésirabilité plus forte que les règles existantes, on se retrouve donc dans une situation de pile, puisque la dernière règle créée aura alors la plus forte valeur d’information conversationnelle et jouera le rôle de sommet de pile. On retrouve bien le mécanisme de dépilage : quand on ôte le sommet de la pile (i.e. quand la règle de plus forte information conversationnelle n’est plus saturée), l’élément suivant de la pile (i.e. la règle de seconde plus forte valeur conversationnelle) redevient visible.

On pourrait objecter qu’il est absurde de considérer comme plus indésirable la réalisation d’un sous-but par rapport à celle du but qui l’a généré. Mais cette objection tombe dès qu’on réalise que l’on ne fait jamais cette hypothèse. Nous nous limitons à considérer qu’il est plus indésirable de ne pas réussir à réaliser ni le but ni son sous-but que de ne pas réaliser le but seul, ce qui est tautologique. En effet, la nouvelle règle d’indésirabilité contiendra dans son menu la règle d’indésirabilité ayant amené la production contre-factuelle.

On pourrait maintenant se poser la question de savoir comment évoluent les valeurs d’information conversationnelle quand la probabilité a priori des termes intervenant dans ces règles ne vaut plus 1. Nous verrons plus tard que cette évolution est favorable à la structure de pile simulée. En d’autres termes, le succès de la résolution d’un problème agira comme un renforcement du plan retenu pour le résoudre.

6.3.3.2 Correction des problèmes rencontrés

Après avoir présenté les problèmes que soulevait la pile de but, nous avons indiqué comment notre modélisation permettait de la simuler. Reste maintenant à vérifier que les problèmes soulevés par la pile de but sont bien résolus dans notre modélisation. Nous devons donc examiner les problèmes suivants :

· L’expertise développée lors d’une première étape doit être réutilisable si l’on résout une deuxième fois le même problème. Dans une certaine mesure, elle doit également être transférable. La mémorisation de la planification doit en outre se faire de manière aisée.

· La planification ne doit pas surcharger la mémoire de travail.

· Le plan établi ne doit pas être rigide au point de rendre impossible l’utilisation des courts-circuits.

Comment la mémorisation de la planification peut-elle s’effectuer ? Afin de réussir à mémoriser le plan de la résolution, il suffit de mémoriser l’ensemble des règles d’indésirabilités créées, en conservant l’ordre de leurs valeurs d’information conversationnelle. Si tel est le cas, les règles saturées seront à tout moment de la résolution ordonnées dans l’ordre où elles doivent l’être. En d’autres termes, dans toute situation déjà rencontrée, la structure de pile simulée sera automatiquement reconstituée. On pourra alors observer des situations où un sujet est capable de dire quel est le premier sous-but à atteindre sans même être capable de dire pourquoi.

Les règles non encore saturées seront par contre invisibles, et ne perturberont pas la résolution. Nous disposons donc d’un mécanisme qui ne stocke que des règles d’indésirabilité, et qui reconstruit automatiquement à partir de ces règles la structure du plan à suivre pour résoudre un problème. Toujours sous l’hypothèse de la conservation de l’ordre des valeurs d’information conversationnelle, notre modèle est capable d’adopter une représentation statique pour un processus dynamique de planification.

De fait, la mémorisation de la planification consiste à stocker en mémoire à long terme l’ensemble des règles calculées lors de la résolution. Ce stockage à long terme est d’ailleurs cohérent avec le fait que les règles sont invisibles tant qu’elles ne sont pas saturées, et qu’elles se manifestent quand chacun des termes qui la constitue est activé.

L’expertise développée est également transférable, puisque dans une situation problématique différente, les règles apprises pourront être activées indépendamment les unes des autres. Les parties identiques d’un problème pourront donc être rappelées, et les différences seront ignorées. En outre, il ne sera pas nécessaire de se souvenir de la résolution de problèmes précédents pour utiliser l’expertise qui y aura été développée.

Le problème de la surcharge de la mémoire à court terme lors de la résolution tombe en même temps, puisque la charge en mémoire à court terme dû au module logique sera nulle dans la phase exploratoire. Le seul moment de la résolution où le module logique utilisera cette mémoire sera pendant la production contre-factuelle, c’est à dire le seul moment où l’opérateur sera au repos.

Enfin, la présence dans le menu d’un sous-but des éléments constitutifs des buts qui ont amené à le générer garantit la possibilité d’effectuer des courts-circuits dans la résolution. En effet, si une situation proposée par l’opérateur nie un des termes du menu, l’indésirabilité courante cesse d’être saturée. Si l’on reprend l’image de la pile, on obtient bien un dépilement du but venant d’être atteint, ainsi que de tous ses sous-buts.

On notera à propos du court-circuit que le fait qu’il soit possible de le réaliser ne le rend pas nécessairement facile. En effet, le module logique validera la première situation proposée où l’indésirabilité courante est cassée. Le module logique se contente de la première solution proposée, et n’effectue pas ensuite une étude exhaustive des possibilités restantes. En outre, les préférences s’organisant pour résoudre de manière efficace le problème courant, la possibilité de voir un court-circuit pour un sous-problème diminuera avec l’expérience que l’on a de ce sous-problème.

Nous avons donc bien résolu l’ensemble des problèmes que posait l’hypothèse de l’utilisation d’une pile de but dans notre modélisation – hypothèse que nous rejetons donc – à la condition que l’ordre des valeurs d’information conversationnelle ne soit pas modifié depuis la première résolution. L’ordre des valeurs d’indésirabilité ne pouvant pas être changé, il nous reste à vérifier que l’ordre des valeurs d’improbabilité ne change pas non plus.

6.3.3.3 Renforcement de la planification par le succès

L’analyse de l’évolution des valeurs d’improbabilités offre une bonne surprise : non seulement l’ordre des valeurs d’improbabilité n’est pas modifié, mais, en outre, les écarts entre les valeurs sont accentués quand la planification effectuée débouche sur la résolution du problème. Par un effet de bord, et sans que le sujet n’ait à faire d’effort particulier pour mémoriser le plan, celui ci se trouve donc renforcé par le succès.

Pour nous en convaincre, examinons l’évolution des valeurs de probabilité a priori des termes de règles d’indésirabilité sur un exemple, issue de la tour de Hanoï. Plaçons-nous dans le cas de la première résolution du problème de la tour de Hanoï par un sujet novice. Nous allons compter le nombre de situations rencontrées pour chacun des termes des règles d’indésirabilité à partir du moment où ces termes sont pertinents, et nous nous baserons sur l’exemple déjà vu au paragraphe 6.2.3.2. :

Coup Joué Termes pertinents Nombre de situations

Situation

1 : (5 en C)

Aucun (situation initiale)

(1 2 3 4 5) () ()

1 de A en B

(2 3 4 5) (1) () 1

2 de A en C

(3 4 5) (1) (2) 2

2 : (4 en B)

1 de B en C

(3 4 5) () (1 2) 3 / 1

3 de A en B

(4 5) (3) (1 2) 4 / 2

3 : (3 en C)

1 de C en B

(4 5) (1 3) (2) 5 / 3 / 1

2 de C en A

(2 4 5) (1 3) () 6 / 4 / 2

1 de B en A puis 3 de B en C

(1 2 4 5) () (3) 3 résolu 7 / 5 / 3

1 de A en B

(2 4 5) (1) (3) 8 / 6 / 3

2 de A en C

(4 5) (1) (2 3) 9 / 7 / 3

1 de B en C puis 4 de A en B

(5) (4) (1 2 3) 2 résolu 10 / 8 / 3

Les termes pertinents sont les termes qui interviennent dans les règles d’indésirabilités saturées. De nouveaux termes pertinents apparaissent à chaque production contre-factuelle, et cessent de l’être dès que la problématique les impliquant est résolue. Si l’on poursuit la résolution jusqu’au coup 5 de A en C avec les mêmes préférences, on voit apparaître les termes pertinents supplémentaires 3 en B et 2 en B. On obtient finalement :

Terme pertinent Règle Situations rencontrées

5 en C [[Ø (5 en C)], []] Þ Ind. 17

4 en B [[Ø (4 en B)], [Ø (5 en C)]] Þ Ind. 8

3 en C [[Ø 3 en C], [Ø 5 en C, Ø 4 en B]] Þ Ind. 3

3 en B [[Ø (3 en B)], [Ø (5 en C)]] Þ Ind. 1

2 en B [[Ø (2 en B)], [Ø (5 en C)]] Þ Ind. 1

De sorte que le calcul des probabilités a priori pour les termes visés donnent :

Terme pertinent probabilité a priori

non (5 en C) 16/17

non (4 en B) 7/8

non (3 en C) 2/3

non (3 en B) 0/1

non (2 en B) 0/1

Ainsi, la probabilité a priori des différents termes rencontrés une fois la résolution terminée favorise bien l’ordre rencontré lors de la planification puisque les buts les plus généraux se retrouveront bien au plus bas de la pile simulée.

L’exemple traité met en évidence une autre caractéristique du modèle. L’ordre est conservé au sein d’un ensemble de buts liés entre eux. Mais il n’offre aucune garantie quant à l’ordre entre deux termes de même niveau dans la pile. Ainsi, non (4 en B), non (3 en B) et non (2 en B) se retrouvent successivement au sommet de la pile, juste au-dessus de non (5 en C). Il existe donc un risque de confusion pour un sujet novice lors de sa deuxième résolution. Le problème provient du fait que les règles mémorisées :

[[non (3 en B)], [non (5 en C)]] Þ Indésirable

[[non (2 en B)], [non (5 en C)]] Þ Indésirable

sont incorrectes. Elles omettent en effet respectivement les termes (4 en B) pour la première et (4 en B), (3 en B) pour la seconde. Cela est dû au fait que ces termes peuvent ne pas paraître pertinents au moment de la production contre-factuelle. Dans ce cas, la résolution sera perturbée le temps que ces règles soient corrigées.

Le fait que les sujets humains ne soient pas capables de résoudre de manière optimale dès leur seconde tentative la tour de Hanoï est compatible avec cette caractéristique de notre modèle. L’inclusion des termes manquants permet de reconstituer correctement la planification, puisque les règles parasites deviennent alors invisibles jusqu’à ce qu’elles soient correctement saturées.

6.4 La résolution de problèmes logiques

Nous proposons dans notre modèle un module logique. Le moins que l’on puisse attendre est alors que les performances sur les résolutions de problèmes logiques soient bonnes. Or, comme le montrent de nombreuses études, les performances humaines sur la résolution de tels problèmes sont mauvaises. Nous devons donc maintenant expliquer pourquoi notre modèle peut mal se comporter sur de tels problèmes.

6.4.1 Le biais dans le raisonnement humain

Le biais dans le raisonnement humain a fait l’objet de nombreuses études, dont une revue peut-être trouvée dans [EVA 89]. Le premier résultat de ces études est que, non seulement les sujets humains ne sont pas performants quant ils résolvent ce type de problème, mais qu’ils commettent en outre des erreurs systématiques.[5]

Nous allons plus particulièrement nous intéresser aux résultats obtenus sur la tâche de sélection [WAS 66] et sur le problème du ‘2 4 6’ [WAS 60] de Wason.

6.4.1.1 La tâche de sélection de Wason

La tâche de sélection de Wason consiste à déterminer quel est l’ensemble minimum de cartes à retourner pour vérifier si un ensemble de cartes proposées vérifie une règle donnée. Dans la forme la plus classique de cette tâche, la règle est ‘s’il y a un A d’un côté de la carte, alors il y a un 3 de l’autre côté’. On propose 4 cartes dont les faces visibles portent respectivement les symboles ‘A’, ‘D’, ‘3’ et ‘7’.

La résolution correcte de ce problème est la sélection des cartes ‘A’ et ‘7’. Dans une large majorité des cas, les sujets sélectionnent soit la carte ‘A’ seule, soit les cartes ‘A’ et ‘3’. On notera que ces réponses erronées ne peuvent être imputées à une mauvaise interprétation de la règle. En effet, si l’implication est interprétée comme une équivalence, la réponse correcte au problème consiste à retourner la totalité des cartes. Cette réponse est très rarement fournie par les sujets.

Les effets de contextes ont alors été testés sur la tâche de sélection de Wason. Ils démontrent une grande facilitation si la règle utilisée est une règle familière pour les sujets. Ainsi, la règle ‘Une personne buvant de la bière doit avoir au moins 19 ans’ [GRG 82] permet aux sujets de résoudre correctement le problème. La règle ‘Si l’enveloppe est fermée, il y a un timbre de 50 lires dessus’ [JOH 72] facilite la tâche, mais uniquement pour les personnes accoutumées à cette règle dans leur vie quotidienne. Enfin, des règles ne faisant pas appel à l’expérience du sujet, mais remplaçant les symboles par des objets de la vie quotidienne, comme ‘si je mange du haddock, je bois du gin’ [MAN 79], ne facilitent pas la tâche.

6.4.1.2 Le problème du ‘2 4 6’ de Wason

Le problème du ‘2 4 6’ de Wason consiste pour le sujet à déterminer la règle que l’expérimentateur a en tête. Cette règle permet de réaliser une partition de l’ensemble des ensembles ordonnés de trois entiers (‘triplets’). On indique au sujet que le triplet ‘2 4 6’ vérifie la règle. Le sujet peut alors proposer des triplets à l’expérimentateur, et celui-ci lui indiquera en retour si oui ou non le triplet vérifie la règle. On demande au sujet de ne proposer une règle que quand il est sûr qu’elle est correcte. La règle à découvrir était ‘tout triplet croissant’. L’exemple proposé est délibérément choisi pour faire penser à une règle du type ‘triplet croissant avec intervalle constant’. La majorité des sujets indiquent au moins une hypothèse incorrecte.

Le résultat de cette expérience est que les sujets ne proposent pas d’exemple invalidant la règle qu’ils supputent. L’ensemble des triplets proposés se conforme à la règle que le sujet a en tête (ainsi qu’à la règle de l’expérimentateur, qui est plus générale que celle du sujet). Au bout d’un certain nombre de tentatives, la règle proposée par le sujet n’ayant jamais été invalidée, celui-ci la considère comme certaine.

De nombreuses tentatives de facilitation ont été effectuées sur cette tâche. Modifier les instructions (en insistant par exemple sur la nécessité d’invalider la règle testée) ne permet pas de mieux résoudre le problème. Une modification permet toutefois de faciliter le problème [TWE 80]. On indique au sujet que l’on dispose de deux règles (‘DAX’ et ‘MED’), et que n’importe quel triplet vérifie soit l’une soit l’autre mais pas les deux. La règle ‘DAX’ correspond à la règle initiale du problème alors que la règle ‘MED’ correspond à sa négation. Dans cette situation, la majorité des sujets proposent les règles correctes dès le premier essai.

6.4.2 Proposition d’explication des biais dans les problèmes dits logiques

Les résultats que nous venons de présenter peuvent sembler contredire le modèle que nous avons proposé. La tâche de sélection de Wason semble démontrer l’incompétence partielle des humains sur la manipulation de l’implication matérielle, alors que le ‘2 4 6’ semble indiquer une difficulté pour tester des hypothèses.

6.4.2.1 La tâche de sélection de Wason

Les problèmes semblant invalider le plus fortement notre modèle sont les problèmes logiques où seule l’implication matérielle intervient. En effet, l’implication matérielle :

A Þ B

est strictement équivalent à la règle paradoxale :

[[A, non B], []] Þ Incompatible

Les problèmes ne mettant en œuvre que l’implication matérielle devraient donc être résolus de manière parfaite, si l’on suppose que la règle d’implication est correctement traduite en règle d’incompatibilité. L’analyse des performances humaines donne des résultats bien éloignés de cette vision optimiste. Sur la tâche de sélection de Wason, si l’on considère que les sujets traduisent la consigne en règle d’incompatibilité, on obtient :

[[A est sur la carte, non (3 est sur la carte)], []] Þ Incompatible

On se rend compte que la carte ‘3’ ne sature ni n’invalide la règle (celle ci n’est même pas visible). La réponse ‘3’ est donc dans ce cas impossible selon notre modèle. Ce problème cesse cependant d’en être un si l’on considère que la consigne n’est pas traduite en règle d’incompatibilité, mais qu’elle permet de construire l’opérateur défini par l’unique opération :

A : retourner la carte : 3

On constate alors que, quelle que soit la règle d’indésirabilité sélectionnée pour représenter l’objectif, le sujet ne peut pas résoudre complètement le problème. En effet, la seule opération légale consiste à retourner la carte ‘A’. Retourner la carte ‘7’, notamment, ne sert à rien, puisqu’elle n’intervient pas dans l’opérateur. Les sujets décidant de ne retourner que la carte ‘A’ sont dans une situation de blocage (car ils ne peuvent résoudre leur indésirabilité courante, quelle qu’elle soit). Le module logique laisse donc le soin à l’opérateur de sélectionner un déplacement en fonction de ses préférences, et ce dernier sélectionne bien entendu l’unique déplacement possible. Quant le module logique passe une deuxième fois la main à l’opérateur, celui-ci reste muet (aucun ‘A’ n’est présent dans la situation courante). Le sujet considère qu’il est bloqué. La production contre-factuelle débute. Le sous-objectif produit est ‘A’ (i.e. faire apparaître un ‘A’ face visible, ce qui permet ensuite de recommencer l’étape précédente). Deux cas se présentent alors :

· La réversibilité de l’opérateur retournement est ignorée. La seconde production contre-factuelle échoue. Le sujet a alors effectué la totalité des vérifications possibles. Le problème est résolu, et la solution est donnée (‘A’).

· La réversibilité de l’opérateur retournement est prise en compte. Retourner la carte ‘3’ peut alors permettre de faire apparaître le ‘A’ recherché. Les autres cartes n’intervenant pas dans l’opérateur, elles ne peuvent pas intervenir dans la solution. Le sujet a donc effectué la totalité des vérifications possibles. Le problème est résolu, et la solution est donnée (‘A’ et ‘3’).

Si on accepte cette analyse, on peut alors se demander en quoi les effets de contextes permettent de faciliter la résolution. La réponse est alors très simple : dans le cas d’un problème ‘familier’, comme vérifier qu’un mineur ne consomme pas d’alcool, le problème est de nature différente. La règle à vérifier est déjà connue comme règle d’indésirabilité. Pour le problème de la consommation de bière, la règle est :

[[Boit(X, alcool), Mineur(X)], []] Þ Indésirable

Résoudre le problème revient alors à vérifier quels couples (âge, boisson) saturent la règle d’indésirabilité. Compléter chacun des couples (âge, ?) et (?, boisson) suffit alors à résoudre le problème, ce qui ne suppose qu’un opérateur capable d’effectuer une énumération.

Finalement, on se rend compte que les problèmes dits ‘logiques’ ne permettent pas aux sujets de mettre en œuvre leurs compétences logiques, par manque de connaissance, alors que les problèmes de la vie quotidienne mettent bien en œuvre ces compétences.

6.4.2.2 Le problème du ‘2 4 6’ de Wason

Les résultats du problème du ‘2 4 6’ de Wason ne contredisent pas notre modèle. Cette expérience montre en effet que les sujets ont du mal à concevoir des tests permettant d’invalider une hypothèse, et ce même si on attire leur attention sur l’importance de la tentative d’invalidation. Mais de quoi dispose un sujet humain pour vérifier que la règle qu’il suppose est juste ?

Dans notre modèle, la manière la plus simple de vérifier une règle consiste à construire un opérateur représentant cette règle. Si l’on suppose que la première règle construite est ‘triplet croissant avec intervalle constant’, cela donne :

(X, P) : construction : (X, X + P, X + 2P)

Tant que l’opérateur est construit ainsi, il est impossible pour le sujet de proposer des triplets invalidant la règle. La résolution de ce problème nécessite de remettre la règle construite en cause, ce qui s’avère très difficile puisqu’elle n’a jamais été prise en défaut. L’effet de facilitation s’explique aisément. Dans le cas des deux règles, on obtient initialement :

(X, P) : DAX : (X, X + P, X + 2P)

(X, Y, Z) : MED : Z - Y ¹ Y - X

Tant que la validation porte sur la règle DAX, on se trouve dans la situation du premier problème. Mais dès que la validation porte sur la règle MED, des contre-exemples vont être exhibés, et les règles correctes pourront être trouvées. Les données expérimentales du problème ‘2 4 6’ de Wason ne contredisent donc pas notre modèle.

6.5 Synthèse du modèle

Nous sommes maintenant en mesure de présenter une synthèse complète de notre modélisation. Celle-ci est basée sur un couplage entre des capacités logiques et des capacités de calcul et de simulation. Après avoir présenté les représentations utilisées par chacun des modules, nous examinerons comment ce couplage autorise une résolution de problème par une exploration guidée de l’espace de recherche, et nous terminerons cette synthèse par une présentation des processus de déblocage.

6.5.1 Une représentation duale du problème

Représenter un problème nécessite de représenter à la fois les objectifs que l’on doit atteindre pour le résoudre, ainsi que les transformations autorisées dans un état donné du problème. La représentation des objectifs se fait au niveau logique, et la représentation des transformations autorisées se fait par le biais d’opérateurs.

6.5.1.1 Connaissances logiques

La représentation des connaissances logiques se divise en une représentation des connaissances à long terme du sujet, sous forme de règles, et une mémoire de travail où sont stockés les faits et les contre-factuels qu’il envisage au cours de la résolution.

Une règle représente une connaissance à long terme du sujet. Elle décrit une situation problématique, dont la modalité est précisée, par le biais d’un noyau. Cette règle peut être accompagnée d’exceptions qui sont stockées dans un menu. Une règle indique que la conjonction d’un ensemble de terme est problématique. Le type de problématique est appelé modalité. Nous utilisons deux modalités :

· La modalité Incompatible qui indique que la conjonction des termes présents dans la règle est impossible.

· La modalité Indésirable qui indique que la conjonction des termes présents dans la règle est indésirable.

Une règle se divise en un noyau et un menu. Le noyau est constitué d’une conjonction de termes. Le menu est une liste d’exceptions, chaque exception prenant la forme d’une conjonction de termes. La sémantique d’une règle est donc que la conjonction des termes du noyau est indésirable ou incompatible (en fonction de la modalité), sauf quand un des éléments du menu n’est pas vérifié. Une règle prend donc la forme :

[Menu, Noyau] Þ Modalité

Dans la notation précédente Menu prend la forme d’une conjonction de termes, Noyau prend la forme d’une liste de conjonctions de termes et Modalité prend sa valeur dans {Indésirable, Incompatible}. Les connaissances à court terme (ou faits) sont stockées sans ordre particulier, sous la forme :

Fait : Valeur de vérité <CF>

Dans la notation précédente, Fait désigne l’énoncé du fait et Valeur de vérité sa valeur de vérité actuellement associée. CF n’apparaît que si le fait concerné est un contre-factuel. Un contre-factuel est un fait dont le sujet sait que la valeur de vérité est la négation de celle qu’il lui attribue temporairement.

Au cours d’une résolution de problème, les objectifs sont stockés sous forme de règles d’indésirabilité. Quand plusieurs règles d’indésirabilité sont simultanément saturées, celle de plus forte valeur conversationnelle, appelée indésirabilité courante, est la règle d’indésirabilité que le couple opérateur-module logique va chercher à invalider en premier. Quand aucune règle d’indésirabilité n’est saturée, le problème est résolu.

6.5.1.2 Connaissances procédurales

Les connaissances procédurales sont mémorisées sous forme d’opérateurs. Un opérateur est un triplet de la forme (Etat 1, Action, Etat 2), où Etat 1 est l’état du problème avant d’avoir effectué Action (en particulier, Action est possible dans Etat 1), et Etat 2 est l’état résultant de l’application de Action à Etat 1.

Les opérateurs sont réversibles, non pas dans le sens usuel (calculer Action et Etat 1 à partir de Etat 2), mais dans le sens où ils permettent de trouver une situation où une action est possible (calculer Etat 1 à partir de Action).

Les opérateurs sont récursifs, avec une profondeur de récursivité limitée. Un opérateur est capable de fournir en séquence l’ensemble des états de l’espace-problème accessible dans la limite de sa profondeur. Cet ensemble est proposé dans un ordre qui dépend des préférences de l’opérateur. Les préférences d’un opérateur dépendent du contexte (i.e. de la position dans l’espace-problème). Les préférences expriment l’idée que dans une situation donnée, l’opérateur ‘préférera’ proposer une situation accessible plutôt qu’une autre.

6.5.2 Une résolution par exploration guidée

La résolution de problème s’effectue par une exploration guidée de l’espace de recherche. L’opérateur propose, dans l’ordre de ses préférences, l’ensemble des situations de l’espace problème qu’il sait atteindre. Le module logique vérifie alors, pour chaque situation proposée, si l’indésirabilité courante n’est plus saturée. Si c’est le cas, l’action (ou la suite d’actions) proposée par l’opérateur est effectuée. S’il n’y a plus d’indésirabilité saturée, la recherche s’arrête, le problème étant résolu. S’il reste des indésirabilités saturées, le processus de recherche est relancé avec la nouvelle indésirabilité courante.

Si aucune des situations accessibles à l’opérateur dans la limite de sa profondeur ne résout l’indésirabilité courante, le module logique valide le coup préféré de l’opérateur[6], à la condition que ce coup ne sature pas une règle d’indésirabilité qui venait d’être résolue. Le processus de recherche est alors relancé. Cette exploration selon les préférences de l’opérateur est également limitée. Quand cette limite est atteinte sans que l’indésirabilité courante soit résolue, la résolution se trouve dans l’impasse.

6.5.3 Sortie d’impasse et planification

Le mécanisme de sortie d’impasse est basé sur la production contre-factuelle. Le module logique choisit un des termes du noyau de l’indésirabilité courante (qui est nécessairement saturée, puisque la résolution est dans une impasse) pour produire un contre-factuel. Si cette production contre-factuelle sature des règles d’incompatibilité, le module logique rétablit la cohérence de la situation par production contre-factuelle. Une fois que la situation contre-factuelle est cohérente, le module logique transmet le couple des situations réelle et contre-factuelle à l’opérateur. Ces situations ne contiennent que les termes ayant une valeur de vérité différente dans la situation réelle et dans la situation contre-factuelle.

L’opérateur détermine dans un premier temps une opération permettant la transition de la situation réelle vers la situation contre-factuelle, puis recherche une situation où cette opération est légale, et retourne la situation trouvée au module logique. Le module logique prend cette situation comme nouvel objectif courant, en créant une règle d’indésirabilité dont le noyau est constitué de la situation retournée, et dont le menu contient la règle d’indésirabilité saturée sur laquelle a porté la situation contre-factuelle. Le déroulement de l’exploration assure que la valeur conversationnelle de la nouvelle règle ainsi créée sera supérieure à la règle ayant permis la production contre-factuelle. La nouvelle règle ainsi calculée devient donc nécessairement la règle d’indésirabilité courante. Le processus de recherche est alors relancé.

Le processus de déblocage par production de contre-factuel permet donc la planification de la résolution. La mémorisation des règles ainsi créées est suffisante pour assurer une planification correcte au cours de résolutions ultérieures.

6.5.4 L’image du spot lumineux

· Dans un premier temps, le module logique vérifie si au moins un des points éclairés par le spot fait partie de l’espace-solution. Dans ce cas, le spot se déplace par le chemin le plus court vers ce point.

· Quand ce n’est pas le cas, le spot est autorisé à se déplacer selon ses préférences au sein de l’espace-problème pendant un nombre limité de coups. La première étape est répétée à l’issue de chacun de ses déplacements libres.

Le processus de recherche consiste donc à déplacer le spot sur l’espace-problème afin de créer une intersection entre le spot et l’espace-solution, et le processus de déblocage consiste à agrandir l’espace-solution en «recrutant» des points de l’espace-problème, afin de faciliter cette recherche d’intersection.

[1] De fait, la traduction la plus directe du but du jeu serait [non(X en C)] Þ Indésirable (où X prend successivement les valeurs 1, 2, 3, 4 et 5), mais cette traduction se révèle très vite inadéquate (dès que le disque 1 est en C).

[2] Le lecteur patient vérifiera que dans les conditions données, et si les préférences ne changent pas en cours de résolution, la suite des mouvements est : 1 en C, 3 en B, (nouveau sous but : 3 en C), 1 en B, 2 en A, 1 en A, 3 en C, 1 en B, 2 en C, 1 en C, 4 en B. La fin de la résolution est laissée en tant qu’exercice au lecteur très patient…

[3] On notera cependant que si un but de niveau donné nécessite en séquence le calcul de deux sous-buts de même niveau, le second sous-but ne nécessitera qu’un unique blocage après la résolution du premier sous-but pour être calculé. De sorte que pour des états du problème nécessitant un même nombre de sous-buts, la difficulté (au sens de Egan et Greeno) sera plus importante pour les états rencontrés plus tôt dans la résolution. Ce phénomène risque d’apparaître comme un apprentissage procédural, alors qu’il s’agit en fait d’une meilleure compréhension des objectifs à atteindre pour résoudre le problème.

[4] Nous n’avons pas modélisé ce type de comportement dans notre modèle, mais notre point est simplement de démontrer qu’il n’est pas possible de réaliser une telle modélisation à partir d’une pile de but.

[5] D’autres études portant sur les évaluations de probabilité montrent des effets similaires (comme par exemple [TVE 83]). Nous n’aborderons cependant pas ce point ici car les performances humaines sur ce second type de problème ne rentrent pas en contradiction apparente avec notre modèle.

[6] i.e. le coup proposée en premier par l’opérateur dans la situation courante et qui est déterminé par le biais des préférences de l’opérateur.