Mass ESP : a meta-analysis of mass-media recruitment ESP studies
Julie Milton (Psychology Department, Edinburgh University)
(the Thirty Seventh Annual Convention of the Parapsychological Association, 1994, 284-292)
Cette méta-analyse examine huit études sur l’ESP en choix-forcé, représentant plus d’un million et demi d’essais individuels. La dimension moyenne de l’effet (« effect size ») est très faible et elle est négative (r = - 0.0046), et le résultat global cumulatif de ces études n’est pas significatif (Stouffer Z = -1.60). Les précautions méthodologiques contre les erreurs de protocole n’apparaissent pas plus grandes que celles des études examinées dans la méta-analyse sur les études de précognition en choix forcé de Honorton et Ferrari (1989), qui ont obtenu une dimension moyenne de l’effet beaucoup plus élevée. Une telle faiblesse de la dimension de l’effet est inhabituelle dans les méta-analyses parapsychologiques. Parmi les facteurs qui pourraient en être responsables, notons l’emploi d’une suite de cibles uniques pour tous les sujets dans la plupart des études considérées, ce qui requiert une méthode d’analyse de la variance tendant à réduire la dimension de l’effet ; la haute probabilité qu’une proportion inhabituellement importante de participants ne croyaient sans doute pas que l’ESP soit possible dans les conditions de test proposées (facteur connu pour être associé avec un score au hasard ou en dessous de l’espérance).
Abstract
This meta-analysis examined eight forced-choice ESP studies, representing over one and a half million individual trials, in which participants had been recruited via the mass-media. The mean effect size was very small, and negative (r =-0.0046), and the overall cumulative outcome of the studies was non-significant (Stouffer Z = -1.60). Methodological safeguards against procedural error did not appear stronger than in those studies examined in Honorton 1 Ferrari's (1989) meta-analysis of forced-choice precognition studies, which obtained a much larger mean effect size. Such a low effect size is unusual in parapsychological meta-analyses. Factors that might have been responsible for it include the use of a signle target sequence for all subjects in most of the studies, requiring a method of calculating variance that tends to reduce effect size; and the high probability that an unusually large proportion of participants in the studies were unlikely to believe ESP to be possible under the test conditions, a factor known to be associated with low or below-chance scoring.
| |
La méta-analyse a été appliquée à bon nombre de corps de données parapsychologiques ces dernières années (e.g. Honorton, 1985; Honorton et Ferrari, 1989; Hyman, 1985; Lawrence, 1993; Radin et Ferrari, 1991; Radin & Nelson, 1989; cf. Utts, 1991 pour une revue générale). Les résultats indiquent des "tailles d'effet" différentes de zéro qui, lorsqu'on les cumule, sont hautement significatives du point de vue statistique. Les "tailles d'effet" n'apparaissent généralement pas être liées significativement à la rigueur des controles méthodologiques par rapport à l'erreur, à des perceptions subliminaires ou à la tricherie. Les calculs, en employant la méthode de l'estimation "filedrawer" de Rosenthal (1991) suggère qu'il est hautement improbable que ce résultat global très significatif soit dû à une publication sélective des résultats statistiquement significatifs.
Les méta-analyses de bases de données qui contiennent des études avec des imperfections méthodologiques ne peuvent produire de preuve définies que les anomalies observées ne sont pas dues à la fraude ou à l'erreur. Cependant , des études subséquentes qui remplissaient tous les critères de qualité méta-analytique indiquent que ce qu'ont trouvé les méta-analyses testées jusqu'à ce jour ont une validité prédictive (Honorton, Berger, Varvoglis, Quant, Derr, Schechter & Ferrari, 1990).
Ceci ajoute à la crédibilité des recherches méta-analytique en parapsychologie, en général, et à la crédibilité de la méta-analyse comme outil utile pour les parapsychologues).
Le présent travail emploie la méta-analyse pour évaluer une classe particulière d'études sur l'ESP - les études fondées sur un recrutement par les mass-média - études qui pourraient offrir au parapsychologue des avantages particuliers pour tester des hypothèses orientées sur le processus. Parce que les "tailles d'effet" sont généralement faibles, de grands nombres d'essais sont nécessaires pour offrir aux tests des hypothèses une puissance statistique suffisante pour recueillir des résultats significatifs. C'est spécialement vrai quand la relation entre la variable prise principalement en considération et le score ESP lui-même ont un bas niveau de "taille d'effet".
Le recrutement de sujets par les mass-media offre une méthode commode d'obtenir la participation d'un grand nombre de personnes pour les études ESP, et beaucoup de chercheurs ont essayé d'exploiter le potentiel de cette méthodologie. Cependant, par nature, les études à recrutement par les mass-media ont des caractéristiques qui ne sont pas dans le droit fil de la plupart des expériences de laboratoire, et il n'est pas sûr d'admettre que les tailles moyennes d'effet devraient être les mêmes dans l'une et l'autre situation. Si les tailles d'effet dans les études "mass-media" sont très basses, alors, même un très grand nombre d'essais pourrait être insuffisant pour que ces études engendrent des avantages qui dépassent les expériences ordinaires de laboratoire.
Les recherches existantes suggèrent qu'on doit attendre des tailles d'effet relativement basses dans le cas des études avec recrutement par les mass media. Les différences les plus évidentes entre ces études et la plupart des études ordinaires de laboratoire est que les études "mass-media" n'impliquent pas un contact social direct entre l'expérimentateur et les participants, que les participants ne sont pas sélectionnés, que le feedback est retardé ou absent, et que le format de test est soit de nature précognitive soit implique une grande distance entre la cible et les participants.
Les effets de l'expérimentateur socialement médiatisés ont été examinés dans un grand nombre d'études dans lesquelles les expérimentateurs avaient un contact de face-à-face avec les participants. Des différences significatives dans le score ESP ont été trouvées selon que l'attitude de l'expérimentateur à l'égard de l'ESP était positive ou négative, et selon que l'attitude de l'expérimentateur à l'égard des participants était chaleureuse et encourageante ou hostile (e.g. Honorton, Ramsey & Cabibo, 1975; Parker, 1975; Taddonio, 1976). Cependant, aucune étude n'a examiné les effets de la non interaction directe entra participants et expérimentateur. Il se pourrait que la taille d'effet soit réduite en l'absence de l'encouragement constitué par le contact direct avec l'expérimentateur.
Deux méta-analyses ESP ont comparé les tailles d'effet quand les sujets sont sélectionnés ou ne le sont pas, et toutes deux ont trouvé une taille d'effet plus faible quand il n'y a pas de sélection. La différence n'était pas significative dans une méta-analyse de Milton (en préparation) concernant les états d'éveil de la conscience, les études d'ESP en réponse libre; la différence était par contre significative dans l'examen par Honorton et Ferrari (1989) des études de précognition en choix forcé. Dans ces deux méta-analyses, les études faisant appel à des sujets non sélectionnés avaient, malgré tout, un résultat supérieur au hasard, sur les données cumulées, hautement significatif.Ce qui montre que l'emploi de sujets non sélectionnés ne devrait pas être un obstacle pour obtenir des résultats différent du hasard, lorsqu'on se donne un très grand nombre d'essais.
La méta-analyse de Honorton & Ferrari (1989) indique aussi qu'il est possible d'obtenir de manière fiable un score supérieur à l'espérance du hasard avec un protocole de précognition. Basé sur un échantillon de 309 études publiées sur une période de plus de 53 ans par 62 auteurs reconnus différents, le résultat cumulé conduit à rejeter l'hypothèse nulle avec une très grande significativité statistique (p < 10 -24). Nous ne connaissons pas de méta-analyse conduite par rapport à des expériences ou les participants et les cibles seraient séparés par de très grandes distances. Osis (1965) examinant un groupe de 22 études en choix forcé avec cinq cibles possibles a trouvé une diminution de la taille d'effet avec la distance. Il remarque pourtant que l'appel exclusif pour les études à courte distance de sujets très "doués" pourrait avoir donné cet apparent effet de distance. Les tests empiriques directs sur l'effet de la distance par rapport à la taille d'effet montrent le plus souvent un déclin lié à une plus grande distance, mais il peut s'agir d'une variation de l'attitude des participants concernant les essais à grande distance (Osis, 1965). Malgré tout, les effets de taille sur de grandes distances, même s'ils sont inférieurs à ceux qu'on a observé à courte distance, ne se réduisent pas à zéro; un grand nombre d'expériences ESP à longue distance ont obtenu des résultats significatifs (Palmer, 1978). Une méta-analyse serait désirable pour calculer à la fois la taille d'effet moyenne pour ces études et le nombre d'études non publiées comportant une taille d'effet égale à zéro qui serait nécessaire pour réduire un quelconque effet global à la non significativité.
Quoique l'appel à des sujets non sélectionnés, et le testing en précognition ou sur les longues distances ne paraissent pas nécessairement problématiques, l'impact de l'absence de feedback (ou d'un grand délai) par rapport aux sujets est difficile à déterminer. Les résultats en provenance de différents champs d'expérience suggèrent plusieurs modèles. Dans la méta-analyse sur la précognition de Honorton et Ferrari (1989), les 15 études dans lesquelles il n'y avait aucun feedback administré aux participants donnaient une taille d'effet moyenne très basse comparée aux études avec feedback, et un résultat combiné non significatif (taille d'effet moyenne, Z/N1/2, -0.001; Stouffer Z = -1.30). Cependant, dans une méta-analyse en préparation sur les étudesen réponse libre, de type non précognitif, les études avec ou sans feedback ont dégagé des tailles d'effet presque identiques (0.162 et 0.165 respectivement) et le résultat cumulé des études dépourvues de feedback était hautement significatif (Z = 4.70). Honorton & Ferrari (1989) ont trouvé une taille d'effet de 0.009, et un résultat combiné significatif ( Z = 2.11) dans les 21 études sur la précognition avec feedback tardif (généralement par courrier). Prises ensemble ces constatations suggèrent que le feedback peut constituer une variable importante, mais que son effet est hautement dépendant du contexte et peut-être plus déterminant dans les études concernant la précognition. Que l'absence de feedback immédiat dans les études à recrutement par les mass-média affecte peobablement leur résultat peut dépendre du test ESP utilisé.
Il y a donc quelques doutes quant à savoir si une taille d'effet débordant le hasard est probable dans les études à recrutement mass-média, et si la quantité de temps et d'efforts que de tels essais exigent est susceptible d'en payer le prix. Le présent article propose une méta-analyse de ce type d'études en vue de déterminer ce qu'il en est et, si possible, pour établir une estimation de la taille d'effet à envisager pour concevoir de telles études dans le futur.
La recherche des études a été basée sur la littérature publiée. Nous avons utilisé trois méthodes.
Une étude à recrutement par mass-média est définie par le fait que le recrutement s'est fait par le biais de magazines, journaux, télévision ou radio,sans considération de l'importance de l'audience. Les études comportant des "mailings" (courrier) de masse de tests ESP ont été exclues. Nous avons dès lors pu retenir 16 études à recrutement par mass-média. Seules furent alors retenues les études qui comportaient une mesure des résultats basée sur des données avec plein succès direct et complet ("full direct-hit data") pour tous les participants et qui impliquaient des participants "volontaires" et bénévoles. Une étude de Medhurst, Stark & Thomson (1965) fut exclue parce que les sujets n'y ont pas été testés selon la manière classique, mais ont reçu des paquets de cartes qu'ils devaient battre et avec lesquelles ils devaient se tester eux-mêmes (cette méthode non conformiste devait permettre d'effectuer un screening préalable pour une recherche subséquente; ces essais ne constituaient pas pour les auteurs un test rigoureux de l'hypothèse ESP). C'est parce que on eut pu très facilement attribuer des résultats, quels qu'ils soient, à la tricherie ou à l'erreur, que cette étude n'a pas été incluse dans la méta-analyse.
Huit études, menées par sept auteurs différents, ont rempli les critères d'inclusion. Toutes ces études utilisaient un protocole de choix forcé, la plupart sur des symboles de Zener.
Les Symboles de Zener |
||||
|
1 |
2 |
3 |
4 |
5 |
En agrégeant tous les données acceptées, au moins 86.000 sujets non sélectionnés (l’éventail allant de 91 jusqu’à, au moins, 46.433 dans le test de Radio Zenith rapporté par Goodfellow, 1938) prirent part à un total de plus d’un million et demi d’essais individuels (l’éventail par étude allant de 1.830 à 1.204.400). Le nombre total d’essais par sujet alant de 6 à 100. Les caractéristiques des différentes études sont résumées dans le tableau 1 [1]
La mesure de la taille d’effet employée dans la méta analyse fut r, estimé selon la formule Z/N1/2 (Rosenthal, 1991), où Z est la déviation standard normale associée au nombre de succès observés, et N le nombre d’essais de l’étude. Dans la plupart des études de la base de données les participants à une étude répondaient à une seule séquence des cibles, séquence commune à tous. Dans un tel scénario, on ne peut assumer que les essais des participants sont indépendants l’un de l’autre ; des facteurs de préférence peuvent amener les gens à prendre la même décision sur une cible donnée, surtout s’il y a peu d’essais. En raison de ce « stacking effet », il n’est pas sûr d’utiliser la variance théorique pour calculer Z, ce qui pourrait se faire si les réponses étaient indépendantes. Il convient plutôt d’employer la correction de Greville (1944) pour le calcul de la variance à partir de la distribution des réponses sur les différentes cibles possibles (Cf. Pratt, 1954).
La taille d’effet moyenne a été de – 0.0046 (SD = 0.011).Le Stouffer Z des données agrégées des huit études a été de – 1.60, ce qui n’est pas significatif au seuil de 0.05.
Nous avons pris en compte six critères pour l’évaluation « qualité » des études. Ils sont calqués sur les critères de Honorton & Ferrari (1989) dans leur méta-analyse d’études en choix-forcé, en les adaptant aux particularités des tests avec recrutement par les mass-média. Chaque critère donnait un point ou non.
1. Analyse pré-programmée : un crédit a été accordé aux études qui indiquaient que le test statistique employé pour le résultat global avait été prévu au préalable.
2. Randomisation adéquate : un crédit était donné quand on avait utilisé des tables de nombres au hasard ou un algorithme de type pseudo-random, connu pour produire des séries approximativement aléatoires.
3. Contrôles : un crédit était attribué aux études qui avaient employé des vérification contrôle quant à l’aspect aléatoire.
4. Cibles et enregistrement des réponses : un crédit a été attribué quand il y avait double vérification ou enregistrement automatique des cibles et des réponses.
5. Vérification des succès : un crédit a été donné pour l’enregistrement du score s’il était réalisé de manière automatisée ou avec double vérification, concernant le fait, pour un essai, d’être un succès ou un échec.
6. Bouclier sensoriel : un crédit a été donné aux études qui spécifiaient qu’aucune personne informée de la séquence des cibles ne présentait soi-même le test aux participants.
La qualité globale de chaque étude a été résumée danns le Tableau 1 [2] . On n’a pas découvert de relation significative entre la taille d’effet et la qualité de l’étude ( r = 0.18, 6 ddl).
En dépit du fait que nous n’étions en présence que de huit études, il s’agit d’une énorme base de données : plus d’un million et demi d’essais individuels ce qui se compare tout à fait aux deux millions d’essais examinés dans la méta-analyse de Honorton & Ferrari (1989) sur les études concernant la précognition en choix forcé. Le niveau global de signification statistique de Honorton & Ferrari est de p < 10-24 ; le résultat global pour la présente méta-analyse est non significatif au seuil p = 0.05. La taille d’effet obtenue est très faible et elle est négative.
Les parapsychologues autant que leurs critiques sont aux aguets pour dépister les faiblesses méthodologiques qui pourraient donner de fausses évidences d’ESP. Cependant, comme cela a été débattu, les méta-analyses parapsychologiques n’alimentent en général pas les prétentions de certains commentateurs selon lesquelles des études ESP bien conduites auraient des résultats nuls, ou de plus faibles tailles d’effet que d’autres études moins bien ficelées. Dans le cas des études à recrutement par mass-média, il ne semble pas probable qu’une quelconque excellence méthodologique atypique serait responsable de leur inusuelle faible taille d’effet : la qualité de ces études se situe dans la moyenne et pas supérieure à celles des études étudiées dans la méta-analyse de Honorton & Ferrari (1989). En ignorant la sauvegarde du « bouclier sensoriel » qui ne s’applique pas aux études sur la précognition, le niveau moyen de la note de qualité des études mass-médias est de 0.5 sur 5 points possibles dans le cas où une étude serait parfaite. En ce qui concerne la méta-analyse sur la précognition, les études ont été créditées d’une note de 3.3 sur 8 points possibles. Il n’est pas possible de tirer des conclusions définitives sur la base de telles comparaisons, mais l’idée qu’une extrême rigueur méthodologique sur les études mass-média conduirait à une taille d’effet moyenne non-significative ne reçoit pas de confirmation directe [3] .
Etant donné que la qualité méthodologique ne rend pas compte de la faible taille d’effet observée, nous devons nous intéresser à d’autres explications quant à l’aspect inhabituel de notre résultat, étant admis que les « anomalies de communication » sont possibles en fait, ce que suggèrent d’autres mléta-analyses et les études confirmatoires qui ont succédé. Dans ce contexte, un candidat évident pour la réduction de la taille d’effet dans notre base de donnée est la correction de Greville (1944) qui a été appliquée dans six des huit études. Pratt (1954) a prétendu que la méthode de Greville donne habituellement une variance plus élevée, en pratique, que la méthode de calcul de la variance qui prend les réponses des sujets comme indépendantes. C’était le cas pour toutes les études rapportées dans cette méta-analyse. Le Tableau 2 montre la variance théorique et la variance corrigée par la méthode de Greville pour cinq des six études qui ont requis cette correction (l’étude de Goddfellow (1938) a été omise car il s’agissait de données binaires, sur lesquelles la variance est confondue avec le vote majoritaire quand on utilise la correction de Greville). Z (et donc la taille d’effet) sont liés à la racine carrée de la variance, et la dernière colonne montre la réduction proportionnelle de la taille d’effet liée à la nécessité d’employer la correction de Greville pour les données demandant des réponses collectives (multiples), admettant que le même nombre de succès auraient été obtenus si chaque participant avait eu une liste propre de cibles. Dans quelques études, l’effet de la correction de Greville est trivial ; dans l’étude de Nash (1964), dans laquelle les sujets montraient de très fortes préférences vis à vis du choix parmi les cibles possibles, cet effet est très important.
|
Etudes |
Variance Théorique |
Rapport [4] (Greville/Théorique) |
|
|
Green, Eastman & Adams (1963) |
293 |
775 |
1.6 |
|
Nash (1964) |
2057 |
1841449 |
29.9 |
|
Schmeider (1980) (i) |
17592 |
165345 |
3.1 |
|
Michie & West (1957) |
5790 |
12131 |
1.4 |
|
Schmeider (1980) (ii) |
1129 |
1557 |
1.2 |
|
Tableau 2 |
|||
Si la correction de Greville contribuait significativement à la faiblesse des tailles d’effet obtenues dans ces études, que pourraient faire les chercheurs désireux d’utiliser des méthodes de recrutement par les mass-média ?
Il y a plusieurs options.
1. Toutes les études dans lesquelles plusieurs participants sont appelés à répondre pour une même cible n’évoquent pas les biais qui conduisent à une variance de Greville élevée (e.g. Davis, 1978), et se servir d’ensembles de cibles possibles qui n’entraînent pas de fortes préférences est une approche envisageable. Les effets de préférence tendent à être plus forts pour les tout premiers coups d’un sujet donné, de sorte que l’emploi de séquences de cibles prolongées pourrait être adéquat.
2. De manière alternative Thouless & Brier (1970) suggèrent d’éviter l’emploi de la correction de Greville dans les études à appel multiple pour chaque cible, en décidant d’avance de les traiter plutôt selon une procédure de vote majoritaire, ce qui permet de traiter les données comme si un seul sujet avait répondu pour une série de cibles. Cette méthode ne convient pas pour certaines questions de recherche, mais quand il le faut, on doit prendre soin de réduire le biais de réponse. Par exemple, si la méthode de vote majoritaire est employée dans l’étude de Nash (1964), la même information (0) aurait été mise en jeu tous les six essais, et dans l’étude de Michie & West (1957), le choix aurait été « trompette » (en tant qu’opposé à « canoë »ou à « brouette ») pour 16 essais sur 18.
3. Thouless & Brier suggèrent une méthode de pondération des « votes » pour prendre en compte le biais des réponses et leur méthode ou ses variations paraît digne d’investigation.
4. Une autre voie pour éviter d’avoir à utiliser la correction de Greville est d’employer des listes individuelles de cibles pour chaque sujet. Cette approche est convenable pour la plus grande part des recherches orientées sur le processus, et elle est mieux réalisable dans le cadre d’une recherche concernant la précognition.
Est-ce que les variables de protocoles ou d’échantillonage pourraient avoir contribué à cette taille d’effet basse ? Depuis la découverte par Schmeidler (Schmeidler & McConnel, 1958) de l’effet chêvre-mouton, les parapsychologues se sont familiarisés avec l’idée qu’un résultat d’apparence nulle dans une étude ESP pourrait être dû à un groupe de sujets ayant des scores en dessous du hasard, alors qu’un autre groupe aurait des scores supérieurs au hasard. Dans un groupement de 18 études, Scmeidler a trouvé que les « moutons » (les sujets qui admettaient la possibilité de l’ESP dans les conditions du test) avaient des résultats supérieurs à l’espérance au hasard quand les données de ces études étaient agrégés, alors que les « chêvres » (sujets qui rejetaient la possibilité d’ESP dans les conditions du test) avaient des scores inférieurs au hasard. Des scores plus élevés pour les moutons comparés aux chêvres est un fait qui a été confirmé à la fois dans une revue descriptive en 1971 par Palmer, et dans une récente m éta-analyse de 73 études concernant cet effet chêvres-moutons (Lawrence, 1993), quoique on ne puisse déterminer si les chèvres, en tant que groupe ont un score en dessous du hasard ou moins au dessus que les moutons.
Si les chèvres tendent à réussir moins que ne le voudrait le hasard, ne doit on pas s’attendre à ce que pas mal d’entre elles trouvent ennuyeux de participer à ces études d’ESP à recrutement par mass-média, qui ressortissent totalement à un volontariat ? Il n’y a pas de raison d’obtenir, dans cette perspective, un équilibre qui contrebalancerait - ou dépasserait - la part positive produite par les moutons. Ceci ne semble pas être le cas dans la plupart des expériences de laboratoire ; les méta-analyses de tests ESP, conduites jusqu’à ce jour (Honorton, 1985 ; Honorton et al., 1990 ; Honorton et Ferrari, 1989 ; Milton, en préparation), indiquent des tailles d’effet globalement positives qui deviennent, de par leur accumulation, hautement significatives du point de vue statistique.
Il se pourrait que les études à recrutement par les mass-média constituent un échantillonage extrait d’une population très différente de celle dont sont issus les sujets impliqués dans ces études significatives. Il est extrêmement facile de participer à une étude avec recrutement par les mass-média ; les participants peuvent s’y inscrire sous l’inspiration du moment, se contenter d’écrire, à la maison, leurs réponses sur une feuille de papier à envoyer par la poste. Il n’ont pas besoin d’être très motivés et intéressés par la parapsychologie, au point de se rendre dans un laboratoire de parapsychologie. On peut penser que les sujets de laboratoire sont le plus souvent des moutons auto-sélectionnés. Les raisons qui poussent des individus à participer à une expérience ESP avec recrutement par les mass-médias peuvent avoir plus à faire avec l’attraction que constitue un événement intéressant vécu parmi de nombreux participants qu’à une attitude positive concernant la possibilité de l’ESP. Que les chèvres prennent part dans les études de recrutement par les mass-médias est démontré par l’étude de Schmeidler (1980) la seule à prendre en compte l’effet chèvre-mouton. Cinq pour cent de ses sujets étaient des chêvres, en dépit du fait qu’on avait dit aux participants que les chêvres auraient probablement des scores inférieurs aux moutons et risqueraient moins de gagner le prix offert pour le score le meilleur.
Comme on l’a déjà discuté dans l’introduction, les facteurs de protocole, tel l’absence de feedback ou le délai intercurrent pourraient aussi jouer un rôle. Deux études sur la précognition (Brier, 1967 ; Rhine, 1962) ont renvoyé aux sujets des feedbacks retardés, mais les feedback retardés dans les études sur la précognition en général, sont associés à des tailles d’effet positives, plutôt que très basses ou négatives (Honorton & Ferrari, 1989). Aucune des autres études ne comportait de feedback ; l’absence de feedback a été associée avec de très petites tailles d’effet dans les études sur la précognition en choix forcé (Honorton & Ferrari, 1989) mais cela n’avait pas d’effet discernable sur les études à réponse libre à l’état éveillé, qui le plus souvent comportaient des cibles en temps réel (Milton, en préparation). Si les effets de feedback sont motivationel par nature, le résultat net de retenir ou retarder le feedback pourrait dépendre de la nature de la population de sujets recrutés dans une étude donnée. Un feedback absent ou retardé pourrait transformer en chêvres des sujets qui, autrement, auraient été des moutons (en termes de leur attitude envers la probabilité d’obtenir ESP dans les conditions du test) ; La même chose pourrait survenir quand on emploie des protocoles expérimentaux qui paraissent « difficiles », comme lorsqu’il s’agit de précognition à distance. Dans une population de sujets qui contient une plus grande proportion de chêvres qu’il n’est habituel, de tels facteurs pourraient rendre compte des résultats atypiques des études à recrutement par les mass-média.
Cette discussion des rôles éventuels de la correction de Greville, et des variables d’échantillonage et de protocole est assurément assez spéculative. Mais quand plus d’un million et demi d’essais et toutes les heures de travail qui leur sont associées donnent un résultat qui s’avère nul, la spéculation est nécessaire si on veut poursuivre de manière constructive la recherche utilisant un recrutement via les mass-médias et les méthodes correspondantes.
Il est recommandé que, dans le futur, les expérimentateurs choisissent leurs hypothèses de recherche très soigneusement quand ils utilisent cette méthodologie et réfléchissent au aux caractéristiques appropriées de leur protocole. Les recherches qui exigent que la plupart des sujets aient des scores de même signe ne sont peut-être pas adaptées à ce type d’étude. On devrait se servir des items de questionnaire qui permettent de séparer les sujets qui ont des scores au dessus de l’espérance au hasard de ceux qui ont des scores en dessous, tel que la question originelle chêvre-mouton de Schmeidler (Palmer, 1971). Il est peut-être préférable de prévoir une analyse séparée des données provenant des chêvres d’une part, des moutons de l’autre.
La taille d’effet moyenne des études à recrutement par les mass-média qu’on a examiné ici a été négative et très faible, le cumul des données a dégagé un résultat non-significatif. Trois facteurs pourraient être responsables de la faiblesse de cettte taille d’effet : l’emploi d’une unique séquence de cibles pour tous les sujets d’une étude, requérant l’emploi de la méthode de Greville pour calculer la variance ; la probabilité que ce type de recrutement ait favorisé une plus grande proportion de chêvres qu’il n’est habituel dans la plupart des expériences en parapsychologie ; et les effets de la difficulté perçue par les sujets relativement aux conditions des tests dans ces études. Les chercheurs recommandent d’éviter les protocoles qui requièrent l’emploi de la correction de Greville, et de se restreindre dans les études avec recrutement par les mass-média aux questions qui ne dépendent pas du fait que les sujets auraient des scores dans une même direction..
Battin, I.L., (1942), On the problem of multiple matching, Annals of Math. Stat., 13, 294-305.
Brier, B. [R.M.] (1967). A correspondence ESP experiment with high-I.Q. subjects. Journal of Parapsychology, 31, 143-148.
Brier, R.M. (1969). A mass school test of precognition. Journal of Parapsychology, 33, 125-135.
Davis, J.W. (1978). The stacking effect : its practical significance in parapsychology, 42, 67.Journal of Parapsychology.
Goodfellow, L.D., (1938). A psychological interpretation of the results of the Zenith radio experiments in telepathy, Journal of Experimental Psychology, 23, 601-632.
Green, C.E. (1965). The effect of birth order and family size on, extra-sensory perception. Journal of the Society for Psychical Research, 43, 181-191.
Green, C.E., Eastman, M. & Adams, S. (1963). A new use for mass media in parapsychology. Journal of the Society for Psychical Research, 42, 114-124.
Greville, W.: Multiple matching with one variable deck. Annal of Mathematical Statistics, 1944.
Hearne, K.M.T. (1989). A nationwide mass-dream-telepathy experiment, Journal of the Society for Psychical Research, 55, 271-274.
Honorton, C. (1985). Meta-analysis of psi-ganzfeld research : A response to Hyman, Journal of Parapsychology, 49, 51-91.
Honorton, C., Berger, R.E., Varvoglis, M.P., Quant, M., Derr, P., Schechter, E.I. & Ferrari, D.C., (1990). Psi communication in the ganzfeld : Experiments with an automated testing system and a comparison with a mesta-analysis of earlier studies. Journal of Parapsychology, 54, 99-139.
Honorton, C.& Ferrari, D.C. (1989). Meta-analysis of forced-choice precognition experiments. Journal of Parapsychology, 53, 281-308.
Honorton, C., Ferrari, D.C. & Bern, D.J. (in press). Extraversion and ESP performance : A meta-analysis and a new confirmation, Psychological Bulletin.
Honorton, C., Ramsey, M. & Cabibbo, C. (1975). Ewperimenter effects in extrasensory perception, Journal of the American Society for Psychical Research, 69, 135-150.
Joesting, R. & Joesting, J. (1970). Position effects and target material in ESP. Psychological Reports, 26, 75-78.
Lawrence T. (1993). Gathering in the sheep and goats… A meta-analysis of forced-choice sheep-goat ESP studies, 1947-1993. In Parapsychological Association 36th Annual Convention : Proceedings of Presented Papers, pp.75-86.
Medhurst, R.G., Stark, H. & Thompson, G.T. (1965). A large scale experiment to discover agents and percipients for ESP testing. Journal of the Society for Psychical Research, 43, 109-135.
Michie, D. & West, D.J., (1957). A mass ESP test using television. Journal of the Society for Psychical Research, 39, 113-133.
Milton, J., (in preparation). A meta-analysis of waking state of consciousness, free-response ESP studies.
Nash, C.B. (1959). The Chesebrough-Pond’s ESP television contest. Journal of the American Society for Psychical Research, 53, 137-138.
Nash, C.B. (1964). A television test on ESP. International Journal of Parapsychology, 6, 139-142.
Osis, K. (1965). ESP over distance : A survey of experiments published in English. Journal of the American Society for Psychical Research, 59, 22-42.
Palmer, J. (1971). Scoring in ESP tests as a function of belief in ESP. Part I. The sheep-goat effect. Journal of the American Society for Psychical Research, 65, 373-408.
Palmer, J. (1978). Extrasensory perception : Research findings. In S. Krippner (Ed.), Advances in Parapsychological Research 2 : Extrasensory Perception, pp.59-243. New York, NY : Plenum Press.
Parker, A. (1975). A pilot study on the influence of experimenter expectancy on ESP scores. In J.D. Morris, W.G. Roll & R.L. Morris (Eds), Research in Parapsychology, 1974, pp. 42-44. Metuchen, NJ : Scarecrow Press.
Radin, D.I. & Ferrari , D.C. (1991). Effects of consciousnerss on the fall of dice : A meta-analysis. Journal of Scientific Exploration, 5, 61-73.
Radin, D.I. & Nelson, R.D. (1989). Evidence for consciousness-related anomalies in random physical systems, Foundations of Physics, 19, 1499-1514.
Rhine, J.B. (1962). The precognition of computer numbers in a public test. Journal of Parapsychology, 26, 244-251.
Rosenthal, R. (1991). Meta-analytic Procedures for Social Research. Newbury Park, CA : Sage Publications.
Schmeidler, G.R. (1979). A mass ESP contest : Demographic data and stimulus-response bias. In Parapsychological Association 22nd Annual Convention. Proceedings of Presented Papers.
Schmeidler, G.R. (1980). A mass ESP contest : Demographic data and stimulus-response bias. In W.G. Roll (Ed.), Research in Parapsychology, 1979, pp.104-107. Metuchen, NJ : Scarecrow Press.
Schmeidler, G.R. & McConnel, R.A. (1958), ESP and Personality Patterns. New Haven : Yale University Press.
Schwartz, S.A. & de Mattei, R. (1983). The Mobius Psi-Q test : Preliminary findings. InW.G. Roll, J. Beloff & R.A. White (Eds), Research in Parapsychology, 1982, pp.103*105,. Metuchen, NJ : Scarecrow Press.
Taddonio, J.L., (1976). The relationship of experimenter expectancy to performance on ESP tasks. Journal of Parapsychology, 40, 107-114.
Utts, J. (1991). Replication and meta-analysis in parapsychology. Statistical Science, 6, 363-403.
Wiklund, N. & Jacobson, N.O. (1976). A public experiment with precognition. Journal of the Society for Psychical Research, 48, 293-300.
Wooley, V.J. (1926). The broadcasting experiment in mass-telepathy. Proceedings of the Society for Psychical Research, 38, 1-9.
15 Janvier 2004
© Julie Milton (original english version) Psychology Department, Edinburgh University.
Ce travail a été traduit en français pour faciliter la réflexion concernant l’analyse des données du projet Agape et pour préparer le protocole du projet Sybil (Système BiLocal).
[1] [Note du traducteur : ] sans doute par erreur de l’imprimeur, on ne le trouve pas dans la publication…
[2] [Note du traducteur : ] sans doute par erreur de l’imprimeur, on ne le trouve pas dans la publication…
[3] !? [note du traducteur]
[4] De ce tableau sont exclus Green, 1965 ; Hearne, 1989 ; Joesting & Joesting, 1970 ; Nash, 1959 ; Schwarz & de Mattei, 1983 ; Woolley, 1926. L’étude pilote de Brier (1967) a été éliminée parce qu’il a utilisé un ajustement inapproprié pour corriger le « stacking effect » au lieu de la correction de Greville (1944). Une étude de Wiklund & Jacobson (1976) a également été rejetée parce qu’il n’est pas clair sur quelles données baser un calcul de l’effet de taille. En raison d’un manque de compréhension entre les deux auteurs, deux séquences de cibles, et donc deux résultats possibles, étaient engendrés. De plus, les deux cibles de chaque sujet n’étaient pas indépendantes, et ne devraient donc pas être analysées sans correction. Cependant, il n’y a pas de fondement pour choisir une cible plutôt que l’autre comme cible unique, dans l’analyse. On a également exclu l’étude de Brier (1969), qui a recruté des enseignants par le biais du magazine d’une High School pour administrer des tests ESP à leurs classes sur une base de non-volontariat.