Malheureusement, la qualité des analyses statistiques en recherche médicale est souvent très pauvre, et l’obtention de conclusions erronées a sans aucun doute des effets importants sur la santé humaine. Voici quelques-unes des raisons qui expliquent la piètre qualité des analyses et quelques-unes des erreurs les plus communes.
Raisons pour lesquelles les statistiques médicales sont de piètre qualité :
Les médecins ne sont habituellement pas des experts en statistiques (et ne devraient pas nécessairement l’être! Ils ont beaucoup d’autres compétences) et ils sont souvent intimidés par les méthodes statistiques complexes. Cela implique que les journaux médicaux – les meilleurs inclus – insistent sur des méthodes statistiques qui seront facilement comprises par leur lectorat, parfois même au détriment d’analyses de meilleure qualité. Je ne connais aucun autre domaine pour lequel c’est le cas. Que ce soit en économie, en génie, en physique, en écologie/évolution, en démographie ou en sociologie, on utilise des approches statistiques beaucoup plus sophistiquées que celles communément retrouvées en recherche médicale. Un bon exemple de ceci est l’absence quasi complète d’analyses bayésiennes dans les journaux médicaux.
Les médecins doivent prendre des décisions claires dans leur pratique, de traiter ou non par exemple. Leur formation universitaire les encourage ainsi à voir le monde en noir ou blanc, ce qui nuit à l’interprétation correcte de résultats plus subtils. Par exemple, un essai randomisé contrôlé portant sur un nouveau médicament pourrait ne pas montrer une augmentation significative du risque d’un effet secondaire (p=0,08), mais il est plus probable qu’il s’agisse du reflet d’une puissance statistique insuffisante que de l’absence de l’effet secondaire. De telles études manquent de puissance afin de détecter les événements rares, ce qui ne veut pas dire que tous les cas où p > 0,05 montrent assurément que l’effet secondaire n’est pas présent!
La majorité des variables en recherche médicale sont conçues pour correspondre à la réalité clinique des médecins. Par exemple, le diabète peut être diagnostiqué au moyen d’un seuil de glucose sanguin de 126 mg/dl, tel que mentionné dans la section Notre approche statistique. Ces variables sont rarement les meilleures pour représenter les vrais processus sous-jacents.
Dans la plupart des autres domaines, un seul chercheur est expert à la fois sur le sujet en question et en statistiques, ce qui implique que le choix des analyses est fait en lien avec la question de recherche. En recherche médicale, les statistiques sont majoritairement déléguées aux biostatisticiens. Ces derniers sont excellents en statistiques, mais sont souvent moins dévoués que le premier auteur à peaufiner chaque détail et n’ont pas dès le départ un plein contrôle sur l’étude. Leur priorité réside souvent dans le développement méthodologique pour les journaux biostatistiques. Parce qu’un test statistique différent pose une question scientifique différente, cela veut dire que plusieurs études médicales aboutissent avec des réponses à des questions légèrement différentes que celles initialement visées.
Plusieurs compagnies pharmaceutiques et autres ont un grand intérêt dans les issues de la recherche médicale, ce qui a engendré un large potentiel de résultats biaisés. Conséquemment, de nombreuses règles ont été élaborées afin de prévenir la manipulation du système de recherche. Celles-ci incluent la spécification préalable de presque tous les aspects des analyses statistiques des essais randomisés contrôlés et autres études avec différents types de devis de recherche. Malheureusement, ces règles ne suffisent pas à enrayer les biais, mais préviennent en contrepartie une bonne part des analyses les plus créatives et intéressantes qui pourraient être effectuées avec les jeux de données.
Suivre les données est familièrement nommé « aller à la pêche » dans un sens péjoratif, ce qui est injustifié. Il y a des risques à aller à la pêche qui peuvent être pris en compte lors de l’interprétation, mais de l’empêcher complètement constitue un moyen infaillible de nous assurer que les données ne révèleront rien qui n’était déjà connu. Pour éviter les problèmes qui pourraient survenir en lien avec le fait d’ « aller à la pêche », il est suffisant de (a) considérer minutieusement le risque de faux positifs dû aux tests multiples et (b) répéter les analyses, que ce soit dans un jeu de données indépendant ou avec de sous-groupes de tests et/ou d’apprentissage issus du jeu de données original.
La majorité des médecins et chercheurs médicaux prennent pour acquis que les ERCs constituent le modèle d’excellence en matière de preuve scientifique. Toutefois, plusieurs théories, notamment celle d’un système solaire héliocentrique, de l’évolution par la sélection naturelle et du réchauffement climatique sont toutes fondées largement ou exclusivement sur des données observationnelles plutôt qu’expérimentales, et toutes trois sont beaucoup plus généralement acceptées que n’importe quelle conclusion médicale issue d’un ERC. Cette contradiction résulte de la nécessité en recherche médicale à générer rapidement des résultats pour guider les cliniciens dans leur pratique actuelle, alors que la science est lente et implique des décennies d’allers et retours avant d’en arriver à des preuves solides. En science fondamentale, une seule étude change rarement un paradigme; l’accumulation progressive de plusieurs types de preuves le fait. La recherche médicale n’a pas les moyens de prendre tout ce temps. Bien qu’il soit vrai qu’en certaines circonstances les ERCs représentent la méthodologie de choix, ils demeurent très onéreux et ne répondent qu’à des questions très pointues. Lorsque les réponses dépendent du contexte (comme c’est souvent le cas), les résultats des ERCs peuvent induire en erreur. Une combinaison d’ERCs, d’études observationnelles et d’études fondées sur les principes fondamentaux (ex. en biologie) est nécessaire afin de parvenir à un haut degré de confiance.
Erreurs communes en statistiques médicales :
Rares sont les cas où les variables continues (telles que l’âge ou le statut socio-économique) devraient être divisées en classes discrètes, car de ce fait nous perdons une quantité non négligeable d’information. Un stagiaire de premier cycle universitaire de notre laboratoire, Jean-Louis Barnwell-Ménard, a démontré que de telles pratiques peuvent augmenter les taux de faux positifs des études de 5 à 100% dans de nombreuses conditions. La plupart des études médicales persistent néanmoins à catégoriser les variables continues pour aucune autre raison apparente que la coutume. Dans ce contexte, l’IMC est l’une des variables les plus problématiques.
Le composé chimique X augmente-t-il le taux de cancer? Une étude typique va sans doute examiner 8 types de cancer communs avec de petits échantillons et conclure de façon incorrecte que, parce qu’aucun type de cancer n’était associé individuellement avec le composé X, il n’y a pas de relation entre les deux. Toutefois, l’effet peut dépendre du type de cancer. Il existe de nombreuses approches statistiques pour combiner les types de cancer en une seule analyse sans ignorer les particularités de chaque type. De telles considérations sont rarement présentes en recherche médicale.
Il arrive communément de voir les articles en recherche médicale supposer que toute valeur de p supérieure à 0,05 implique l’absence de l’effet, alors qu’en réalité elle indique tout simplement un doute quant à la présence de l’effet.
Souvent en lien avec la catégorisation, la recherche médicale utilise majoritairement les variables cliniques sans considérer suffisamment les processus sous-jacents potentiels.