Sugerencias para mejorar la interpretación de la información médica reportada por un Ensayo Clínico Aleatorizado

Sugerencias para mejorar la interpretación de la información médica reportada por un Ensayo Clínico Aleatorizado

Los médicos debemos actualizarnos a través de la información científica surgida de las investigaciones clínicas. Dado que el tiempo para la lectura y el entrenamiento en métodos de la investigación pueden ser escasos, suele ocurrir que las conclusiones de los investigadores o de quienes las comunican se adquieren tal como fueron expresadas. Sin embargo, en

Los médicos debemos actualizarnos a través de la información científica surgida de las investigaciones clínicas. Dado que el tiempo para la lectura y el entrenamiento en métodos de la investigación pueden ser escasos, suele ocurrir que las conclusiones de los investigadores o de quienes las comunican se adquieren tal como fueron expresadas. Sin embargo, en ocasiones, la interpretación y las implicancias clínicas podrían ser distintas.

En este artículo se resumen algunas sugerencias para evaluar la calidad de la evidencia reportada por un Ensayo Clínico Aleatorizado (ECA), que es el diseño que mejor evalúa estrategias de tratamiento. Por un lado, debemos analizar la validez interna, intentando detectar 2 tipos de desvíos (o errores): el aleatorio (chance o azar), que puede modificar los resultados en cualquier dirección, y el sistemático (sesgo o bias), que puede modificarlos en una dirección. Por otro lado, debemos evaluar la magnitud de los resultados y considerar la validez externa o implicancias clínicas.

Ningún estudio está totalmente libre de desvíos. El investigador principal negocia los potenciales desvíos a cambio de la factibilidad de llevar adelante el estudio. Para reducir los desvíos sistemáticos y maximizar la validez de las inferencias, se requiere un diseño e implementación adecuados; para reducir los desvíos aleatorios, se necesita un tamaño muestral suficientemente grande, que asegure un número elevado de eventos.

  1. Introducción

Debe justificar la racionalidad, el interés y la novedad de la pregunta de la investigación. Dado que ésta no suele presentarse explícitamente, es fundamental descifrarla desde el inicio para analizar los métodos adecuadamente. Es muy importante definir si el reporte actual es el estudio primario de los investigadores, o si es un sub-análisis o sub-estudio. En estos 2 últimos casos, revisar si fueron pre-especificados o si surgieron luego de obtener los resultados principales. Las implicancias siguen los principios de la “probabilidad bayesiana”, es decir, si algo se planeó en base a un conocimiento previo con una hipótesis clara o resultado esperado hacia una dirección, los hallazgos finales, a favor o en contra, tendrán una validez superior. Si la pregunta y las conclusiones surgen después de conocer los resultados, la probabilidad de equivocarnos en las inferencias es mayor. Este mismo concepto lo aplicaremos en el análisis de subgrupos.  

  1. Diseño

Es clave saber de entrada si es un ECA para probar superioridad (A es mejor que B) o no-inferioridad (A no es peor que B, e inclusive puede ser mejor), si es factorial o si es en clusters (grupos), dado que los métodos no son idénticos y las implicancias clínicas tampoco. Si un tratamiento es “no-inferior”, entonces, debiera ser de menor costo, aplicación más simple, de mayor disponibilidad o con menos efectos adversos. Respecto a la randomización, es factorial, es una forma frecuente y práctica para evaluar tratamientos múltiples; la más simple y común es 2 x 2.

También es necesario saber si el reclutamiento fue uni o multicéntrico, realizado en uno o varios países, si incluyó hospitales especializados o generales, si el protocolo surgió del sponsor de un fármaco o tecnología, o si es un estudio académico iniciado por un investigador. La validez externa podría variar de acuerdo a estos aspectos. El año de inicio y fin del reclutamiento también deben ser considerados.

  1. Población del estudio

Hay 2 principios a tener en cuenta:

1) Revisar si los criterios de inclusión fueron amplios o restrictivos, pensando en la generalización de los resultados. Esto no significa exigir que “cada” característica clínica de nuestros pacientes haya sido considerada; la idea debe funcionar como una “prueba de concepto”, siempre que no haya interacciones fisiopatológicas potenciales entre alguna condición no evaluada y la estrategia terapéutica favorecida.

2) A su vez, para aumentar el poder estadístico del ECA, es decir, mejorar la capacidad de encontrar diferencias en el Punto Final Primario, y para reducir el tamaño muestral a una cifra factible, los criterios de inclusión suelen seleccionar individuos de mayor riesgo que aseguran un número mayor de eventos. Si existen beneficios, podrán extrapolarse a sujetos de menor riesgo, entendiendo que, si bien la reducción relativa suele ser semejante, la reducción absoluta será menor a menor riesgo inicial. Esto determinará un NNT (número necesario a tratar) más elevado, que podrá afectar la relación de costo-efectividad y las implicancias clínicas.

Como vemos, debiera existir un equilibrio entre estos principios, frecuentemente difícil de lograr, por lo cual una debilidad de los ECA consiste en representar a una población “seleccionada” comparada con la del “mundo real”.

Finalmente, es muy importante evaluar los criterios de exclusión, para 1) tener claro a que pacientes no debiéramos extrapolar las conclusiones y quienes tienen mayor riesgo indicando el tratamiento estudiado, y 2) para interpretar eventuales pérdidas en el seguimiento o baja adherencia al tratamiento.

  1. Tratamiento evaluado

En intervenciones farmacológicas considerar si la dosis y la forma de administración evaluada es la adecuada en términos de seguridad y efectividad. Para tratar una enfermedad establecida, con alto riesgo de muerte o evento crítico (por ej., IAM o ACV), es preferible la mayor dosis tolerable o probada; para prevención primaria por cuestiones de seguridad es preferible una baja dosis probada.

Si el grupo control no recibe tratamiento activo, considerar que reciba placebo para que la eventual diferencia en los efectos sea fundamentalmente por razones biológicas de la droga.

En tratamientos invasivos evaluar si el reclutamiento se realizó sólo en centros especializados con operadores muy entrenados, o si también participaron hospitales generales con operadores menos experimentados. Es probable que algunas prácticas no sean generalizables a un contexto distinto del investigado, al menos, hasta que se logre una curva de aprendizaje de los operadores, volumen hospitalario o se actualice el equipamiento disponible.

En estudios “abiertos”, es decir, cuando los pacientes e investigadores conocen la intervención asignada (muy común en tratamientos invasivos o quirúrgicos) las conclusiones serán confiables si la adjudicación de los eventos fue realizada por médicos independientes y ciegos al tratamiento recibido (diseño tipo PROBE).

  1. Control de los sesgos

Analizar si la metodología aplicada reduce potencialmente los desvíos sistemáticos. 

5.1. Al inicio del estudio: considerar como fue generada la secuencia de aleatorización y cómo fue asignada a cada paciente, y si los investigadores pudieron haber conocido e influenciado la aleatorización a determinada rama. Actualmente la randomización se realiza mediante algoritmos computarizados, y la asignación es en forma remota, desde teléfono o computadora.

En estudios de tamaños muestrales pequeños, a pesar de la aleatorización, el azar puede generar disbalance en alguna variable pronóstica. Si bien en los ECA no es requerido el valor-p de cada variable en la Tabla 1, revisar si hay alguna diferencia que pudiera influir en los resultados. Si bien el análisis por intención de tratar (ITT) nos impide formalmente ajustar por estas variables, igualmente se puede hacer en forma exploratoria para interpretar algunos resultados. Esto también aplica para las co-intervenciones.

5.2. Durante el desarrollo del estudio: evaluar si el estudio fue “triple ciego” (pacientes, investigadores y adjudicadores no conocen el tratamiento asignado). Así se evitan, entre otros, el efecto placebo, las co-intervenciones y adjudicaciones potencialmente sesgadas. Todas estas situaciones pueden modificar los resultados.

Es clave observar que ambas ramas del estudio reciban co-intervenciones en forma balanceada, de acuerdo al manejo estándar de la patología (consejos sobre estilo de vida, agentes farmacológicos, procedimientos diagnósticos o invasivos). Las co-intervenciones pueden reducir la tasa de eventos y afectar el poder del ECA, pero si son mayores en uno de los grupos pueden modificar los resultados observados y ser causa de sesgo. Como se mencionó en el ítem 4, en ausencia de cegamiento es clave que la adjudicación de los eventos esté cargo de un comité independiente, ciego al tratamiento recibido.

5.3. Al final del estudio: revisar a) si el seguimiento fue completo y si los pacientes adhirieron al tratamiento, b) si se analizó por ITT y c) si hubo detención precoz.

a) La pérdida de pacientes en el seguimiento o la no adherencia al tratamiento pueden cambiar los resultados si por alguna razón se concentra más en una de las ramas. Los pacientes perdidos o no adherentes suelen tener diferente pronóstico, y si la cantidad es significativa (por ej. 15%) en relación al punto final primario (por ej. 8%), y particularmente asimétrica, puede modificar los resultados.

b) Si la hipótesis del estudio plantea evaluar superioridad, el análisis por ITT es necesario porque preserva el balance pronóstico logrado por la aleatorización. Por eso, el análisis por tratamiento recibido o por protocolo pueden aumentar la probabilidad de sesgos. Tener en cuenta que en los estudios de no-inferioridad sí es conveniente el análisis por protocolo.

c) Con respecto a la detención precoz, cuando es por beneficio suele ser especialmente “engañosa”, por lo cual reduce la calidad del estudio por sospecha de sesgo. En la primera época del reclutamiento, los eventos primarios pueden fluctuar alrededor del “verdadero” efecto, y en algún momento podrían cruzar los límites de detención influenciados por el azar, aparentando un efecto favorable “grande” (comúnmente RR <0,66). Dicho efecto suele ser mayor aún que el esperado por los investigadores cuando estimaron el tamaño muestral, y de continuarse el estudio, es probable que se redujera hasta desaparecer el beneficio. Adicionalmente, la detención precoz puede impedir la evaluación de efectos adversos serios, que suelen tener una incidencia menor que los puntos finales de eficacia.

Es sabido que los estudios detenidos precozmente por beneficio ganan difusión científica y mediática rápidamente, y así, aplicación clínica. Por eso, en ocasiones, puede ser favorecida su aplicación. 

  1. Tamaño de la muestra

Este aspecto es clave para reducir los desvíos aleatorios. En presencia de un diseño, implementación y randomización adecuados, el efecto terapéutico observado es sólido y confiable sólo cuando el tamaño muestral es suficientemente grande. Los autores deben describir como se calculó, especificando la tasa de eventos esperada en el grupo control, el tamaño del efecto esperado en el punto final primario (reducción relativa o absoluta de riesgo), la tasa de aceptación de un resultado “falso positivo” o error tipo I o alfa (por convención es 5%, o sea valor-p de 0.05), y la tasa de aceptación de un resultado “falso negativo” o error tipo II o beta, (usualmente entre 5 y 20%). De aquí deriva el poder del estudio (1- beta), usualmente entre 80 y 95%.

Como regla general, para obtener un efecto del tratamiento preciso representado por un intervalo de confianza (IC) “angosto” (ver ítem 7.1) es más importante observar el número de eventos que el tamaño muestral. Así, con <200 eventos totales, la sobreestimación del resultado puede ser grande, entre 200 y 500 moderada, >500 leve y con >650 la estimación es adecuada. Esto aplica tanto para el estudio completo como para uno detenido precozmente. 

  1. Resultados

            7.1 Magnitud y precisión del efecto del tratamiento

La magnitud o importancia clínica de un efecto terapéutico no está dada por alcanzar una diferencia estadísticamente significativa (p<0.05), sino por la reducción absoluta o relativa del punto final primario. Para evitar inferencias equivocadas, como regla debemos menospreciar reducciones de riesgo del 50% o más (HR o RR de 0,50 o menor), especialmente con menos de 100 eventos totales. Los ECA actuales tienen un diseño conservador, estimando reducciones del riesgo entre 10 y 30%. Por lo tanto, debemos dudar de resultados con una magnitud del efecto terapéutico muy superior al obtenido de evidencias previas y empleado en el cálculo del tamaño muestral.

Con respecto a la precisión del efecto del tratamiento, el IC del 95% es la medida más informativa, especialmente en puntos finales binarios (ej. muerte, IAM, ACV, reinternación). Como ya se mencionó, el número de eventos es más importante que el tamaño muestral. Por lo tanto, empecemos por una mirada al número total de eventos y al IC 95% del estudio para ir anticipando la validez de los resultados. Tener cuidado con resultados significativos, pero con el margen superior del IC entre 0,95 y 0,99. Esto implica la probabilidad de un beneficio clínico significativo, pero casi nulo. Por eso, es importante establecer un “mínimo” de beneficio a priori, independientemente de la significación estadística, por ejemplo 10%, es decir, esperar que el margen superior del IC 95% del HR o RR observado esté por debajo de dicho valor, es decir ≤0,90.

En estudios factoriales evaluar si se reportó la presencia o no de interacciones entre las estrategias evaluadas: 1) si no hubo interacción significativa, deben mostrarse los resultados primarios obtenidos de los “márgenes” de la tabla 2 x 2, es decir los 2 tratamientos por separado; 2) si hubo interacción significativa (poco común), entonces hay que comparar grupos del “interior” de la tabla, hecho que reduce el poder por menor número de casos y eventos analizados. Sería adecuado que los autores hubiesen descripto acciones específicas sobre estos aspectos en el cálculo del tamaño muestral. 

            7.2 Puntos finales

Si bien existen muchos resultados clínicos importantes, debe existir sólo un punto final (PF) primario que responda la pregunta del estudio, guíe la arquitectura del mismo, determine el tamaño muestral y sea el eje de las conclusiones.

Actualmente el PF primario de un ECA en el área cardiovascular es combinado, justamente por la baja incidencia de eventos “duros” individuales, tales como muerte, IAM y ACV. La combinación aumenta el poder por mayor número de eventos, acorta el seguimiento y reduce el tamaño muestral, favoreciendo la factibilidad del ensayo. Cada componente debiera reunir una importancia semejante y el tratamiento afectarlos biológicamente en forma semejante.

Debemos tener precaución cuando un tratamiento reduce el PF primario sólo a expensas de un evento individual no crítico, por ejemplo, “reinternación a 12 meses”, en un PF primario combinado que incluye muerte, IAM y reinternación. Asimismo, no debiéramos favorecer conclusiones aisladas sobre un componente del PF primario, aunque sea crítico, porque pueden estar influenciadas por el azar. Cuando el PF primario combinado está inadecuadamente diseñado, las interpretaciones de los resultados suelen ser confusas y debatibles. En estos casos, la calidad del ensayo se ve debilitada.

También debiéramos cuestionar la validez de los resultados en otras 2 situaciones frecuentes: 1) cuando el PF fue obtenido en un tiempo de seguimiento inferior o superior al establecido por el PF primario original, especialmente si el resultado fue negativo en dicha instancia; y 2) cuando el PF primario está constituido por una variable intermedia o subrogante que no ha demostrado una relación directa a un evento clínico mayor, en cuanto a efectividad y seguridad.

Finalmente, es clave que el ECA evalúe la inclusión de puntos finales de seguridad y efectos adversos, que eventualmente pueden “restar” al beneficio y sugerir, que a pesar del efecto favorable en el PF primario, el tratamiento evaluado tenga escasa o ninguna aplicación clínica. 

            7.3 Análisis de subgrupos

Sin dudas, es uno de los aspectos que generan mayor debate, confusión y diferentes interpretaciones de la evidencia, que frecuentemente se transforman en implicancias clínicas inadecuadas. Inicialmente revisar 1) si el análisis de cada subgrupo fue pre-especificado, 2) cuál fue la racionalidad biológica de su inclusión, 3) la dirección del efecto esperado, y 4) si son pocos o muchos subgrupos (cuantos más subgrupos, mas chance de que alguno sea positivo por azar).

En segundo lugar, considerar que el tamaño muestral y los eventos observados en los subgrupos suelen ser insuficientes para tener un poder estadístico adecuado, y por esta razón el desvío aleatorio es elevado. El valor-p de la interacción sirve para evaluar si realmente hay modificación del efecto en cada subgrupo evaluado, aunque tampoco es confiable por el tema de las muestras pequeñas.

Las diferencias observadas en análisis de subgrupos debieran ser generadoras de hipótesis para futuros estudios y no ser tomadas como conclusiones. Como regla general, debiera aplicarse el resultado global del ECA a cada subgrupo, sin considerar el análisis individualizado.

  1. Implicancias clínicas

Tomar decisiones en el paciente “individual” aplicando las evidencias “poblacionales” generadas por un ECA no es una tarea sencilla. Aquí radica el arte de la medicina. Tengamos en cuenta que los efectos observados son efectos promedio, que deben favorecer mas a un genotipo que a otro, aún no al alcance del conocimiento actual. Es común no aplicar un tratamiento beneficioso diciendo “tal tipo de paciente no fue incluído en tal ECA”; sin embargo, lo más correcto debiera ser esgrimir una “fuerte justificación clínica” para no indicar tal tratamiento sugerido por tal ECA, y si no existe, debiéramos indicarlo. Aquí es cuando debemos evaluar intuitivamente características de cada paciente, tales como sexo, edad, etnia, comorbilidades y características de su enfermedad. Como se dijo antes, debemos ser cautos al aplicar resultados de subgrupos y puntos finales clínicos no críticos.

Es muy importante considerar la adherencia potencial del paciente, según su comportamiento, cultura, nivel socio-económico y accesibilidad/disponibilidad de recursos. También es necesario conocer la experiencia/calidad técnica médica, ya sea en un procedimiento invasivo (cirugía, angioplastia, ablación, etc) como terapia farmacológica (tiempo en rango terapéutico con acenocumarol o warfarina), para poder replicar los resultados del ECA.

Finalmente, considerar el balance entre NNT (número necesario a tratar) y NND (número necesario para dañar) puede servir para poner el beneficio en el contexto del riesgo, y también de los costos económicos.

 

Lecturas recomendadas

-Guyatt G, Rennie D, Meade M, Cook D. Users’ Guides to the Medical Literature: A Manual for Evidence-Based Clinical Practice, 3rd Ed, USA, McGraw-Hill Education, 2014.

-Hennekens C, Buring J and Mayrent S. Epidemiology in Medicine, 1st  Ed, USA, Little, Brown and Co, 1987.

-Hulley S, Cummings S, Browner W, Grady D, Newman T. Designing Clinical Research, 4th Ed, USA, Lippincott Williams & Wilkins, 2013.

-Norman G and Streiner D. Biostatistics: The Bare Essentials, 3rd Ed, BC Decker Inc, Canada, 2007.

2 comments

Posts Carousel

Deje un comentario

Registrese para comentar. Sus e-mail no será publicados

Cancel reply

2 Comments

  • irvin teran
    enero 6, 2020, 2:59 am

    Buenas noches estimados colegas, felicito al autor de la Revision Dr. Fernando Botto y los administrados de la pagina, por tan valiosa información publicada, clara, sencilla y digerible.. Como podre obtener la revisión tipo PDF? no veo la modalidad. Me podrian ayudar?

    REPLY
  • Benito Balmaceda
    enero 6, 2020, 8:42 pm

    Muchas gracias por la excelente revisión; sencilla, clara y muy útil

    REPLY