Algunos comentarios críticos al «Estudio longitudinal sero-epidemiológico, de base poblacional» del 13 Mayo 2020

ANÁLISIS DE DATOS

Por: Antonio Durán*, Antonio Moreno**, Sergio Minué***

 

Objetivos del estudio

El Informe preliminar de 13 de mayo de 2020, Estudio Ene-Covid19: Primera Ronda, Estudio Nacional de Sero-Epidemiología de la Infección por Sars-Cov-2 en España (Estudio longitudinal sero-epidemiológico de base poblacional) es un documento obviamente importante. La mejor expresión de esa importancia es el agradecimiento final, que dice que “Este estudio es fruto del esfuerzo de muchos profesionales y de la confianza y la generosidad de más de 60.000 participantes que han entendido el interés de proporcionar tiempo, información y muestras para poder conocer la situación de la epidemia de COVID19 en nuestro país”. Se infiere que esa estimación inspirará el próximo curso de actuación, no recogido en el Informe como tal pero sí en el Protocolo (ver abajo).

La formulación de los Objetivos del Estudio en el Sumario Ejecutivo es impecable:

  • Estimar la prevalencia de infección por SARS-Cov2 mediante la determinación de anticuerpos frente al virus en España (nuestras cursivas), y
  • Evaluar su evolución temporal.

 

Metodología

La metodología seguida, sin embargo, incluye elementos epidemiológicos y estadísticos “desafiables”. Se incluyen los siguientes comentarios, con ánimo constructivo:

 

Ficha técnica. El protocolo del estudio

Sorprende que el Informe que presenta los resultados del estudio no venga acompañado de una ficha técnica, a la que los autores remitan (de hecho, el nombre de los autores tampoco aparece claramente en el Informe publicado). Así quizá podrían discutirse inconsistencias en los datos; por ejemplo, conforme se indica en la “Descripción del reclutamiento en la muestra nacional” (página 4 del Informe), la cifra total de participantes es 60.897. Esa cifra coincide con el desglose por edad de la tabla Características generales de los participantes en ENE-Covid19 (página 6), pero en el desglose por situación laboral parecen “haberse perdido” 2 hombres y 6 mujeres. Asimismo, la distribución de trabajadores por “sector esencial” (comercio, transporte, seguridad, limpieza, sanitarios con y sin atención clínica, cuidadores, y otros) suma 13.910 individuos, pero se desconoce la relación de esa cifra con los 13.691 trabajadores presenciales o los 25.713 activos. En esa misma tabla, la suma de porcentajes hombres y mujeres en el epígrafe Trabajo presencial excede el 100%.

Si quizás las prisas en publicar el Informe justifican la ausencia de un apartado como tal explicando los principales aspectos metodológicos, al menos un vínculo informático o una nota a pie de página son indispensables.

 

Variables clave

El texto dice que los resultados “presentados a día de hoy, para la primera ronda se refieren a la lectura de la banda de IgG del test rápido, ya que sólo disponemos de resultados parciales del análisis por inmunoensayo” (nuestras cursivas). Es así porque los estudios de seroprevalencia se basan esencialmente en la detección en sangre de anticuerpos IgG que aparecen, en la mayoría de los casos, al superar la infección. De forma simultánea, en la misma muestra puede estudiarse la presencia de anticuerpos IgM, producidos más precozmente tras el contacto con el agente infeccioso. En ausencia de síntomas, sirven en su caso para revelar posibles portadores asintomáticos.

Estas explicaciones están razonablemente claras en el protocolo, pero no así en el Informe. Parecería que en el momento de la publicación los autores no tienen todos los resultados de la cuantificación de anticuerpos IgG en suero (que «permitirá corregir las estimaciones de prevalencia obtenidas con el test rápido en los distintos grupos de edad, para proporcionar una información más ajustada a la realidad»).

 

La fracción muestral

El texto del Informe considera inicialmente una muestra nacional (102.803 individuos seleccionados) que se tradujo en 60.897 participantes, aunque la redacción no es especialmente clara (“los resultados muestran una tasa de participación entre los individuos elegibles del 62,3%”; “la tasa de participación considerando solamente las personas que han sido contactadas alcanza el 74,7%”; “entre los participantes, el 89,4% proporcionó una muestra de sangre”, etc.).

El cálculo de la “n” del estudio se hizo asumiendo una prevalencia del 5% (lo que no se explicó en suficiente detalle —quizá entre otras cosas porque se requerirían ensayos específicos para explorar diversas prevalencias—). Estimando esa prevalencia de infección con una precisión del ±2,5% (error relativo del 50%) y un nivel de confianza del 95%, y asumiendo una tasa cruda de prevalencia del 5% o superior durante el periodo de estudio y un efecto de diseño de 2 (factor de inflación de la varianza por la correlación entre personas de una misma sección censal y unidad familiar), la muestra mínima necesaria en cada provincia sería de 584 personas. En previsión de una tasa de no respuesta próxima al 33%, la muestra mínima a seleccionar por provincia sería de 876 personas y la muestra total a seleccionar, de 90.000 personas. La muestra representativa válida sería 60.300 y se habría alcanzado con 63.897 participantes con test válido y variables demográficas completas. El informe habla de “La prevalencia estimada de anticuerpos IgG frente a SARS-Cov2 en España…” y 5,0% (95% IC: 4,7%- 5,4%  con una estratificación por hombres y mujeres, por edad, lugar de residencia, etc.).

En cualquier caso, se perdieron por el camino 41.906 individuos no elegibles (ausentes, que se negaron a participar, a los que finalmente nunca se les realizó el test, o que, pese a habérselos realizado, eran no válidos). En términos estadísticos, pues, un número alto de miembros de la muestra original quedó fuera. Las implicaciones para el estudio de una pérdida tan importante no han sido explicadas suficientemente, empezando porque no se ha estudiado el problema de si los no-respondientes son iguales a los respondientes (un hecho que podría tener consecuencias importantes para el estudio).

 

Pero el informe carece de explicación suficiente sobre un número importante de temas.

Para empezar, si bien, en principio, el protocolo explica la representatividad territorial de la distribución geográfica de la muestra poblacional original (la de los 102.803 individuos seleccionados), no está claro cuál fue el origen geográfico de los no elegibles, ausentes, que se negaron a participar, a los que finalmente nunca se les realizó el test, o aquellos para los que, pese a habérselos realizado, eran no válidos.

Si se maneja exclusivamente el Informe, existe la tentación de dudar de la representatividad de la muestra debido a una potencial sobrerrepresentación en algunas comunidades autónomas, mientras que en otras lo que hay es subrepresentación. Véanse la siguiente tabla y gráfico:

 

Comparación peso específico de CCAA según población y fracción muestral en Estudio

Total muestras: 60.897             Total población: 47.026.208

 

 

Sobrerrepresentación y subrepresentación de la población de las comunidades autónomas en el estudio sobre prevalencia

 

 

 

Las comunidades autónomas que resultarían sobrerrepresentadas son: Castilla León, Castilla La Mancha, Extremadura, Aragón, Rioja, Navarra, Melilla, Cantabria, Ceuta, Galicia y Asturias (oscilando de un 6,3% hasta el 0,4%). Las subrepresentadas, por su parte, son las restantes: País Vasco, Baleares, Canarias, Murcia, Andalucía, Valencia, Cataluña y Madrid (con una diferencia que va de -0,05% a -9%). Es notorio que cuatro grandes aglomeraciones de personal (Andalucía, Valencia, Cataluña y Madrid) están subrepresentadas, mientras que zonas con mucha menos población obtienen más representación en las muestras.

En el protocolo se entiende que, en términos estadísticos, la distribución geográfica de la gente sometida a estudio parece no presentar problemas. Quién fue y quién no “muestreado” estaría cubierto por el buen diseño usado siempre que los no-respondentes fueran iguales que los respondentes. Las pocas muestras en Madrid en la página 10 no implicaría subrepresentación, pese a que intuitivamente es sabido que habrá más personas con anticuerpos en Madrid que en otras localidades y, por supuesto, que en las zonas rurales. El propio texto dice: “Aunque la prevalencia nacional se sitúa en el 5% previsto, se observa una marcada variabilidad geográfica en la prevalencia de anticuerpos”, pero no explica suficientemente el hallazgo.

En segundo lugar, pero no menos importante, las personas recluidas en Residencias de Ancianos parecen haber sido excluidos de la muestra. Ni en el Protocolo ni en el propio Informe se observa ninguna mención o intervención referida a este colectivo, que ha demostrado ser  muy relevante a efectos de prevalencia de la enfermedad.

Por último, pero importante también, hay poca clarificación sobre hasta qué punto el Informe es realmente nacional o peninsular. El informe dice: “En la primera ronda de ENE-Covid19 (27 de abril a 11 de mayo) se han reclutado 60.983 participantes en la muestra nacional y 3.234 en el estudio específico insular, no incluido en este informe.

Sin embargo, la tabla (página 10) de Prevalencia de anticuerpos IgG anti SARS-CoV2 nacional y por Comunidad Autónoma, incluye a Canarias, con 2.324 participantes y Baleares, con 1.356 (cifras que, por cierto, suman 3.680, distinta de la anterior de 3.234). Peor aún, cuando se desagregan los datos de anticuerpos por provincias (página 11), la cifra de Baleares sí coincide en la distribución por provincias y por comunidades autónomas pero Las Palmas presenta 1.242 participantes y Santa Cruz de Tenerife 1.504 (sumando 2.743, cifra que también discrepa de las anteriores para Canarias). Todas estas aparentes discrepancias en el Informe se aclaran en el Protocolo, donde se dedica el Anexo 9 a describir “un muestreo adicional, que se tratará de forma independiente al estudio nacional que se presenta” –que cualquier lector que sólo tuviera acceso al informe desconocería.

 

Casos sospechosos

Hay también  ambigüedad sobre los síntomas y los llamados “casos sospechosos”. El texto habla de “posibles casos sospechosos COVID-19”, definidos como  personas con 3 o más síntomas o con pérdida súbita del olfato”, que presentan “esa agregación central, con prevalencias próximas al 20%”. No se aclara quién hizo la clasificación usada de los síntomas, qué evidencia apoya esas definiciones basadas en síntomas y las demás asunciones. Cuando el texto continúa: “En los posibles casos sospechosos, la prevalencia aumenta con el número de síntomas y es particularmente alta en las personas que refieren anosmia (43%)…, no se aclara esa afirmación suficientemente.

 

Conclusiones

Las implicaciones de este estudio en el terreno político y de la organización social son de una enorme trascendencia. Aunque no es responsabilidad directa de los autores del estudio, los resultados obtenidos requieren ser manejados con un cuidado acorde con esa trascendencia y parecería estarse haciendo una presentación inadecuada desde varias perspectivas de unos resultados que sólo son provisionales.

Si nuestra percepción es correcta, las bases técnicas de lo comentado en el terreno de la Epidemiología y la Estadística sugieren la necesidad de corregir los problemas identificados de cara a versiones sucesivas.

 

 

 

(*) EASP y ALLDMH Consultores

(**) ALLDMH Consultores

(***) EASP

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *