Extracto del artículo publicado por Sarah Callaghan en la Revista Cell
La recopilación de datos cuando
se trata de enfermedades infecciosas es difícil en el mejor de los casos. El
aumento de los grandes datos ha brindado a los médicos e investigadores los
sistemas y la capacidad de almacenar y trabajar con grandes cantidades de
datos, pero en salud pública, los sistemas de vigilancia crítica siguen
basándose principalmente en datos obtenidos y codificados manualmente, que son
lentos de recopilar y difíciles.
Para una enfermedad como el
coronavirus, donde la mayoría de las infecciones son leves depender de los
registros del hospital y del médico general para estimar que la propagación
puede ser engañosa en las primeras etapas de la progresión de la enfermedad.
Los informes tienden a centrarse en la morbilidad y la mortalidad, y es más
fácil contar a las personas que realmente se han presentado en los centros de
salud para pruebas o atención.
Un hecho clave que todos debemos
recordar es que, para la mayoría de los países, en realidad no estamos contando
cuántas personas tienen el virus, sino que contamos los informes de cuántas
personas tienen el virus y, como todas las métricas, los números varían según
cómo se miden. Un aumento en el número de pruebas que se llevan a cabo dará
como resultado un aumento en el número de infecciones detectadas.
Dejando a un lado las teorías de
conspiración sobre encubrimientos gubernamentales, el simple hecho es que las
pruebas de coronavirus son caras. Esto significa que los números recopilados en
un país determinado estarán influenciados no solo por la propagación del virus
sino también por la capacidad financiera de los centros locales de atención de
la salud para realizar la prueba a todos los que presenten inquietudes de que
están infectados.
Recopilar datos precisos y
comprender las limitaciones de los datos que ya se han recopilado es una parte
esencial para comprender la situación. Sin buenos datos, los formuladores de
políticas no pueden tomar buenas decisiones. Los científicos de datos pueden
ayudar con esto.
Una vez que tenemos datos, las
preguntas cambian: ¿Qué pasará después? ¿Cómo se propagará el virus? ¿Qué
pasará con la propagación si se implementan ciertas intervenciones no
farmacéuticas? ¿Qué tan efectivo es el distanciamiento social en comparación
con la cuarentena en todo el país? ¿Cuáles son los impactos a largo plazo de,
por ejemplo, cerrar las escuelas durante el próximo mes o más? ¿Cómo podemos
rastrear la propagación del virus a través de nuestra comprensión de las redes
sociales y el comportamiento humano? ¿Es tan alto el riesgo de contraer el
virus si ves el partido de fútbol en el pub en comparación con el estadio?
Es una verdad universalmente
reconocida que todos los modelos están equivocados, pero algunos son útiles. La
ciencia de datos es necesaria no solo para desarrollar los modelos, sino
también para determinar de qué manera están equivocados y de qué manera son
útiles, porque los resultados de estos modelos informarán, junto con los datos,
las decisiones que se toman para combatir propagación de esta pandemia.
Las infografías y las
visualizaciones de datos son una forma útil de poner en perspectiva los riesgos
y los números sin procesar. Los científicos de datos tienen la experiencia y los
conocimientos para poder poner esta información de manera precisa y útil en un
contexto visualmente atractivo y fácil de entender. También pueden crear
fuentes de información interactivas y actualizadas continuamente que se basan
en los últimos datos, asegurando así que todos estén actualizados con los
últimos números.
Hacer que la información correcta
sea fácil y atractiva para compartir es crucial en el clima actual, donde la
mayoría de las personas obtienen la mayor parte de sus noticias de las redes
sociales. Por el contrario, las visualizaciones tienen el potencial de incitar
el miedo y la alarma tanto como tienen el potencial de datos o la epidemiología
o poca disposición para sumergirse en las citas y suposiciones subyacentes.
Del mismo modo, los informes de
situación de coronavirus de la OMS se publican diariamente y son rápidos de
leer, con la información principal resumida de manera clara y accesible.
Estandarizar la producción y la presentación de informes de estos números es
una tarea de ciencia de datos, al igual que producirlos y definirlos
(https://www.who.int/emergencies/diseases/novel-coronavirus-2019/situation-reports
).
También tendremos que hacer un
balance de algunas de las medidas que se emplearon para hacer frente a la
situación. Sí, en tiempos de emergencia, rastrear a las personas infectadas a
través de sus teléfonos celulares puede ser lo más sensato para contener la
transmisión del virus. Pero una vez que termine la inmediatez de esa situación,
tendremos que preguntarnos si hay una manera que podría haberse hecho que no
violara la privacidad personal o los otros derechos que tanto apreciamos. ¿Qué
estamos dispuestos a aceptar, como sociedad, para garantizar nuestra salud y
seguridad? ¿Y qué puede hacer la ciencia de datos para mejorar nuestra salud
social y minimizar los efectos en nuestros derechos?
La ciencia de datos se ocupa de
números, estadísticas, curvas y distribuciones. Hacemos esto porque es más
fácil trabajar con números a escala de población, y nuestras herramientas
funcionan mejor cuando se alimentan grandes cantidades de datos.
Si tengo una súplica, es que todos
nosotros, científicos de datos o no, recordemos que detrás de esos números hay
vidas humanas. Personas reales que están preocupadas y temen por sí mismas o
por sus seres queridos. Es bastante fácil calcular una curva de mortalidad que
muestre que son los que tienen ≥60 años, o que padecen afecciones
preexistentes, los que tienen más probabilidades de morir. Otra cosa es darse
cuenta de que esas cifras muestran que son sus padres o abuelos mayores, o sus
amigos y familiares inmunocomprometidos, quienes están en mayor riesgo.