COVID-19: una web con más de 24.000 ‘papers’
Tres instituciones acaban de hacer público el Conjunto de Datos de Investigación del COVID-19, una herramienta que reúne todo el corpus de investigación relacionado con el coronavirus para ayudar a los científicos de todo el mundo a acelerar sus investigaciones para combatir la pandemia
Investigadores de distintas organizaciones acaban de hacer público el Conjunto de Datos de Investigación del COVID-19 (CORD-19, por sus siglas en inglés), que incluye más de 24.000 artículos de investigación de revistas revisadas por pares, y también otras fuentes como bioRxiv y medRxiv (sitios web donde los científicos pueden publicar trabajos sin revisión previa). La investigación se basa en el SARS-CoV-2 (el nombre científico del coronavirus), en el COVID-19 (el nombre científico de la enfermedad) y en el grupo de patógenos del tipo coronavirus. El CORD-19 ya representa la colección más extensa de literatura científica relacionada con la pandemia en curso y seguirá actualizándose en tiempo real a medida que se publique más investigación.
Cómo se creó:
La base de datos nació a petición de la Oficina de Política Científica y Tecnológica de EE. UU. (OSTP, por sus siglas en inglés) a través de una colaboración entre tres organizaciones. La Biblioteca Nacional de Medicina (NLM) de los Institutos Nacionales de Salud de EE. UU. proporcionó acceso a las publicaciones ya existentes científicas; Microsoft usó sus algoritmos de búsqueda para encontrar artículos relevantes; y el Instituto Allen de Inteligencia Artificial (AI2), una organización sin ánimo de lucro, convirtió las páginas web y archivos PDF en un formato estructurado que puede ser procesado por algoritmos. La base de datos ya está disponible en el sitio web Semantic Scholar de AI2
Lo que se ha hecho ya:
como parte del servicio Semantic Scholar de AI2, que permite a la comunidad científica buscar fácilmente entre la literatura académica, la organización ya ha procesado este nuevo corpus mediante las mismas técnicas de extracción y análisis de información que aplica a todas las investigaciones nuevas. La base ofrece los detalles más importantes de la información, como los autores, métodos, datos y citas, para que los científicos puedan evaluar rápidamente cómo cada artículo se ajusta a la investigación existente.
También utiliza modelos de lenguaje natural de última generación como ELMo y BERT para mapear las similitudes entre los documentos. Este mapa ya ha impulsado una nueva característica en Semantic Scholar que permite a los investigadores crear una fuente de investigación personalizada basada en sus intereses.
Por qué es importante:
los científicos trabajan a contrarreloj para responder a las preguntas urgentes sobre la naturaleza del virus con la esperanza de detener su propagación. La base de datos no solo les ayuda a consolidar la investigación existente en un solo lugar, sino que también hace que la literatura sea más fácil de extraer para obtener información con los algoritmos de procesamiento de lenguaje natural. La OSTP ha lanzado una convocatoria abierta para que los investigadores de inteligencia artificial desarrollen nuevas técnicas para la extracción de texto y datos que ayudarían a la comunidad médica a analizar más rápidamente la gran cantidad de información.