VALERIA Arbovirus Classification

VALERIA is an innovative decision support application that uses an artificial intelligence model to assist healthcare professionals in the clinical diagnosis of arboviral diseases, such as Dengue, Chikungunya, and Zika.

image description
image description

VALERIA - Virtual Assistant for LEarning pRocesses In Arbovirus

Currently, the application features a model that has been developed using a rigorous scientific methodology, including benchmarking of various machine learning models, attribute selection techniques, and hyperparameter optimization to perform arbovirus classification while presenting results in a more understandable manner for the end user. VALERIA is of great relevance to the Unified Health System (SUS) as it can provide agility in diagnosis, integration with the legacy system, and better utilization of available resources. This technological tool can strengthen the response capacity of SUS and contribute to the control and prevention of arboviral diseases in Brazil.

icon icon icon

Some signs and symptoms

The signs and symptoms that VALERIA uses as input attributes for arbovirus classification are:

icon
Fever

is a common symptom characterized by an increase in body temperature, usually indicating an immune system response to an infection or inflammation.

icon
Myalgia

is muscle pain, which can range from mild to intense. It is often described as a feeling of pain, discomfort, or stiffness in the muscles.

icon
Headache

is the medical term for a headache. It can manifest as a throbbing, pulsating, or pressure-like pain in the head region, sometimes accompanied by sensitivity to sound, light, or movement.

icon
Rash

is a skin eruption, usually characterized by red or pink spots that can be flat or raised. The rash may be associated with various infectious or allergic diseases.

icon
Nausea

is the feeling of discomfort in the stomach that often precedes vomiting. It can be accompanied by a sense of unease, malaise, and loss of appetite.

icon
Back pain

is a painful or uncomfortable sensation in the back region, which can vary in intensity and location. It can be caused by muscle injuries, spinal problems, or excessive physical strain.

icon
Conjunctivitis

is the inflammation of the transparent membrane that covers the front of the eyeball and the inner surface of the eyelids. It can cause redness, itching, excessive tearing, and a feeling of grittiness in the eyes.

icon
Arthritis

is a condition that involves inflammation in the joints, resulting in pain, swelling, stiffness, and decreased joint mobility. There are different types of arthritis, such as rheumatoid arthritis and osteoarthritis.

icon
Joint pain (Arthralgia)

is joint pain without evidence of inflammation and can be caused by various factors, such as injuries, overuse, or systemic diseases.

icon
Petechiae

are small reddish or purplish spots on the skin, which occur due to small capillary bleeding. They can be caused by blood coagulation disorders, infections, or skin injuries.

icon
Retroorbital pain

is pain located behind the eyes. It can be described as a sharp or throbbing pain, often associated with conditions such as migraine, sinusitis, inflammation of the paranasal sinuses, or eye infections.

icon
Number of days

another important point for our model is the number of days the patient has been experiencing the symptoms.

Our Team

VALERIA was developed by researchers from dotLAB Brazil at the Universidade de Pernambuco (UPE), in collaboration with Prof. Dr. Vanderson de Souza Sampaio from Fundação de Medicina Tropical Doutor Heitor Vieira Dourado (FMT) e Instituto Todos pela Saúde, and Prof. Dr. Theo Lynn from Dublin City University (DCU).

icon icon icon
image description
MSc. Sebastião R. S. Neto
PhD Candidate - UPE
image description
MSc. Thomás T. Oliveira
Researcher dotLAB Brazil
image description
MSc. Igor V. Teixera
Researcher dotLAB Brazil
image description
Kaio Vinícius
Undergraduate - UPE
image description
Anna Beatriz Silva
Master's student - UPE
image description
Gabriel Masson
Master's student - UPE
image description
MSc. Élisson Rocha
PhD Candidate - UPE
image description
MSc. Kayo H. C. Monteiro
PhD Candidate - UPE
image description
PhD. Vanderson S. Sampaio
Researcher ITPS
image description
PhD. Theo Lynn
Professor at DCU
image description
PhD. Patricia Takako Endo
Professor - UPE
icon

Publications

List of publications related to arbovirus classification.

icon icon icon

As part of SDG, the members of the UN aim to end epidemics of neglected tropical diseases by 2030. These include wide range communicable diseases that prevail in tropical and subtropical conditions. These diseases are present in over 149 countries worldwide and are a significant burden on health systems and economies. One major category of neglected tropical disease are arthropod-borne viruses or arboviruses including West Nile virus, yellow fever, dengue, chikungunya and Zika. Arboviruses spread rapidly and as they present very similar symptoms, it is hard to diagnose and select the best treatment. The use of machine learning for the diagnosis and prognosis of these diseases has become increasingly common however there is a paucity of research on deep learning and associated decision support platforms for frontline staff. This work-in-progress proposes a platform for arbovirus monitoring and clinical diagnosis using deep learning models.

Read more

Existem cerca de 545 espécies de arbovírus e cerca de 150 dessas podem infectar seres humanos (LOPES; NOZAWA; LINHARES, 2014). A Dengue e a Chikungunya, que são transmitidas pelos mosquitos Aedes Aegypti e o Aedes Albopictus, são as mais conhecidas. Segundo os relatórios de (PLISA, 2020a, 2020b), no ano de 2019 essas duas doenças juntas ocasionaram um total de 3.349.019 casos nas Américas, resultando em 1.667 mortes. Dessa quantidade total de casos, 3.167.542 são de casos notificados de Dengue, sendo que apenas 1.413.801 (44,63%) destes foram efetivamente confirmados; enquanto que dos 181.477 casos notificados de Chikungunya, 101.190 (55,76%) foram confirmados. Esta baixa porcentagem de confirmação se deve ao fato de que essas doenças possuem sintomas semelhantes, tornando difícil a correta classificação entre Dengue, Chikungunya ou outra doença. O Brasil é um dos países mais afetados pelos arbovírus, onde cerca de 15,4% dos casos de 2019 ocorreram no país. Isto ocorre devido ao fato de que o Brasil é um país tropical, e possui condições climáticas favoráveis à proliferação do mosquito. Segundo Lima-Camara (2016), o Brasil também possui uma grande quantidade de outras arboviroses concomitantes, e somado com a ineficiência de alguns testes sorológicos por conta de apresentar reação cruzada, o diagnóstico de arbovírus no país torna-se um problema ainda mais sério. Estes problemas de classificação associados também ao fator de financiamento reduzido na área de saúde, destaca a necessidade de uma abordagem de baixo custo e acessível. Com isso, o presente trabalho propõe um modelo de deep learning para classificação de Dengue e Chikungunya utilizando dados clínicos para treinamento. Após uma análise do estado da arte sobre o tema, percebe-se uma grande lacuna de estudos que aplicam deep learning para classificação de arboviroses usando dados clínicos. A maioria dos trabalhos estão focados na classificação do sorotipo de Dengue, como em Pandiyarajan e Thangairulappan (2018), ou classificação se o paciente está ou não com Chikungunya, como em Hossain et al. (2019). Além disso, nenhum deles utiliza dados clínicos documentados pelos sistemas de saúde para treinar os seus modelos, recorrendo a alternativas mais simples (HOSSAIN et al., 2019) ou utilizando amostras de pele (PANDIYARAJAN; THANGAIRULAPPAN, 2018) que necessitam de aparelhos para coleta. O presente trabalho irá utilizar dados clínicos da base de dados do SINAN (Sistema de Informação de Agravo de Notificação) (SINANWEB, 2020) contendo dados do estado do Amazonas e do banco de dados aberto da cidade do Recife (Dados Recife, 2020), ambos entre os anos 2015 e 2019. Estas bases possuem dados clínicos, como sintomas e afins, que serão usados no treinamento do modelo para classificação. Atualmente, este trabalho está em desenvolvimento, no processo de pré-processamento da base de dados e seleção das melhores features da base que irão ser inseridas no treinamento do modelo.

Read more

Arboviruses are Neglected Tropical Diseases (NTDs) that mainly affect developing countries and Brazil is one of them. Such diseases have a negative impact on quality of life of the patients. One of the main challenges in combating these diseases is the difficulty of an accurate diagnosis among the concomitant arborival diseases due the similarity of symptoms. This project proposes VALERIA, a low-cost platform based on machine learning (ML) models for assisting the diagnose of arboviruses in the national scenario. VALERIA is proposed to improve the quality of life of patients, allowing the most appropriate treatment after a diagnose and therefore presenting a great potential of generating local public policies of social impact. A prototype was already developed for diagnosis and is in validation phase by public health specialists.

Read more

Arboviruses are Neglected Tropical Diseases (NTDs) that mainly affect developing countries and Brazil is one of them. Such diseases have a negative impact on quality of life of the patients. One of the main challenges in combating these diseases is the difficulty of an accurate diagnosis among the concomitant arborival diseases due the similarity of symptoms. This project proposes VALERIA, a low-cost platform based on machine learning (ML) models for assisting the diagnose of arboviruses in the national scenario. VALERIA is proposed to improve the quality of life of patients, allowing the most appropriate treatment after a diagnose and therefore presenting a great potential of generating local public policies of social impact. A prototype was already developed for diagnosis and is in validation phase by public health specialists.

Read more

Uma das principais categorias de doenças tropicais negligenciadas (DTNs) são as arboviroses, que apresentam uma ampla variedade de doenças, sendo Dengue, Chikungunya e Zika as mais comuns. O diagnóstico eficiente de arboviroses é um desafio devido às similaridades dos sintomas apresentados pelos pacientes infectados, que fica ainda mais exacerbado quando há escassez de recursos, carência de pessoal especializado e epidemias de doenças concomitantes na região. Neste contexto, são necessárias novas abordagens escalonáveis ​​de baixo custo para auxiliar no diagnóstico diferencial de arboviroses. Uma alternativa é o desenvolvimento de modelos computacionais para monitoramento e classificação diagnóstica com base em dados clínicos e sintomas. Este trabalho apresenta uma Revisão Sistemática da Literatura (SLR) sobre a utilização de modelos de Machine Learning (ML) e Deep Learning (DL) para classificar automaticamente as arboviroses e apoiar o diagnóstico clínico.

Read more

Arboviral diseases are common worldwide. Infection with arboviruses can lead to serious health problems, even death in severe cases. Such health problems can be prevented by the early and correct detection of these arboviruses, but this is challenging due to the overlap of their symptoms. In this work, we benchmark different Machine Learning (ML) models to classify two types of arboviruses. We propose two distinct binary models: (i) a model to classify if the patient has arbovirus or another disease; and (ii) a model to classify if the patient has Dengue or Chikungunya. We configure and evaluate several ML models using hyperparameter optimization and feature selection techniques. The Random Forest and XGboost tree-based models present the best results with over 80% recall in the Chikungunya and Inconclusive classes.

Read more

Arbovírus são um tipo de vírus que se replicam e são transmitidos através de insetos artrópodes, principalmente o países tropicais, como o Brasil. O correto diagnóstico dessas doenças é prejudicado por conta da similaridade dos sintomas, sendo necessários exames laboratoriais e equipamentos especializados, que não estão disponíveis em toda região. Sendo assim, estre trabalho propoem uma abordagem de baixo custo utilizando um modelo de Extra Tree para classificação de arboviroses utilizando apenas dados clínicos e socio-demográficos. O modelo conseguiu atingir uma resultados interessantes, atingindo 76,52% de sensibilidade para a classe de CHIKUNGUNYA.

Read more

Neglected tropical diseases (NTDs) primarily affect the poorest populations, often living in remote, rural areas, urban slums or conflict zones. Arboviruses are a significant NTD category spread by mosquitoes. Dengue, Chikungunya, and Zika are three arboviruses that affect a large proportion of the population in Latin and South America. The clinical diagnosis of these arboviral diseases is a difficult task due to the concurrent circulation of several arboviruses which present similar symptoms and, sometimes, inaccurate test results. In this paper, we present the state of the art of studies investigating the automatic classification of arboviral diseases based on Machine Learning (ML) and Deep Learning (DL) models. Results show that current research is focused on the classification of Dengue, primarily using tree-based ML algorithms. The use of an efficient clinical decision support system for arboviral diseases can improve the quality of the entire clinical process, thus increasing the accuracy of the diagnosis and the associated treatment. It should help physicians in their decision-making process and, consequently, improve the use of resources and the patient’s quality of life.

Read more

One of the main categories of Neglected Tropical Diseases (NTDs) are arboviruses, of which Dengue and Chikungunya are the most common. Arboviruses mainly affect tropical countries. Brazil has the largest absolute number of cases in Latin America. This work presents a unified data set with clinical, sociodemographic, and laboratorial data on confirmed patients of Dengue and Chikungunya, as well as patients ruled out of infection from these diseases. The data is based on case notification data submitted to the Brazilian Information System for Notifiable Diseases, from Portuguese Sistema de Informação de Agravo de Notificação (SINAN), from 2013 to 2020. The original data set comprised 13,421,230 records and 118 attributes. Following a pre-processing process, a final data set of 7,632,542 records and 56 attributes was generated. The data presented in this work will assist researchers in investigating antecedents of arbovirus emergence and transmission more generally, and Dengue and Chikungunya in particular. Furthermore, it can be used to train and test machine learning models for differential diagnosis and multi-class classification.

Read more

Among the neglected tropical diseases (NTDs), arboviral diseases present a significant number of cases worldwide. Their correct classification is a complex process due to the similarity of symptoms and the lack of tests in Brazil countryside is a big challenge to be overcome. Given this context, this paper proposes a comparative study of machine learning techniques for multi-class classification of arboviral diseases, which considers three classes: DENGUE, CHIKUNGUNYA and OTHERS, and uses clinical and socio-demographic data from patients. Feature selection techniques were also used for selecting the best subset of attributes for each model. Gradient boosting machines presented the best result in the metrics and a good subset of attributes for daily usage by the physicians that resulted in a 76.58% recall on the CHIKUNGUNYA class.

Read more

Chikungunya é uma doença viral causada pelo vírus CHIKV que tem como principais sintomas febre súbita, erupções cutâneas e artralgia com sintomas reumáticos. O quadro clínico pode ser confundido com outras arboviroses, dificultando o diagnóstico. A utilização de modelos de machine learning como ferramenta auxiliadora no diagnóstico de doenças já tem sido estudada e apresenta bom desempenho. Esses modelos podem ser uma alternativa acessível, auxiliando no diagnóstico precoce da doença e, portanto, melhorando o prognóstico dos pacientes. Objetivos: O estudo teve como objetivo desenvolver modelos preditivos utilizando machine learning para diferenciação de Chikungunya e outras doenças, para serem utilizados para facilitar o diagnóstico de pacientes. Métodos: Os dados foram obtidos da base de dados do Sistema de Informação de Agravos de Notificação (SINAN), contendo 140.516 registros (sendo 7.095 casos de Chikungunya e 133.421 casos para outras doenças) e 120 atributos. Esse conjunto de dados foi pré-processado e foram selecionados 14 atributos associados à doença. Após o balanceamento dos dados das classes, totalizando 7.095 registros, a base de dados foi dividida em 70% para treinamento e 30% para teste dos modelos. Utilizamos duas técnicas de machine learning: Decision Tree e Random Forest. Para selecionar os valores dos parâmetros dos modelos, foi aplicada a técnica de grid search. Resultados: Ambos modelos apresentam boa performance. O modelo de Decision Tree apresentou acurácia de 85,13% e Random Forest, 85,16%. Esses resultados demonstram que técnicas baseadas em árvores utilizando dados clínicos apresentam bons resultados. Ainda, a utilização de fichas notificatórias para o desenvolvimento de modelos preditivos podem facilitar e auxiliar a decisão médica. Conclusões: A utilização de modelos preditivos na saúde pode otimizar o atendimento médico, além de ser uma alternativa de baixo custo para classificação diferencial de doenças como Chikungunya

Arboviroses são doenças transmitidas por artrópodes, através da picada de mosquitos, carrapatos, e flebotomíneos. Dentre elas, temos a Dengue, a Chikungunya e a Zika, doenças que são uma preocupação sanitária global. A detecção inicial de doenças arbovirais pode mitigar os danos à saúde e, em alguns casos, até prevenir a morte do indivíduo infectado. No entanto, existem alguns desafios para essa diagnóstico: as arboviroses costumam ter uma apresentação clínica sobreposta e, como resultado, o estabelecimento de um diagnóstico imediato pode ser difícil. Neste trabalho, propõe-se uma combinação de modelos de ML comumente denominada de Ensemble, do tipo Stacking, para a classificação multi-classe de arboviroses utilizando apenas dados clínicos. O modelo proposto obteve 61.95% de acurácia geral, 61.61% de macro sensibilidade, 61.45% de macro precisão e 61% macro F1-score. Com relação à classe Dengue, o modelo obteve 44.43% de sensibilidade, 58.90% de precisão e 50.64% de F1-Score. Na classe Chikungunya o modelo obteve 77.46% de sensibilidade, 65.48% de precisão e 70.96% de F1-Score. A classe Inconclusivo obteve 62.93% de sensibilidade, 59.97% de precisão e, 61.40% de F1-Score. Os melhores resultados foram da classe Chikungunya e os piores foram da classe Dengue, o que pode indicar que esta arbovirose, em especial, é mais difícil de ser classificada.

Read more
loader