top of page
logo brasil data science.png

Mantenha-se atualizado diariamente com conteúdos sobre Data Science.

  • Foto do escritorGustavo Costanti Lara

Análise de dados sobre a COVID-19 no Brasil, estado de São Paulo e município de São José dos Campos

Atualizado: 21 de fev. de 2021


No final do ano de 2019, foi identificado um novo vírus da família do coronavírus (SARS-CoV-2) na cidade de Wuhan, na China. O novo vírus ficou conhecido como COVID-19. No dia 30 de janeiro de 2020, a Organização Mundial da Saúde (OMS) declarou que o surto da doença causado pelo COVID-19 constituía uma Emergência de Saúde Pública de Importância Nacional, que, conforme o Regulamento Sanitário Internacional, corresponde ao mais alto nível de alerta da OMS. Posteriormente, em 11 de março de 2020, a OMS classificou o surto do COVID-19 como uma pandemia.

Com o objetivo de elevar a consciência situacional e informar as pessoas a respeito da pandemia do COVID-19 no Brasil, no estado de São Paulo e no município de São José dos Campos, realizarei uma análise sobre os dados disponibilizados pelo Ministério da Saúde.

1. Obtenção dos Dados

Os dados utilizados nessa análise foram obtidos no Painel Coronavírus, que se encontra no site do Ministério da Saúde. O dataset pode ser baixado diretamente em formato csv.


Importando os dados

Primeiramente devemos importar os pacotes necessários, transformar o dataset em um Dataframe e exibir suas primeiras 5 linhas para nos auxiliar na visualização dos dados e compreensão das variáveis.

Por padrão, ao importarmos um arquivo csv em um DataFrame, a biblioteca Pandas considera a separação das colunas pelas vírgulas, isso porque csv significa comma separated values (valores separados por vírgulas). No entanto, o dataset disponibilizado pelo Ministério da Saúde utiliza ponto e vírgula (;) para separar as colunas. Para resolver esse problema, adicionei o atributo sep=';' ao importar o dataset em um DataFrame.

Além disso, os espaços que não contém dados coletados foram adicionados como um espaço vazio (‘ ‘) ao invés de receberem o valoro de NaN (Not a Number). Isso pode ocasionar problemas no momento em que formos tratar os dados. Para resolver esse problema, adicionei o atributo na_values=’ ‘ para substituir os espaços vazios por NaN.


2. Análise Inicial (entendendo o DataFrame)

Visualizadas as 5 primeiras linhas do DataFrame, podemos compreender o significado de cada variável (coluna). Com isso em mente, é importante criarmos um dicionário de variáveis para nos auxiliar no entendimento de como os dados estão estruturados.

2.1. Dicionário de variáveis

  • regiao: Região do Brasil (Norte, Nordeste, Centro-Oeste, Sul e Sudeste). Quando a região não é especificada, a variável recebe o valor de “Brasil”.

  • estado: Unidades Federativas do Brasil.

  • municipio: Municípios de cada Estado.

  • coduf: Código da Unidade Federativa.

  • codnum: Código do Município.

  • codRegiaoSaude: Código da Região de Saúde.

  • nomeRegiaoSaude: Nome da Região de Saúde.

  • data: Data de notificação.

  • semanaEpi: Semana Epidemiológica.

  • populacaoTCU2019: População estimada do País, Estado ou Município para 2019.

  • casosAcumulado: Acumulado de casos confirmados de COVID-19.

  • casosNovos: Casos novos confirmados de COVID-19 na data de notificação.

  • obitosAcumulado: Acumulado de óbitos pela COVID-19.

  • obitosNovos: Óbitos novos confirmados de COVID-19 na data de notificação.

  • Recuperadosnovos: Total de pessoas recuperadas até a data de notificação.

  • emAcompanhamentoNovos: Casos em acompanhamento.

  • interior/metropolitana: Região interior ou metropolitana.

Feito o dicionário de variáveis, é importante termos uma ideia do formato do DataFrame em análise, ou seja, devemos descobrir o número de linhas e colunas contidas na tabela.


2.2. Tamanho do DataFrame

2.3. Tipo das variáveis

Analisando o output do código acima, podemos perceber que a variável data é do tipo object. Para facilitar o nosso trabalho de tratamento de dados, iremos transformar a data em datetime.

2.4. Porcentagem dos valores ausentes

Acima, podemos ver que algumas das variáveis possuem valores faltantes em proporções consideráveis, como é o exemplo da variável Recuperadosnovos e emAcompanhamentoNovos, que possuem mais de 99% de seus valores ausentes.

Os valores nulos não influenciarão muito os resultados da nossa análise, pois as duas variáveis (colunas) que apresentam uma grande quantidade de valores nulos não serão objetos da nossa análise.


3. A situação da COVID-19 no Brasil

3.1. Quantidade total de casos por Região

Da análise do gráfico acima, observa-se que a região Sudeste conta com um maior número de casos, enquanto a região Centro-Oeste com um menor número. A ordem das regiões com os maiores números de casos já era esperada, isso porque se analisarmos o tamanho da população de cada uma das regiões obteríamos exatamente a mesma ordem. Para uma análise mais aprofundada seria necessário comparar um gráfico do tamanho da população de cada região com um gráfico de número de casos por região.

Para facilitar a visualização dos dados, vamos plotar um gráfico referente ao número de casos por região.

3.2. Evolução do número total de casos confirmados no Brasil

O número total de casos de COVID-19 no Brasil teve uma velocidade de crescimento mais acentuada até aproximadamente o 175º dia da pandemia, bem como uma velocidade de crescimento mais acentuada a partir, aproximadamente, do 275º dia da pandemia. Entre aproximadamente o 175º e 275º dia da pandemia houve uma queda na velocidade de crescimento no número total de casos confirmados de COVID-19 no Brasil.


3.3. Número de novos casos confirmados de COVID-19 no Brasil por dia

  • O número diário de novos casos de COVID-19 no Brasil apresentou uma tendência de crescimento até aproximadamente o 150º dia da pandemia.

  • Posteriormente, entre aproximadamente o 150º e 250º dia, houve uma tendência de queda.

  • Por fim, houve uma tendência de crescimento entre aproximadamente o 250º e 300º dia, com uma posterior estabilização.


3.4. Número de novos óbitos por dia pela COVID-19 no Brasil

Ao comparar o gráfico relativo ao número de novos casos por dia com o gráfico relativo aos números de novos óbitos diários, percebe-se que há uma correlação óbvia e já esperada entre essas duas variáveis. Em outras palavras, quanto maior o número de casos, maior o número de óbitos. Portanto, foi observado um padrão extremamente semelhante.

  • O número diário de novos óbitos de COVID-19 no Brasil apresentou uma tendência de crescimento até aproximadamente o 150º dia da pandemia.

  • Posteriormente, entre aproximadamente o 150º e 250º dia, houve uma tendência de queda.

  • Por fim, houve uma tendência de crescimento entre aproximadamente o 250º e 300º dia, com uma posterior estabilização.

Observada essa correlação, vamos descobrir o dia em que houve o maior número de novos casos registrados, bem como de novos óbitos.


3.5. Dia em que houve o maior número de novos casos confirmados

A maior quantidade de novos óbitos registrados em um dia foi de 1595 e ocorreu 155 dias após o início da pandemia no Brasil.

Apesar de existir uma correlação entre o número de novos casos e o número de novos óbitos, o o dia com o maior número de casos não é o mesmo que o dia com maior número de óbitos.


3.6. Comparativo entre o número acumulado de casos confirmados, de óbitos e de pessoas recuperadas


3.7. Número de casos por estado

O estado de São Paulo é o que apresenta o maior número de casos confirmados (1.879.121), e o estado com o menor número de casos confirmados é o Acre com 51.679 casos.


4. A situação do COVID-19 no estado de São Paulo

Feita a análise de dados referentes aos números do COVID-19 no Brasil, podemos iniciar uma análise mais específica, considerando apenas o estado de São Paulo.

4.1. Número total de casos confirmados no estado de São Paulo

É de conhecimento geral que o primeiro caso de COVID-19 no Brasil foi registrado em São Paulo. Vamos analisar o gráfico com a evolução do número de casos no estado.

O número total de casos confirmados no estado de São Paulo seguiu a mesma tendência que no Brasil como um todo, ou seja:

  • O número total de casos de COVID-19 no estado de São Paulo teve uma velocidade de crescimento mais acentuada até aproximadamente o 175º dia da pandemia, bem como uma velocidade de crescimento mais acentuada a partir, aproximadamente, do 275º dia da pandemia.

  • Entre aproximadamente o 175º e 275º dia da pandemia houve uma queda na velocidade de crescimento no número total de casos confirmados de COVID-19 no estado de São Paulo.


4.2. Número de novos casos por dia de COVID-19 no estado de São Paulo

Ao analisar o gráfico acima, percebe-se que há uma semelhança entre o gráfico de São Paulo com o do Brasil. No entanto, a estabilização no número de novos casos diários no estado de São Paulo ocorreu somente próximo ao 325º dia, enquanto no Brasil essa estabilização ocorreu próximo ao 300º dia. Ou seja:

  • O número diário de novos casos de COVID-19 no Brasil apresentou uma tendência de crescimento até aproximadamente o 150º dia da pandemia.

  • Posteriormente, entre aproximadamente o 150º e 250º dia, houve uma tendência de queda.

  • Por fim, houve uma tendência de crescimento entre aproximadamente o 250º e 325º dia, com uma posterior estabilização.


4.3. Número total de óbitos pela COVID-19 no estado de São Paulo

O número total de óbitos relacionados à COVID-19 no estado de São Paulo seguiu a mesma tendência que no Brasil como um todo, com algumas pequenas diferenças.

  • O número total de óbitos de COVID-19 no estado de São Paulo teve uma velocidade de crescimento mais acentuada até aproximadamente o 185º dia da pandemia, bem como uma velocidade de crescimento mais acentuada a partir, aproximadamente, do 275º dia da pandemia.

  • Entre aproximadamente o 175º e 260º dia da pandemia houve uma queda na velocidade de crescimento no número total de óbitos de COVID-19 no estado de São Paulo.

  • Após aproximadamente o 260º dia, ocorreu um aumento na velocidade de crescimento do número total de óbitos.


4.4. Número de óbitos pela COVID-19 no estado de São Paulo por dia

Novamente percebe-se uma semelhança entre o gráfico de São Paulo com o do Brasil. Contudo, não há como identificar uma estabilização no que se refere aos números do estado de São Paulo.

  • O número diário de novos óbitos de COVID-19 no estado de São Paulo apresentou uma tendência de crescimento até aproximadamente o 150º dia da pandemia.

  • Posteriormente, entre aproximadamente o 150º e 250º dia, houve uma tendência de queda.

  • Por fim, houve uma tendência de crescimento a partir do 250º dia.


5. A situação do COVID-19 no município de São José dos Campos/SP

Nesta seção será realizada uma análise da situação do COVID-19 no município de São José dos Campos.

Ao observarmos as primeiro 5 entradas do DataFrame relativo aos dados de São José dos Campos, percebe-se que os dados começaram a ser coletados no dia 27 de Março de 2020, sendo que o primeiro caso confirmado foi no dia 28 de Março.


5.1. Número total de casos confirmados em São José dos Campos/SP

O número total de casos confirmados de COVID-19 no município de São José dos campos seguiu a mesma tendência do número total de casos confirmados do Brasil e do estado de São Paulo, ou seja:

  • O número total de casos de COVID-19 no município de São José dos Campos teve uma velocidade de crescimento mais acentuada até aproximadamente o 175º dia da pandemia, bem como uma velocidade de crescimento mais acentuada a partir, aproximadamente, do 275º dia da pandemia.

  • Entre aproximadamente o 175º e 275º dia da pandemia houve uma queda na velocidade de crescimento no número total de casos confirmados de COVID-19 no município de São José dos Campos.


5.2. Número de novos casos confirmados de COVID-19 em São José dos Campos por dia

Há uma tendência de crescimento no número de novos casos diários a partir do 250º dia.


5.3. Número de novos óbitos de COVID-19 em São José dos Campos por dia

Como podemos perceber pelo gráfico, há bastante oscilação no número de novos óbitos pela COVID-19 em São José dos Campos. Ademais, observa-se que em alguns dias não houve óbitos registrados no município.

Outro fato que causa estranheza é a existência de alguns óbitos “negativos”. Entretanto, isso provavelmente ocorre em virtude de uma retificação. Ou seja, provavelmente algum óbito foi registrado como sendo devido à COVID-19 e, posteriormente, foi confirmado que o óbito se deu por outro motivo.


Conclusão

Realizada a análise dos dados, podemos inferir que:

  • A região do Brasil com o maior número de casos confirmados de COVID-19 é a região Sudeste, e a com menor número é a região Centro-Oeste. No entanto, importa destacar que a região Norte é a segunda região com menor número de casos, sendo que a diferença numérica entre a região Norte e Centro-Oeste é bem pequena.

  • Se analisarmos um gráfico com a ordem de tamanho da população em cada região em comparação com o gráfico da ordem das regiões mais afetadas pelo COVID-19, obteríamos a mesma ordem. Para uma análise mais aprofundada seria necessário comparar um gráfico do tamanho da população de cada região com um gráfico de número de casos por região. No entanto, já é possível perceber que não há uma diferença muito abrupta entre as regiões no que se refere ao número de casos por 100 mil habitantes.

  • De um modo geral, o número total de casos e de mortes por COVID-19 no Brasil, estado de São Paulo e município de São José dos Campos teve uma velocidade de crescimento mais acentuada até aproximadamente o 175º dia da pandemia, bem como uma velocidade de crescimento mais acentuada a partir do 275º dia da pandemia. Entre o 175º e 275º dia da pandemia houve uma queda na velocidade de crescimento no número de casos confirmados e de mortes por COVID-19.

  • A quantidade de novos casos por dia no Brasil, estado de São Paulo e município de São José dos Campos apresentou uma grande oscilação.

58 visualizações

Posts recentes

Ver tudo

留言


bottom of page