top of page
logo brasil data science.png

Mantenha-se atualizado diariamente com conteúdos sobre Data Science.

  • Foto do escritorGustavo Costanti Lara

Conhecendo a biblioteca Pandas

Atualizado: 21 de fev. de 2021


Pandas é a mais popular biblioteca do Python de Data Science.

Através do Pandas é possível importar dados armazenados em diversos formatos (na maior parte das vezes em formato csv ou xls), tratar esses dados, transformá-los em um DataFrame e realizar as análises necessárias.

Importar um conjunto de dados usando o Pandas possibilita, entre outras coisas:

  • Extrair informações estatísticas sobre os dados importados, tais como a média, mediana, valores máximos e mínimos, distribuição das variáveis etc.

  • Exportar os dados para um novo formato de arquivo

  • Visualizar gráficos

  • Auxiliar a construção de modelos de machine leaning feitos com Scikit-learn

O Pandas é construído com base em outra famosa biblioteca do Python para Data Scinece, o NumPy.


Instalando o Pandas

Se você deseja rodar o código Python em sua máquina local, o Pandas pode ser instalado através da linha de comando usando um gerenciador de pacotes, tais como pip e conda.


Uma forma de facilitar a construção de notebooks para Data Science é utilizar o Google Colab, um ambiente de notebooks Jupyter executados em cloud que não requer quaisquer configurações, pois o Google Colab já possui diversos pacotes instalados por padrão.

Para começar a utilizar a biblioteca Pandas, é necessário importa-lo para o seu notebook. Para importar qualquer pacote basta digitar import (nome do pacote). No entanto, como boa prática costumamos importar a biblioteca Pandas com o nome de pd. A linha de código completo é import pandas as pd.


Assim, toda vez que você precisar utilizar a biblioteca Pandas, basta digitar pd ao invés de pandas.


Importando arquivos (csv, xls, entre outros)

Para exemplificar de forma mais prática, baixei os dados sobre as ações da Petrobrás (PETR4) disponibilizadas em formato csv.

Ao abrir o arquivo csv pelo Excel, teremos a seguinte imagem:


Para importar um arquivo csv usando o Pandas, devemos usar a linha de código pd.read_csv('LOCAL DO ARQUIVO OU LINK'). Ademais, ao importar um dataset usando o Pandas, estamos criando um DataFrame, por isso vamos salvar nosso novo DataFrame em uma variável chamada df. Tendo isso em mente, o código ficaria assim:

Feito isso, o arquivo foi importado e já pode ser usado no notebook.


Conhecendo os componentes fundamentais do Pandas

Os dois componentes principais que devemos conhecer quando estivermos lidando com a biblioteca Pandas são Series e DataFrame.


Para simplificar e não confundir muito a cabeça de quem ainda é iniciante em Data Science e está tendo o seu primeiro contato com a biblioteca Pandas, pense no DataFrame como sendo uma planilha, e Series como uma coluna da planilha.


Visualizando o DataFrame

Uma das principais funções da biblioteca Pandas, e que será utilizada em praticamente todos os seus projetos de Data Science é df.head() e df.tail().

O arquivo csvcom os dados sobre a ação PETR4 que importamos contém muitas linhas (jajá apresentarei como descobrir o número total de linhas do DataFrame). Isso faz com que muitas vezes não seja necessário nem viável visualizar o gráfico todo de uma vez só, até porque no começo de um projeto procuramos primeiro entender o significado de cada coluna, filtrar os dados para só depois iniciar a análise.

Tendo isso em mente, geralmente, no começo do projeto queremos apenas dar uma olhadinha rápida no DataFrame. É nesse cenário que as funções df.head() e df.tail()são de grande utilidade.

  • df.head() - exibe as 5 primeiras entradas (linhas) do conjunto de dados

df.tail() - exibe as 5 últimas entradas (linhas) do conjunto de dados


Um dos motivos que torna o Pandas muito popular é a sua capacidade de apresentar os dados como se estivessem em uma tabela. Compare as tabelas do nosso DataFrame com aquela imagem lá em cima, do Excel. É um formato que estamos bem habituados a enxergar.


Conhecendo os dados

Muitas vezes é importante conhecermos a estrutura e tamanho do DataFrame. Para descobrir o tamanho do DataFrame, podemos utilizar df.shape.


Ao executar o df.shape, o output é (247, 7). Isso significa que o arquivo importado contém 247 linhas e 7 colunas.

Vamos supor que você queira extrair apenas os nomes das colunas do seu DataFrame. Para isso, basta executar o código df.columns.



Em muitas situações, é importante conhecer o tipo de variável que está representado em cada coluna. Por exemplo:

  • Quando temos uma coluna que trata de receita, despesa ou lucro, é desejável que lidemos com variáveis do tipo float.

  • Quando estamos lidando com anos (2018, 2019, 2020), é desejável trabalhar com variáveis do tipo int.

  • Quanto temos datas completas (2019-12-30 07:37), o formato datetimeé o ideal para manipular adequadamente o dataset.

Para descobrir os tipos das variáveis de cada coluna, basta utilizar df.dtypes.


Uma outra forma de descobrir o tipo das variáveis e ainda conseguir visualizar os valores ausentes nas células é utilizando o método df.info().

No entanto, há uma forma muito melhor para tratar exclusivamente de valores ausentes. Como código abaixo, podemos visualizar uma lista de variáveis com a quantidade de valores nulos em ordem decrescente.

O nosso dataset contém pouquíssimos valores ausentes, apenas um valor ausente para cada variável à exceção da coluna Date, que não possui valores ausentes.

Se quisermos uma lista dessa contendo a porcentagem que os valores ausentes representam, basta usar o código acima pelo número de linhas, que já foi descoberto quando utilizamos df.shape. O número de linhas é igual ao primeiro elemento do output do df.shape, ou seja, df.shape[0].



Selecionando colunas

Há diversas maneiras de selecionar um sub conjunto de dados em uma estrutura DataFrame. Contudo, na maioria dos casos o que queremos fazer é selecionar apenas uma coluna de todo o DataFrame.

Para selecionar uma variável, você deve colocar o nome da coluna entre colchetes em frente ao nome do DataFrame.



Caso o nome das coluna não contenha espaços em branco ou caracteres especiais, você consegue selecioná-la sem utilizar os colchetes. Nesse caso, no lugar de df["High"] você pode usar df.High, que terá o mesmo efeito.


Visualizando informações estatísticas

Para visualizar algumas informações estatísticas importantes, podemos utilizar o método describe(). Junto com o describe(), podemos usar o método round(2) para arredondar o valor em duas casa decimais.



Trabalhando com datas (datetime)

Ao importar um arquivo que contenha datas, provavelmente o Pandas não as reconhecerá automaticamente.

Quando utilizamos o método df.info() ou df.dtypes, vimos que a coluna Date estava era do tipo object. No caso, ela é apenas texto (string) o que não permite a extração de muita coisa útil.

Vamos converter a coluna usando pd.to_datetime e informando qual o formato da nossa data.

Agora podemos acessar apenas os componentes de uma data individualmente (dia, mês e ano) utilizando df.Date.dt.


No entanto, há vários formatos que um usuário pode lançar como sendo datas. Você pode encontrar exemplos como:

  • 31/06/15

  • 31/06/2015

  • 31–6–15

  • 2015–6–31

  • 31 de junho de 2015

Conclusão

Essa foi uma breve introdução à biblioteca Pandas. Procurei apresentar alguns métodos e funções que são utilizados em quase todos os projetos de Data Science.

Ao longo da sua jornada como cientista de dados, você irá se deparar com muitas dúvidas e problemas. Para tirar suas dúvidas e se aprofundar sobre a biblioteca Pandas, recomendo a leitura da documentação oficial do Pandas.

1.201 visualizações

Posts recentes

Ver tudo

Comentarios


bottom of page