Aprenda a mesclar dataframes em Python

Aprenda a mesclar dataframes em Python

Se você usa Python, mesmo para as tarefas mais simples, provavelmente está ciente da importância de suas bibliotecas de terceiros. A biblioteca Pandas, com seu excelente suporte para DataFrames, é uma dessas bibliotecas.





Você pode importar vários tipos de arquivo para Python DataFrames e criar várias versões para armazenar diferentes conjuntos de dados. Depois de importar seus dados usando DataFrames, você pode mesclá-los para realizar uma análise detalhada.





Abordando o básico

Antes de começar a mesclar, você precisa ter DataFrames para mesclar. Para fins de desenvolvimento, você pode criar alguns dados fictícios para experimentar.





Crie os DataFrames em Python

Como primeiro passo, importe a biblioteca Pandas para o seu arquivo Python. Pandas é uma biblioteca de terceiros que lida com DataFrames em Python. Você pode usar o importar instrução para usar a biblioteca, da seguinte forma:

import pandas as pd

Você pode atribuir um alias ao nome da biblioteca para encurtar suas referências de código.



Você precisa criar dicionários, que podem ser convertidos em DataFrames. Para melhores resultados, crie duas variáveis ​​de dicionário— dict1 e dict2— para armazenar informações específicas:

dict1 = {"user_id": ["001", "002", "003", "004", "005"], 
"FName": ["John", "Brad", "Ron", "Roald", "Chris"],
"LName": ["Harley", "Cohen", "Dahl", "Harrington", "Kerr-Hislop"]}

dict2 = {"user_id": ["001", "002", "003", "004"], "Age": [15, 28, 34, 24]}

Lembre-se, você precisa ter um elemento comum em ambos os valores do dicionário, para atuar como a chave primária para combinar seus DataFrames posteriormente.





Converta seus dicionários em dataframes

Para converter seus valores de dicionário em DataFrames, você pode usar o seguinte método:

stick de internet para laptop sem contrato
df1 = pd.DataFrame(dict1) 
df2 = pd.DataFrame(dict2)

Alguns IDEs permitem que você verifique os valores dentro do DataFrame referenciando a função DataFrame e pressionando Executar/Executar . Existem muitos IDEs compatíveis com Python , para que você possa escolher o que for mais fácil para você aprender.





  Trecho de código do Jupyter Notebook

Quando estiver satisfeito com o conteúdo de seus DataFrames, você pode passar para a etapa de mesclagem.

Combinando quadros com a função de mesclagem

A função de mesclagem é a primeira função do Python que você pode usar para combinar dois DataFrames. Esta função recebe os seguintes argumentos padrão:

pd.merge(DataFrame1, DataFrame2, how= type of merge)

Onde:

  • pd é um alias para a biblioteca Pandas.
  • mesclar é a função que mescla DataFrames.
  • DataFrame1 e DataFrame2 são os dois DataFrames a serem mesclados.
  • Como as define o tipo de mesclagem.

Alguns argumentos opcionais extras estão disponíveis, que você pode usar quando tiver uma estrutura de dados complexa.

Você pode usar valores diferentes para o parâmetro como para definir o tipo de mesclagem a ser realizada. Esses tipos de mesclagem serão familiares se você usou SQL para juntar tabelas de banco de dados .

Mesclar à esquerda

O tipo de mesclagem à esquerda mantém os valores do primeiro DataFrame intactos e extrai os valores correspondentes do segundo DataFrame.

  Trecho de código do Jupyter Notebook

Mesclar à direita

O tipo de mesclagem correto mantém os valores do segundo DataFrame intactos e extrai os valores correspondentes do primeiro DataFrame.

  Trecho de código do Jupyter Notebook

Mesclagem interna

O tipo de mesclagem interna retém os valores correspondentes de ambos os DataFrames e remove os valores não correspondentes.

  Trecho de código do Jupyter Notebook

Mesclagem Externa

O tipo de mesclagem externa retém todos os valores correspondentes e não correspondentes e consolida os DataFrames juntos.

  Trecho de código do Jupyter Notebook

Como usar a função Concat

o concatenar function é uma opção flexível em comparação com algumas das outras funções de mesclagem do Python. Com a função concat, você pode combinar DataFrames verticalmente e horizontalmente.

No entanto, a desvantagem de usar essa função é que ela descarta quaisquer valores não correspondentes por padrão. Como algumas outras funções relacionadas, esta função tem alguns argumentos, dos quais apenas alguns são essenciais para uma concatenação bem-sucedida.

concat(dataframes, axis=0, join='outer'/inner)

Onde:

  • concatenar é a função que une DataFrames.
  • quadros de dados é uma sequência de DataFrames para concatenar.
  • eixo representa a direção da concatenação, sendo 0 horizontal e 1 vertical.
  • Junte especifica uma junção externa ou interna.

Usando os dois DataFrames acima, você pode experimentar a função concat da seguinte forma:

# define the dataframes in a list format 
df_merged_concat = pd.concat([df1, df2])

# print the results of the Concat function
print(df_merged_concat)

A ausência dos argumentos de eixo e junção no código acima combina os dois conjuntos de dados. A saída resultante tem todas as entradas, independentemente do status de correspondência.

Da mesma forma, você pode usar argumentos adicionais para controlar a direção e a saída da função concat.

Para controlar a saída com todas as entradas correspondentes:

# Concatenating all matching values between the two dataframes based on their columns 
df_merged_concat = pd.concat([df1, df2], axis=1, join = 'inner')

print(df_merged_concat)

O resultado contém todos os valores correspondentes apenas entre os dois DataFrames.

  Trecho de código do Jupyter Notebook

Mesclando DataFrames com Python

Os DataFrames são parte integrante do Python, considerando sua flexibilidade e funcionalidade. Devido aos seus usos multifacetados, você pode usá-los extensivamente para executar uma variedade de tarefas com a maior facilidade.

Se você ainda está aprendendo sobre Python DataFrames, tente importar alguns arquivos do Excel e combine-os com diferentes abordagens.

por que a internet do meu telefone está lenta?