Python Pandas - 熔化

Pandas 中的熔化是指將 DataFrame 從寬格式轉換為長格式的過程。在寬格式中，資料分佈在多個列中。簡單來說，它會“反轉”DataFrame 的列為行，這對於視覺化和對資料集執行統計分析很有用。

Pandas 庫提供了melt() 和wide_to_long() 函式，用於將 DataFrame 從寬格式轉換為長格式。在本教程中，我們將學習 Pandas 中的melt() 和wide_to_long() 函式，以及如何使用這兩種方法將 DataFrame 從寬格式轉換為長格式。

Pandas 中的熔化

Pandas 中的melt() 函式將寬 DataFrame 轉換為長格式。這只不過是“反轉”DataFrame。

示例

以下示例演示了使用pandas.melt() 函式熔化一個簡單的 DataFrame。

import pandas as pd

# Create a DataFrame
df = pd.DataFrame({'A': {0: 'a', 1: 'b', 2: 'c'},'B': {0: 1, 1: 3, 2: 5},'C': {0: 2, 1: 4, 2: 6}})

# Display the input DataFrame
print('Input DataFrame:\n', df)

# Melt the DataFrame
melted_df = pd.melt(df, id_vars=['A'], value_vars=['B'])

print('Output melted DataFrame:\n', melted_df)

以下是上述程式碼的輸出 -

Input DataFrame:

A B C
0 a 1 2
1 b 3 4
2 c 5 6


Output melted DataFrame:

A variable value
0 a B 1
1 b B 3
2 c B 5

	A	B	C
0	a	1	2
1	b	3	4
2	c	5	6

	A	variable	value
0	a	B	1
1	b	B	3
2	c	B	5

示例：在熔化時處理索引值

此示例演示了在使用pandas.melt() 函式熔化 DataFrame 時如何處理缺失值。

import pandas as pd

# Create a DataFrame
index = pd.MultiIndex.from_tuples([("person", "A"), ("person", "B")])
df= pd.DataFrame({
"first": ["John", "Mary"],"last": ["Doe", "Bo"],
"height": [5.5, 6.0],"weight": [130, 150]}, index=index)

# Display the input DataFrame
print('Input DataFrame:\n', df)

# Melt the DataFrame
melted_df = pd.melt(df, id_vars=["first", "last"], ignore_index=False)

print('Output melted DataFrame:\n', melted_df)

以下是上述程式碼的輸出 -

Input DataFrame:

first last height weight
person A John Doe 5.5 130
B Mary Bo 6.0 150

Output melted DataFrame:

    first last variable value
    person A John Doe height 5.5
    B Mary Bo height 6.0
    A John Doe weight 130.0
    B Mary Bo weight 150.0

		first	last	height	weight
person	A	John	Doe	5.5	130
B	Mary	Bo	6.0	150

		first	last	variable	value
person	A	John	Doe	height	5.5
B	Mary	Bo	height	6.0
A	John	Doe	weight	130.0
B	Mary	Bo	weight	150.0

使用 wide_to_long() 熔化

pandas wide_to_long() 函式提供了對轉換的更多控制。當您的列具有包含字尾的結構化命名模式時，它很有用。

示例

此示例使用wide_to_long() 函式執行高階熔化轉換。

import pandas as pd

# Create a DataFrame
df = pd.DataFrame({'famid': [1, 1, 1, 2, 2, 2, 3, 3, 3],
'birth': [1, 2, 3, 1, 2, 3, 1, 2, 3],
'ht1': [2.8, 2.9, 2.2, 2, 1.8, 1.9, 2.2, 2.3, 2.1],
'ht2': [3.4, 3.8, 2.9, 3.2, 2.8, 2.4, 3.3, 3.4, 2.9]})

# Display the input DataFrame
print('Input DataFrame:\n', df)

# Melt the DataFrame using wide_to_long()
long_df = pd.wide_to_long(df, stubnames='ht', i=['famid', 'birth'], j='age')

print('Output Long Melted DataFrame:\n', long_df)

以下是上述程式碼的輸出 -

Input DataFrame:

famid birth ht1 ht2
0 1 1 2.8 3.4
1 1 2 2.9 3.8
2 1 3 2.2 2.9
3 2 1 2.0 3.2
4 2 2 1.8 2.8
5 2 3 1.9 2.4
6 3 1 2.2 3.3
7 3 2 2.3 3.4
8 3 3 2.1 2.9


Output Long Melted DataFrame:

ht
famid birth age 
1 1 1 2.8
2 3.4
2 1 2.9
2 3.8
3 1 2.2
2 2.9
2 1 1 2.0
2 3.2
2 1 1.8
2 2.8
3 1 1.9
2 2.4
3 1 1 2.2
2 3.3
2 1 2.3
2 3.4
3 1 2.1
2 2.9

	famid	birth	ht1	ht2
0	1	1	2.8	3.4
1	1	2	2.9	3.8
2	1	3	2.2	2.9
3	2	1	2.0	3.2
4	2	2	1.8	2.8
5	2	3	1.9	2.4
6	3	1	2.2	3.3
7	3	2	2.3	3.4
8	3	3	2.1	2.9

			ht
famid	birth	age
1	1	1	2.8
2	3.4
2	1	2.9
2	3.8
3	1	2.2
2	2.9
2	1	1	2.0
2	3.2
2	1	1.8
2	2.8
3	1	1.9
2	2.4
3	1	1	2.2
2	3.3
2	1	2.3
2	3.4
3	1	2.1
2	2.9

列印頁面

	famid	birth	ht1	ht2
0	1	1	2.8	3.4
1	1	2	2.9	3.8
2	1	3	2.2	2.9
3	2	1	2.0	3.2
4	2	2	1.8	2.8
5	2	3	1.9	2.4
6	3	1	2.2	3.3
7	3	2	2.3	3.4
8	3	3	2.1	2.9

	famid	birth	ht1	ht2
0	1	1	2.8	3.4
1	1	2	2.9	3.8
2	1	3	2.2	2.9
3	2	1	2.0	3.2
4	2	2	1.8	2.8
5	2	3	1.9	2.4
6	3	1	2.2	3.3
7	3	2	2.3	3.4
8	3	3	2.1	2.9

	famid	birth	ht1	ht2
0	1	1	2.8	3.4
1	1	2	2.9	3.8
2	1	3	2.2	2.9
3	2	1	2.0	3.2
4	2	2	1.8	2.8
5	2	3	1.9	2.4
6	3	1	2.2	3.3
7	3	2	2.3	3.4
8	3	3	2.1	2.9