在 Pandas 中將兩個文字列合併為一列


在 Pandas 中將兩個文字列合併為一列:簡介

Python 擁有一個強大的資料分析和操作模組,稱為 Pandas。它提供了一系列用於有效處理和轉換資料的工具和策略。將多個列合併或組合成一列是處理資料時的常見操作。本文將介紹在 Pandas 中連線兩個文字列的方法,以及分步說明和示例。

在 Pandas 中將兩個文字列合併為一列

定義

在 Pandas 中,連線兩個文字列意味著將來自兩個不同列的值組合到一個列中。當我們希望整合相關資料或建立一個新的列來彙總來自多個來源的資訊時,這很有用。在 Pandas 中,將包含文字或字串資料的兩個不同列的值整合到單個列中的過程稱為“連線兩個文字列”。透過此過程,我們可以組合相關資料或建立一個新的列來組合來自多個來源的資訊。透過合併文字列,我們可以加快資料處理速度並從統一的角度獲取見解。

使用 Pandas 連線文字列非常簡單,因為它具有直觀的語法和強大的字串操作功能。由於結果連線列保留了原始列的資料型別,因此資訊完整性得以維護。此外,Pandas 處理缺失值和跨行或列執行操作的能力確保了對各種資料集的有效管理。

語法

在 Pandas 中,連線兩個文字列只是語法問題。為了組合來自兩個列的值並將結果應用於新列,我們使用“+”運算子。這裡,dataframe 代表 Pandas DataFrame 名稱,column1 和 column2 是將要合併的列的名稱,“new_column”是將儲存合併列值的新列的名稱。

dataframe['new_column'] = dataframe['column1'] + dataframe['column2']

語法的解釋

讓我們分解語法並瞭解每個元件。

  • dataframe['new_column']:這指的是 dataframe 的新“new_column”列,它將連線的值作為其新列接收。我們要新增附加列的目標 DataFrame 是 dataframe。

  • dataframe['column1'] 和 dataframe['column2']:我們希望分別連線這些特定列。我們透過使用列的名稱訪問它們來獲取相應的值。

  • ‘+’:Pandas 使用此運算子進行連線。它將來自列 1 和 2 的值組合成一個字串。

演算法

  • 步驟 1 − 新增所需的庫:第一步是匯入 Pandas 庫,它提供了與 DataFrame 互動的功能。

  • 步驟 2 − 將資料讀入 DataFrame:使用可用方法之一(如 read_csv() 或 read_excel())將資料載入到 Pandas DataFrame 中。

  • 步驟 3 − 連線列:要連線所需的列,請使用前面給出的語法,然後將結果分配給新列。

  • 步驟 4 − 檢查連線的資料:一個可選步驟,用於確認連線的列,可以列印新列或檢視 DataFrame。

  • 步驟 5 − 儲存更新後的 DataFrame:如有必要,建立一個新檔案或覆蓋當前檔案以儲存修改後的 DataFrame。

方法

  • 方法 1 − 使用 + 運算子

  • 方法 2 − 使用 str.cat() 方法

方法 1:使用 + 運算子

在此示例中使用的 DataFrame 中的兩個列為“Name”和“Surname”。這些列應組合以形成一個名為“Full Name”的新列。使用 + 運算子將“Name”和“Surname”列連線起來,並在它們之間留有空格,以產生所需的結果。

示例

import pandas as pd

# Step 2: Read the data into a DataFrame
data = {'Name': ['John', 'Jane', 'Alice'],
   'Surname': ['Doe', 'Smith', 'Johnson']}
df = pd.DataFrame(data)

# Step 3: Join the columns
df['Full Name'] = df['Name'] + ' ' + df['Surname']

# Step 4: Explore the joined data
print(df)

# Step 5: Save the modified DataFrame (optional)
# df.to_csv('output.csv', index=False)

輸出

此程式碼的輸出將為 −

   Name  Surname     Full Name
0  John      Doe      John Doe
1  Jane    Smith    Jane Smith
2 Alice  Johnson  Alice Johnson

方法 2:使用 str.cat() 方法

此方法使用 str.cat() 方法,該方法專門用於在 Pandas 中連線字串。使用 str.cat() 方法的 sep 選項,我們可以定義一個分隔符(在本例中為空格)。

示例

import pandas as pd

# Step 2: Read the data into a DataFrame
data = {'Name': ['John', 'Jane', 'Alice'],
        'Surname': ['Doe', 'Smith', 'Johnson']}
df = pd.DataFrame(data)

# Step 3: Join the columns
df['Full Name'] = df['Name'].str.cat(df['Surname'], sep=' ')

# Step 4: Explore the joined data
print(df)

# Step 5: Save the modified DataFrame (optional)
# df.to_csv('output.csv', index=False)

輸出

此程式碼的輸出將為 −

   Name  Surname     Full Name
0  John      Doe      John Doe
1  Jane    Smith    Jane Smith
2 Alice  Johnson  Alice Johnson

結論

使用 Pandas 將兩個文字列合併為一列非常簡單。我們可以使用 + 運算子或 str.cat() 方法快速連線來自兩個列的值,並建立一個彙總資料的新的列。Pandas 是 Python 中處理表格資料的首選包,因為它提供了強大的資料操作功能。透過在 Pandas 中連線文字列,我們可以執行各種文字操作。它使我們能夠連線字串、在值之間插入分隔符或定界符以及使用自定義轉換,以生成連線資料的連貫表示。當處理大型資料集或在分析之前完成資料準備任務時,此方法特別有用,因為它避免了手動合併或編輯各個列的需要。

總的來說,Pandas 透過合併兩個文字列來改進資料組織、簡化分析並使建立包含合併資訊的豐富列成為可能。資料科學家和分析師可以透過利用 Pandas 的功能來改進他們的流程、獲得更深入的理解並從表格資料中提取有用的資訊。

更新於: 2023年10月11日

2K+ 次瀏覽

啟動您的 職業生涯

透過完成課程獲得認證

開始學習
廣告

© . All rights reserved.