
- Python Pandas 教程
- Python Pandas - 首頁
- Python Pandas - 簡介
- Python Pandas - 環境搭建
- Python Pandas - 基礎
- Python Pandas - 資料結構簡介
- Python Pandas - 索引物件
- Python Pandas - 面板 (Panel)
- Python Pandas - 基本功能
- Python Pandas - 索引與資料選擇
- Python Pandas - Series
- Python Pandas - Series
- Python Pandas - Series 物件切片
- Python Pandas - Series 物件的屬性
- Python Pandas - Series 物件的算術運算
- Python Pandas - Series 轉換為其他物件
- Python Pandas - DataFrame
- Python Pandas - DataFrame
- Python Pandas - 訪問 DataFrame
- Python Pandas - DataFrame 物件切片
- Python Pandas - 修改 DataFrame
- Python Pandas - 從 DataFrame 中刪除行
- Python Pandas - DataFrame 的算術運算
- Python Pandas - I/O 工具
- Python Pandas - I/O 工具
- Python Pandas - 使用 CSV 格式
- Python Pandas - 讀取和寫入 JSON 檔案
- Python Pandas - 從 Excel 檔案讀取資料
- Python Pandas - 將資料寫入 Excel 檔案
- Python Pandas - 使用 HTML 資料
- Python Pandas - 剪貼簿
- Python Pandas - 使用 HDF5 格式
- Python Pandas - 與 SQL 的比較
- Python Pandas - 資料處理
- Python Pandas - 排序
- Python Pandas - 重新索引
- Python Pandas - 迭代
- Python Pandas - 級聯 (Concatenation)
- Python Pandas - 統計函式
- Python Pandas - 描述性統計
- Python Pandas - 處理文字資料
- Python Pandas - 函式應用
- Python Pandas - 選項和自定義
- Python Pandas - 視窗函式
- Python Pandas - 聚合
- Python Pandas - 合併/連線
- Python Pandas - 多索引 (MultiIndex)
- Python Pandas - 多索引基礎
- Python Pandas - 使用多索引進行索引
- Python Pandas - 使用多索引進行高階重新索引
- Python Pandas - 重新命名多索引標籤
- Python Pandas - 對多索引排序
- Python Pandas - 二元運算
- Python Pandas - 二元比較運算
- Python Pandas - 布林索引
- Python Pandas - 布林掩碼
- Python Pandas - 資料重塑和透視
- Python Pandas - 透視表
- Python Pandas - 堆疊和取消堆疊
- Python Pandas - 熔化 (Melting)
- Python Pandas - 計算虛擬變數
- Python Pandas - 類別資料
- Python Pandas - 類別資料
- Python Pandas - 類別資料的排序和分類
- Python Pandas - 比較類別資料
- Python Pandas - 處理缺失資料
- Python Pandas - 缺失資料
- Python Pandas - 填充缺失資料
- Python Pandas - 缺失值的插值
- Python Pandas - 刪除缺失資料
- Python Pandas - 使用缺失資料進行計算
- Python Pandas - 處理重複項
- Python Pandas - 重複資料
- Python Pandas - 計數與檢索唯一元素
- Python Pandas - 重複標籤
- Python Pandas - 分組與聚合
- Python Pandas - GroupBy
- Python Pandas - 時間序列資料
- Python Pandas - 日期功能
- Python Pandas - 時間增量 (Timedelta)
- Python Pandas - 稀疏資料結構
- Python Pandas - 稀疏資料
- Python Pandas - 資料視覺化
- Python Pandas - 資料視覺化
- Python Pandas - 其他概念
- Python Pandas - 警告與陷阱
- Python Pandas 有用資源
- Python Pandas - 快速指南
- Python Pandas - 有用資源
- Python Pandas - 討論
Python Pandas - 計數與檢索唯一元素
在處理即時資料時,我們經常會遇到重複條目,這些條目是在資料集中多次出現的資料行或實體。重複資料可能由多種原因引起,例如資料收集錯誤、重複記錄或資料集合並。從重複資料中計數和識別唯一元素是資料預處理和資料分析中的一項重要任務。
在本教程中,我們將學習如何使用 Pandas 計數和檢索重複資料中的唯一元素。Pandas 提供了兩個主要函式,**nunique()** 和 **unique()**,分別用於計數和檢索唯一元素。
計數唯一元素
Pandas 的 **DataFrame.nunique()** 方法用於沿 DataFrame 的特定軸計算不同元素的數量。它可以按行或按列應用,也可以選擇忽略 NaN 值。
語法
以下是語法:
DataFrame.nunique(axis=0, dropna=True)
其中:
**axis**: 定義是按行 (axis=1) 還是按列 (axis=0,預設) 計數唯一元素。
**dropna**: 設定為 True (預設) 時,它會忽略計數中的 NaN 值。
示例:按列計數唯一元素
這是一個基本的示例,演示了 **DataFrame.nunique()** 方法用於計算 Pandas DataFrame 的列唯一值。
import pandas as pd # Creating a DataFrame df = pd.DataFrame({'A': [4, 5, 6],'B': [4, 1, 1]}) # Display the Original DataFrame print("Original DataFrame:") print(df) # Counting unique values column-wise result = df.nunique() print('Column wise count of the unique elements:\n', result)
以上程式碼的輸出如下:
Original DataFrame:
A | B | |
---|---|---|
0 | 4 | 4 |
1 | 5 | 1 |
2 | 6 | 1 |
這裡,A 列有 3 個唯一值,而 B 列有 2 個唯一值。
示例:按行計數唯一值
此示例演示了 **DataFrame.nunique()** 方法用於計算 Pandas DataFrame 的行唯一值。透過將 axis 引數設定為 1,也可以按行計數唯一值。
import pandas as pd # Creating a DataFrame df = pd.DataFrame({'A': [4, 5, 6],'B': [4, 1, 1]}) # Display the Original DataFrame print("Original DataFrame:") print(df) # Counting unique values row-wise result = df.nunique(axis=1) print('\nRow wise count of the unique elements:\n', result)
以上程式碼的輸出如下:
Original DataFrame:
A | B | |
---|---|---|
0 | 4 | 4 |
1 | 5 | 1 |
2 | 6 | 1 |
使用 value_counts() 計數唯一值
pandas 的 **DataFrame.value_counts()** 方法用於獲取有關唯一值的更詳細資訊。它返回一個 Series,其中包含按降序排列的唯一值的計數。
示例
此示例使用 **DataFrame.value_counts()** 方法計算 DataFrame 列中的唯一值。
import pandas as pd # Creating a DataFrame df = pd.DataFrame({'A': [4, 5, 6],'B': [4, 1, 1]}) # Display the Original DataFrame print("Original DataFrame:") print(df) # Count the frequency of unique values in column 'B' result = df['B'].value_counts() print('\nThe unique values:') print(result)
以上程式碼的輸出如下:
Original DataFrame:
A | B | |
---|---|---|
0 | 4 | 4 |
1 | 5 | 1 |
2 | 6 | 1 |
檢索唯一元素
**pandas.unique()** 函式用於從 DataFrame 的單個列或 Series 中獲取唯一值的陣列。與計算唯一值的 **nunique()** 不同,**unique()** 直接返回這些唯一值。
語法
以下是語法:
pandas.unique(values)
其中,**values** 是一個可以是一維陣列狀結構(例如 Series 或 DataFrame 列)的單個引數。
示例
以下示例使用 **pandas.unique()** 函式從 Pandas DataFrame 列中獲取所有唯一元素。
import pandas as pd # Creating a DataFrame df = pd.DataFrame({'A': [4, 5, 6],'B': [4, 1, 1]}) # Display the Original DataFrame print("Original DataFrame:") print(df) # Get unique values from a column result= pd.unique(df['A']) print('\nThe unique values:\n', result)
以上程式碼的輸出如下:
Original DataFrame:
A | B | |
---|---|---|
0 | 4 | 4 |
1 | 5 | 1 |
2 | 6 | 1 |