建立 Pandas DataFrame 的不同方法
Pandas 是 Python 中用於執行資料分析和資料操作的庫之一。資料可以在 Pandas 中以兩種方式建立,一種是 DataFrame,另一種是 Series。
DataFrame 是 Python 中的二維帶標籤資料結構。它用於資料操作和資料分析。它接受不同的資料型別,例如整數、浮點數、字串等。列的標籤是唯一的,而行則用唯一的索引值標記,這有助於訪問定義的行。
DataFrame 用於機器學習任務,允許使用者操作和分析大型資料集。它支援諸如過濾、排序、合併、分組和轉換資料等操作。
以下是建立 Pandas DataFrame 的不同方法。讓我們一一來看。
從 NumPy 陣列建立
我們可以使用 Pandas 庫的 DataFrame() 函式從 NumPy 陣列建立 DataFrame。以下是從 NumPy 陣列建立 Pandas DataFrame 的語法。
pandas.DataFrame(array)
其中,
pandas 是庫的名稱
DataFrame 是函式
array 是 NumPy 陣列
示例
在這個例子中,我們將 NumPy 陣列作為輸入引數傳遞給 DataFrame 函式,以及列名,然後陣列將被轉換為 DataFrame。
import pandas as pd import numpy as np arr = np.array([[20,30,40],[70,80,40]]) data = pd.DataFrame(arr, columns= ['a1', 'a2', 'a3']) print(data.head())
輸出
a1 a2 a3 0 20 30 40 1 70 80 40
從字典建立
可以透過將字典作為輸入引數傳遞給 Pandas 庫的 DataFrame() 函式,從字典建立 DataFrame。以下是從字典建立 Pandas DataFrame 的語法。
pandas.DataFrame(dictionary)
示例
在這個例子中,我們將字典作為輸入引數傳遞給 Pandas 庫的 DataFrame() 函式,然後字典將被轉換為 DataFrame。
import pandas as pd import numpy as np dic = {'b': [2,3], 'c': [3,5], 'a': [1,6]} data = pd.DataFrame(dic) data.head()
輸出
b c a 0 2 3 1 1 3 5 6
從 CSV 檔案建立
我們可以從 CSV 檔案的資料建立 DataFrame。在 Pandas 庫中,我們有一個名為 read_csv() 的函式來讀取 CSV 檔案資料。以下是從 CSV 檔案建立 DataFrame 的語法。
pandas.read_csv(csv_file)
示例
在這個例子中,我們將使用 read_csv() 函式從 CSV 檔案資料建立 Pandas DataFrame。以下程式碼供參考。
import pandas as pd data=pd.read_csv("https://raw.githubusercontent.com/Opensourcefordatascience/Data-sets/master/blood_pressure.csv") print(data.head(20))
輸出
patient sex agegrp bp_before bp_after 0 1 Male 30-45 143 153 1 2 Male 30-45 163 170 2 3 Male 30-45 153 168 3 4 Male 30-45 153 142 4 5 Male 30-45 146 141 5 6 Male 30-45 150 147 6 7 Male 30-45 148 133 7 8 Male 30-45 153 141 8 9 Male 30-45 153 131 9 10 Male 30-45 158 125 10 11 Male 30-45 149 164 11 12 Male 30-45 173 159 12 13 Male 30-45 165 135 13 14 Male 30-45 145 159 14 15 Male 30-45 143 153 15 16 Male 30-45 152 126 16 17 Male 30-45 141 162 17 18 Male 30-45 176 134 18 19 Male 30-45 143 136 19 20 Male 30-45 162 150