使用Pandas進行資料分析活動


Pandas是資料科學領域中非常流行的工具。它廣泛用於分析資料活動。

資料分析是指為了找到與企業決策相關的相關資訊而對資料進行清洗、轉換和建模的過程。資料分析的目標是從資料中提取可用的資訊,並根據該分析做出決策。

在本文中,我們將學習Pandas在資料科學中的作用。

Pandas庫提供Python或C後端原始碼。

可以使用兩種策略來完成資料分析:

  • Series(序列)

  • DataFrames(資料框)

Pandas Series(序列)

Pandas定義了一個名為Series的陣列,可用於儲存任何型別的資料。它是一個網格的單個列或一維陣列。序列是值的集合,每個值都與一個獨特的標籤相關聯,並且每個行都具有唯一的索引值。建立序列時,這些獨特的索引值會動態定義。

建立新的序列

建立一個空序列:

import pandas as pd
s=pd.Series()

讓我們看看其他示例。

案例1:只有標量值

import pandas as pd
array= [9,6,3,2,8,5]
seri= pd.Series(array)
print(seri)

輸出

0 9
1 6
2 3
3 2
4 8
5 5
dtype: int64

使用羅馬數字索引列印序列:

index=['i' , 'ii', 'iii', 'iv', 'v', 'vi']
seri1= pd.Series(array, index)
print(seri1)

輸出

i      9
ii     6
iii    3
iv     2
v      8
vi     5
dtype: int64

案例2:字典值

import pandas as pd
dict= {'i' : 1 , 'j': 2, 'k': 3, 'l': 4}
s= pd.Series(dict)
print(s)

輸出

i  1
j  2
k  3
l  4
dtype: int64

案例3:多維陣列

import pandas as pd
array= [[1,2], [3,4,5], [6,7,8]]
s=pd.Series(array)
print(s)

輸出

0       [1, 2]
1    [3, 4, 5]
2    [6, 7, 8]
dtype: object

Pandas DataFrame(資料框)

Pandas DataFrame是由行和列組成的二維資料結構。以下關鍵Pandas結構由一系列序列組成,是Excel工作表上的多維表。它簡化了表格資料,其中每一行代表一個觀測值,每一列代表一個變數。

這是一個展示DataFrame功能的示例。這在下面的程式碼片段中可以看到。

import pandas as pd
data= {
   "calories": [100,200,300],
   "duration" :[20,30,35]
}
df=pd.DataFrame(data)
print(df)

輸出

calories duration
0   100      20
1   200      30
2   300      35

讓我們看看其他示例。

案例1:標量值

import pandas as pd
dic1= {'i' : 1 , 'j': 2, 'k': 3, 'l': 4}
dic2= {'i' :5 , 'j': 6, 'k': 7, 'l': 8, 'm' :9}
instance= {'first' : dic1, 'second': dic2}
df= pd.DataFrame(instance)
print(df)

輸出

first  second
i    1.0       5
j    2.0       6
k    3.0       7
l    4.0       8
m    NaN       9

案例2:序列資料

import pandas as pd
s1=pd.Series([1,2,3,4,5])
s2=pd.Series(['a','b','c'])
s3=pd.Series(['A','B','C','D'])
instance= {'first' : s1, 'second': s2, 'third': s3}
df= pd.DataFrame(instance)
print(df)

輸出

first second third
0      1      a     A
1      2      b     B
2      3      c     C
3      4    NaN     D
4      5    NaN   NaN

案例3:二維NumPy陣列

構建DataFrame時,二維陣列的維度必須保持不變。

import pandas as pd
array1= [[1,2], [3,4,5], [6,7,8]]
array2= [['a','b'], ['c','d','e'], ['f','g','h']]
instance= {'first' :array1, 'second': array2}
df= pd.DataFrame(instance)
print(df)

輸出

first     second
0     [1, 2]     [a, b]
1    [3, 4, 5]  [c, d, e]
2    [6, 7, 8]  [f, g, h]

Pandas在資料科學和機器學習中的應用

資料收集後,儲存在多個數據庫中,可以訪問這些資料庫用於不同的資料科學活動和專案。一個包含資料科學的專案有兩個階段:

  • 資料清洗階段

  • 探索性資料分析

這些階段為您提供了可以互動使用的高質量資料集。基於此過濾後的資料集,可以建立一個機器學習模型。Pandas庫提供了廣泛的功能,讓您可以從第一次獲取原始資料到提供高質量資料以進行進一步測試,執行所有操作。

資料分析的學習成果為開發人員選擇深入研究和機器學習模型的適當路徑奠定了基礎。

比較使用各種Pandas操作和過程建立的多個子集可以是統計分析的一部分。

我們已經看到了使用Pandas進行資料操作和資料分析的示例。讓我們更仔細地研究如何處理機器學習的資料。

Pandas如何加快ML模型的建立速度

每個機器學習專案都需要大量的時間投入。這是因為它使用了多種技術,例如在建立ML模型之前研究基本趨勢和模式。Python Pandas包提供了各種用於操作和分析資料的工具。

Pandas對於建立ML模型至關重要。以下是一些過程。

匯入資料

Pandas庫中提供了各種工具來從各種來源讀取資料。CSV檔案可以用作資料集函式,它提供了廣泛的資料處理選項。以下是匯入資料的程式碼部分。

定位缺失資料

Pandas提供了一個工具來確定處理缺失資料的方法有多少種。首先,您可以使用ISNA()方法檢查資料並識別任何缺失值。此函式檢查每一行和每一列的值。如果值不存在,則返回True,否則返回False。

資料視覺化

可以透過在Pandas中繪圖有效地檢視資料。在DataFrame中,可以使用plt.plot()函式。在您可以繪圖之前,必須匯入Matplotlib。此函式支援多種資料視覺化形式,例如直方圖、線、箱線圖、散點圖和條形圖。與資料聚合工具結合使用時,繪圖功能非常有用。

特徵轉換

Pandas提供各種特徵轉換函式。由於大多數常用的機器學習庫只接受數值資料,因此必須轉換非數值特徵。當將該函式應用於資料列時,Pandas中可用的get_dummies函式將每個不同的值轉換為二進位制列。

結論

Pandas是一個流行的資料科學和資料分析工具,許多專業人員和資料科學家都在使用它。由於Pandas DataFrame,他們可以處理資料並建立機器學習模型。雖然學習曲線略微陡峭,但它極大地提高了資料操作的效率。

更新於:2023年1月9日

瀏覽量:201

啟動您的職業生涯

完成課程獲得認證

開始
廣告
© . All rights reserved.