使用 Python 分析人口普查資料
人口普查是指以系統的方式記錄特定人群的資訊。捕獲的資料包括各種類別的資訊,例如人口統計、經濟和居住情況等。這最終有助於政府瞭解當前情況以及未來的規劃。在本文中,我們將瞭解如何利用 Python 分析印度人口普查資料。我們將研究各種人口統計和經濟方面。然後繪製圖表,以圖形方式展示分析結果。資料來源來自 Kaggle,位於 此處。
組織資料
在下面的程式中,我們首先使用一個簡短的 Python 程式獲取資料。它只是將資料載入到 Pandas 資料框中以供進一步分析。輸出顯示了一些欄位以進行更簡單的表示。
示例
import pandas as pd datainput = pd.read_csv('E:\india-districts-census-2011.csv') #https://www.kaggle.com/danofer/india-census#india-districts-census-2011.csv print(datainput)
輸出
執行以上程式碼將得到以下結果:
District code ... Total_Power_Parity 0 1 ... 1119 1 2 ... 1066 2 3 ... 242 3 4 ... 214 4 5 ... 629 .. ... ... ... 635 636 ... 10027 636 637 ... 4890 637 638 ... 3151 638 639 ... 3151 639 640 ... 5782 [640 rows x 118 columns]
分析兩個州之間的相似性
現在我們已經收集了資料,我們可以繼續分析兩個州在各個方面的相似性。相似性可以基於年齡組、電腦擁有率、住房可用性、教育水平等。在下面的示例中,我們選取了阿薩姆邦和安得拉邦這兩個州。然後我們使用 similarity_matrix 比較這兩個州。比較了來自這兩個州每個可能的區對的所有資料欄位。生成的熱圖表明這兩個州的相關程度。陰影越深,相關性越強。
示例
import pandas as pd import matplotlib.pyplot as plot from matplotlib.colors import Normalize import seaborn as sns import math datainput = pd.read_csv('E:\india-districts-census-2011.csv') df_ASSAM = datainput.loc[datainput['State name'] == 'ASSAM'] df_ANDHRA_PRADESH = datainput.loc[datainput['State name'] == 'ANDHRA PRADESH'] def segment(x1, x2): # Set indices for both the data frames x1.set_index('District code') x2.set_index('District code') # The similarity matrix of size len(x1) X len(x2) similarity_matrix = [] # Iterate through rows of df1 for r1 in x1.iterrows(): # Create list to hold similarity score of row1 with other rows of x2 y = [] # Iterate through rows of x2 for r2 in x2.iterrows(): # Calculate sum of squared differences n = 0 for c in list(datainput)[3:]: maximum_c = max(datainput[c]) minimum_c = min(datainput[c]) n += pow((r1[1][c] - r2[1][c]) / (maximum_c - minimum_c), 2) # Take sqrt and inverse the result y.append(1 / math.sqrt(n)) # Append similarity scores similarity_matrix.append(y) p = 0 q = 0 r = 0 for m in range(len(similarity_matrix)): for n in range(len(similarity_matrix[m])): if (similarity_matrix[m][n] > p): p = similarity_matrix[m][n] q = m r = n print("%s from ASSAM and %s from ANDHRA PRADESH are most similar" % (x1['District name'].iloc[q],x2['District name'].iloc[r])) return similarity_matrix m = segment(df_ASSAM, df_ANDHRA_PRADESH) normalization=Normalize() s = plot.axes() sns.heatmap(normalization(m), xticklabels=df_ANDHRA_PRADESH['District name'],yticklabels=df_ASSAM['District name'],linewidths=0.05,cmap='Oranges').set_title("similar districts matrix of assam AND andhra_pradesh") plot.rcParams['figure.figsize'] = (20,20) plot.show()
輸出
執行以上程式碼將得到以下結果:
比較特定引數
現在我們還可以根據特定引數比較地點。在下面的示例中,我們比較了耕作者使用的家庭電腦的可用性。我們生成圖表,顯示了這兩個引數在每個州的比較情況。
示例
import pandas as pd import matplotlib.pyplot as plot from numpy import * datainput = pd.read_csv('E:\india-districts-census-2011.csv') z = datainput.groupby(by="State name") m = [] w = [] for k, g in z: t = 0 t1 = 0 for r in g.iterrows(): t += r[1][36] t1 += r[1][21] m.append((k, t)) w.append((k, t1)) mp= pd.DataFrame({ 'state': [x[0] for x in m], 'Households_with_Computer': [x[1] for x in m], 'Cultivator_Workers': [x[1] for x in w]}) d = arange(35) wi = 0.3 fig, f = plot.subplots() plot.xlim(0, 22000000) r1 = f.barh(d, mp['Cultivator_Workers'], wi, color='g', align='center') r2 = f.barh(d + wi, mp['Households_with_Computer'], wi, color='b', align='center') f.set_xlabel('Population') f.set_title('COMPUTER PENETRATION IN VARIOUS STATES W.R.T. Cultivator_Workers') f.set_yticks(d + wi / 2) f.set_yticklabels((x for x in mp['state'])) f.legend((r1[0], r2[0]), ('Cultivator_Workers', 'Households_with_Computer')) plot.rcParams.update({'font.size': 15}) plot.rcParams['figure.figsize'] = (15, 15) plot.show()
輸出
執行以上程式碼將得到以下結果:
廣告