連結預測 - 使用 Networkx 預測網路中的邊
連結預測是網路分析領域的一個核心概念。它涉及預測網路節點之間建立連結的可能性。Python 的 NetworkX 模組是網路分析的一個強大工具,包括連結預測任務。本教程將引導你使用 NetworkX 進行連結預測,並提供簡潔易懂的示例。
連結預測簡介
網路或圖中的節點表示實體,而這些節點之間的邊或連結反映了它們之間的關係。連結預測利用網路的當前拓撲結構來預測節點之間潛在的連結。連結預測具有多種用途,例如預測社交網路中的社交關係以及合著網路中的研究人員合作關係。
NetworkX 入門
在開始連結預測之前,請確保已安裝 NetworkX 庫。如果沒有,請使用 pip 安裝它:
pip install networkx
我們還需要安裝 numpy 和 pandas 庫才能進行連結預測。
pip install numpy pandas
NetworkX 中網路建立的基礎知識
讓我們從在 NetworkX 中建立一個基本網路開始:
import networkx as nx # Create an empty graph G = nx.Graph() # Add nodes G.add_node(1) G.add_node(2) G.add_node(3) # Add edges G.add_edge(1, 2) G.add_edge(1, 3) # Draw the graph nx.draw(G, with_labels=True)
這個簡單的網路只有三個節點和兩條邊。
NetworkX 中的連結預測
NetworkX 提供了許多用於執行連結預測的函式。它們基於不同的方法和理論。
示例 1:共同鄰居
使用共同鄰居是一種簡單的連結預測方法。它意味著如果兩個節點有很多共同鄰居,那麼它們更有可能形成連結。
# Create a graph G = nx.complete_graph(5) G.remove_edge(1, 3) # Perform link prediction preds = nx.common_neighbors(G, 1, 3) print(len(list(preds))) # Output: 3
在這裡,我們新增五個節點並刪除一條邊來構建一個完全圖(一個網路,其中每對節點都透過直接邊連線)。然後,我們根據共同鄰居的數量預測這條缺失的邊。
示例 2:Jaccard 係數
Jaccard 係數透過將共同鄰居的數量除以鄰居的總數來計算,從而評估邊的可能性。
# Create a graph
G = nx.complete_graph(5)
G.remove_edge(1, 3)
# Perform link prediction
preds = nx.jaccard_coefficient(G, [(1, 3)])
for u, v, p in preds:
print(f'({u}, {v}) -> {p}') # Output: (1, 3) -> 0.6
在本例中,計算了已刪除邊的 Jaccard 係數。
示例 3:優先依附
優先依附理論認為,度數較高(連線更多)的節點將來更有可能連線。
# Create a graph
G = nx.complete_graph(5)
G.remove_edge(1, 3)
# Perform link prediction
preds = nx.preferential_attachment(G, [(1, 3)])
for u, v, p in preds:
print(f'({u}, {v}) -> {p}') # Output: (1, 3) -> 12
在本例中,計算了已刪除邊的優先依附得分。
示例 4:Adamic/Adar 指數
與共同鄰居類似,Adamic/Adar 指數對度數較高的節點賦予較小的權重。
# Create a graph
G = nx.complete_graph(5)
G.remove_edge(1, 3)
# Perform link prediction
preds = nx.adamic_adar_index(G, [(1, 3)])
for u, v, p in preds:
print(f'({u}, {v}) -> {p}') # Output: (1, 3) -> 1.8204784532536746
在本例中,計算了一個十進位制值,即 Adamic/Adar 指數,它衡量了已刪除的邊。
示例 5:資源分配指數
資源分配指數是另一個指標,它根據兩個節點的共同鄰居建立得分。
# Create a graph
G = nx.complete_graph(5)
G.remove_edge(1, 3)
# Perform link prediction
preds = nx.resource_allocation_index(G, [(1, 3)])
for u, v, p in preds:
print(f'({u}, {v}) -> {p}') # Output: (1, 3) -> 0.6666666666666666
在這裡,計算了已刪除邊的資源分配指數。
結論
連結預測是一個有趣的主題,具有許多現實世界的應用。Python 中的 NetworkX 包提供了許多連結預測方法,每種方法都有其優點和缺點。與往常一樣,瞭解基本概念和技術、嘗試不同的方法並選擇最適合你的特定用例的方法至關重要。
在本指南中,我們採用了動手的方法來理解 NetworkX 中的連結預測。我們討論了基本概念,並透過簡單的示例說明了各種連結預測方法。但這僅僅是冰山一角。當你更深入地研究 NetworkX 時,網路分析和連結預測的可能性將會變得更加廣闊。
資料結構
網路
關係型資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP