如何使用BeautifulSoup從網站提取“href”連結？

BeautifulSoup是一個用於從網頁解析資料的第三方Python庫。它有助於進行網頁抓取，這是一個從不同資源提取、使用和操作資料的過程。

網頁抓取也可用於提取資料以進行研究、瞭解/比較市場趨勢、執行SEO監控等等。

以下命令可在Windows上安裝BeautifulSoup：

pip install beautifulsoup4

以下是一個示例：

示例

from bs4 import BeautifulSoup
import requests
url = "https://en.wikipedia.org/wiki/Algorithm"
req = requests.get(url)
soup = BeautifulSoup(req.text, "html.parser")
print("The href links are :")
for link in soup.find_all('a'):
   print(link.get('href'))

輸出

The href links are :
…
https://stats.wikimedia.org/#/en.wikipedia.org
https://foundation.wikimedia.org/wiki/Cookie_statement
https://wikimediafoundation.org/
https://www.mediawiki.org/

解釋

匯入併為所需的包設定別名。
定義網站。
開啟URL並從中讀取資料。
使用“BeautifulSoup”函式從網頁提取文字。
使用“find_all”函式從網頁資料中提取文字。
在控制檯中列印href連結。

AmitDiwan

更新於：2021年1月18日

12K+ 瀏覽量

啟動你的職業生涯

完成課程獲得認證

開始學習