如何使用BeautifulSoup從網站提取“href”連結?


BeautifulSoup是一個用於從網頁解析資料的第三方Python庫。它有助於進行網頁抓取,這是一個從不同資源提取、使用和操作資料的過程。

網頁抓取也可用於提取資料以進行研究、瞭解/比較市場趨勢、執行SEO監控等等。

以下命令可在Windows上安裝BeautifulSoup:

pip install beautifulsoup4

以下是一個示例:

示例

from bs4 import BeautifulSoup
import requests
url = "https://en.wikipedia.org/wiki/Algorithm"
req = requests.get(url)
soup = BeautifulSoup(req.text, "html.parser")
print("The href links are :")
for link in soup.find_all('a'):
   print(link.get('href'))

輸出

The href links are :
…
https://stats.wikimedia.org/#/en.wikipedia.org
https://foundation.wikimedia.org/wiki/Cookie_statement
https://wikimediafoundation.org/
https://www.mediawiki.org/

解釋

  • 匯入併為所需的包設定別名。

  • 定義網站。

  • 開啟URL並從中讀取資料。

  • 使用“BeautifulSoup”函式從網頁提取文字。

  • 使用“find_all”函式從網頁資料中提取文字。

  • 在控制檯中列印href連結。

更新於:2021年1月18日

12K+ 瀏覽量

啟動你的職業生涯

完成課程獲得認證

開始學習
廣告