如何使用BeautifulSoup從網站提取“href”連結?
BeautifulSoup是一個用於從網頁解析資料的第三方Python庫。它有助於進行網頁抓取,這是一個從不同資源提取、使用和操作資料的過程。
網頁抓取也可用於提取資料以進行研究、瞭解/比較市場趨勢、執行SEO監控等等。
以下命令可在Windows上安裝BeautifulSoup:
pip install beautifulsoup4
以下是一個示例:
示例
from bs4 import BeautifulSoup import requests url = "https://en.wikipedia.org/wiki/Algorithm" req = requests.get(url) soup = BeautifulSoup(req.text, "html.parser") print("The href links are :") for link in soup.find_all('a'): print(link.get('href'))
輸出
The href links are : … https://stats.wikimedia.org/#/en.wikipedia.org https://foundation.wikimedia.org/wiki/Cookie_statement https://wikimediafoundation.org/ https://www.mediawiki.org/
解釋
匯入併為所需的包設定別名。
定義網站。
開啟URL並從中讀取資料。
使用“BeautifulSoup”函式從網頁提取文字。
使用“find_all”函式從網頁資料中提取文字。
在控制檯中列印href連結。
廣告