如何使用BeautifulSoup從網站提取“href”連結?
BeautifulSoup是一個用於從網頁解析資料的第三方Python庫。它有助於進行網頁抓取,這是一個從不同資源提取、使用和操作資料的過程。
網頁抓取也可用於提取資料以進行研究、瞭解/比較市場趨勢、執行SEO監控等等。
以下命令可在Windows上安裝BeautifulSoup:
pip install beautifulsoup4
以下是一個示例:
示例
from bs4 import BeautifulSoup
import requests
url = "https://en.wikipedia.org/wiki/Algorithm"
req = requests.get(url)
soup = BeautifulSoup(req.text, "html.parser")
print("The href links are :")
for link in soup.find_all('a'):
print(link.get('href'))輸出
The href links are : … https://stats.wikimedia.org/#/en.wikipedia.org https://foundation.wikimedia.org/wiki/Cookie_statement https://wikimediafoundation.org/ https://www.mediawiki.org/
解釋
匯入併為所需的包設定別名。
定義網站。
開啟URL並從中讀取資料。
使用“BeautifulSoup”函式從網頁提取文字。
使用“find_all”函式從網頁資料中提取文字。
在控制檯中列印href連結。
廣告
資料結構
網路
關係資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP