如何在 Python 中使用 BeautifulSoup 包提取網站域名?


BeautifulSoup 是一個用於解析網頁資料的第三方 Python 庫。它有助於網頁抓取,網頁抓取是從不同資源中提取、使用和操作資料的過程。此外,它還有助於開發人員進行自然語言處理應用,幫助分析資料並從中提取有意義的見解。

自然語言處理或 NLP 是機器學習的一部分,它處理文字資料以及對其進行預處理以將其作為機器學習問題的輸入的方法。

網頁抓取也可用於提取資料以進行研究目的、瞭解/比較市場趨勢、執行 SEO 監控等。

以下程式碼行可以在 Windows 上執行以安裝 BeautifulSoup:

示例

pip install beautifulsoup4
import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
import urllib

url = 'https://en.wikipedia.org/wiki/Algorithm'
parsed_uri = urllib.request.urlparse(url)
domainName = '{uri.scheme}://{uri.netloc}/'.format(uri=parsed_uri)
print("The domain name is : ")
print(domainName)

輸出

The domain name is :
https://en.wikipedia.org/

解釋

  • 匯入併為所需的包設定別名。

  • 定義網站。

  • 使用“netloc”和“scheme”函式確定域名。

  • 呼叫“urlparse”函式以獲取域名。

  • 在控制檯上列印域名。

更新於:2021年1月18日

661 次檢視

開啟你的 職業生涯

完成課程獲得認證

開始學習
廣告