URL 處理 Python 模組 (urllib)


Python 語言廣泛用於 Web 程式設計。當我們瀏覽網站時,我們使用 Web 地址,也稱為 URL 或統一資源定位符。Python 具有內建的工具,可以處理對 URL 的呼叫以及傳遞訪問 URL 後得到的結果。在本文中,我們將看到一個名為 **urllib** 的模組。我們還將看到此模組中存在的各種函式,這些函式有助於從 URL 獲取結果。

安裝 urllib

要在 Python 環境中安裝 urllib,我們使用 pip 使用以下命令。

pip install urllib

執行以上程式碼,我們得到以下結果:

開啟 URL

request.urlopen 方法用於訪問 URL 並將其內容提取到 Python 環境。

示例

import urllib.request
address = urllib.request.urlopen('https://tutorialspoint.tw/')
print(address.read())

輸出

執行以上程式碼,我們得到以下結果:

b'<!DOCTYPE html>\r\n<!--[if IE 8]><html class="ie ie8"> <![endif]-->\r\n<!--[if IE 9]><html class……..
……………
……………….
new Date());\r\ngtag(\'config\', \'UA-232293-6\');\r\n</script>\r\n</body>\r\n</html>\r\n' -->

urllib.parse

我們可以解析 URL 以檢查它是否有效。我們還可以將查詢字串傳遞給搜尋選項。可以檢查響應的有效性,如果有效,我們可以列印整個響應。

示例

import urllib.request
import urllib.parse
url='https://tutorialspoint.tw'
values= {'q':'python'}
data = urllib.parse.urlencode(values)
data = data.encode('utf-8') # data should be bytes
print(data)
req = urllib.request.Request(url, data)
resp = urllib.request.urlopen(req)
print(resp)
respData = resp.read()
print(respData)

輸出

執行以上程式碼,我們得到以下結果:

b'q=python'
<http.client.HTTPResponse object at 0x00000195BF706850>
b'<!DOCTYPE html>\r\n<!--[if IE 8]><html class="ie ie8"> <![endif]…………
…………………
\r\n</script>\r\n</body>\r\n</html<\r\n' -->

urllib.parse.urlsplit

urlsplit 可用於獲取 URL,然後將其拆分為多個部分,這些部分可用於進一步的資料操作。例如,如果我們想以程式設計方式判斷 URL 是否具有 SSL 證書,那麼我們應用 urlsplit 並獲取 scheme 值來決定。在下面的示例中,我們檢查提供的 URL 的不同部分。

輸出

import urllib.parse
url='https://tutorialspoint.tw/python'
value = urllib.parse.urlsplit(url)
print(value)

執行以上程式碼,我們得到以下結果:

SplitResult(scheme='https', netloc='tutorialspoint.com', path='/python', query='', fragment='')

更新於:2020年2月14日

1K+ 次檢視

開啟您的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.