如何使用Python中的pywebcopy克隆網頁?


Python 提供了Pywebcopy 模組,允許我們下載並存儲整個網站,包括所有影像、HTML頁面和其他檔案到我們的機器上。在這個模組中,我們有一個名為save_webpage() 的函式,它允許我們克隆網頁。

安裝pywebcopy模組

首先,我們必須使用以下程式碼在Python環境中安裝pywebcopy模組。

pip install pywebcopy

安裝成功後,我們將獲得以下輸出:

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pywebcopy
  Downloading pywebcopy-7.0.2-py2.py3-none-any.whl (46 kB)
     . . . . . . . . . . . . . . . . . . . . . . . . . . 
     . . . . . . . . . . . . . . . . . . . . . . . . . . 
     . . . . . . . . . . . . . . . . . . . . . . . . . . 

Installing collected packages: pywebcopy
Successfully installed pywebcopy-7.0.2

語法

以下是使用Pywebcopy 模組save_webpage() 函式的語法。

from pywebpage import save_webpage
kwargs = {‘bypass_robots’: True, ‘project_name’:’example’}
save_webpage(url,folder,**kwargs)

其中:

  • kwargs 是我們下載網頁時可以使用的可選關鍵字引數。

  • bypass_robots 是允許下載robot.txt檔案以及網頁的關鍵字。

  • project_name 是下載網頁的名稱。

  • save_webpage 是函式名。

  • URL 是網頁的連結。

  • Folder 是儲存下載檔案的路徑。

示例

以下是一個示例,我們將向pywebcopy模組的save_webpage() 函式指定網頁URL、檔案儲存位置和附加關鍵字引數,然後定義的網頁將以指定的名稱儲存在定義的位置。

from pywebcopy import save_webpage
url = 'https://tutorialspoint.tw/'
folder = 'Desktop/March 2023'
kwargs = {'bypass_robots': True, 'project_name': 'sample_webpage'}
save_webpage(url, folder, **kwargs)
print("webpage saved in the location:",folder)

輸出

當我們執行上述程式碼時,將生成以下輸出:

webpage saved in the location: Desktop/March 2023

示例

讓我們看看另一個例子:

from pywebcopy import save_webpage
url = 'https://python.club.tw/'
folder = 'Articles/March 2023'
kwargs = {'bypass_robots': False, 'project_name': 'webpage'}
save_webpage(url, folder, **kwargs)
print("webpage saved in the location:",folder)

輸出

以下是儲存網頁的輸出。

webpage saved in the location: Articles/March 2023

更新於:2023年8月9日

2K+ 瀏覽量

啟動您的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.