Beautiful Soup - 檢查資料來源



為了使用 BeautifulSoup 和 Python 抓取網頁,任何網頁抓取專案的首要步驟都應該是探索您想要抓取的網站。因此,在開始提取與您相關的 資訊之前,首先訪問該網站以瞭解網站結構。

讓我們訪問 TutorialsPoint 的 Python 教程主頁。在瀏覽器中開啟 https://tutorialspoint.tw/python3/index.htm

使用開發者工具可以幫助您瞭解網站的結構。所有現代瀏覽器都安裝了開發者工具。

如果使用 Chrome 瀏覽器,請從右上角選單按鈕 (⋮) 開啟開發者工具,然後選擇更多工具 → 開發者工具。

Developer Tools

使用開發者工具,您可以探索站點的文件物件模型 (DOM) 以更好地理解您的原始碼。在開發者工具中選擇“元素”選項卡。您將看到一個帶有可點選 HTML 元素的結構。

教程頁面在左側邊欄中顯示了目錄。右鍵單擊任意章節,然後選擇“檢查”選項。

tutorial_page

對於“元素”選項卡,找到與 TOC 列表對應的標籤,如下圖所示 -

TOC_list

右鍵單擊 HTML 元素,複製 HTML 元素,並將其貼上到任何編輯器中。

html element

<ul>..</ul> 元素的 HTML 指令碼現已獲得。

<ul class="toc chapters">
   <li class="heading">Python 3 Basic Tutorial</li>
   <li class="current-chapter"><a href="/python3/index.htm">Python 3 - Home</a></li>
   <li><a href="/python3/python3_whatisnew.htm">What is New in Python 3</a></li>
   <li><a href="/python3/python_overview.htm">Python 3 - Overview</a></li>
   <li><a href="/python3/python_environment.htm">Python 3 - Environment Setup</a></li>
   <li><a href="/python3/python_basic_syntax.htm">Python 3 - Basic Syntax</a></li>
   <li><a href="/python3/python_variable_types.htm">Python 3 - Variable Types</a></li>
   <li><a href="/python3/python_basic_operators.htm">Python 3 - Basic Operators</a></li>
   <li><a href="/python3/python_decision_making.htm">Python 3 - Decision Making</a></li>
   <li><a href="/python3/python_loops.htm">Python 3 - Loops</a></li>
   <li><a href="/python3/python_numbers.htm">Python 3 - Numbers</a></li>
   <li><a href="/python3/python_strings.htm">Python 3 - Strings</a></li>
   <li><a href="/python3/python_lists.htm">Python 3 - Lists</a></li>
   <li><a href="/python3/python_tuples.htm">Python 3 - Tuples</a></li>
   <li><a href="/python3/python_dictionary.htm">Python 3 - Dictionary</a></li>
   <li><a href="/python3/python_date_time.htm">Python 3 - Date & Time</a></li>
   <li><a href="/python3/python_functions.htm">Python 3 - Functions</a></li>
   <li><a href="/python3/python_modules.htm">Python 3 - Modules</a></li>
   <li><a href="/python3/python_files_io.htm">Python 3 - Files I/O</a></li>
   <li><a href="/python3/python_exceptions.htm">Python 3 - Exceptions</a></li>
</ul>

我們現在可以將此指令碼載入到 BeautifulSoup 物件中以解析文件樹。

廣告