
- Beautiful Soup 教程
- Beautiful Soup - 首頁
- Beautiful Soup - 概述
- Beautiful Soup - 網頁抓取
- Beautiful Soup - 安裝
- Beautiful Soup - 解析頁面
- Beautiful Soup - 物件型別
- Beautiful Soup - 檢查資料來源
- Beautiful Soup - 抓取 HTML 內容
- Beautiful Soup - 透過標籤導航
- Beautiful Soup - 透過 ID 查詢元素
- Beautiful Soup - 透過類查詢元素
- Beautiful Soup - 透過屬性查詢元素
- Beautiful Soup - 搜尋樹
- Beautiful Soup - 修改樹
- Beautiful Soup - 解析文件的一部分
- Beautiful Soup - 查詢元素的所有子元素
- Beautiful Soup - 使用 CSS 選擇器查詢元素
- Beautiful Soup - 查詢所有註釋
- Beautiful Soup - 從 HTML 中抓取列表
- Beautiful Soup - 從 HTML 中抓取段落
- BeautifulSoup - 從 HTML 中抓取連結
- Beautiful Soup - 獲取所有 HTML 標籤
- Beautiful Soup - 獲取標籤內的文字
- Beautiful Soup - 查詢所有標題
- Beautiful Soup - 提取標題標籤
- Beautiful Soup - 提取電子郵件 ID
- Beautiful Soup - 抓取巢狀標籤
- Beautiful Soup - 解析表格
- Beautiful Soup - 選擇第 n 個子元素
- Beautiful Soup - 根據標籤內的文字搜尋
- Beautiful Soup - 刪除 HTML 標籤
- Beautiful Soup - 刪除所有樣式
- Beautiful Soup - 刪除所有指令碼
- Beautiful Soup - 刪除空標籤
- Beautiful Soup - 刪除子元素
- Beautiful Soup - find 與 find_all 的區別
- Beautiful Soup - 指定解析器
- Beautiful Soup - 比較物件
- Beautiful Soup - 複製物件
- Beautiful Soup - 獲取標籤位置
- Beautiful Soup - 編碼
- Beautiful Soup - 輸出格式
- Beautiful Soup - 美化輸出
- Beautiful Soup - NavigableString 類
- Beautiful Soup - 將物件轉換為字串
- Beautiful Soup - 將 HTML 轉換為文字
- Beautiful Soup - 解析 XML
- Beautiful Soup - 錯誤處理
- Beautiful Soup - 故障排除
- Beautiful Soup - 移植舊程式碼
- Beautiful Soup - 函式參考
- Beautiful Soup - contents 屬性
- Beautiful Soup - children 屬性
- Beautiful Soup - string 屬性
- Beautiful Soup - strings 屬性
- Beautiful Soup - stripped_strings 屬性
- Beautiful Soup - descendants 屬性
- Beautiful Soup - parent 屬性
- Beautiful Soup - parents 屬性
- Beautiful Soup - next_sibling 屬性
- Beautiful Soup - previous_sibling 屬性
- Beautiful Soup - next_siblings 屬性
- Beautiful Soup - previous_siblings 屬性
- Beautiful Soup - next_element 屬性
- Beautiful Soup - previous_element 屬性
- Beautiful Soup - next_elements 屬性
- Beautiful Soup - previous_elements 屬性
- Beautiful Soup - find 方法
- Beautiful Soup - find_all 方法
- Beautiful Soup - find_parents 方法
- Beautiful Soup - find_parent 方法
- Beautiful Soup - find_next_siblings 方法
- Beautiful Soup - find_next_sibling 方法
- Beautiful Soup - find_previous_siblings 方法
- Beautiful Soup - find_previous_sibling 方法
- Beautiful Soup - find_all_next 方法
- Beautiful Soup - find_next 方法
- Beautiful Soup - find_all_previous 方法
- Beautiful Soup - find_previous 方法
- Beautiful Soup - select 方法
- Beautiful Soup - append 方法
- Beautiful Soup - extend 方法
- Beautiful Soup - NavigableString 方法
- Beautiful Soup - new_tag 方法
- Beautiful Soup - insert 方法
- Beautiful Soup - insert_before 方法
- Beautiful Soup - insert_after 方法
- Beautiful Soup - clear 方法
- Beautiful Soup - extract 方法
- Beautiful Soup - decompose 方法
- Beautiful Soup - replace_with 方法
- Beautiful Soup - wrap 方法
- Beautiful Soup - unwrap 方法
- Beautiful Soup - smooth 方法
- Beautiful Soup - prettify 方法
- Beautiful Soup - encode 方法
- Beautiful Soup - decode 方法
- Beautiful Soup - get_text 方法
- Beautiful Soup - diagnose 方法
- Beautiful Soup 有用資源
- Beautiful Soup - 快速指南
- Beautiful Soup - 有用資源
- Beautiful Soup - 討論
Beautiful Soup - 從 HTML 中抓取列表
網頁通常以有序或無序列表的形式包含重要的資料。使用 Beautiful Soup,我們可以輕鬆地提取 HTML 列表元素,將資料轉換為 Python 物件,並存儲在資料庫中以進行進一步分析。在本章中,我們將使用 find() 和 select() 方法從 HTML 文件中抓取列表資料。
搜尋解析樹的最簡單方法是按其名稱搜尋標籤。soup.<tag> 獲取給定標籤的內容。
HTML 提供 <ol> 和 <ul> 標籤來編寫有序和無序列表。像任何其他標籤一樣,我們可以獲取這些標籤的內容。
我們將使用以下 HTML 文件 -
<html> <body> <h2>Departmentwise Employees</h2> <ul id="dept"> <li>Accounts</li> <ul id='acc'> <li>Anand</li> <li>Mahesh</li> </ul> <li>HR</li> <ol id="HR"> <li>Rani</li> <li>Ankita</li> </ol> </ul> </body> </html>
按標籤抓取列表
在上面的 HTML 文件中,我們有一個頂級 <ul> 列表,在其內部還有一個 <ul> 標籤和另一個 <ol> 標籤。我們首先將文件解析到 soup 物件中,並檢索 soup.ul Tag 物件中第一個 <ul> 的內容。
示例
from bs4 import BeautifulSoup fp = open('index.html') soup = BeautifulSoup(fp, 'html.parser') lst=soup.ul print (lst)
輸出
<ul id="dept"> <li>Accounts</li> <ul id="acc"> <li>Anand</li> <li>Mahesh</li> </ul> <li>HR</li> <ol id="HR"> <li>Rani</li> <li>Ankita</li> </ol> </ul>
更改 lst 的值以指向 <ol> 元素以獲取內部列表。
lst=soup.ol
輸出
<ol id="HR"> <li>Rani</li> <li>Ankita</li> </ol>
使用 select() 方法
select() 方法主要用於使用 CSS 選擇器獲取資料。但是,您也可以向其傳遞標籤。在這裡,我們可以將 ol 標籤傳遞給 select() 方法。select_one() 方法也可用。它獲取給定標籤的第一個匹配項。
示例
from bs4 import BeautifulSoup fp = open('index.html') soup = BeautifulSoup(fp, 'html.parser') lst=soup.select("ol") print (lst)
輸出
[<ol id="HR"> <li>Rani</li> <li>Ankita</li> </ol>]
使用 find_all() 方法
find() 和 fin_all() 方法更全面。您可以將各種型別的過濾器(例如標籤、屬性或字串等)傳遞給這些方法。在這種情況下,我們希望獲取列表標籤的內容。
在以下程式碼中,find_all() 方法返回 <ul> 標籤中所有元素的列表。
示例
from bs4 import BeautifulSoup fp = open('index.html') soup = BeautifulSoup(fp, 'html.parser') lst=soup.find_all("ul") print (lst)
我們可以透過包含 attrs 引數來細化搜尋過濾器。在我們的 HTML 文件中,<ul> 和 <ol> 標籤已指定了各自的 id 屬性。因此,讓我們獲取具有 id="acc" 的 <ul> 元素的內容。
示例
from bs4 import BeautifulSoup fp = open('index.html') soup = BeautifulSoup(fp, 'html.parser') lst=soup.find_all("ul", {"id":"acc"}) print (lst)
輸出
[<ul id="acc"> <li>Anand</li> <li>Mahesh</li> </ul>]
這是另一個示例。我們收集所有帶有 <li> 標籤的元素,其內部文字以“A”開頭。find_all() 方法接受一個關鍵字引數字串。如果 startingwith() 函式返回 True,則它將獲取文字的值。
示例
from bs4 import BeautifulSoup def startingwith(ch): return ch.startswith('A') fp = open('index.html') soup = BeautifulSoup(fp, 'html.parser') lst=soup.find_all('li',string=startingwith) print (lst)
輸出
[<li>Accounts</li>, <li>Anand</li>, <li>Ankita</li>]