Beautiful Soup - 從 HTML 中抓取列表



網頁通常以有序或無序列表的形式包含重要的資料。使用 Beautiful Soup,我們可以輕鬆地提取 HTML 列表元素,將資料轉換為 Python 物件,並存儲在資料庫中以進行進一步分析。在本章中,我們將使用 find() 和 select() 方法從 HTML 文件中抓取列表資料。

搜尋解析樹的最簡單方法是按其名稱搜尋標籤。soup.<tag> 獲取給定標籤的內容。

HTML 提供 <ol> 和 <ul> 標籤來編寫有序和無序列表。像任何其他標籤一樣,我們可以獲取這些標籤的內容。

我們將使用以下 HTML 文件 -

<html>
   <body>
      <h2>Departmentwise Employees</h2>
      <ul id="dept">
      <li>Accounts</li>
         <ul id='acc'>
         <li>Anand</li>
         <li>Mahesh</li>
         </ul>
      <li>HR</li>
         <ol id="HR">
         <li>Rani</li>
         <li>Ankita</li>
         </ol>
      </ul>
   </body>
</html>

按標籤抓取列表

在上面的 HTML 文件中,我們有一個頂級 <ul> 列表,在其內部還有一個 <ul> 標籤和另一個 <ol> 標籤。我們首先將文件解析到 soup 物件中,並檢索 soup.ul Tag 物件中第一個 <ul> 的內容。

示例

from bs4 import BeautifulSoup

fp = open('index.html')

soup = BeautifulSoup(fp, 'html.parser')

lst=soup.ul

print (lst)

輸出

<ul id="dept">
<li>Accounts</li>
<ul id="acc">
<li>Anand</li>
<li>Mahesh</li>
</ul>
<li>HR</li>
<ol id="HR">
<li>Rani</li>
<li>Ankita</li>
</ol>
</ul>

更改 lst 的值以指向 <ol> 元素以獲取內部列表。

lst=soup.ol

輸出

<ol id="HR">
<li>Rani</li>
<li>Ankita</li>
</ol>

使用 select() 方法

select() 方法主要用於使用 CSS 選擇器獲取資料。但是,您也可以向其傳遞標籤。在這裡,我們可以將 ol 標籤傳遞給 select() 方法。select_one() 方法也可用。它獲取給定標籤的第一個匹配項。

示例

from bs4 import BeautifulSoup

fp = open('index.html')

soup = BeautifulSoup(fp, 'html.parser')

lst=soup.select("ol")

print (lst)

輸出

[<ol id="HR">
<li>Rani</li>
<li>Ankita</li>
</ol>]

使用 find_all() 方法

find() 和 fin_all() 方法更全面。您可以將各種型別的過濾器(例如標籤、屬性或字串等)傳遞給這些方法。在這種情況下,我們希望獲取列表標籤的內容。

在以下程式碼中,find_all() 方法返回 <ul> 標籤中所有元素的列表。

示例

from bs4 import BeautifulSoup

fp = open('index.html')

soup = BeautifulSoup(fp, 'html.parser')

lst=soup.find_all("ul")

print (lst)

我們可以透過包含 attrs 引數來細化搜尋過濾器。在我們的 HTML 文件中,<ul> 和 <ol> 標籤已指定了各自的 id 屬性。因此,讓我們獲取具有 id="acc" 的 <ul> 元素的內容。

示例

from bs4 import BeautifulSoup

fp = open('index.html')

soup = BeautifulSoup(fp, 'html.parser')

lst=soup.find_all("ul", {"id":"acc"})

print (lst)

輸出

[<ul id="acc">
<li>Anand</li>
<li>Mahesh</li>
</ul>]

這是另一個示例。我們收集所有帶有 <li> 標籤的元素,其內部文字以“A”開頭。find_all() 方法接受一個關鍵字引數字串。如果 startingwith() 函式返回 True,則它將獲取文字的值。

示例

from bs4 import BeautifulSoup

def startingwith(ch):
   return ch.startswith('A')

fp = open('index.html')

soup = BeautifulSoup(fp, 'html.parser')

lst=soup.find_all('li',string=startingwith)

print (lst)

輸出

[<li>Accounts</li>, <li>Anand</li>, <li>Ankita</li>]
廣告