Beautiful Soup - 從HTML中抓取段落

HTML文件中經常出現的標籤之一是標籤，它標記段落文字。使用Beautiful Soup，您可以輕鬆地從解析的文件樹中提取段落。本章將討論使用BeautifulSoup庫抓取段落的幾種方法。

使用標籤抓取HTML段落
使用find_all()方法抓取HTML段落
使用select()方法抓取HTML段落

我們將使用以下HTML文件進行這些練習：

<html>
   <head>
      <title>BeautifulSoup - Scraping Paragraph</title>
   </head>
   <body>
      <p id='para1'>The quick, brown fox jumps over a lazy dog.</p>
      <h2>Hello</h2>
      <p>DJs flock by when MTV ax quiz prog.</p>
      
      <p>Junk MTV quiz graced by fox whelps.</p>
      
      <p>Bawds jog, flick quartz, vex nymphs.</p>
   </body>
</html>

透過標籤抓取

搜尋解析樹最簡單的方法是按其名稱搜尋標籤。因此，表示式soup.p指向已解析文件中的第一個標籤。

para = soup.p

要獲取所有後續的標籤，您可以執行一個迴圈，直到soup物件用盡所有標籤。以下程式顯示所有段落標籤的美化輸出。

示例

from bs4 import BeautifulSoup

fp = open('index.html')

soup = BeautifulSoup(fp, 'html.parser')

para = soup.p 
print (para.prettify())
while True:
   p = para.find_next('p')
   if p is None:
      break
   print (p.prettify())
   para=p

輸出

<p>
 The quick, brown fox jumps over a lazy dog.
</p>

<p>
 DJs flock by when MTV ax quiz prog.
</p>

<p>
 Junk MTV quiz graced by fox whelps.
</p>

<p>
 Bawds jog, flick quartz, vex nymphs.
</p>

使用find_all()方法

find_all()方法更全面。您可以將各種型別的過濾器（例如標籤、屬性或字串等）傳遞給此方法。在本例中，我們想要獲取標籤的內容。

在下面的程式碼中，find_all()方法返回標籤中所有元素的列表。

示例

from bs4 import BeautifulSoup

fp = open('index.html')

soup = BeautifulSoup(fp, 'html.parser')

paras = soup.find_all('p') 
for para in paras:
   print (para.prettify())

輸出

<p>
 The quick, brown fox jumps over a lazy dog.
</p>

<p>
 DJs flock by when MTV ax quiz prog.
</p>

<p>
 Junk MTV quiz graced by fox whelps.
</p>

<p>
 Bawds jog, flick quartz, vex nymphs.
</p>

我們可以使用另一種方法來查詢所有標籤。首先，使用find_all()獲取所有標籤的列表，然後檢查每個標籤的Tag.name是否等於'p'。

示例

from bs4 import BeautifulSoup

fp = open('index.html')

soup = BeautifulSoup(fp, 'html.parser')
tags = soup.find_all()
paras = [tag.contents for tag in tags if tag.name=='p']
print (paras)

find_all()方法還有一個attrs引數。當您想要提取具有特定屬性的標籤時，它非常有用。例如，在給定的文件中，第一個元素具有id='para1'。要獲取它，我們需要修改標籤物件如下：

paras = soup.find_all('p', attrs={'id':'para1'})

使用select()方法

select()方法主要用於使用CSS選擇器獲取資料。但是，您也可以向其傳遞一個標籤。在這裡，我們可以將標籤傳遞給select()方法。select_one()方法也可用。它獲取標籤的第一次出現。

示例

from bs4 import BeautifulSoup

fp = open('index.html')

soup = BeautifulSoup(fp, 'html.parser')

paras = soup.select('p')
print (paras)

輸出

[
<p>The quick, brown fox jumps over a lazy dog.</p>, 
<p>DJs flock by when MTV ax quiz prog.</p>, 
<p>Junk MTV quiz graced by fox whelps.</p>, 
<p>Bawds jog, flick quartz, vex nymphs.</p>
]

要過濾掉具有特定id的標籤，請使用for迴圈，如下所示：

示例

from bs4 import BeautifulSoup

fp = open('index.html')

soup = BeautifulSoup(fp, 'html.parser')
tags = soup.select('p')
for tag in tags:
   if tag.has_attr('id') and tag['id']=='para1':
      print (tag.contents)

輸出

['The quick, brown fox jumps over a lazy dog.']

列印頁面

Beautiful Soup - 從HTML中抓取段落

透過<p>標籤抓取

示例

輸出

使用find_all()方法

示例

輸出

示例

使用select()方法

示例

輸出

示例

輸出