HTML 清理和實體轉換 - Python

超文字標記語言，即 HTML，是一種用於建立網際網路網頁內容的標記語言。HTML 文件檔案可能包含一些不需要的或惡意的元素，這些元素可能會在渲染網頁時導致一些問題。在處理 HTML 內容之前，我們需要執行 HTML 清理以刪除和清理檔案中的惡意元素。HTML 實體是需要轉換為相應 HTML 表示形式的特殊字元，以確保在瀏覽器中正確渲染。在本文中，我們將瞭解使用 Python 的清理和實體轉換方法。

HTML 清理

HTML 清理用於從 HTML 檔案中刪除不需要的和惡意的元素，例如從 HTML 文件中刪除不需要的元素，如 JavaScript 程式碼、CSS 樣式或潛在的有害標籤。這使得內容更安全，並保持內容的完整性。

使用 Beautiful Soup 庫進行 HTML 清理

Beautiful Soup 庫可以有效地使用 find() 和 decompose() 方法來清理 HTML 內容。透過利用 Beautiful Soup 的 find 和 decompose 方法，可以輕鬆地從 HTML 文件中刪除不需要的元素，如指令碼和樣式標籤。此外，Beautiful Soup 允許透過新增邏輯來根據特定要求刪除其他不需要的元素，從而確保乾淨且經過清理的 HTML 輸出。

示例

在下面的示例中，我們定義了一個名為 clean_html 的函式，它以 HTML 字串作為輸入。我們透過使用 'lxml' 解析器解析 HTML 來建立一個 Beautiful Soup 物件。然後，我們遍歷文件，查詢並刪除 <script> 和 <style> 標籤。可以新增其他邏輯來刪除其他不需要的元素，例如 <iframe> 或 <object> 標籤。作為輸出，我們返回已清理的 HTML 作為字串。

from bs4 import BeautifulSoup

def clean_html(html):
    soup = BeautifulSoup(html, 'lxml')
    # Remove script tags
    for script in soup.find_all('script'):
        script.decompose()
    # Remove style tags
    for style in soup.find_all('style'):
        style.decompose()
    # Remove other unwanted elements
    # ...
    return str(soup)

# Example usage
html = '<html><head><script>alert("Hello, world!")</script></head><body><h1>Welcome</h1></body></html>'
cleaned_html = clean_html(html)
print(cleaned_html)

輸出

<html><head></head><body><h1>Welcome</h1></body></html>

使用 lxml 庫進行 HTML 清理

除了 Beautiful Soup 之外，另一個用於 Python 中 HTML 清理的強大庫是 lxml。它提供了一個名為 clean_html() 的內建函式，該函式可以刪除不需要的元素並清理 HTML 文件。

示例

在下面的示例中，我們從 lxml.html.clean 模組匯入 clean_html() 函式。我們定義了自己的 clean_html() 函式，該函式以 HTML 字串作為輸入，並使用 clean_html() 執行清理操作。該函式返回已清理的 HTML。

lxml 中的 clean_html() 函式對 HTML 文件執行許多清理操作。它刪除指令碼標籤、樣式標籤和其他潛在的危險元素。它還透過刪除任何無效或格式錯誤的標籤或屬性來清理 HTML。該函式確保生成的 HTML 安全且格式良好。

from lxml.html.clean import clean_html as lxml_clean_html

def clean_my_html(html):
    cleaned_html = lxml_clean_html(html)
    return cleaned_html

# Example usage
html = '<html><head><script>alert("Hello, world!")</script></head><body><h1>Welcome</h1></body></html>'
cleaned_html = clean_my_html(html)
print(cleaned_html)

輸出

<div><body><h1>Welcome</h1></body></div>

實體轉換

HTML 中的實體是特殊字元，例如 <, >, ", 或 & ，在 HTML 中具有特殊含義。如果我們希望這些字元在 Web 瀏覽器中正確顯示，我們需要將其轉換為 HTML 實體。Python 的 html 模組可用於執行實體轉換。

示例

在下面的示例中，我們匯入 html 模組並定義一個名為 convert_entities 的函式，該函式以文字字串作為輸入。我們使用 html.escape() 函式將文字中的特殊字元轉換為相應的 HTML 實體。該函式返回轉換後的文字。

import html

def convert_entities(text):
    return html.escape(text)

# Example usage
text = '<p>Tom & Jerry</p>'
converted_text = convert_entities(text)
print(converted_text)

輸出

&lt;p&gt; Tom &amp; Jerry&lt;p&gt;

結論

在本文中，我們討論瞭如何在 Web 開發中進行 HTML 清理和實體轉換以確保 HTML 文件的安全、完整性和正確渲染。可以使用 Python 的 Beautiful Soup 庫和 html 模組進行 HTML 清理。Beautiful Soup 允許我們解析 HTML 文件、查詢和刪除不需要的元素，而 html 模組有助於將特殊字元轉換為 HTML 實體表示形式。透過利用這些工具，開發人員可以有效地清理和處理 HTML 內容，使其對終端使用者更安全可靠。

Rohan Singh

更新於: 2023年10月16日

479 次瀏覽

開啟您的職業生涯

透過完成課程獲得認證

立即開始