Grep 正則表示式完全指南


介紹

在資料處理和分析方面,Grep 正則表示式是查詢文字中模式的強大工具。它通常用於需要搜尋特定字串或從大量資料中提取相關資訊的開發人員、系統管理員和資料分析師。

Grep 代表“Global Regular Expression Print”(全域性正則表示式列印),指的是一個命令列實用程式,用於在檔案或輸出流中搜索模式。正則表示式 (Regex) 是一系列字元,定義一個模式,可用於搜尋或操作文字。

Grep 正則表示式的入門

在不同平臺上安裝 Grep

在深入瞭解 Grep 正則表示式之前,首先需要在您的機器上安裝 Grep。安裝過程可能因您使用的平臺而異。

對於 Unix 和 Linux 使用者,Grep 通常已安裝。但是,對於 Windows 使用者,您需要下載並安裝適合您作業系統的 Grep 版本。

對於 Mac 使用者,您可以透過 Homebrew 安裝它,或者從其官方網站下載軟體包。成功在您的計算機上安裝 Grep 後,您就可以開始使用了。

基本語法和命令

Grep 是一個命令列工具,允許您在文字檔案中搜索模式。其基本語法如下:

grep [options] pattern [file...]  

這裡,`pattern` 代表您要在`[file...]` 指定的一個或多個檔案中搜索的正則表示式模式。值得注意的是,如果未指定檔案,則輸入將來自 `stdin`。

Grep 有幾個選項,可以根據您的特定需求修改其行為。例如:

  • * `-i` 指定不區分大小寫的搜尋。

  • * `-r` 遞迴搜尋目錄中的所有檔案。

  • * `-l` 只打印匹配模式的檔名。

  • * `-n` 列印行號以及找到的匹配項。

理解正則表示式

正則表示式 (Regex) 是 grep 的重要組成部分,因為它指定了要在文字檔案中搜索的模式。正則表示式模式的幾個元素可能包括:

  • * 元字元 - 在正則表示式語法中具有特殊含義的字元(例如,“^”、“$”)。

  • * 字元類 - 方括號中括起來的字元集(例如,[a-z]),用於匹配特定字元型別或範圍。

  • * 量詞 - 指定特定模式應出現的次數(例如,“*”、“+”、“?”)。

  • * 分組和捕獲 - 允許將模式組合在一起以及捕獲它們以供以後使用。

  • * 環視 - 用於在文字中向前或向後查詢,而實際上不將其包含在匹配項中。

在使用 grep 正則表示式時,理解這些元素至關重要,因為它們可以幫助您建立更強大、更精確的搜尋模式。

深入瞭解正則表示式

字元類和範圍:正則表示式的構建塊

在正則表示式中,字元類用於匹配一組字元。字元類用方括號 [ ] 括起來,可以包含單個字元或一系列字元。例如,正則表示式 [aeiou] 將匹配文字中的任何母音,而 [a-z] 將匹配任何小寫字母。

此外,可以透過在字元類前新增脫字元 (^) 來否定字元類。例如,[^0-9] 匹配除數字以外的所有內容。

示例

匹配任何數字:

grep "[0-9]" file.txt

匹配任何小寫字母:

grep "[a-z]" file.txt

匹配任何大寫字母:

grep "[A-Z]" file.txt

匹配任何字母(小寫或大寫):

grep "[a-zA-Z]" file.txt

匹配任何字母數字字元:

grep "[a-zA-Z0-9]" file.txt

量詞和替換:使正則表示式更靈活

量詞指定前一個字元應在文字中出現的次數。例如,“a{2,3}”表示文字中應該有 2 到 3 個相鄰的“a”字元。

替換是另一個重要概念,它允許您指定用豎線 (|) 分隔的多個模式。這樣,您可以匹配其中的任何一個。

示例

匹配一個或多個字母“a”的出現:

grep 'a+' file.txt

匹配零個或多個單詞“apple”的出現:

grep 'apple*' file.txt

精確匹配三個數字“0”的出現:

grep '0{3}' file.txt

匹配“cat”或“dog”:

grep 'cat|dog' file.txt

匹配“apple”、“banana”或“orange”:

grep 'apple|banana|orange' file.txt

分組和捕獲:為複雜匹配建立子模式

分組是指用括號“()”括起模式的部分。當您想對模式的特定部分應用量詞或替換時,分組非常重要。此外,它還有助於提高可讀性和組織性。

捕獲是指使用標記捕獲組的括號來提取匹配字串的特定部分。要稍後訪問捕獲的組或在模式本身中引用它們;我們使用反向引用。

示例

匹配重複的字元

$ echo "Helloooo" | grep -oE '(o+)\1'

輸出

oooo

提取電子郵件地址:

$ echo "Contact us at email@example.com or support@example.com" | grep -oE '[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'

輸出

email@example.com
support@example.com

提取電話號碼:

$ echo "Contact us at +1-555-123-4567 or 123-456-7890" | grep -oE '(\+?[0-9]+-)?[0-9]{3}-[0-9]{3}-[0-9]{4}'

輸出

+1-555-123-4567
123-456-7890

匹配 HTML 標籤並捕獲內容:

$ echo "<h1>Title</h1><p>Paragraph</p>" | grep -oE '<(\w+)>.*<\/\1>'

輸出

<h1>Title</h1>

<p>Paragraph</p>

提取特定格式的日期:

$ echo "Today's date is 2023-06-15" | grep -oE '([0-9]{4})-([0-9]{2})-([0-9]{2})'

輸出

2023-06-15

環視:上下文匹配的高階技術

環視是一種高階技術,允許正則表示式引擎向前或向後檢視特定位置,而無需匹配這些位置本身。環視有兩種型別:

  • 先行斷言 - 僅當後跟特定文字時才匹配前面的模式。

  • 否定先行斷言 - 僅當不後跟特定文字時才匹配前面的模式。環視可用於需要匹配字串但僅當它滿足某些條件(例如出現在某個單詞之後或之前)的情況。

Grep 正則表示式的高階技巧

使用標誌修改行為

在 Grep 正則表示式中使用標誌來修改正則表示式的行為。例如,您可以使用諸如 -i 之類的標誌進行不區分大小寫的搜尋,或者使用 -w 僅進行單詞搜尋。

此外,您可以使用 -v 標誌反轉搜尋並僅顯示不匹配模式的行。您可以將多個標誌組合在一起,並根據您的需求自定義搜尋。

示例

-i 或 --ignore-case:匹配時忽略大小寫區分。例如:

grep -i "apple" file.txt

-v 或 --invert-match:反轉匹配,即僅列印不匹配模式的行。例如:

grep -v "apple" file.txt

-w 或 --word-regexp:僅匹配整個單詞。例如:

grep -w "apple" file.txt

-x 或 --line-regexp:僅匹配整行。例如:

grep -x "apple" file.txt

-m N 或 --max-count=N:找到 N 個匹配項後停止。例如,要查詢模式的前 5 次出現:

grep -m 5 "apple" file.txt

-r 或 --recursive:遞迴搜尋目錄。例如:

grep -r "apple" /path/to/directory

組合多個模式

您可以透過使用邏輯運算子,例如 |(OR)和 &(AND),在一個 Grep 命令中組合多個模式。這允許您執行更復雜的搜尋,您希望匹配包含兩個模式中的任何一個或同時包含兩個模式的行。此外,您可以使用括號對模式的不同部分進行分組,並建立組合在一起的子模式。

示例

搜尋包含“apple”但不包含“banana”的行:

grep -E 'apple' filename.txt | grep -v 'banana'

搜尋包含“apple”或“banana”,但不包含“orange”的行:

grep -E 'apple|banana' filename.txt | grep -v 'orange'

使用捕獲組提取資料

捕獲組允許您透過將特定資料括在括號內來從匹配的模式中提取特定資料。例如,如果您想從檔案中提取所有電子郵件地址,您可以使用電子郵件地址模式周圍的捕獲組,然後僅列印那些捕獲的組。在處理需要提取特定資訊的大型資料集時,此技術非常有用。

示例

從檔案中提取電子郵件地址:

grep -Eo '([A-Za-z0-9._%+-]+)@([A-Za-z0-9.-]+)\.([A-Za-z]{2,})' file.txt

提取特定格式的電話號碼:

grep -Eo '(\+\d{1,2})?(\d{3}-\d{3}-\d{4})' file.txt

從網頁中提取 URL:

grep -Eo 'href="([^"]+)"' file.html

從日誌檔案中提取 IP 地址:

grep -Eo '(\d{1,3}\.){3}\d{1,3}' file.log

結論

Grep 正則表示式是一個強大的工具,使資料分析師能夠快速搜尋、過濾和從大型資料集中提取資料。透過掌握正則表示式,您可以輕鬆地以秒為單位過濾數千甚至數百萬條記錄,從而節省寶貴的時間和精力。使用正確的運算子和字元組合編寫複雜模式的能力可以顯著提高您的工作效率,讓您專注於更重要的任務。

更新於:2023年8月23日

271 次瀏覽

啟動您的職業生涯

透過完成課程獲得認證

開始
廣告
© . All rights reserved.