使用 Python 獲取檔案中的字元、單詞、空格和行數

文字檔案分析是各種資料處理和自然語言處理應用中的基本任務。Python 是一種用途廣泛且功能強大的程式語言，它提供了許多內建功能和庫來有效地促進此類任務。在本文中，我們將探討如何使用 Python 統計文字檔案中的字元、單詞、空格和行數。

方法 1：蠻力法

在這種方法中，我們將以蠻力方式開發我們自己的邏輯，並以文字檔案作為輸入，並計算檔案中的字元、單詞、空格和行數。在這種方法中，我們不會使用任何內建方法。

演算法

使用 open() 函式以讀取模式開啟檔案。
初始化變數以跟蹤字元計數、單詞計數、空格計數和行計數。
使用迴圈逐行讀取檔案。
對於每一行，遞增行計數。
將字元計數遞增行的長度。
使用 split() 方法將行拆分為單詞。
將單詞計數遞增該行中的單詞數。
透過從行的長度中減去單詞數減 1 來計算空格計數。
關閉檔案。
列印結果。

語法

string.split(separator, maxsplit)

這裡，字串是要拆分的字串。分隔符（可選）是用於拆分字串的分隔符。如果未指定，則預設為空格，maxsplit（可選）是要執行的最大拆分次數。如果未指定，則將使用分隔符的所有出現。

len(sequence)

這裡，序列是要查詢其長度的序列（字串、列表、元組等）。

示例

在下面的示例中，analyze_text_file() 函式以檔案路徑作為引數。在函式內部，open() 函式用於以讀取模式開啟檔案，使用上下文管理器（with 語句）確保檔案在處理後正確關閉。四個變數（char_count、word_count、space_count、line_count）初始化為零以跟蹤各自的計數。一個迴圈迭代檔案中的每一行。對於每一行，行計數都會遞增。行的長度會新增到字元計數中。該行使用 split() 方法拆分為單詞，該方法在空格字元處拆分該行。該行中的單詞數會新增到單詞計數中。空格計數是透過從該行中的單詞數中減去 1 來計算的，因為空格數比單詞數少一個。處理完所有行後，上下文管理器會自動關閉檔案。最後，列印結果，顯示字元計數、單詞計數、空格計數和行計數。

def analyze_text_file(file_path):
    try:
        with open(file_path, 'r') as file:
            char_count = 0
            word_count = 0
            space_count = 0
            line_count = 0

            for line in file:
                line_count += 1
                char_count += len(line)
                words = line.split()
                word_count += len(words)
                space_count += len(words) - 1

            print("File analysis summary:")
            print("Character count:", char_count)
            print("Word count:", word_count)
            print("Space count:", space_count)
            print("Line count:", line_count)

    except FileNotFoundError:
        print("File not found!")

# Usage
file_path = "sample.txt"  # Replace with your file path
analyze_text_file(file_path)

輸出

File not found!

方法 2：使用內建方法

在這種方法中，我們可以使用一些內建函式和 os 模組來計算檔案中的字元、單詞、空格和行數。

演算法

定義一個名為 analyze_text_file(file_path) 的函式，該函式以檔案路徑作為引數。
在函式內，使用 try-except 塊來處理 FileNotFoundError 的可能性。
在 try 塊內，使用 open() 函式以讀取模式使用 file_path 開啟檔案。
使用上下文管理器（with 語句）以確保正確的檔案處理並自動關閉檔案。
使用 read() 方法讀取檔案的全部內容並將其儲存在名為 content 的變數中。
透過對 content 字串使用 len() 函式計算字元計數，並將其分配給 char_count。
透過使用 split() 方法在空格字元處拆分 content 字串，然後對結果列表使用 len() 函式來計算單詞計數。將結果分配給 word_count。
使用 count() 方法和引數“ ”計算 content 字串中的空格數。將結果分配給 space_count。
使用 count() 方法和引數“\n”計算 content 字串中的換行符數。將結果分配給 line_count。
透過顯示字元計數、單詞計數、空格計數和行計數來列印分析摘要。
在 except 塊中，捕獲 FileNotFoundError 並列印訊息“檔案未找到！”
結束函式。
在函式外部，定義一個 file_path 變數，其中包含要分析的檔案的路徑。
呼叫 analyze_text_file(file_path) 函式，並將 file_path 作為引數傳遞。

示例

在下面的示例中，analyze_text_file() 函式以檔案路徑作為引數。在函式內部，open() 函式用於使用上下文管理器以讀取模式開啟檔案。

read() 方法在檔案物件上呼叫以將檔案的全部內容讀取到名為 content 的字串變數中。使用內建函式和方法：len(content) 透過確定 content 字串的長度來計算字元計數。len(content.split()) 透過在空格字元處拆分 content 字串並計算結果列表的長度來計算單詞計數。content.count(' ') 使用 count() 方法計算 content 字串中的空格數。content.count('\n') 計算 content 字串中的換行符數，這對應於行計數。列印結果，顯示字元計數、單詞計數、空格計數和行計數。

def analyze_text_file(file_path):
    try:
        with open(file_path, 'r') as file:
            content = file.read()

            char_count = len(content)
            word_count = len(content.split())
            space_count = content.count(' ')
            line_count = content.count('\n')

            print("File analysis summary:")
            print("Character count:", char_count)
            print("Word count:", word_count)
            print("Space count:", space_count)
            print("Line count:", line_count)

    except FileNotFoundError:
        print("File not found!")

# Usage
file_path = "sample.txt"  # Replace with your file path
analyze_text_file(file_path)

輸出

File not found!

結論

在本文中，我們討論瞭如何使用 Python 蠻力法以及內建方法來計算檔案中單詞、空格和行數。透過利用這些內建函式和方法，您可以以簡潔高效的方式完成相同的文字檔案分析任務。請記住，將 file_path 變數中的“sample.txt”替換為您所需文字檔案的路徑。本文中描述的兩種方法都提供了使用 Python 分析和提取文字檔案資訊（以便您根據獲得的計數執行進一步的資料處理和分析）的有效方法。

Rohan Singh

更新於： 2023年7月17日

9K+ 瀏覽量

開啟你的職業生涯

透過完成課程獲得認證

開始學習

使用 Python 獲取檔案中的字元、單詞、空格和行數

方法 1：蠻力法

演算法

語法

示例

輸出

方法 2：使用內建方法

演算法

示例

輸出

結論

開啟你的 職業生涯

開啟你的職業生涯