如何在 Python 中使用有限的緩衝區大小讀取檔案？

在計算機程式設計的世界裡，檔案處理是高效管理資料的一個非常重要的方面。有時，當我們需要處理大型檔案時，將整個檔案讀入記憶體可能並不實用或高效。在這種情況下，使用有限的緩衝區大小讀取檔案可能是一種更實用的方法和解決方案。Python 是一種用途廣泛且強大的語言，它為開發人員提供了強大的工具來有效地執行檔案操作。在這篇綜合文章中，我們將探討在 Python 中使用有限緩衝區大小讀取檔案的不同方法。我們將逐步深入探討這些概念，並提供一些實際的程式碼示例來演示此過程。

理解檔案讀取和緩衝區大小

在我們學習程式碼示例之前，讓我們花一點時間來了解檔案讀取和緩衝區大小的概念。讀取檔案時，資料將從檔案中讀取並存儲在記憶體中。但是，對於大型檔案，一次將整個檔案讀入記憶體可能不可行，因為它可能導致記憶體問題。

為了解決這個問題，我們可以使用緩衝區來分塊讀取檔案。緩衝區是記憶體中一個臨時儲存區域，用於在資料從一個位置傳輸到另一個位置時儲存資料。透過分塊或緩衝區大小讀取檔案，我們可以高效地處理大型檔案，而不會使記憶體不堪重負。

使用有限的緩衝區大小讀取整個檔案

讓我們從一個簡單的例子開始，使用有限的緩衝區大小讀取整個檔案。在這種情況下，我們有一個檔案，我們希望將其分成特定緩衝區大小的塊進行讀取。以下是程式碼：

示例

在這個例子中，我們定義了一個函式 `read_file_with_buffer`，它接受檔案路徑和緩衝區大小作為引數。我們使用 `open()` 函式以讀取模式 ('r') 開啟檔案。然後，我們使用 `while` 迴圈以指定的緩衝區大小分塊讀取檔案。

`file.read()` 方法用於分塊讀取檔案中的資料。迴圈持續到沒有更多資料可讀，此時迴圈終止。

def read_file_with_buffer(file_path, buffer_size):
    with open(file_path, 'r') as file:
        while True:
            data = file.read(buffer_size)
            if not data:
                break
            print(data)

# Example usage
file_path = 'large_file.txt'
buffer_size = 1024
read_file_with_buffer(file_path, buffer_size)

將緩衝資料寫入另一個檔案

有時，我們可能希望使用有限的緩衝區大小讀取檔案，並同時將緩衝資料寫入另一個檔案。讓我們探索如何實現這一點。

示例

在此程式碼段中，我們定義了一個函式 `read_and_write_with_buffer`，它接受輸入檔案的路徑、輸出檔案的路徑和緩衝區大小作為引數。我們使用 `open()` 函式以各自的模式 ('r' 用於輸入檔案和 'w' 用於輸出檔案) 開啟這兩個檔案。

當我們使用 `input_file.read()` 從輸入檔案讀取資料時，我們同時使用 `output_file.write()` 將緩衝資料寫入輸出檔案。

def read_and_write_with_buffer(input_file_path, output_file_path, buffer_size):
    with open(input_file_path, 'r') as input_file, open(output_file_path, 'w') as output_file:
        while True:
            data = input_file.read(buffer_size)
            if not data:
                break
            output_file.write(data)

# Example usage
input_file_path = 'large_input_file.txt'
output_file_path = 'output_file.txt'
buffer_size = 1024
read_and_write_with_buffer(input_file_path, output_file_path, buffer_size)

使用生成器讀取檔案

生成器是 Python 中一個強大的功能，可用於建立迭代器。當處理不完全適合記憶體的大型資料集時，它們特別有用。讓我們看看如何使用生成器以有限的緩衝區大小讀取檔案。

示例

在這個例子中，我們定義了一個函式 `read_file_with_generator`，它接受檔案路徑和緩衝區大小作為引數。我們使用 `open()` 函式以讀取模式 ('r') 開啟檔案。

我們不直接列印資料，而是使用 `yield` 語句來建立一個生成器。生成器在從檔案中讀取資料時返回每一塊資料。

在示例用法中，我們使用 `for` 迴圈迭代生成器並列印每一塊資料。

def read_file_with_generator(file_path, buffer_size):
    with open(file_path, 'r') as file:
        while True:
            data = file.read(buffer_size)
            if not data:
                break
            yield data

# Example usage
file_path = 'large_file.txt'
buffer_size = 1024
for chunk in read_file_with_generator(file_path, buffer_size):
    print(chunk)

處理緩衝資料

在使用有限緩衝區大小讀取檔案時，我們可能希望在繼續下一個塊之前處理每一塊資料。讓我們看看如何實現這一點。

示例

在此程式碼段中，我們定義了一個函式 `process_buffered_data`，它接受檔案路徑和緩衝區大小作為引數。我們使用 `open()` 函式以讀取模式 ('r') 開啟檔案。

讀取每一塊資料後，我們呼叫一個自定義的 `process_data()` 函式來處理資料。在這個例子中，我們只是使用 `upper()` 方法將資料轉換為大寫。

您可以將 `process_data()` 函式替換為您需要的任何自定義資料處理邏輯。

def process_buffered_data(file_path, buffer_size):
    with open(file_path, 'r') as file:
        while True:
            data = file.read(buffer_size)
            if not data:
                break
            # Process the buffered data
            processed_data = process_data(data)
            print(processed_data)

def process_data(data):
    # Your custom data processing logic here
    return data.upper()

# Example usage
file_path = 'large_file.txt'
buffer_size = 1024
process_buffered_data(file_path, buffer_size)

使用 iter 和 functools.partial

Python 的 `iter` 函式和 `functools.partial` 可以組合起來，為使用有限緩衝區大小讀取檔案建立一個更簡潔優雅的解決方案。讓我們看看如何實現這一點。

示例

在這個例子中，我們定義了一個函式 `read_file_with_iter`，它接受檔案路徑和緩衝區大小作為引數。我們使用 `open()` 函式以讀取模式 ('r') 開啟檔案。

`iter` 函式與 `functools.partial` 組合使用，允許我們建立一個迭代器，該迭代器呼叫 `file.read(buffer_size)`，直到它返回空字串（表示檔案結束）。

`for` 迴圈迭代此迭代器並列印從檔案中讀取的每一塊資料。

import functools

def read_file_with_iter(file_path, buffer_size):
    with open(file_path, 'r') as file:
        for data in iter(functools.partial(file.read, buffer_size), ''):
            print(data)

# Example usage
file_path = 'large_file.txt'
buffer_size = 1024
read_file_with_iter(file_path, buffer_size)

在這篇文章中，我們探討了在 Python 中使用有限緩衝區大小讀取檔案的不同方法。透過分塊讀取檔案，我們可以高效地處理大型檔案，而不會消耗過多的記憶體。我們提供了一些實際的程式碼示例，演示了使用有限緩衝區大小讀取檔案的不同方法，包括將緩衝資料寫入另一個檔案、使用生成器、處理資料以及使用 `iter` 和 `functools.partial` 來獲得簡潔的解決方案。

在處理大型檔案時，能夠使用有限的緩衝區大小分塊讀取資料可以顯著提高 Python 檔案處理操作的效能和資源效率。隨著您繼續開發 Python 應用程式，結合使用這些技術可以使您輕鬆自如地處理各種大小的檔案。

Rajendra Dharmkar

更新於：2023年9月11日

1K+ 次瀏覽

啟動您的職業生涯

完成課程獲得認證

開始學習