NumPy char.split() 函式



NumPy 的 char.split() 函式用於根據指定的定界符將陣列的每個字串元素拆分為子字串列表。

預設情況下,split() 函式以空格為分隔符,但我們可以提供自定義定界符。此函式對於標記化或解析文字資料很有用。

此函式單獨處理輸入陣列中的每個字串,並返回一個形狀相同的陣列,其中每個元素都是拆分操作產生的子字串列表。

語法

以下是 NumPy char.split() 函式的語法:

numpy.char.split(a, sep=None, maxsplit=-1)

引數

以下是 NumPy char.split() 函式的引數:

  • a(類似陣列的 str 或 unicode):包含要拆分的字串的輸入陣列。

  • sep(str,可選):要拆分字串的定界符。如果未提供,則預設為空格。

  • maxsplit(int,可選):要執行的最大拆分次數。如果未提供或設定為 -1,則拆分次數沒有限制。

返回值

此函式返回一個與輸入形狀相同的陣列,其中每個字串元素都被拆分操作產生的子字串列表替換。

示例 1

以下是 NumPy char.split() 函式的基本示例,其中輸入陣列中的每個字串在出現空格時都會拆分為子字串列表。結果陣列包含從每個原始字串中提取的單詞列表:

import numpy as np

arr = np.array(['apple banana cherry', 'date elderberry fig'])
split_arr = np.char.split(arr)
print(split_arr)

以下是 numpy.char.split() 函式基本示例的輸出:

[list(['apple', 'banana', 'cherry']) list(['date', 'elderberry', 'fig'])]

示例 2

我們可以使用 char.split() 函式根據自定義定界符拆分字串。這在解析或標記化文字資料時提供了更大的靈活性。在此示例中,我們使用定界符 逗號 (,) 來拆分陣列中的字串:

import numpy as np

arr = np.array(['apple,banana,cherry', 'date,elderberry,fig'])
split_arr = np.char.split(arr, sep=',')
print(split_arr)

以下是使用自定義定界符拆分的輸出:

[list(['apple', 'banana', 'cherry']) list(['date', 'elderberry', 'fig'])]

示例 3

我們可以使用 char.split() 函式中的 maxsplit 引數來控制執行的拆分次數。當我們想要限制每個字串元素產生的子字串數量時,這很有用。以下示例說明了 maxsplit 引數:

import numpy as np

arr = np.array(['one-two-three-four', 'five-six-seven'])
split_arr = np.char.split(arr, sep='-', maxsplit=2)
print(split_arr)

以下是限制拆分次數的輸出:

[list(['one', 'two', 'three-four']) list(['five', 'six', 'seven'])]
numpy_string_functions.htm
廣告