文字挖掘的過程是什麼?


文字挖掘也稱為文字分析。它是將非結構化文字轉換為結構化資料以方便分析的過程。文字挖掘需要自然語言處理 (NLP),使裝置能夠學習人類語言並自動處理它。

它被定義為從標準語言文字中提取基本資料的過程。我們透過簡訊、文件、電子郵件、檔案生成的一些資料是用普通語言文字編寫的。文字挖掘通常用於從這些資料中提取有益的見解或模式。

文字挖掘是一種自動程式,它使用自然語言處理從非結構化文字中獲取有價值的見解。它可以將資料轉換為裝置可以學習的資訊,文字挖掘自動化了根據情感、主題和意圖對文字進行分類的過程。

文字挖掘過程包含以下步驟來從檔案中提取資料,如下所示 -

**文件收集** - 在第一步中,收集以多種格式存在的文字文件。文件可以是 pdf、word、html doc、css 等格式。

**文件預處理** - 在此過程中,對給定的輸入文件進行處理以消除冗餘、不一致、獨立詞、詞幹提取,併為下一步準備檔案,實施的階段如下 -

  • **分詞** - 將給定文件視為字串,並在文件中識別單個單詞,即給定文件字串被拆分為一個單元或標記。

  • **去除停用詞** - 在此過程中,去除諸如 a、an、but、and、of、the 等常用詞。

  • **詞幹提取** - 詞幹是一組具有相似含義的自然詞。此方法定義特定詞的詞根。有兩種方法:屈折詞幹提取和派生詞幹提取。詞幹提取的一種著名演算法是 Porter 演算法,例如,如果文件包含辭職、已辭職、辭職等詞,則在使用詞幹提取方法後,它將被視為辭職。

**文字轉換** - 文字文件是一組詞(特徵)及其出現次數。表示此類文件有兩種方法:向量空間模型和詞袋模型。

**特徵選擇(屬性選擇)** - 此方法透過從輸入文件中剔除不相關的內容,從而減少資料庫空間,簡化搜尋方法。

**資料探勘/模式選擇** - 在此過程中,傳統的資料探勘過程與文字挖掘過程相結合。結構化資料庫促進了早期階段產生的經典資料探勘技術。

**評估** - 此階段計算結果。此結果可以被忽略或用於以下一系列操作。

更新於: 2022年2月15日

4K+ 次檢視

啟動您的 職業生涯

透過完成課程獲得認證

開始學習
廣告