NLP - 語言資源
在本章中,我們將學習自然語言處理中的語言資源。
語料庫
語料庫是指在自然交流環境中產生的大規模、結構化的機器可讀文字集合。其複數形式為 corpora。它們可以透過多種方式獲取,例如最初為電子文字、口語記錄的轉錄以及光學字元識別等。
語料庫設計的要素
語言是無限的,但語料庫的大小必須是有限的。為了使語料庫的大小有限,我們需要進行抽樣並按比例包含各種文字型別,以確保良好的語料庫設計。
現在讓我們學習一些語料庫設計的重要要素 -
語料庫的代表性
代表性是語料庫設計的一個決定性特徵。以下來自兩位優秀研究人員 - Leech 和 Biber 的定義將幫助我們理解語料庫的代表性 -
根據 Leech(1991)的說法,“如果基於語料庫內容的發現可以推廣到所述語言變體,則認為該語料庫代表了它應該代表的語言變體”。
根據 Biber(1993)的說法,“代表性指的是樣本包含總體中全部變異範圍的程度”。
這樣,我們可以得出結論,語料庫的代表性由以下兩個因素決定 -
平衡 - 語料庫中包含的體裁範圍
抽樣 - 如何選擇每個體裁的片段。
語料庫平衡
語料庫設計的另一個非常重要的要素是語料庫平衡 - 語料庫中包含的體裁範圍。我們已經學習過,一般語料庫的代表性取決於語料庫的平衡程度。一個平衡的語料庫涵蓋了廣泛的文字類別,這些類別應該代表該語言。我們沒有可靠的科學衡量標準來衡量平衡性,但最佳估計和直覺在此方面發揮作用。換句話說,我們可以說,公認的平衡性僅由其預期用途決定。
抽樣
語料庫設計的另一個重要要素是抽樣。語料庫的代表性和平衡性與抽樣密切相關。這就是為什麼我們可以說抽樣在語料庫構建中是不可避免的。
根據Biber(1993)的說法,“構建語料庫時,首先需要考慮一些問題,這些問題與整體設計有關:例如,包含的文字型別、文字數量、特定文字的選擇、文字內文字樣本的選擇以及文字樣本的長度。這些都涉及抽樣決策,無論是有意識的還是無意識的。”
在獲取代表性樣本時,我們需要考慮以下因素 -
抽樣單位 - 它指的是需要抽樣的單位。例如,對於書面文字,抽樣單位可以是報紙、期刊或書籍。
抽樣框 - 所有抽樣單位的列表稱為抽樣框。
總體 - 它可以指所有抽樣單位的集合。它根據語言的產生、語言的接收或語言作為產品來定義。
語料庫規模
語料庫設計的另一個重要要素是其規模。語料庫應該有多大?這個問題沒有明確的答案。語料庫的規模取決於其預期用途以及以下一些實際考慮因素 -
使用者預期的查詢型別。
使用者用來研究資料的方法。
資料來源的可用性。
隨著技術的進步,語料庫規模也在不斷增加。下表中的比較將幫助您瞭解語料庫規模的工作原理 -
| 年份 | 語料庫名稱 | 規模(以詞計) |
|---|---|---|
| 1960 年代 - 70 年代 | Brown 和 LOB | 100 萬詞 |
| 1980 年代 | 伯明翰語料庫 | 2000 萬詞 |
| 1990 年代 | 英國國家語料庫 | 1 億詞 |
| 21 世紀初 | 英語語料庫 | 6.5 億詞 |
在我們接下來的部分中,我們將檢視一些語料庫示例。
樹庫語料庫
它可以定義為在語法或語義句子結構上進行註釋的語言解析文字語料庫。Geoffrey Leech 創造了“樹庫”一詞,它表示表示語法分析最常見的方式是透過樹形結構。通常,樹庫是在已經用詞性標記進行註釋的語料庫的基礎上建立的。
樹庫語料庫的型別
語義樹庫和語法樹庫是語言學中最常見的兩種樹庫型別。現在讓我們進一步瞭解這些型別 -
語義樹庫
這些樹庫使用句子的語義結構的正式表示。它們在語義表示的深度上有所不同。機器人命令樹庫、Geoquery、格羅寧根意義銀行、RoboCup 語料庫是語義樹庫的一些示例。
語法樹庫
與語義樹庫相反,語法樹庫系統的輸入是從解析的樹庫資料轉換得到的形式語言的表示式。此類系統的輸出是基於謂詞邏輯的含義表示。迄今為止,已經建立了各種不同語言的語法樹庫。例如,賓夕法尼亞阿拉伯語樹庫、哥倫比亞阿拉伯語樹庫是在阿拉伯語中建立的語法樹庫。Sininca 語法樹庫是在中文中建立的。Lucy、Susane 和BLLIP WSJ 語法語料庫是在英語中建立的。
樹庫語料庫的應用
以下是樹庫的一些應用 -
在計算語言學中
如果我們談論計算語言學,那麼樹庫的最佳用途是設計最先進的自然語言處理系統,例如詞性標註器、解析器、語義分析器和機器翻譯系統。
在語料庫語言學中
在語料庫語言學的情況下,樹庫的最佳用途是研究語法現象。
在理論語言學和心理語言學中
樹庫在理論語言學和心理語言學中的最佳用途是互動證據。
PropBank 語料庫
PropBank,更具體地稱為“命題庫”,是一個語料庫,它用動詞命題及其論元進行註釋。該語料庫是一個面向動詞的資源;這裡的註釋與語法級別更密切相關。Martha Palmer 等人,科羅拉多大學博爾德分校語言學系開發了它。我們可以使用“PropBank”一詞作為普通名詞,指代任何用命題及其論元進行註釋的語料庫。
在自然語言處理 (NLP) 中,PropBank 專案發揮了非常重要的作用。它有助於語義角色標註。
VerbNet(VN)
VerbNet(VN) 是英語中存在的最大的、與領域無關的分層詞彙資源,它結合了關於其內容的語義和語法資訊。VN 是一個覆蓋範圍廣泛的動詞詞典,它與其他詞彙資源(如 WordNet、Xtag 和 FrameNet)具有對映關係。它被組織成動詞類,透過細化和新增子類來擴充套件 Levin 類,以在類成員之間實現語法和語義的一致性。
每個 VerbNet (VN) 類包含 -
一組語法描述或語法框架
用於描述諸如及物、不及物、介詞短語、結果狀語等結構的論元結構的可能表面實現,以及大量變格交替。
一組語義描述,例如有生命、人類、組織
用於約束論元允許的主題角色型別,並且可以施加進一步的限制。這將有助於指示可能與主題角色相關的成分的語法性質。
WordNet
WordNet 由普林斯頓大學建立,是一個英語詞彙資料庫。它是 NLTK 語料庫的一部分。在 WordNet 中,名詞、動詞、形容詞和副詞被分組到稱為同義詞集的認知同義詞集中。所有同義詞集都透過概念語義和詞彙關係相互連結。其結構使其對自然語言處理 (NLP) 非常有用。
在資訊系統中,WordNet 用於各種目的,例如詞義消歧、資訊檢索、自動文字分類和機器翻譯。WordNet 最重要的用途之一是找出單詞之間的相似性。對於此任務,各種演算法已在各種包中實現,例如 Perl 中的 Similarity、Python 中的 NLTK 和 Java 中的 ADW。