NLP - 詞義消歧



我們理解,單詞的含義會根據其在句子中的使用語境而有所不同。如果我們談論人類語言,那麼它們也存在歧義,因為許多單詞可以根據其出現的語境以多種方式解釋。

在自然語言處理 (NLP) 中,詞義消歧可以定義為確定在特定語境中使用單詞時激活了單詞的哪種含義的能力。詞彙歧義(語法或語義)是任何 NLP 系統面臨的首要問題之一。具有高準確度的詞性 (POS) 標註器可以解決單詞的語法歧義。另一方面,解決語義歧義的問題稱為 WSD(詞義消歧)。解決語義歧義比解決語法歧義更難。

例如,考慮單詞“bass”存在的兩種不同含義:

  • 我能聽到低音。

  • 他喜歡吃烤鱸魚。

單詞“bass”的出現清楚地表明瞭不同的含義。在第一個句子中,它表示頻率,在第二個句子中,它表示。因此,如果透過 WSD 消除歧義,則可以為上述句子分配正確的含義,如下所示:

  • 我能聽到低音/頻率。

  • 他喜歡吃烤鱸魚/魚。

WSD 的評估

WSD 的評估需要以下兩個輸入:

詞典

WSD 評估的第一個輸入是詞典,用於指定要消除歧義的含義。

測試語料庫

WSD 需要的另一個輸入是具有目標或正確含義的高註釋測試語料庫。測試語料庫可以分為兩種型別:

  • 詞彙樣本 - 這種語料庫用於需要消除少量單詞歧義的系統。

  • 所有單詞 - 這種語料庫用於需要消除一段執行文字中所有單詞歧義的系統。

詞義消歧 (WSD) 的方法和途徑

WSD 的方法和途徑根據詞義消歧中使用的知識來源進行分類。

現在讓我們看看 WSD 的四種傳統方法:

基於詞典或基於知識的方法

顧名思義,這些方法主要依賴於詞典、寶庫和詞彙知識庫來消除歧義。它們不使用語料庫證據來消除歧義。Lesk 方法是由 Michael Lesk 於 1986 年提出的開創性的基於詞典的方法。Lesk 演算法基於的 Lesk 定義是“衡量所有上下文單詞的含義定義之間的重疊”。然而,在 2000 年,Kilgarriff 和 Rosensweig 將簡化的 Lesk 定義為“衡量單詞含義定義與當前上下文之間的重疊”,這進一步意味著一次識別一個單詞的正確含義。這裡,當前上下文是指周圍句子或段落中的詞集。

監督方法

為了消除歧義,機器學習方法利用含義註釋語料庫進行訓練。這些方法假設上下文字身可以提供足夠的證據來消除歧義。在這些方法中,單詞知識和推理被認為是不必要的。上下文表示為單詞的一組“特徵”。它還包括有關周圍單詞的資訊。支援向量機和基於記憶的學習是 WSD 最成功的監督學習方法。這些方法依賴於大量手動含義標記的語料庫,建立這些語料庫的成本非常高。

半監督方法

由於缺乏訓練語料庫,大多數詞義消歧演算法使用半監督學習方法。這是因為半監督方法同時使用標記資料和未標記資料。這些方法需要少量註釋文字和大量純未註釋文字。半監督方法使用的一種技術是從種子資料中引導。

無監督方法

這些方法假設相似的含義出現在相似的上下文中。這就是為什麼可以透過使用某種上下文相似性度量來對單詞出現進行聚類,從而從文字中推匯出含義。此任務稱為詞義歸納或辨別。由於不依賴於人工操作,無監督方法在克服知識獲取瓶頸方面具有巨大潛力。

詞義消歧 (WSD) 的應用

詞義消歧 (WSD) 應用於幾乎所有語言技術應用。

現在讓我們看看 WSD 的範圍:

機器翻譯

機器翻譯或 MT 是 WSD 最明顯的應用。在 MT 中,WSD 用於為具有不同含義的不同翻譯的單詞選擇詞彙。MT 中的含義表示為目標語言中的單詞。大多數機器翻譯系統不使用顯式的 WSD 模組。

資訊檢索 (IR)

資訊檢索 (IR) 可以定義為一種軟體程式,用於處理從文件儲存庫(特別是文字資訊)中組織、儲存、檢索和評估資訊。該系統基本上幫助使用者找到他們需要的資訊,但它不會明確地返回問題的答案。WSD 用於解決提供給 IR 系統的查詢的歧義。與 MT 一樣,當前的 IR 系統不顯式地使用 WSD 模組,它們依賴於使用者在查詢中鍵入足夠上下文以僅檢索相關文件的概念。

文字挖掘和資訊提取 (IE)

在大多數應用中,WSD 對於進行準確的文字分析是必要的。例如,WSD 幫助智慧收集系統標記正確的單詞。例如,醫療智慧系統可能需要標記“非法藥物”而不是“醫療藥物”。

詞典編纂學

WSD 和詞典編纂學可以迴圈工作,因為現代詞典編纂學是基於語料庫的。藉助詞典編纂學,WSD 提供粗略的經驗意義分組以及含義的統計顯著上下文指標。

詞義消歧 (WSD) 的困難

以下是詞義消歧 (WSD) 面臨的一些困難:

詞典之間的差異

WSD 的主要問題是確定單詞的含義,因為不同的含義可能非常密切相關。即使不同的詞典和同義詞詞典也會提供將單詞劃分為含義的不同劃分。

不同應用的不同演算法

WSD 的另一個問題是,對於不同的應用可能需要完全不同的演算法。例如,在機器翻譯中,它採用目標詞選擇的形式;在資訊檢索中,不需要含義清單。

評判者間差異

WSD 的另一個問題是,WSD 系統通常透過將其在任務上的結果與人類的任務進行比較來進行測試。這被稱為評判者間差異問題。

詞義離散性

WSD 的另一個困難是,單詞不能輕易地劃分為離散的子含義。

廣告