自然語言篇章處理



人工智慧最困難的問題之一是讓計算機處理自然語言,換句話說,自然語言處理是人工智慧中最困難的問題之一。如果我們談論NLP中的主要問題,那麼NLP中的一個主要問題就是篇章處理——構建關於語句如何組合在一起形成連貫篇章的理論和模型。實際上,語言總是由並置的、結構化的和連貫的句子組構成,而不是像電影那樣孤立且無關的句子。這些連貫的句子組被稱為篇章。

連貫性概念

連貫性和篇章結構在許多方面是相互關聯的。連貫性,連同優秀文字的特性一起,被用來評估自然語言生成系統的輸出質量。這裡出現的問題是,文字連貫是什麼意思?假設我們從報紙的每一頁收集一個句子,那它會是一個篇章嗎?當然不會。這是因為這些句子沒有表現出連貫性。連貫的篇章必須具備以下特性:

語句之間的連貫關係

如果篇章的語句之間存在有意義的聯絡,那麼該篇章就是連貫的。此特性稱為連貫關係。例如,必須有一些解釋來證明語句之間的聯絡。

實體之間的關係

使篇章連貫的另一個特性是,實體之間必須存在某種關係。這種連貫性稱為基於實體的連貫性。

篇章結構

關於篇章的一個重要問題是篇章必須具有什麼樣的結構。這個問題的答案取決於我們對篇章進行的分割。篇章分割可以定義為確定大型篇章的結構型別。實現篇章分割相當困難,但對於資訊檢索、文字摘要和資訊提取之類的應用非常重要。

篇章分割演算法

在本節中,我們將學習關於篇章分割演算法的內容。演算法如下:

無監督篇章分割

無監督篇章分割的類別通常表示為線性分割。我們可以透過一個例子來理解線性分割的任務。在這個例子中,有一個將文字分割成多段單元的任務;這些單元代表原文的段落。這些演算法依賴於內聚力,內聚力可以定義為使用某些語言手段將文字單元聯絡在一起。另一方面,詞彙內聚力是指由兩個或多個單元中的兩個或多個詞之間的關係所指示的內聚力,例如同義詞的使用。

有監督篇章分割

前面方法沒有任何手工標記的段落邊界。另一方面,有監督的篇章分割需要具有邊界標記的訓練資料。獲得這些資料很容易。在有監督的篇章分割中,篇章標記或提示詞起著重要作用。篇章標記或提示詞是指起著指示篇章結構作用的詞或短語。這些篇章標記是特定於領域的。

文字連貫性

詞彙重複是查詢篇章結構的一種方法,但它不滿足連貫篇章的要求。為了實現連貫的篇章,我們必須特別關注連貫關係。眾所周知,連貫關係定義了篇章中語句之間可能的聯絡。Hebb 提出了以下幾種關係:

我們採用兩個術語S0S1來表示兩個相關句子的含義:

結果

它推斷術語S0所斷言的狀態可能導致術語S1所斷言的狀態。例如,兩個陳述顯示了結果關係: राम著火了。他的皮膚燒傷了。

解釋

它推斷術語S1所斷言的狀態可能導致術語S0所斷言的狀態。例如,兩個陳述顯示了關係: राम與 Shyam 的朋友打架。他喝醉了。

並列

它從S0的斷言中推斷 p(a1,a2,…),從S1的斷言中推斷 p(b1,b2,…)。這裡對於所有 i,ai 和 bi 都是相似的。例如,兩個陳述是並列的: राम想要一輛車。Shyam想要錢。

闡述

它從兩個斷言——S0S1中推斷出相同的命題 P。例如,兩個陳述顯示了闡述關係: राम來自昌迪加爾。Shyam來自喀拉拉邦。

場合

當可以從S0的斷言中推斷出狀態變化時,其最終狀態可以從S1中推斷出來,反之亦然。例如,這兩個陳述顯示了場合關係: राम撿起了書。他把它給了Shyam。

構建分層篇章結構

整個篇章的連貫性也可以透過連貫關係之間的層次結構來考慮。例如,以下段落可以表示為層次結構:

  • S1 - राम去銀行存錢。

  • S2 - 然後他乘火車去了Shyam的布店。

  • S3 - 他想買些衣服。

  • S4 - 他沒有參加聚會的衣服。

  • S5 - 他還想和Shyam談談他的健康狀況。

Building Hierarchical Discourse Structure

指代消解

解釋任何篇章中的句子是另一項重要任務,為了實現這一點,我們需要知道正在談論的是誰或什麼實體。在這裡,解釋指代是關鍵要素。指代可以定義為表示實體或個體的語言表達。例如,在段落中,RamABC銀行的經理,在一家商店看到了的朋友Shyam。去見他,像Ram、His、He這樣的語言表達就是指代。

同樣,指代消解可以定義為確定哪些語言表達指的是哪些實體的任務。

指代消解中使用的術語

我們在指代消解中使用以下術語:

  • 指稱表達 - 用於執行指代的自然語言表達稱為指稱表達。例如,上面使用的段落是一個指稱表達。

  • 指稱物件 - 它是所指的實體。例如,在最後一個例子中,Ram是一個指稱物件。

  • 同指 - 當兩個表達用於指代同一個實體時,它們被稱為同指。例如,Ramhe是同指的。

  • 先行詞 - 該術語有權使用另一個術語。例如,Ramhe指代的先行詞。

  • 回指 & 回指的 - 它可以定義為對之前已引入句子的實體的指代。並且,指稱表達被稱為回指的。

  • 篇章模型 - 包含已在篇章中提及的實體及其參與的關係的表示的模型。

指稱表達的型別

現在讓我們看看不同型別的指稱表達。五種型別的指稱表達如下:

不定名詞短語

這種型別的指代代表了對聽者來說是篇章上下文中新出現的實體。例如 - 在句子 राम有一天四處走動給他帶些食物中 - some 是一個不定指代。

定名詞短語

與上面相反,這種型別的指代代表了對聽者來說不是新的或可識別的篇章上下文中出現的實體。例如,在句子 - 我過去常讀《印度時報》中 - 《印度時報》是一個定指代。

代詞

它是定指代的一種形式。例如,Ram 儘可能大聲地笑了起來。單詞he代表代詞指稱表達。

指示詞

這些指示詞的行為與簡單的定代詞不同。例如,this 和 that 是指示代詞。

名稱

這是最簡單的指稱表達型別。它也可以是人、組織和地點的名稱。例如,在上面的例子中,Ram 是名稱指稱表達。

指代消解任務

下面描述了兩個指代消解任務。

同指消解

這是在文字中查詢指代同一實體的指稱表達的任務。簡單來說,這是查詢同指表達的任務。一組同指表達被稱為同指鏈。例如 - He,首席經理和 His - 這些是第一個例子段落中的指稱表達。

同指消解的約束

在英語中,同指消解的主要問題是代詞 it。其背後的原因是代詞 it 有多種用途。例如,它可以像 he 和 she 一樣指代。代詞 it 也指代那些不指代特定事物的事物。例如,It’s raining。It is really good。

代詞回指消解

與同指消解不同,代詞回指消解可以定義為查詢單個代詞先行詞的任務。例如,代詞是 his,代詞回指消解的任務是找到單詞 Ram,因為 Ram 是先行詞。

廣告