語法解析:含義與意義


瞭解一個短語是為了獲得語法可能會幫助我們理解它的含義。計算和語言學在自然語言處理中發生碰撞,重點關注計算機如何與人類語言互動。資料處理使用詞法分析、語法分析、語義評估、語篇處理和語用分析

語法解析的含義

語法分析,有時稱為解碼,根據控制正式語法的語法原則檢查語言字串。英語單詞“解碼”的起源是拉丁語“pars”,意思是“部分”。語法解碼旨在從加密貨幣(或原始)短語中預測語法樹。普通詞法分析器的輸出是什麼樣的?

在定義樹時,有必要知道每個單詞的語法頭部以及連線它們的邊的依賴名稱。這些資訊可用於重建上圖中的樹。

使用自頂向下的方法進行解碼

在這種情況下,詞法分析器從起始符號反向構建解析樹,目的是使起始符號與輸入匹配。常見的自頂向下解碼技術通常對輸入使用遞迴方法。儘管遞迴下降解碼有很多優點,但它有一個主要缺點,需要回溯。從輸入符號開始,詞法分析器嘗試構建詞法分析器房屋,直至起始符號。

在資料探勘中利用語法樹

語法樹有多種資料探勘應用。僅透過檢視語句中單詞的順序,我們就可以知道曼徹斯特是獲勝者,利物浦是失敗者。我們還需要其他指示,因為多種語言(如俄語、西班牙語和德語)具有開放的詞序。語法解碼是面向語義任務的有希望的準備步驟,因為語法關係(主語、賓語等)具有明確的語義等價物。

超越計算機技能

一個句子可以給出多個基本語法解析。因此,需要超越計算機語法原則的知識來確定哪個解析是預期的。自從 20 世紀中葉計算機開始廣泛使用以來,語法解碼的研究一直在進行。幾種基本語法建議使用各種形式來描述句子的結構結構。

計算重要性

鑑於計算的重要性,選區基本語法和依存語法都是包含這些形式的大類。兩種困難都採用了各種方法,並且兩種類別的詞法分析器都需要不同的演算法。隨著使用各種形式(如通用依存關係)的人工標註樹庫的建立,解碼的新演算法和方法也隨之發展。

表示式分組

這消除了某些語義歧義,與語法解碼問題相關,並且通常甚至是一個子問題。可以從語法解析中提取形式語義,並將其用於資訊提取(事件解碼、語義函式標註、實體標註等)。

聚類元件

包括根據選區語法的形式主義(如最小化和賓夕法尼亞樹庫)進行解碼。使用編碼元件生成和合並規則的上下文無關語法 (CFG),我們可以識別哪些跨度包含成分(例如,“[那個人]在這裡”)。此外,我們還可以識別成分的型別(例如,“[那個人]確實是一個名詞短語”)。對於大多數演算法起作用,必須將 CFG 轉換為喬姆斯基的第三正規化(每個元件有兩個子節點)。但是,這是一個不會影響樹的內容或表達力的過程。

上下文無關語法

CFG 提供了一種語言的語法,但沒有描述如何分配結構。解析是使用語法的重寫規則生成或重建特定單詞序列(或短語結構樹),解析是從句子構建的短語結構樹

自頂向下解析從根節點 S 開始其搜尋,並一直向下工作到葉子。這裡的關鍵假設是,輸入可以從語法中選擇的起始符號 s 推斷出來。下一步是發現所有以 s 開頭的子樹。我們使用其左側具有 s 的所有語法規則擴充套件和根節點,以構建第二級搜尋的子樹。類似地,結果子樹中的每個非終結符接下來都使用其左側具有匹配非終結符的語法規則進行擴充套件。右側的語法規則提供要形成的節點,這些節點將遞迴擴充套件。隨著樹向下發展,它最終到達一個點,即樹的底部僅包含詞性類別。在此步驟中,所有葉子與輸入句子中的單詞不匹配的樹都被丟棄,只留下表示成功解析的樹。

自底向上解析器從輸入短語中的單詞開始,一直向上工作到解析樹的根。在每個步驟中,解析器在語言中搜索其右側與迄今為止在解析樹中構建的生成的一部分匹配的規則,並使用生成左側將其縮減。如果解析器將樹縮減為語法的起始符號,則解析成功。這些解析方法各有優缺點。當自頂向下搜尋開始時,會生成具有起始符號的樹。語法永遠不會花費時間研究導致不同根的分支。但是,它會花費時間研究產生與輸入矛盾的單詞的 S 樹。這是因為自頂向下解析器在檢視輸入之前構建樹。另一方面,自底向上解析器永遠不會探索與輸入不匹配的樹。但是,它會浪費時間建立永遠不會導致 S 根樹的樹。

詞法分析器,作為一個概念

這就是我們將解碼付諸實踐的方式。它是負責接收資料(文字)、根據正式語法驗證其語法並輸出該資料的結構化表示的軟體。解析的最關鍵功能之一是,一旦恢復了典型的錯誤,就可以執行程式的其餘部分,構建解析樹,構建符號表,以及建立中間表示 (IR)。

最大右派性

最左派推導涉及讀取其句子的輸入並從左到右進行替換。在這裡,我們得到句子的所謂左句式形式。

向右推導

:句子接句子,最左派推導讀取輸入並從右到左進行相應的更改。在這種情況下,正確的句子結構被稱為“右句式形式”。

結論

它是數學或邏輯過程的視覺表示。解析樹以派生起始符號為根。每個解析樹在其葉節點處具有終結節點,在其內部節點處具有非終結節點。可以透過按順序跟隨解析樹的節點來恢復原始輸入字串。可以根據其語法結構來描述格式良好的程式。因此,語法至關重要,語言語法是指口語的基本語法。從語言學研究開始,人們就一直試圖為英語、印地語等自然語言定義語法。

更新於: 2023年1月2日

407 次檢視

開啟你的職業生涯

透過完成課程獲得認證

立即開始
廣告