自然語言處理 - 起源



本章將討論自然語言處理中的自然語言起源。首先,讓我們先了解什麼是自然語言語法。

自然語言語法

在語言學中,語言是一組任意的語音符號。我們可以說語言是創造性的、受規則支配的、先天的,同時也是普遍的。另一方面,它也是人類的。不同人的語言性質不同。關於語言的性質有很多誤解。這就是為什麼理解含糊不清的術語“語法”的含義非常重要的原因。在語言學中,語法可以定義為語言運作所依據的規則或原則。廣義上,我們可以將語法分為兩類:

描寫語法

語言學家和語法學家根據說話者的語法制定的規則集合稱為描寫語法。

規範語法

這是語法的另一種意義,它試圖維持語言的正確性標準。這一類別與語言的實際運作關係不大。

語言的組成部分

研究的語言被劃分為相互關聯的組成部分,這些部分是語言研究的約定俗成的和任意的劃分。這些組成部分的解釋如下:

音系學

語言的第一個組成部分是音系學。它是對特定語言語音的研究。這個詞的起源可以追溯到希臘語,其中“phone”的意思是聲音或語音。音韻學的一個分支——語音學,是從語音的產生、感知或物理屬性的角度研究人類語言的語音。國際音標 (IPA) 是一種工具,它在研究音系學時以規範的方式表示人類的聲音。在 IPA 中,每個書寫符號都代表一個且只有一個語音,反之亦然。

音素

它可以定義為語言中區分一個詞與另一個詞的聲音單位之一。在語言學中,音素寫在斜線之間。例如,音素/k/出現在諸如 kit、skit 等詞中。

形態學

它是語言的第二個組成部分。它是對特定語言中詞的結構和分類的研究。這個詞的起源來自希臘語,其中“morphe”的意思是“形式”。形態學考慮的是語言中詞的構成原則。換句話說,聲音是如何組合成有意義的單位,如字首、字尾和詞根。它還考慮如何將單詞分組為詞性。

詞素

在語言學中,形態學分析的抽象單位對應於單個詞的一組形式,稱為詞素。詞素在句子中的使用方法由其語法類別決定。詞素可以是單個詞或多詞。例如,單詞 talk 是單個詞詞素的一個例子,它可能有許多語法變體,如 talks、talked 和 talking。多詞詞素可以由多個拼寫片語成。例如,speak up、pull through 等是多詞詞素的例子。

句法

它是語言的第三個組成部分。它是對單詞排列成更大單位的研究。這個詞可以追溯到希臘語,其中 suntassein 的意思是“按順序排列”。它研究句子的型別及其結構、從句、短語。

語義學

它是語言的第四個組成部分。它是關於如何表達意義的研究。意義可以與外部世界相關,也可以與句子的語法相關。這個詞可以追溯到希臘語,其中 semainein 的意思是“表示”、“顯示”、“訊號”。

語用學

它是語言的第五個組成部分。它是對語言的功能及其在語境中的使用的研究。這個詞的起源可以追溯到希臘語,其中“pragma”的意思是“行為”、“事件”。

語法範疇

語法範疇可以定義為語言語法中的一類單位或特徵。這些單位是語言的構建塊,並共享一組共同的特徵。語法範疇也稱為語法特徵。

語法範疇的清單如下:

這是最簡單的語法範疇。我們有兩個與這個類別相關的術語——單數和複數。單數是“一”的概念,而複數是“多於一”的概念。例如,dog/dogs,this/these。

語法性由人稱代詞和第三人稱的變化表示。語法性的例子是單數——he、she、it;第一和第二人稱形式——I、we 和 you;第三人稱複數形式 they,是普通性別或中性性別。

人稱

另一個簡單的語法範疇是人稱。在此之下,識別以下三個術語:

  • 第一人稱——說話的人被認為是第一人稱。

  • 第二人稱——聽者或被談到的人被認為是第二人稱。

  • 第三人稱——我們談論的人或物被認為是第三人稱。

這是最難的語法範疇之一。它可以定義為名詞短語 (NP) 功能的指示,或名詞短語與動詞或句子中其他名詞短語的關係。我們有人稱和疑問代詞中表達的以下三種格:

  • 主格——它是主語的功能。例如,I、we、you、he、she、it、they 和 who 是主格。

  • 屬格——它是所有者的功能。例如,my/mine、our/ours、his、her/hers、its、their/theirs、whose 是屬格。

  • 賓格——它是賓語的功能。例如,me、us、you、him、her、them、whom 是賓格。

等級

這個語法範疇與形容詞和副詞有關。它有以下三個術語:

  • 原級——它表達一種品質。例如,big、fast、beautiful 是原級。

  • 比較級——它表達兩項中一項的品質程度或強度更大。例如,bigger、faster、more beautiful 是比較級。

  • 最高階——它表達三項或更多項中一項的品質程度或強度最大。例如,biggest、fastest、most beautiful 是最高階。

限定性和非限定性

這兩個概念都很簡單。限定性表示說話者或聽者知道、熟悉或可識別的指示物件。另一方面,非限定性表示未知或不熟悉的指示物件。這個概念可以在冠詞與名詞的共同出現中理解:

  • 定冠詞——the

  • 不定冠詞——a/an

時態

這個語法範疇與動詞有關,可以定義為動作時間的語言指示。時態建立了一種關係,因為它表示事件相對於說話時刻的時間。大體上,它有以下三種類型:

  • 現在時——表示動作在現在時刻發生。例如,Ram works hard。

  • 過去時——表示動作在現在時刻之前發生。例如,it rained。

  • 將來時——表示動作在現在時刻之後發生。例如,it will rain。

這個語法範疇可以定義為對事件的看法。它可以是以下型別:

  • 完成體——在這個體中,觀點被視為完整和完整的。例如,英語中的簡單過去時,如yesterday I met my friend,在體上是完成體,因為它將事件視為完整和完整的。

  • 未完成體——在這個體中,觀點被視為正在進行和不完整的。例如,英語中的現在分詞時態,如I am working on this problem,在體上是未完成體,因為它將事件視為不完整和正在進行的。

語氣

這個語法範疇有點難以定義,但可以簡單地說它是說話者對所談論內容的態度的指示。它也是動詞的語法特徵。它不同於語法時態和語法體。語氣的例子有陳述語氣、疑問語氣、祈使語氣、命令語氣、虛擬語氣、可能語氣、願望語氣、動名詞和分詞。

一致

它也稱為一致性。當一個詞根據它所相關的其他詞而發生變化時,就會發生這種情況。換句話說,它涉及使一些語法範疇的值在不同的詞或詞類之間一致。以下是基於其他語法範疇的一致:

  • 基於人稱的一致——它是主語和動詞之間的一致。例如,我們總是使用“I am”和“He is”,但從不用“He am”和“I is”。

  • 基於數量的語態一致 − 此協議存在於主語和謂語之間。在這種情況下,第一人稱單數、第二人稱複數等有特定的動詞形式。例如,第一人稱單數:我確實是的,第二人稱複數:我們確實是,第三人稱單數:男孩唱歌,第三人稱複數:男孩們唱歌。

  • 基於性別的語態一致 − 在英語中,代詞和先行詞在性別上要一致。例如,他到達了他的目的地。船到達了它的目的地。

  • 基於格的語態一致 − 這種一致在英語中不是一個顯著的特徵。例如,誰先來——他還是他的妹妹?

口語語法

書面英語和口語英語語法有很多共同點,但同時它們在許多方面也有所不同。以下特徵區分了口語和書面英語語法:

不流暢和修復

這個顯著的特徵使口語和書面英語語法彼此不同。它分別被稱為不流暢現象,統稱為修復現象。不流暢包括使用以下內容:

  • 填充詞 − 有時在句子中間,我們會使用一些填充詞。它們被稱為填充詞或填充停頓。此類詞的例子包括“uh”和“um”。

  • 修復成分和修復 − 句子中間重複的詞段稱為修復成分。在同一個詞段中,改變的詞稱為修復。請考慮以下示例以理解這一點:

ABC航空公司提供任何單程航班嗎?uh,5000盧比的單程票價?

在上句中,“單程航班”是修復成分,“單程票價”是修復。

重新開始

在填充停頓之後,會發生重新開始。例如,在上句中,當說話者開始詢問單程航班然後停頓,用填充停頓糾正自己,然後重新開始詢問單程票價時,就會發生重新開始。

詞語片段

有時我們會用更小的詞語片段來說話。例如,wwha-what is the time? 這裡的詞語w-wha就是詞語片段。

廣告