MBR 的組成元素是什麼?
MBR 的各個組成元素如下:
選擇訓練集 - 訓練集包含 49,652 條新聞報道,由新聞檢索服務提供支援。這些報道來自大約三個月的新聞,以及近 100 個不同的來源。
每篇報道平均包含 2,700 個單詞,併為其建立了八個程式碼。訓練集並非專門建立的,因此訓練集中程式碼的頻率差異很大,這模擬了新聞報道中程式碼的整體頻率。
選擇距離函式 - 下一步是選擇距離函式。在此方法中,存在一個距離函式,它依賴於一個稱為相關反饋的概念,該概念根據兩個檔案包含的單詞來計算它們的相似性。相關反饋(在側邊欄中更全面地定義)旨在返回與給定文件相似的檔案,作為改進搜尋的一種方法。相同的文件是 MBR 使用的鄰居。
選擇組合函式 - 下一個決定是組合函式。將分類程式碼建立到新聞報道中與大多數分類問題不同。一些分類問題正在尋找最佳解決方案。但是新聞報道可以有多個程式碼,即使來自相同的元素。MBR 能夠適應這個問題突出了它的靈活性。
組合函式需要加權求和方法。因為最大距離是 1,所以權重很容易是一減去距離,因此對於距離較小的鄰居,權重可以較大,而對於距離較大的鄰居,權重可以較小。
選擇鄰居數量 - 該研究在 1 到 11(含)之間改變了最近鄰的數量。使用更多鄰居可以得到最佳結果。但是,本案例研究與 MBR 的幾種應用不同,因為它為每個故事建立多個類別。通常的問題是隻建立一個單獨的類別或程式碼,而較少的鄰居對於獲得最佳結果就足夠了。
為了計算 MBR 在編碼方面的有效性,新聞服務有一個編輯委員會審查了一些分配的程式碼(無論是編輯還是 MBR 分配的),共 200 篇報道。小組大多數成員同意的某些程式碼被視為“正確”的。
將“正確”程式碼與人類編輯最初建立的程式碼進行比較很有趣。最初為報道建立的程式碼(由人類)中有 88% 是正確的,但人工編輯也犯了錯誤。
資料結構
網路
關係資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP