人工智慧與資料的關係
簡介
人工智慧 (AI) 成功地模仿了人類的認知和推理過程,並將其應用於日常應用中。這在網路安全中經常被觀察到,例如工作自動化和威脅變種預測。
但任何人工智慧系統(就像汽車一樣)都需要燃料來驅動。然而,資料遠不止燃料那麼簡單。因此,本文的目的是闡明資料在人工智慧中起到的至關重要的作用。
人工智慧與資料的關係
以下是人工智慧與資料之間的一些關係
垃圾進,垃圾出
人工智慧系統的“輸出”(您正在尋找的解決方案)只能透過提供正確的輸入來獲得。在這種情況下,它採用資料集的形式。如果其中任何一個數據不準確,您的輸出將會出現偏差,您的結論也將引導您走向錯誤的方向。
我們使用機器學習建立的垃圾分類軟體很好地證明了這一點(與垃圾相關的引用並非有意為之)。資料對於該專案的成功至關重要。
良好資料集的特徵是什麼?
回答這個問題可能很困難,因為它主要取決於人工智慧系統預期執行的目的。但一般來說,以下列出的特徵是在篩選資料集時需要注意的:
完整性 - 這確保您的資料集中不包含任何空白或單元格。在任何插槽中都沒有明顯的空隙;每個插槽都包含一些資料。
全面性 - 資料集儘可能全面。例如,如果您的目標是在網路安全中模擬威脅向量,則所有導致其產生的簽名配置檔案必須包含所有相關資料。
一致性 - 分配給資料集的變數必須適用於所有資料集。例如,如果您正在模擬汽油價格,則您選擇的變數(天然汽油、無鉛汽油、高階汽油等)必須包含必要的價格資訊,以便落入相關的類別。
準確性 - 這至關重要。您必須相信這些資料來源,因為您將為您的 AI 系統選擇不同的資料來源。如果任何部分不準確,結果將出現偏差,您將無法獲得正確的答案。
有效性 - 使用時間序列資料集時,這一點至關重要。在檢查最近的資料集時,您不希望看到過時的資料,這些資料可能會阻礙人工智慧系統學習的能力。允許它從最近的資料中獲取知識。您的應用程式將決定回溯多遠。例如,對於網路安全,回溯一年通常就足夠了。
唯一性 - 每個資料都必須與其所服務的變數不同,就像一致性一樣。例如,您不希望同一天然氣價格因兩個不同的因素而有所不同。
並非所有人工智慧系統都具有同等能力
當我們考慮實際資料集時,我們經常會看到一個很長的數字列表或定量資料。但還有其他用於定性資料的資料庫,例如電影、影像等等。
人工智慧系統分別將這些資料集稱為“結構化”和“非結構化”。需要記住的是,並非所有人工智慧系統都能處理這些資料集中的每一個。
但是,也有一些系統可以同時利用兩者,並且只需要很少的人工干預。因此,為您的系統選擇合適的資料集至關重要;否則,您的輸出可能會產生與您預期不同的結果。
質量與數量的問題
為了學習並生成所需的輸出,人工智慧系統必須首先消耗並學習大量資料。這可以快速處理,但問題是:我們應該優先考慮質量還是數量?始終選擇後者。
較短的資料集將需要人工智慧系統花費更多的時間進行處理,但可以確保結果可靠且有用。懷著人工智慧系統能夠從中學習什麼的空想,而向其提供大量資料是適得其反的。
結論
人工智慧 (AI) 成功地模仿了人類的認知和推理過程。任何人工智慧系統(就像汽車一樣)都需要燃料來驅動。資料對於該專案的成功至關重要;以下是一些良好資料集的關鍵特徵。例如,如果您正在模擬汽油價格,則您選擇的變數(天然汽油、無鉛汽油、高階汽油等)必須包含必要的價格資訊。為了學習並生成所需的輸出,人工智慧系統必須消耗並學習大量資料。
為您的系統選擇合適的資料集並確保其產生可靠且有用的結果至關重要。問題是——我們應該優先考慮質量還是數量?
資料結構
網路
關係型資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP