人工智慧創造用於機器學習的合成數據


簡介

近年來,人工智慧(AI)取得了顯著進步,機器學習領域尤為突出。獲取足夠高質量的資料來訓練模型是機器學習實踐者面臨的最大挑戰之一。這就是合成數據發揮作用的地方。

人工智慧創造用於機器學習的合成數據

人工生成的合成數據可用於訓練機器學習演算法。本文將探討使用人工智慧生成合成資料的優勢,以及仍然需要克服的一些挑戰。

生成對抗網路是人工智慧用於生成合成資料的主要工具之一(GAN)。GAN是一種特殊的深度神經網路,由一個生成器和一個判別器組成。生成器負責生成虛假資料,而判別器則判斷資料是真實還是虛假。這兩個網路共同訓練,生成器試圖生成難以與真實資料區分開的虛假資料,而判別器則努力提高識別虛假資訊的能力。

合成數據

合成數據有兩個來源:

  • 真實世界資料

  • 模擬資料

雖然可以從真實世界資料中移除個人身份資訊 (PII) 和個人健康資訊 (PHI),但這並不能完全保護隱私,因為資料記錄仍然可能與其他可用於識別個人的來源匹配。例如,像COVID-19的資料,匿名化資料必須再次以一種保持機器學習演算法進行準確推斷和制定準確規則所需的資料集所有統計特徵的方式混合。

在某些情況下,缺乏真實世界資料是機器學習的挑戰。有時,從真實世界獲取資料可能不切實際或成本過高。模擬資料有時可能足夠接近真實世界例項,以至於機器學習演算法可以識別它。例如,自動駕駛汽車行業將來自移動車輛的真實感測器資料與來自駕駛模擬(甚至像俠盜獵車手這樣的電子遊戲)的模擬資料相結合。

在機器學習中使用合成數據具有多種優勢。它可以用來補充有限的真實世界資料集,這是一個關鍵優勢。例如,如果一家公司只有少量特定產品的照片,他們可以使用GAN生成該產品的合成影像,然後將其用於訓練機器學習模型。這可以減少過擬合的可能性並提高模型的準確性。

能夠為難以或不可能收集真實世界資料的任務生成資料是合成數據的另一個優勢。假設一家公司想要訓練一個機器學習模型來預測患者患某種特定疾病的傾向性。但是,由於隱私問題,他們無法獲得真實的患者資料。在這種情況下,他們可以使用GAN生成虛假患者資料,然後用它來訓練模型。除了GAN之外,還可以使用多種AI方法來生成合成資料。例如,一種名為變分自動編碼器 (VAE) 的特定型別的深度神經網路可以透過研究資料集的底層分佈來生成合成資料。此外,還可以應用資料插補、資料增強和資料模擬等方法來生成合成資料。

不幸的是,採用合成數據也帶來一些必須克服的挑戰。合成數據必須能夠代表真實世界資料,這是一個主要障礙。如果合成數據與真實世界資料不完全匹配,則機器學習模型可能無法正常工作。另一個挑戰是,合成數據必須足夠多樣化,以涵蓋模型在現實世界中可能遇到的每種情況。

另一個挑戰是,使用合成數據可能會產生有偏差的模型。有偏差的模型是指已經學會對某些人群產生不準確預測的模型。例如,在一個對特定種族或性別有偏見的合成數據上訓練的模型可能會對不在該群體中的人產生不準確的預測。為避免這種情況,務必確保合成數據多樣化,並能代表真實世界資料。

合成數據應用

  • 用於DevOps的自動化軟體測試。測試資料一直是軟體開發的必要條件,但當今DevOps快速敏捷的開發週期比以往任何時候都需要更多的測試資料。

  • 自動駕駛汽車的開發。在實際道路上操作感測器汽車是一個昂貴且耗時的過程,將來自駕駛模擬的資料結合起來,為自動駕駛AI提供了更大的資料集來進行訓練。

  • 製造業中的機器人和自動化。合成數據可以加快機器人和製造應用中AI系統的訓練速度,因為真實世界的資料收集可能緩慢且昂貴,例如汽車資料收集。

  • 金融服務。個人財務資料受到嚴格的保密限制,就像醫療資料一樣,合成數據使開發人員和業務使用者可以訪問更大的資料集,而不會侵犯隱私。

  • 市場營銷中的消費者行為模擬。由於GDPR和其他限制適用於實際的消費者線上行為,因此可以使用合成數據集更廣泛、更徹底地訓練營銷AI。

  • 臨床醫學研究。由於PHI受到嚴格監管,因此在資料集可能過於有限而無用處的情況下,人工智慧 (AI) 和機器學習變得可行。

  • 面部識別為避免隱私洩露以及來自面部型別代表性不足的偏見,可以使用合成面部資料代替真實世界圖片來訓練面部識別。

結論

總而言之,人工智慧正被用於建立可用於訓練機器學習模型的合成數據。合成數據可用於增強有限的真實世界資料集,以及為難以或不可能收集真實世界資料的任務建立資料。但是,務必確保合成數據能夠代表真實世界。

更新於:2023年3月28日

瀏覽量:193

開啟你的職業生涯

透過完成課程獲得認證

開始學習
廣告
© . All rights reserved.