資料科學 - 機器學習

機器學習使機器能夠從資料中自動學習，從經驗中提高效能，並在沒有明確程式設計的情況下預測事物。機器學習主要關注開發允許計算機從資料和過去經驗中自行學習的演算法。機器學習這個術語是由亞瑟·塞繆爾在1959年首次提出的。

資料科學是從資料中獲取有用見解的科學，以便獲得最關鍵和相關的的資訊來源。並且在給定可靠的資料流的情況下，使用機器學習生成預測。

資料科學和機器學習是計算機科學的子領域，專注於分析和利用大量資料來改進產品、服務、基礎設施系統等開發和推向市場的過程。

兩者之間的關係類似於正方形和矩形的關係，但矩形不是正方形。資料科學是包含一切的矩形，而機器學習是它本身的一個實體的正方形。資料科學家在他們的工作中經常使用它們，並且幾乎每個企業都越來越接受它們。

什麼是機器學習？

機器學習（ML）是一種演算法型別，它允許軟體在沒有專門程式設計的情況下更準確地預測未來會發生什麼。機器學習背後的基本思想是建立能夠將資料作為輸入並使用統計分析來預測輸出的演算法，同時在新的資料可用時更新輸出。

機器學習是人工智慧的一部分，它使用演算法來查詢資料中的模式，然後預測這些模式在未來將如何變化。這使工程師能夠使用統計分析來查詢資料中的模式。

Facebook、Twitter、Instagram、YouTube 和 TikTok 收集有關其使用者的資訊，根據您過去的行為，它可以猜測您的興趣和需求，並推薦適合您需求的產品、服務或文章。

機器學習是一套用於資料科學的工具和概念，但它們也出現在其他領域。資料科學家經常在他們的工作中使用機器學習來幫助他們更快地獲取更多資訊或找出趨勢。

機器學習的型別

機器學習可以分為三種類型的演算法：

監督學習
無監督學習
強化學習

監督學習

監督學習是一種機器學習和人工智慧的型別。它也被稱為“監督式機器學習”。它的特點是使用標記資料集來訓練演算法如何正確地分類資料或預測結果。當資料輸入模型時，其權重會發生變化，直到模型正確擬合。這是交叉驗證過程的一部分。監督學習幫助組織找到各種現實世界問題的規模化解決方案，例如將垃圾郵件分類到與收件箱分開的資料夾中，就像在 Gmail 中，我們有一個垃圾郵件資料夾。

監督學習演算法

一些監督學習演算法包括：

樸素貝葉斯 - 樸素貝葉斯是一種分類演算法，它基於貝葉斯定理的類條件獨立性原理。這意味著一個特徵的存在不會改變另一個特徵的可能性，並且每個預測變數對結果/結局具有相同的效應。
線性迴歸 - 線性迴歸用於發現因變數如何與一個或多個自變數相關聯，並對未來會發生的事情做出預測。當只有一個自變數和一個因變數時，稱為簡單線性迴歸。
邏輯迴歸 - 當因變數是連續的時，使用線性迴歸。當因變數是分類的，例如“真”或“假”或“是”或“否”時，使用邏輯迴歸。線性迴歸和邏輯迴歸都試圖找出資料輸入之間的關係。但是，邏輯迴歸主要用於解決二元分類問題，例如確定特定郵件是否為垃圾郵件。
支援向量機（SVM） - 支援向量機是由弗拉基米爾·瓦普尼克開發的一種流行的監督學習模型。它可用於分類和預測資料。因此，它通常用於透過建立超平面來解決分類問題，在該超平面上兩組資料點之間的距離最大。這條線稱為“決策邊界”，因為它將兩側的資料點分組（例如，橙子和蘋果）。
K近鄰 - KNN 演算法，也稱為“k-近鄰”演算法，根據資料點彼此之間以及與其他資料點的接近程度和相關性對資料點進行分組。該演算法基於類似的資料點可以彼此靠近找到的思想。因此，它嘗試使用歐幾里得距離來確定資料點之間的距離，然後根據最常見或平均類別分配一個類別。但是，隨著測試資料集大小的增長，處理時間會增加，使其不太適合分類任務。
隨機森林 - 隨機森林是另一種靈活的監督機器學習演算法，可用於分類和迴歸。這個“森林”是一組彼此不相關的決策樹。然後將這些樹組合起來以減少差異並做出更準確的資料預測。

無監督學習

無監督學習，也稱為無監督機器學習，使用機器學習演算法檢視未標記的資料集並將其組合在一起。這些程式查詢隱藏的模式或資料組。它在資訊中查詢相似點和差異的能力使其非常適合探索性資料分析、交叉銷售策略、客戶細分和影像識別。

常見的無監督學習方法

無監督學習模型用於三個主要任務：聚類、建立聯絡和降低維度。下面，我們將描述學習方法和常用的演算法：

聚類 - 聚類是一種資料探勘方法，它根據資料之間的相似性或差異來組織未標記的資料。聚類技術用於根據資料中的結構或模式將未分類、未處理的資料項組織成組。聚類演算法有很多型別，包括排他性、重疊、層次和機率。

K均值聚類是一個流行的聚類方法示例，其中資料點根據它們與每個組的中心點的距離分配到 K 個組中。最靠近某個中心點的資料點將被分組到同一類別中。較高的 K 值表示具有更多粒度的較小組，而較低的 K 值表示具有較少粒度的較大組。K均值聚類的常見應用包括市場細分、文件聚類、影像分割和影像壓縮。

降維 - 儘管更多的資料通常會產生更準確的結果，但它也可能影響機器學習演算法的有效性（例如，過擬合）並使資料集的視覺化變得困難。當資料集具有過多的特徵或維度時，會使用降維策略。它減少了資料輸入的數量到可管理的水平，同時儘可能地保持資料集的完整性。降維通常用於資料預處理階段，並且有多種方法，其中一種是：

主成分分析（PCA） - 它是一種降維方法，用於透過特徵提取來去除冗餘和壓縮資料集。此方法使用線性變換來生成新的資料表示，從而產生一組“主成分”。第一個主成分是最大化方差的資料集方向。儘管第二個主成分同樣找到資料中最大的方差，但它與第一個完全不相關，從而產生與第一個正交的方向。此過程根據維度的數量重複進行，下一個主成分是與先前最可變成分正交的方向。

強化學習

強化學習（RL）是一種機器學習型別，它允許代理透過試錯在互動環境中學習，利用其自身行為和經驗的反饋。

強化學習中的關鍵術語

一些描述 RL 問題基本元件的重要概念包括：

環境 - 代理執行的物理環境
狀態 - 代理的當前情況
獎勵 - 基於環境的反饋
策略 - 代理狀態和動作之間的對映
價值 - 代理在給定狀態下執行某個動作將獲得的未來獎勵。

資料科學與機器學習

資料科學是對資料及其如何從中得出有意義的見解的研究，而機器學習是對使用資料來提高效能或告知預測的模型的研究和開發。機器學習是人工智慧的一個子領域。

近年來，機器學習和人工智慧（AI）在資料科學領域佔據主導地位，在資料分析和商業智慧中發揮著至關重要的作用。機器學習透過使用模型和演算法，自動執行資料分析並根據對特定人群的大量資料的收集和分析進行預測。資料科學和機器學習彼此相關，但並不相同。

資料科學是一個廣闊的領域，涵蓋了從資料中提取見解和資訊的各個方面。它涉及收集、清理、分析和解讀海量資料，以發現可能指導業務決策的模式、趨勢和見解。

機器學習是資料科學的一個子領域，專注於開發能夠從資料中學習並根據其獲得的知識進行預測或判斷的演算法。機器學習演算法旨在透過獲取新知識隨著時間的推移自動提高其效能。

換句話說，資料科學將機器學習包含在其眾多方法論中的一種。機器學習是資料分析和預測的強大工具，但它只是整個資料科學的一個子領域。

以下是比較表，以便於理解。

資料科學	機器學習
資料科學是一個廣泛的領域，它涉及使用各種技術（包括統計分析、機器學習和資料視覺化）從大型複雜的資料集中提取見解和知識。	機器學習是資料科學的一個子集，它涉及定義和開發演算法和模型，使機器能夠從資料中學習並進行預測或決策，而無需明確程式設計。
資料科學專注於理解資料、識別模式和趨勢以及提取見解以支援決策制定。	另一方面，機器學習專注於構建預測模型並根據學習到的模式做出決策。
資料科學包括各種各樣的技術，例如資料清理、資料整合、資料探索、統計分析、資料視覺化和機器學習。	另一方面，機器學習主要專注於使用迴歸、分類和聚類等演算法構建預測模型。
資料科學通常需要大型複雜的資料集，這些資料集需要進行大量的處理和清理才能得出見解。	另一方面，機器學習需要帶標籤的資料，這些資料可用於訓練演算法和模型。
資料科學需要統計學、程式設計和資料視覺化方面的技能，以及所研究領域的領域知識。	機器學習需要深入瞭解演算法、程式設計和數學，以及特定應用領域的知識。
資料科學技術可用於預測之外的各種目的，例如聚類、異常檢測和資料視覺化。	機器學習演算法主要專注於根據資料進行預測或決策。
資料科學通常依賴統計方法來分析資料，	機器學習依賴演算法進行預測或決策。

列印頁面