資料科學 - 入門
資料科學是從資料中提取和分析有用資訊以解決難以透過分析方法解決的問題的過程。例如,當您訪問電子商務網站並在購買前檢視一些類別和產品時,您正在建立分析人員可以用來了解您如何購物的資料。
它涉及不同的學科,例如數學和統計建模,從資料來源提取資料和應用資料視覺化技術。它還涉及處理大資料技術以收集結構化和非結構化資料。
它可以幫助您發現隱藏在原始資料中的模式。“資料科學”一詞的出現是因為數學統計、資料分析和“大資料”隨著時間的推移而發生了變化。
資料科學是一個跨學科領域,使您可以從組織化和非組織化資料中學習。利用資料科學,您可以將業務問題轉化為研究專案,然後將其應用於現實世界的解決方案。
資料科學的歷史
John Tukey在1962年使用“資料分析”一詞來定義一個類似於當前現代資料科學的領域。在1985年北京中國科學院的講座上,C. F. Jeff Wu首次將“資料科學”作為統計學的替代詞。隨後,1992年在蒙彼利埃第二大學舉行的一次會議上,與會者(統計學家)認識到一個新的領域誕生了,該領域以來自許多來源和形式的資料為中心,將統計學和資料分析的已知思想和原理與計算機相結合。
Peter Naur在1974年建議將“資料科學”作為計算機科學的替代名稱。國際分類學會聯合會是第一個在1996年將資料科學作為特殊主題的會議。然而,這個概念仍在變化。繼1985年在北京中國科學院的講座之後,C. F. Jeff Wu在1997年再次倡導將統計學改名為資料科學。他認為,新的名稱將有助於消除統計學的不準確的刻板印象和觀念,例如與會計相關或僅限於資料描述。
在20世紀90年代,“知識發現”和“資料探勘”是用於識別越來越大的資料集中模式的流行術語。
2012年,工程師Thomas H. Davenport和DJ Patil宣稱“資料科學家:21世紀最熱門的工作”,這一說法被《紐約時報》和《波士頓環球報》等主要大都市出版物採納。十年後,他們再次強調“該職位比以往任何時候都更緊缺”。
William S. Cleveland經常與當前將資料科學視為一個獨立領域的理解聯絡在一起。在他2001年的一項研究中,他主張將統計學發展到技術領域;需要一個新名稱,因為這將從根本上改變該學科。在接下來的幾年裡,“資料科學”越來越流行。2002年,科學與技術資料委員會出版了《資料科學雜誌》。哥倫比亞大學於2003年創辦了《資料科學雜誌》。美國統計協會的統計學習和資料探勘分會於2014年將其名稱改為統計學習和資料科學分會,反映了資料科學日益普及的現狀。
2008年,DJ Patil和Jeff Hammerbacher獲得了“資料科學家”的專業稱號。雖然它被國家科學委員會在其2005年的研究“長壽命數字資料集合:支援21世紀的研究和教學”中使用,但它指的是在管理數字資料集合中的任何重要角色。
關於資料科學的含義尚未達成一致,一些人認為它只是一個流行詞。大資料是營銷中一個類似的概念。資料科學家負責將海量資料轉化為有用的資訊,並開發有助於企業和組織確定最佳運營的軟體和演算法。
為什麼選擇資料科學?
根據IDC的資料,到2025年,全球資料將達到175澤位元組。資料科學幫助企業瞭解來自不同來源的大量資料,提取有用的見解,並做出更好的資料驅動決策。資料科學廣泛應用於多個工業領域,例如營銷、醫療保健、金融、銀行和政策制定。
以下是使用資料分析技術的顯著優勢:
資料是現代社會的石油。藉助合適的工具、技術和演算法,我們可以利用資料創造獨特的競爭優勢。
資料科學可以使用先進的機器學習技術來檢測欺詐。
它可以幫助您避免嚴重的財務損失。
能夠開發智慧機器
您可以使用情感分析來確定客戶的品牌忠誠度。這有助於您做出更好、更快的決策。
它使您能夠向合適的客戶推薦合適的產品,從而發展您的公司。
對資料科學的需求
我們擁有的資料以及我們生成的資料量
根據福布斯的資料,2010年至2020年間,全球生成、複製、記錄和消費的資料總量激增了約5000%,從1.2萬億吉位元組增加到59萬億吉位元組。
公司如何從資料科學中獲益?
許多公司正在進行資料轉型(將其IT架構轉換為支援資料科學的架構),有很多資料訓練營等等。事實上,這有一個簡單的解釋:資料科學提供了寶貴的見解。
一些公司正被那些基於資料做出決策的公司超越。例如,福特公司在2006年虧損126億美元。在失敗之後,他們聘請了一位高階資料科學家來管理資料,並進行了為期三年的改造。這最終導致銷售了近2,300,000輛汽車,並在2009年全年盈利。
資料科學家的需求和平均薪資
據《印度今日》報道,由於公司和服務的快速數字化,印度是世界第二大資料科學中心。分析師預計,到2026年,該國將擁有超過1100萬個就業機會。事實上,自2019年以來,資料科學領域的招聘增長了46%。
美國銀行是十年前首批向客戶提供移動銀行服務的金融機構之一。最近,美國銀行推出了其首個虛擬財務助理Erica。它被認為是世界上最好的金融發明。
Erica目前為全球超過4500萬客戶提供客戶顧問服務。Erica使用語音識別來接收客戶反饋,這代表了資料科學的技術發展。
資料科學和機器學習曲線陡峭。儘管印度每年湧入大量資料科學家,但擁有必要技能和專業知識的人相對較少。因此,擁有專業資料技能的人才非常緊缺。
資料科學的影響
資料科學對現代文明的許多方面都產生了重大影響。資料科學對組織的重要性不斷提高。根據一項研究,到2023年,全球資料科學市場規模將達到1150億美元。
醫療保健行業受益於資料科學的興起。2008年,谷歌員工意識到他們可以即時監測流感病毒株。之前的技術只能提供每週的病例更新。谷歌能夠利用資料科學建立首批疾病傳播監測系統之一。
體育行業也從資料科學中獲益。2019年,一位資料科學家找到了衡量和計算射門嘗試如何提高足球隊獲勝機率的方法。事實上,資料科學被用於輕鬆計算各種體育運動中的統計資料。
政府機構也每天都使用資料科學。全球各國政府都使用資料庫來監測有關社會保障、稅收以及其他與其居民相關的資料的資訊。政府對新興技術的利用仍在不斷發展。
隨著網際網路成為人類溝通的主要媒介,電子商務的普及程度也越來越高。利用資料科學,線上企業可以監測整個客戶體驗,包括營銷工作、購買和消費者趨勢。廣告可能是電子商務企業使用資料科學的最佳案例之一。您是否曾經線上搜尋過東西或訪問過電子商務產品網站,結果卻在社交網站和部落格上看到該產品的廣告轟炸?
廣告畫素是線上收集和分析使用者資訊不可或缺的一部分。公司利用線上消費者行為在網際網路上重新定位潛在消費者。這種對客戶資訊的利用超出了電子商務的範圍。像Tinder和Facebook這樣的應用程式使用演算法來幫助使用者找到他們正在尋找的東西。網際網路是一個不斷增長的資料寶庫,對這些資料的收集和分析也將持續增長。