amychan2264
amychan2264

21世紀必懂的最強趨勢:數據科學

隨著數據科學的應用越來越普遍,各大行業都開始向相關領域的人才拋出橄欖枝。到底數據科學是什麼?發展前景如何?從零開始學起又需要多久時間?不如就讓 Preface 逐一解答你的問題吧!


什麼是數據科學?


「數據科學」其實是一個統稱,涵蓋統計、人工智能 (AI)、數據分析、數據抽取等多個流程。


在《Doing Data Science》一書中,作者就著數據科學家的工作內容,給出了一個簡易易懂的總結:


「數據科學家是懂得如何使用不同工具和方法,從數據中提取知識和理解的人。」


而如果需要從大量數據中發掘有意義的資訊,便必須掌握數據科學的 5 大工作階段:


5 大工作階段

1. 提取

  • 數據採集
  • 數據輸入
  • 信號接收
  • 數據收錄

2. 維護

  • 數據倉庫
  • 數據清理
  • 數據暫存
  • 數據處理
  • 數據架構

3. 處理

  • 數據挖掘
  • 聚類
  • 數據建模
  • 數據匯總

4. 分析

  • 探索和確認
  • 預測分析
  • 定性分析

5. 溝通

  • 數據報告
  • 數據可視化
  • 提出建議


Source: Oracle, Berkeley School of Information


為何數據科學這麼受重視?


你可能會質疑數據科學是否被過譽了,這真的是 21 世紀最重要的工作之一嗎?


沒錯,其發展潛力是巨大的 —— 相信這對酷愛數字的人士而言是一個大好消息。


首先,在電子商貿發展千里的現今社會,數據的重要性毋庸置疑。不論是醫療保健、銀行、咨詢服務還是餐飲服務,不同行業都需要一名專家協助公司理解繁瑣的數據並制定更有效的營銷計劃。透過從網站、社交媒體平台和電子支付交易中提取數據,數據科學家可以得悉消費者的消費習慣和模式,從而讓決策者知道該如何為公司的發展做出更明智的決定。


除此以外,數據還可以幫助企業洞悉內部不足,讓公司能糾正錯誤,提高效率和生產力。很多時候,企業都會「用錯力」,導致付出和結果不成正比。麻煩的是,搞清楚問題的癥結並不是一件容易的事情。在這個情況下,數據科學便能大派用場!數據科學家可以藉著搜集過往的數據,準確地揭示問題表後的成因,再針對性地提供具體的評估和實時報告,緊密追蹤改善進度,這對於任何企業的成功都至關緊要。


Source: AnalytiXLabs, Grow


數據科學的相關工作


老實說,但凡是有基本的數據科學知識,在所有行業 (不局限於科技) 中都十分搶手。以下是一些最常見的職位:


1. 數據科學家


不用多說,數據科學家當然是最相關的職位。工作內容包括從多個資源中抽取數據,再以不同角度進行篩選和分析,從而制定出以數據為基礎的解決方法。就職者需要高水平的電腦技術,例如熟悉編碼語言、數據庫、機器學習和數據報告技巧。最典型的僱主分別來自高等教育、銀行、營銷和零售領域。


2. 商業智慧開發人員


這個職務的工作範疇包括與最終用戶合作構建報告系統、為未來的決策提供參考等。由於過程中需要用到數據倉庫,所以申請者必須熟悉如何使用檢索和管理工具來提取數據,並在必要時解決數據質量及數據協調的問題。通常大型企業和科技公司會較熱衷於聘請這方面的人才。


3. 機器學習工程師


由於這份工作的職責包括設計和開發機器學習模型,所以對數據科學和編程知識的要求十分高,亦建議有一定的統計和軟件工程經驗。開發過程通常會從研究數據科學原型開始,然後根據客戶需求,選擇合適的數據集及表達方法。隨著機器學習成為當今的熱門話題,幾乎所有行業都刊登了相關空缺。


Source: Target Jobs, Industry Connect, Springboard


香港有數據科學的課程嗎?


如果你對數據科學沒有任何認識,那以下這個兼職課堂一定很適合你!


Preface 提供了一個以 Python 學習數據科學及人工智能 的課程,在短短 80 小時內,學生便能學懂如何使用 Python 編寫代碼並處理大數據集、有條理地分析和收集數據、創建數據框架進行基本分析等。此外,你還可以接觸如何以清晰及引人矚目的方式呈現數據。你還能學到實用的機器學習技術,有助將來進行預測並提供有異議的見解。


由於課程設計是建基於現實生活中的案例和商業應用,學生能夠從最貼近現實的場景快速掌握不同編程技術。最重要的是,學生永遠都不需要辭職或捨棄其它活動,Preface 會讓學生自由安排課程進度,既可以選擇單獨上課,亦可以和志同道合的同學一起學習,無論是哪個選項,都會有專業的導師從旁指導,確保能最大限度地提高每一位學生的學習成果。


為何數據科學需要用到 Python 和 R?


Python 和 R 都是開源語言,非常適合用於處理數據科學的工作。


一般而言,Python 是一種通用語言,當程序員想深入研究某組數據或進行統計技術時便會使用;R 則多數用於探索性數據分析,在學術、金融、製藥、媒體和營銷等範疇較為常見。


Source: IBM


數據科學 VS 人工智能 VS 機器學習


數據科學

定義: 操作各種數據

用途: 處理複雜的數據,並從中提煉見解

原理: 結構和非結構化數據

應用: 欺詐識別系統, 醫療系統


人工智能

定義: 包括機器學習

用途: 讓計算機模仿人類的行為和思維方式,從而解決複雜的問題

原理: 邏輯和決策樹

應用: 聊天機器人, 語音助手


機器學習

定義: 屬於人工智能的一部分

用途: 通過學習過往的數據模式,預測或歸類將來的數據

原理: 統計模式

應用: 推薦系統如 Spotify,面部識別


Source: My Great Learning


數據科學家、數據分析師和數據工程師: 職責、要求和薪酬


數據科學家

職級: 較高級

職責: 開發可操作的業務洞察力

要求: 具備深入的機器學習、統計和數據處理方面知識

薪酬: ~ $790,000 HKD


數據分析師

職級: 較入門

職責: 將數字數據翻譯成每個人都能理解的形式

要求: 精通編程語言、分析工具、數據處理、報告和建模的基礎知識

薪酬: ~ $380,000 HKD


數據工程師

職級: 科學家和分析師的中間

職責: 準備數據作分析或操作用途

要求: 有數據架構的構建、開發和維護經驗

薪酬: ~ $670,000 HKD


Source: Simplilearn, Glassdoor


文章出處:https://www.preface.ai/blog/others/data-science/



NO RIGHTS RESERVED 版权声明

喜欢我的文章吗?
别忘了给点支持与赞赏,让我知道创作的路上有你陪伴。

加载中…

发布评论