2016年3月16日 星期三

#2 Data Science? Computer Science? Statistics? ISyE? Business Analytics?

《引言》

千錯萬錯都是Harvard Business Review(哈佛商業評論)的錯













就是這篇文讓多少莘莘學子管你讀1.2.3.4還是不倫不類通通想出國讀個Computer Science (CS)或是Statistics (Stats)
(好啦...我誇大了...其實不只這個原因啦..)

究竟Data Science (DS)跟CS或是Stats有什麼關係呢?
讓我簡單的說下去...

《About DS》
基本上Data Science所包含的領域很廣
基本是一個團隊來進行,團隊需要CS、Stats專長及所應用領域(Domain Knowledge)的專家
要解釋DS必備Drew Conway 所提出來的Data Science Venn Diagram

















在DS之中,我們可以這三個部分來解說
  1. Hacking Skills - 使用CS工具的能力
  2. Math & Statistics Knowledge - 資料數學建模分析的能力
  3. Substantive Expertise - 對於資料本身與output所具備的解讀能力
這篇文章也點出幾個很重要的點:
http://ppt.cc/zeXf

以下是上面文章的重點整理:
對於要成為Data Scientist這三方面各方有各方的論點
但2與3是相對困難的
因為Hacking Skills如:R、Python的話可以自己學習
Data Scientist不需要了解電腦太底層的理論會應用就好
(當然,像Google或是Y!這種自己可以寫 Algorithm的強大公司除外)
程式語言就多練多熟
而最重要的是一些Modeling理論跟統計學方法
這些基本功夫需要花時間透過平時經驗的累積
得出對於該領域Modeling的sense還有分析出來結果的Insight

畢竟拿到資料就直接Modeling說結果怎樣
完全不考慮Model合適與否以及如何解釋成有價值的output
亦或是Model太複雜,即使有用可是成本太高不符合效益
那等於沒做還白花錢


下圖則畫出了成為一個Data Scientist所需的知識Metromap





(From : http://nirvacana.com/thoughts/becoming-a-data-scientist/)

寫到這,怎麼沒說到Industrial and Systems Engineering* (ISyE)
跟Business Analytics呢?
*ISyE其實也是Industrial Engineering and Operations Research (IEOR),說法不同而已


《About BA》
其實Business Analytics的產生跟我們上述有很大的關係“如何讓Data變成可利用且有價值的Output
價值的創造”在商業界絕對是最重要的指標
所以,在資本主義當道且高等教育已成賺外匯產業的美帝想當然爾不會放過此等機會
各學校開始如雨後春筍般戰備MS in BA


























以我對BA的個人解釋:

  •  BA人可看成是具技術與商業的Bridge,也就是專門溝通的一群人


同上所說,當對需要的目標群不夠熟悉,不知道顧客需求是什麼,那有數據有模型也是英雄無用武之地

因此訓練一群人了解基本工具的使用讓數據分析能迅速的商業運用(當然也產生些學藝不精等討論...不過我是認為師傅帶進門修行在個人...)

《那為什麼會提到ISyE呢?》

這要先上兩個聯結
1. http://ppt.cc/eCnSz
2. http://ppt.cc/UNK5o

第一個是我當時對BA/MIS/CS的小見解
第二是強者偶像illousion大的超專業開釋

【假設你沒興趣看全文我在下面幫你畫重點】


  • 美國作業研究與管理科學協會在1950年代建立,底下有個 Analytics Section,INFORMS當2000年開始"Analytics"這個字廣泛被使用時便意識到這個字開始去服務做 Descriptive & Predictive Analytics的專業人士
  • Operations Research(作業研究)另一方面則是和Prescriptive Anlaytics所做的是有相當多的重疊,OR使用Simulation (系統模擬)還有Optimization(最佳化)這兩種技術來協助制定評估決策
  • 這些課程在ISyE都會學到,只是解決問題的手法也不一樣,因為本質上一個屬商學院,一個屬工程學院
  • 在實際業界中,以US Airway航空排班來說,一次的線性規劃變數都是以萬為單位,生產排程少說也是幾千個變數,不太可能用Excel去解決這個問題
所以簡單而言BA就算是以商業問題為導向的平民閹割ISyE
(所以你會看到大數據競賽是在改善產線良率...之類的)

寫到這已經字多到不能再寫了
畢竟議題很多,像是 統計人的DS觀點、CS人的DS觀點...
要討論完這可能要三天三夜的三更半夜












當然我也不是專家中的專家
說了那麼多希望大家對這東西有些明瞭與概念
很多地方在不同領域的應用還是有差異存在

最後附上我覺得很不錯的一篇文章做結束






沒有留言:

張貼留言