千錯萬錯都是Harvard Business Review(哈佛商業評論)的錯
就是這篇文讓多少莘莘學子管你讀1.2.3.
(好啦...我誇大了...其實不只這個原因啦..)
究竟Data Science (DS)跟CS或是Stats有什麼關係呢?
讓我簡單的說下去...
《About DS》
基本上Data Science所包含的領域很廣
基本是一個團隊來進行,團隊需要CS、Stats專長及所應用領域(Domain Knowledge)的專家
要解釋DS必備Drew Conway 所提出來的Data Science Venn Diagram
在DS之中,我們可以這三個部分來解說
- Hacking Skills - 使用CS工具的能力
- Math & Statistics Knowledge - 資料數學建模分析的能力
- Substantive Expertise - 對於資料本身與output所具備的解讀能力
http://ppt.cc/zeXf
以下是上面文章的重點整理:
對於要成為Data Scientist這三方面各方有各方的論點
但2與3是相對困難的
因為Hacking Skills如:R、Python的話可以自己學習
當Data Scientist不需要了解電腦太底層的理論會應用就好
(當然,像Google或是Y!這種自己可以寫 Algorithm的強大公司除外)
程式語言就多練多熟
而最重要的是一些Modeling理論跟統計學方法
這些基本功夫需要花時間透過平時經驗的累積
得出對於該領域Modeling的sense還有分析出來結果的Insight
畢竟拿到資料就直接Modeling說結果怎樣
完全不考慮Model合適與否以及如何解釋成有價值的output
亦或是Model太複雜,即使有用可是成本太高不符合效益
那等於沒做還白花錢
下圖則畫出了成為一個Data Scientist所需的知識Metromap
(From : http://nirvacana.com/thoughts/becoming-a-data-scientist/)
寫到這,怎麼沒說到Industrial and Systems Engineering* (ISyE)
跟Business Analytics呢?
*ISyE其實也是Industrial Engineering and Operations Research (IEOR),說法不同而已
《About BA》
其實Business Analytics的產生跟我們上述有很大的關係“如何讓Data變成可利用且有價值的Output”
“價值的創造”在商業界絕對是最重要的指標
所以,在資本主義當道且高等教育已成
各學校開始如雨後春筍般戰備MS in BA
以我對BA的個人解釋:
- BA人可看成是具技術與商業的Bridge,也就是專門溝通的一群人
同上所說,當對需要的目標群不夠熟悉,不知道顧客需求是什麼,那有數據有模型也是英雄無用武之地
因此訓練一群人了解基本工具的使用讓數據分析能迅速的商業運用(當然也產生些學藝不精等討論...不過我是認為師傅帶進門修行在個人...)
《那為什麼會提到ISyE呢?》
這要先上兩個聯結
1. http://ppt.cc/eCnSz
2. http://ppt.cc/UNK5o
第一個是我當時對BA/MIS/CS的小見解
第二是強者偶像illousion大的超專業開釋
【假設你沒興趣看全文我在下面幫你畫重點】
- 美國作業研究與管理科學協會在1950年代建立,底下有個 Analytics Section,INFORMS當2000年開始"Analytics"這個字廣泛被使用時便意識到這個字開始去服務做 Descriptive & Predictive Analytics的專業人士
- Operations Research(作業研究)另一方面則是和Prescriptive Anlaytics所做的是有相當多的重疊,OR使用Simulation (系統模擬)還有Optimization(最佳化)這兩種技術來協助制定評估決策
- 這些課程在ISyE都會學到,只是解決問題的手法也不一樣,因為本質上一個屬商學院,一個屬工程學院
- 在實際業界中,以US Airway航空排班來說,一次的線性規劃變數都是以萬為單位,生產排程少說也是幾千個變數,不太可能用Excel去解決這個問題
(所以你會看到大數據競賽是在改善產線良率...之類的)
當然我也不是專家中的專家
說了那麼多希望大家對這東西有些明瞭與概念
很多地方在不同領域的應用還是有差異存在
最後附上我覺得很不錯的一篇文章做結束
寫到這已經字多到不能再寫了
畢竟議題很多,像是 統計人的DS觀點、CS人的DS觀點...
要討論完這可能要三天三夜的三更半夜
畢竟議題很多,像是 統計人的DS觀點、CS人的DS觀點...
要討論完這可能要三天三夜的三更半夜
當然我也不是專家中的專家
說了那麼多希望大家對這東西有些明瞭與概念
很多地方在不同領域的應用還是有差異存在
最後附上我覺得很不錯的一篇文章做結束
沒有留言:
張貼留言