logo821.gif (10572 bytes) 首頁          新增資料與公告

   

最新消息  :

荷蘭與 Maarel Orchids在國際市場上的突破

Westerlay Orchids的碳中和蘭花生產

農企業全面有機化的結局

 

 

數據分析與知識產業

首頁
上一層
BSE LAB 介紹
非洲產業研究中心
生醫研究之統計方法
授課資料
人文關懷
無官御史台
武漢肺炎與產業
智能生物產業
活動公告區

 

 

McKinsey教給我的五個教訓,讓你成為更好的數據科學家

 

國立中興大學 生物產業機電工程學系 陳加忠

 
 

原文出處:

https://towardsdatascience.com/5-lessons-mckinsey-taught-me-that-will-make-you-a-better-data-scientist-66cd9cc16aba

數據科學是近年來最熱門的領域之一,吸引了大量人才加入到頂級公司數據科學團隊的競爭。有很多文章教你如何準備數據科學家面試並從其他面試者中脫穎而出,但個人旅程當然不會止僅止於被錄用。獲得工作機會只是第一步。然而,沒有多少人談論一但你通過面試並加入公司,你如何從其他的數據科學家中脫穎而出。

McKinsey的這些年裡,我有幸在McKinsey和此頂級公司的無數聰明數據科學家一起工作,並觀察到那些獲得合作夥伴和客戶等最高評價和讚譽的DS共同特徵。也許讓一些人感到驚訝,表現最好的數據科學家不一定是那些構建最奇特的模型或編寫最高效代碼的人。當然,DS必須通過相當高的技術能力才能被錄用。但是那些出類拔萃者除了分析能力之外,還擁有許多重要的軟技能。本文將我在McKinsey期間的經驗和觀察總結為5個教訓,這些教訓將幫助您成為一名更好的數據科學家。  

作為一個熱愛精準的數據人,我想指出,儘管如今數據科學家這個頭銜涵蓋了。該行業的廣泛工作,但在本文中,我主要關注對數據科學家有業務決策影響的任何技巧,而不是那些以研究為導向的核心數據科學。

1 課、自上而下的溝通是關鍵

自上而下的溝通或金字塔原則是由McKinsey合夥人Barbara Minto創造並推廣的,被許多人視為商業甚至個人生活中最有效的溝通結構。儘管對於一些策略顧問等而言,這是第二個天性,但許多數據科學家還是在溝通方面被絆倒。這個想法很簡單:當你試圖傳達一個想法/論點時,如果你從一個關鍵資訊開始,然後是支持這個關鍵資訊的幾個主要論點。那麼它是最有效和最容易讓聽眾理解的。如果需要的話,每個參數通過支持數據可以連接著。  

由於以下原因,採用自上而下的溝通是有優勢的。關鍵要點在前端和中心。如果您在電子郵件/備忘錄的開頭看到了TLDR ,或者在研究論文的開頭看到了執行摘要,那麼您將了解這一點的重要性。預先準備好關鍵資訊將確保您的聽眾獲得了一個總體思路,即使他們沒有抓住所有細節。  

演示/溝通可以輕鬆地針對不同的聽眾量身定制。您可以準備一套溝通,並將其保持在關鍵資訊級別上,並為高層管理人員提供主要論點,並為同行和其他分析聽眾中對雜草般的東西感興趣的人,提供詳細資訊。

 不幸的是,對於數據科學家來說,他們大部分的工作時間都是在進行深入的分析,這種溝通結構可能不是自然地,並且可能違反直覺。我經常看到數據科學家一開始進行具有深入細節的演示或溝通,並在沒有傳達關鍵資訊的情況下丟失了聽眾。

如何實行它:一種簡單的實行方法是在會議之前,根據這種結構記下您的想法,以便在交流您的分析結果時保持自己的步調。經常退後一步,問問自己真正要解決的問題是什麼也很有幫助。這應該是你傳達的關鍵資訊。

2課、自己做“轉譯”

如果你看看McKinsey為公司數據組織建議的藍圖,它強調了一個被稱為轉譯的角色的重要性。該角色被認為是業務和數據團隊之間溝通的橋樑。將分析洞察力轉化為對業務可行的洞察力。我敢肯定,作為一名數據科學家,你會被要求像向一個五歲的孩子解釋一樣解釋它用簡單的英語解釋它。從其他人中脫穎而出的數據科學家,就是能夠做到這一點的人。如果被問到充當自己的轉譯,他們可以向既沒有分析背景也沒有時間閱讀白皮書的 CEO 很好地解釋他們的 ML 模型。而且他們總是可以將分析結果與業務影響聯繫起來。這些數據科學家之所以受到重視,原因如下: 

很難從非分析人士那裡獲得轉譯McKinsey確實嘗試過訓練一群策略顧問成為不同分析研究的轉譯。但在我看來,從來沒有成功過。原因很簡單:為了準確解釋複雜分析的關鍵要點,並準確的反映警告,您需要一種分析思維和深刻理解,這是無法通過幾週的分析訓練營訓練就可以實現的。例如,如果您不知道elbow method,您要如何解釋您為 K-means 選擇的集群數量?如果您不知道什麼是SSE,您將如何解釋elbow方法?作為一名 DS,你花時間教授這個幾乎不成功的速成課程,不如可能更好地用於制定自己的溝通方式,並為自己提出轉譯。

如果DS可以解釋自己的分析,則可以避免失去準確性。我相信大多數人都玩過電話遊戲或它的一種變體。資訊傳遞的時間越長,越困難保持其準確性。現在,想像一下您的分析工作也正在發生的相同過程。如果您依靠他人來解釋/轉譯您的作品,那麼當它傳達給最終用戶時,該資訊可能與實際在很大差異。

如何練習:找一位朋友,最好是沒有任何分析背景的朋友一起練習。方法是向他們解釋您的模型/分析,當然那是不公開任何敏感資訊。這也是發現您的方法中的知識差距的好方法。就像偉大的解釋者Richard Feynman相信的那樣,如果您不懂得如何用一種簡單的方式來解釋某件事。那麼很多時候,那是因為您對自己的理解不深。

3課、以驅動解決方案為第一規則

這不僅限於數據人才。這對於公司任何職能/角色的人來說都是不可缺少。能夠發現問題並提出疑慮當然是非常有價值的,但更值得讚賞的是潛在解決方案的提出能力。如果房間裡沒有一個以解決方案為導向的人,討論通常會陷入循環。對問題的痴迷而不是試圖找出前進的道路。  

在大多數頂級諮詢公司,驅動解決方案是第一條規則。在我看來,這種方法也應該轉移到科技界。作為一名數據科學家,尤其在您可能會經常遇到令人沮喪的情況。當人們由於缺乏分析背景而提出荒謬的數據要求。我見過無數的 DS 不知道如何處理這些情況,並且在利益相關者管理方面失敗了,因為他們總是反對者。相反的不是拒絕它們,而是以解決方案驅動,並且幫助他們重新定義要求,並與您更好地理解數據和分析工具的限制範圍。

以解決方案為導向並不代表著您永遠不會拒絕任何事情,或者你總是必須草擬完美的解決方案。這代表著您在每說之後,都應該始終有一個但是怎麼樣

如何作業:當您遇到問題時,請先花點時間思考一下可能的解決方法。然後再將其標記給您的團隊或經理。解決問題時請發揮您的創造力,不要害怕成為提出新解決方案的人。從您的工作流中擴展出來,並了解更多有關業務資訊和其他團隊工作也很有幫助。全面了解通常有助於將主意聯繫起來,並引導您找到有創意的解決方案。  

4課、在業務環境中進行建模時,可解釋性勝於準確度

沒有人真的想預測客戶流失,每個人都在試圖了解客戶流失。如今,當每家公司都在構建模型來預測客戶流失時。很難退後一步問問自己,為什麼我們在第一階段要預測客戶流失。公司希望能夠預測流失,以便他們可以找到更可行的解決方案來防止流失。因此,如果您的模型告訴 CEO “網路訪問次數的三次方根是表示流失的最重要特徵之一,那麼他可以用這些資訊做什麼?或許都沒有用。

像你們中的許多人一樣,作為一名數據科學家,我曾經只專注於將準確性作為建模的成功指標。但是我逐漸意識到,如果您不能將其與業務影響聯繫起來,那麼對模式通過添加無法解釋的功能,和微調一些超參數將準確率從96%提高到 98%,對業務毫無意義同樣,這僅適用DS面對於業務。或是面對於ML的某些領域,這種增長可能代表著全世界。如果該模型是黑匣子,也很難從C級高級主管那裡獲得信譽。模型是最終指導業務決策的工具,因此不足為奇,其價值主要取決於其實用性和可解釋性。

如何作業:在構建模型或進行分析時,始終牢記對於業務的影響。在構建模型時,請避免在模型上拋出隨機的交互功能變數,並希望其中之一變數會堅持使用下去。相反,在開始構建模型之前,請先對要素工程階段進行周到的考慮。寫下來自模型/分析的業務建議,也將幫助您重新評估在構建模型時所做的設計選擇。 

5、確保有一些假設,但不侷限於其中一個

從特徵探索到探索性數據分析 (EDA),將提出假設作為大多數分析的起點非常重要,都是如此。如果沒有假設,您將無法了解如何為 EDA 切片和切塊數據或首先測試哪些特徵。沒有假設,進行 AB 檢驗甚至沒有意義。這就是為什麼它被稱為假設檢驗。但每隔一段時間,我就會觀察到數據科學家在沒有明確假設的情況下,鑽研低頭分析階段,然後迷失在兔子洞中。更常見的情況是,數據科學家將假設構建過程完全留給了無法查看數據的團隊成員,然後意識到沒有足夠的數據來測試這些假設。在我看來,最好的方法是讓數據科學家從一開始就參與這些假設頭腦風暴會議,並使用假設來指導後續分析並確定其優先級。

與假設一樣重要的是,假設前提應該作為起點,而不是終點。我一次又一次地看到很多數據科學家,或與數據科學家一起工作的人,儘管發現有矛盾,但仍堅持一個假設。這種對最初假設的忠誠,將導致數據窺探(snvoping)和數據按摩(massaning)以適應某種敘述。如果熟悉辛普森悖論,就可以理解數據在講述錯誤故事方面的力量。優秀的數據科學家應該能夠保持數據的完整性,並根據數據調整敘述方式,而不是相反依據敘述而調整數據。 

如何作業:建立業務理解和敏銳度很重要,以便提出正確的假設。在數據探索過程中保持假設作業指導,但當數據告訴您與最初的有根據的猜測不同時,請保持開放的心態。擁有良好的商業意識,幫助您在此過程中調整您的初始理論,並根據數據調整您的敘述。 

當涉及到面向企業的角色時,人們傾向於認為人才可以分為兩類:分析型和策略型,就好像這兩種類型的能力位於頻譜的相反兩側。最好的分析型人才是那些也了解事物的策略/業務方面,並了解如何與業務利益相關者進行溝通的人,而策略角色上的最好型人才,則具有一定的理解水準分析和數據。