国产精品色情一区二区三区_欧美一区综合_日韩中文字幕一区二区_日韩一区二区三区毛片_一级毛片视频免费_久久精品国产午夜伦班片

做合格的工業數據分析師

2022/4/26 2:51:39 人評論 次瀏覽 分類:過程控制  文章地址:http://www.gsipv.com/tech/4209.html

筆者估計:除了圖像處理,從事工業大數據分析時,95%以上的工作都可以用線性回歸、決策樹、方差分析、頻譜分析、最大似然估計、取平均數等基本的統計或數據處理方法完成。但是,人們講到這些方法時,卻往往會把重點放在深度學習、模式識別等。

現實中,這些高級方法往往是“殺雞用牛刀”,反而不好用。因為這些方法,難以與人的知識和認識結合起來。人們樂于宣傳這些方法的原因,除了便于發表文章,就是便于保密。從事相關工作的朋友必須明白;自己要對自己的時間負責。最好用簡單的辦法分析問題。


但是,做數據分析工作其實很不容易。即便對數學和統計學功底好的人來說,人才的“成才率”恐怕不會高于10%。那么,困難到底在什么地方?要理解這種困難,還是從《黑天鵝》中的那個故事談起。作者問道:
一個硬幣丟了99次,每次都是正面朝上。請問第100次正面朝上的概率是多大?學霸的標準答案是:第100次正面朝上的概率與前面99次的結果沒有關系。所以,概率是50%。而老油條的答案則是:前面連續99次都朝上了,你還會認為正面朝上的概率是50%嗎?前提不成立了!

現實中,數據分析的難點,在于認清正確的前提。


工業數據分析師

錯誤使用統計分析方法的現象非常普遍。筆者在寶鋼工作時,看到鋼鐵行業同仁們寫的論文,就對辦公室的年輕人說:真想把這些論文作為反面案例,告訴大家什么是錯誤的分析方法。在這些例子中,有的回歸分析的前提不成立,有人在選取樣本時犯了初級錯誤。

這種現象并不奇怪。

筆者參與研究生面試時,經常遇到這樣的事情:給學生出一道復雜的計算題,基本上都能正確地計算出來。但是,如果問基本的概念,很多人就回答不出來了。更有意思的是:如果把計算題出得特別簡單、不再需要采用復雜公式時,多數學生居然回答不出來了!

我們現在的教育,總是考核在“標準前提下,給出標準答案”。學生沒有懷疑“前提”的習慣。這樣的學生有知識,卻不會用知識。
回到前面的問題。用線性回歸可以清晰地分析一個變量的作用。但前提是其它變量的干擾較小、且具有隨機性。解決這個問題的辦法之一,是盡量固定其他變量??茖W試驗往往就是這么做。

但工業現場往往受各種約束,總會有很多干擾。而且,這些干擾并不是隨機的。變量選擇有問題時,小的非隨機干擾,就會對分析結果產生很大的影響。所以,做數據分析時,必須時刻警惕非隨機系統干擾的影響,并設法剔除它。


處理和發現非隨機的系統干擾很難。原因是這樣的因素太多。比如,任何一個變量的采集過程,都可能存在非隨機系統干擾。而識別這些干擾,需要更多的數據項。這樣,分析問題時面對的數據項就會越來越多。人的注意力就容易淹沒在數據的海洋中。更糟糕的是:受數據條件制約,有些系統干擾可能就是不可見的。


現場中的有些干擾往往難以排除。筆者曾經遇到過這樣一件事:
某鋼種的性能波動非常大。強度700MPa級的鋼種,波動的標準差就高達60MPa。筆者分析后認為:這是某環節的系統干擾導致的。于是,筆者就設計了一個實驗室試驗、設法避開這種干擾。后來,同事在實驗室里做了這個試驗。他們做了幾十對試樣,每對試樣的強度差不超過3MPa.

對前提做出判斷的時候,往往需要較為全面的專業知識。這是制約數據分析人才“成才率”提高的主要原因。


利用統計軟件,做一次回歸分析只要幾秒鐘的時間。數據分析師的絕大多數時間都用來對數據合理性進行分析。如果自己缺乏專業知識,可能幾分鐘就要去請教別人。別人豈不要煩死了?


合格的數據分析師,不僅要善于與數據打交道,更要善于理解物理對象和物理過程。


作者:郭朝暉(工學博士,教授級高工。企業研發一線工作20年;優也科技信息公司首席科學家;東北大學、上海交大等多所院校兼職教授。國內知名智庫、走向智能研究院的發起人之一。原寶鋼研究院首席研究員)

共有訪客發表了評論 網友評論

  客戶姓名:
郵箱或QQ:
驗證碼: 看不清楚?