国产精品色情一区二区三区_欧美一区综合_日韩中文字幕一区二区_日韩一区二区三区毛片_一级毛片视频免费_久久精品国产午夜伦班片

工業大數據時代的數據質量和數據可追溯性

2021/12/6 19:33:57 人評論 次瀏覽 分類:文化長廊  文章地址:http://www.gsipv.com/community/4071.html

我喜歡從機會的角度,認識工業大數據。工業大數據的一個重要機會,是幫助人們更有效地獲取工業知識。人們能夠從數據中獲取的知識,與數據的質量和完整性有著極大的關系。過去,受經濟因素的制約,人們采集、存儲、傳輸數據的數量是有限的,往往只能短期記錄部分重要的數據,數據的完整性就無法得到保障,從而影響知識的獲取。數據量小的時候就往往不能保證數據的質量。數據規模變大后,就有條件提升數據的質量,從而發揮數據的潛力。從這種意義上說,工業大數據的時代,本質上是數據質量高的時代。

我的師傅、寶鋼老專家王洪水先生很早就重視數據質量。他在主持開發寶鋼信息系統時提出一種形象的說法:要像錄像一樣把數據記錄下來,不能讓有用的信息丟失掉。


所謂“像錄像一樣”,就是對“可追溯”的形象描述。當質量、設備、安全、環保出現問題時,可以通過追溯生產的過程,找到問題的原因。通過追溯,人們也可以分析質量、效率、成本方面的差異,從而更好地優化生產過程。通過追溯,可以科學、準確地評價供貨商、部門和員工,從而實現更加科學的管理。事實上,“可追溯”是現代工業企業質量管理最基本的要求之一。


在某些落后的企業,為了滿足可追溯的貫標要求,讓工人手工記錄相關的數據。手工記錄的數據不僅數量有限、數據質量也差,還容易造假,工作的價值就大大地打了折扣。隨著計算機的廣泛應用,先進企業的數據追溯可以讓機器來完成,就可以避免手工記錄的各種問題。寶鋼在40年前提出“數據不落地”,就是這個道理。如果數據記錄在機器中,追溯過程可以非常方便,可以讓機器幫助分析數據。


數據分析工作就像探案推理,對數據質量的要求很高。需要從蛛絲馬跡中找到問題的根源,并盡量避免被數據中的假象誤導。但是,受經濟和技術條件的約束,過去的數據記錄往往不完整,數據記錄頻度低、存儲周期短,數據質量也不理想。筆者在實踐過程中發現了一些問題。這些問題的本質,還是數據質量不理想。下面就是一些常見的問題,會給數據分析過程帶來很多的麻煩:


1、數據的誤差問題
工廠里的許多同志會強調車間儀表的測量精度高。但是,儀表測量精度高并不意味著誤差可以忽略不計。如果數據來自某個固定的工作點附近,數據采集誤差可能是數據波動的重要甚至是主要原因。這時,數據的信噪比會非常低。另外,由于系統性的干擾,傳感器測量的結果可能與實際值存在某種偏差,這些偏差還會隨著時間和場景變化。比如,用紅外方式測量溫度時,需要事先設定對象的黑度系數。但測量對象發生變化時,設定的黑度系數未必會同步變化。這時,測量值的變化并不意味著真實溫度的變化。


2、數據的代表性問題
數據往往代表對象或過程的屬性。但是,對象的屬性可能不均一、過程的屬性可能不唯一。比如,測量鋼水成分時,取樣位置不同、測量結果就不一樣;再如,測量設備內部的溫度時,不同位置的溫度可能不一樣。但是,人們只能在某個位置進行測量。這樣,就會有測量結果的代表性問題:測量結果的合格并不意味著全面的合格、測量結果的穩定并不意味著真正的穩定。


3、數據的內涵問題
測量過程是數據的“生產”過程。測量過程要規范、合理,才能得到有用的測量結果。測量過程和方法不規范,會帶來錯誤的信息。計算機中的許多數據,是經過處理過的。有些數據,是經過智能傳感器傳遞過來的。在這些場景下,數據的含義可能會產生歧義和混亂。比如,在不同的場景下,數據代表不同的含義;再如,某個場景下,溫度=400意味著溫度測量失效或者高于400度。實踐表明:人們分析問題時遇到的很多深層次的困難,是測量的規范性不好引發。數據分析師要經常提醒自己:數據是測量的結果,不要想當然地認為數據就是真實的。


4、數據對應差錯
數據一定是某個對象的屬性。如果屬性和對象對應錯誤,就會產生對應問題。現實中,有兩種典型的問題:一種是空間的對應,一種是時間的對應。空間對應問題往往發生在取樣測試的場景。以鋼鐵行業為例,測量材料性能時,需要從一個很小的位置上取樣的。一卷鋼的生產工藝參數是不斷變化的,很難準確地對應到取樣點。時間對應問題往往發生在不同的設備之間。由于不同的設備可能采用不同的時鐘,時鐘的誤差讓人難以準確判斷先后關系。


5、數據的頻度問題
有些質量問題的產生,是秒級、毫秒級的事件引發的;分析設備問題時,也需要非常高頻度的數據。分析問題時,經常會發現數據的采樣頻度不夠。而且,數據的采集頻度不等于傳送、存儲的頻度。有時候,采樣數據是批量傳送的,而傳送的間隔比采集間隔要長得多。這也會導致很多問題。


6、數據的存在性問題
人們在進行數據分析時,經常發現某個重要的數據沒有測量或者根本不可信。這種現象非常普遍。這會導致許多分析工作無法進行下去。


工業大數據時代數據的可追溯性
以上這些問題,有些是在數據采集、傳輸、存儲成本高昂的背景下產生的。有些則與數據采集系統的設計有關。在工業大數據時代,外部的硬件條件具備了,但需要有關人員對數據采集和管理進行更加深入的思考。筆者認為,在工業大數據時代,理想的“可追溯性”需要滿足以下四點要求:

1、空間的一致性。不能用產品A的生產工藝對應產品B的質量,導致因果錯亂。
2、時鐘的一致性。數據源必須有統一的時鐘。這對分析因果的重要性在于:“原因”總是會發生在“結果”的前面。
3、采樣頻度合理性。采樣的頻度需要與原因或結果發生的頻度匹配,保證不漏采。例如,如果事件發生的頻度是秒級的,采樣的頻度不能是分鐘、小時級的。
4、數據質量的監控。生產過程的很多疑難問題,往往是由數據采集本身的問題導致的。對于重要的數據,要有辦法判斷數據本身是不是準確的、數據采集過程本身有沒有問題。

作者:
郭朝暉(工學博士,教授級高工。企業研發一線工作20年;優也科技信息公司首席科學家;東北大學、上海交大等多所院校兼職教授。國內知名智庫、走向智能研究院的發起人之一。原寶鋼研究院首席研究員)

相關儀表推薦

共有訪客發表了評論 網友評論

  客戶姓名:
郵箱或QQ:
驗證碼: 看不清楚?