作者簡介:
崔偉群,中國計量科學研究院計量科學數據與能源計量中心數字計量室主任,副研究員,主要研究方向為數字計量。在國內重要期刊發(fā)表論文50余篇,出版《數字計量學導論》等專著4部。
人類的發(fā)展史是一部認識自然、改造自然的歷史。在古代,人類通過觀測春夏秋冬四季變化的數據掌握了農作物的生長規(guī)律,推動了第一次農業(yè)革命的誕生,生產方式由狩獵采摘向土地種植改變;18世紀,瓦特通過觀察蒸汽的數據,發(fā)明了蒸汽機,引發(fā)了第一次科技革命;19世紀初,奧斯特通過觀察發(fā)現了電流磁效應,安培研究相關數據,提出了電動力學這一理論,引發(fā)了第二次科技革命;20世紀后半期,通過對人類遺傳物質的研究和數據積累,推動了克隆技術的發(fā)展,引發(fā)了第三次科技革命。
在這一過程中,人類通過持續(xù)改進技術手段,不斷修正和補充對自然的認識。由于各民族、地域、宗教以及成長環(huán)境的差異,不同民族或個體對同一事物或現象會產生不同的認知和實踐;或在不同階段或條件下,同一個民族或個體對相同事物或現象會產生不同的認知和實踐。為了盡可能統(tǒng)一這種認知上的差異,人類需要在一定程度上統(tǒng)一單位和量值的表述形式和規(guī)則。
基于這種統(tǒng)一的單位和量值表述,人類社會的每一次重大革命都對觀測到的數據進行收集、分析和挖掘,從而形成當時人類對自然世界的認識,同時也支撐了人類思維大廈的構建。我國古人通過對河圖、洛書中數字的分析,發(fā)展了以1到10為萬物根基的自然和社會哲學;古希臘的畢達哥拉斯通過對1到10的研究,提出了“萬物皆可數”的觀點,這些人類思維大廈的構建,對人類組織社會、改造社會具有深遠的意義。
從傳統(tǒng)計量的角度來看,數據可以分為量化數據和非量化數據兩類。量化數據最核心的概念是“量”,在JJF1001-2011《通用計量術語及定義》中將其定義為“現象、物體或物質的特性,其大小可用一個數和一個參照對象表示”,其內在的哲學是主觀賦予客觀的,依據規(guī)則對客觀進行度量的一種主觀概念。一旦這種概念被承認,這一概念就與客觀相統(tǒng)一,但是也只在下定義的時刻相統(tǒng)一。主要原因在于實物參照對象隨時空變化的特性,使得參照對象自身也會發(fā)生變化。當這種變化超出一定范圍之后,量的定義就不再能夠支撐后續(xù)的科學研究。換言之,當前數據的準確性與歷史數據的準確性發(fā)生巨大偏差,而這種偏差的存在,必然影響人類對世界的認識結論,有時甚至導致經濟、政治或軍事上的損失。
從計量技術角度講,上述問題存在三種修正方法。一種是不斷修補定義,使得定義具有物理可實現性。例如,“安培”在1946年國際計量委員會上被批準定義為“真空中相距1米的兩根無限長且圓截面可忽略的平行直導線內通過一恒定電流,當兩導線每米長度之間產生的力等于2×10-7牛頓時,則規(guī)定導線中通過的電流為1安培”,顯然這個定義是物理不可實現的,人類無法找到無限長的導線。于是在2018年11月16日,國際計量大會通過決議,1安培定義為“1s內通過導體某一橫截面的1/1.602176634×1019個電荷移動所產生的電流強度”,新定義比老定義具有更強的可實現性;第二種是不斷提升設備的性能,用準確度高的設備代替準確度低的設備。但是這種提升具有很大的現實局限性,具體體現在成本和設備性能的客觀有限性上;第三種是發(fā)現新的原理和方法。數字計量就是在這一背景下誕生的新領域。
實現單位統(tǒng)一、量值準確可靠是數字計量的目標,其核心是對數據和算法的計量,是對信息技術中二進制數字的形式、內容、結構、語義、二進制數字對主觀或客觀世界的反映——數據和算法,以及承載二進制的物理設備、系統(tǒng)性能中計量問題的研究。包括兩個方面:一方面為計量數字化,是傳統(tǒng)計量采用信息化手段實現網絡化、自動化、遠程化的計量工作,包括計量電子證書和數字證書、測量不確定度在線云評定、遠程計量和在線計量、計量數字化圖譜、計量軟件測評、智慧計量機器人、人工智能計量師、計量數據可視化等15個領域;另一方面為數字的計量化,是數字世界中引出的計量工作,包括算法溯源、數字圖像、音頻和視頻計量、網絡點擊量和轉發(fā)量計量、數字資產等15個領域。
1.數據采集階段存在的數字計量問題
數據是數字計量的基礎,在數據采集中,采集到的事實或統(tǒng)計內容與客體本身會有較大的差異,這種差異體現在定義的缺陷上和采集的有限性上。例如關于長度的定義是建立在抽象概念點之上,然而抽象的點在現實生活中并不存在,因而在現實中也就無法測量抽象的點之間的距離。同樣由于采集設備的物理有限性,一般不能無限采集在空間和時間上有延綿特性的客體或現象,常常采用離散的方式采集,這就必須遵循奈奎斯特采樣定律,使獲得的數據在一定程度上能夠滿足質量要求。
人工采集的數據一般以非量化數據為主,例如人口信息統(tǒng)計、選舉投票、各類調查問卷、主觀評價等。這類采集數據質量往往與樣本、人員水平、人員態(tài)度、方式緊密相關。為了獲得良好的數據,一般人工采集方案采用專業(yè)和數理的方法進行評估。但是由于各專業(yè)的局限性,對于數據采集目的最終實現,應引入計量基標準建立的技術方法開展,比如采用測量不確定度的評定方法對方案本身進行定量評估。
設備采集相對于人工采集而言,數據質量相對較高。但是就同一設備而言,存在隨著時空改變而導致采集質量下降的情況,例如電能表在使用一段時間后就需要更換,或是在運行一段時間后才能達到精準;同時也存在不同設備在同一時空下采集質量不同的情況。設備一般分為三類:第一類設備為非量化數據采集設備,例如家用照相機、攝像機或者錄音機等;第二類設備為非計量類量化數據采集設備,例如家用體重秤;第三類設備為計量設備,例如電能表、水表、燃氣表等。
在這三類中,計量設備采集的數據質量最高,這是因為計量設備依據法律法規(guī)進行周期性檢定/校準,從而較為有效地保證了計量設備的穩(wěn)定性、可靠性和量值的溯源性;在第二類中,設備采集的數據質量較計量設備略差,這是因為這類設備所采集的數據只具有參考性意義,一般不宜用于科學研究;在第一類中,設備采集的數據主要用于定性判斷。隨著對數據質量要求的不斷提升,第二類和第一類設備數據采用數字計量理論進行全方位研究成為計量學研究的重要內容。
2.數據計算存在的數字計量問題
數據的計算分為兩個階段:數據采集時的計算和數據采集后的計算。
當數據采集時,一般是從連續(xù)的無限中提取有限可表示信息,這就會導致數據的損失。數據采樣頻率越高和數據表示的準確度越高,對客體或現象的刻畫就越精準,通常用采樣率、字長和測量不確定度來表述。為了獲得較高的數據質量,一般都采用預處理的方式進行,比如在電子計價秤中為了獲得穩(wěn)定的零點數據,采用了去噪、零點漂移的算法進行補償。由于這類算法對數據采集有很大影響,應該在投入使用前進行計量。
在數據采集后,需要進行分析,計算機內所使用的加減乘除都是有限字長,因此還會帶來數據上的損失,如兩個變量的除法運算,當分母為0時,計算機會報錯。為了避免這一問題,程序員往往會加一個自定義的微小量,在計算結果中引入不確定度。因此這類算法對數據分析有很大影響,也應該在投入前進行計量。
隨著深度學習等人工智能技術的發(fā)展,科學家和應用工程師采用各種算法從大數據中提取有用結論,但是算法結論的科學性、準確性和可靠性卻需要采用技術手段進行評估,為此,需要開展算法溯源的數字計量研究。
隨著信息技術的深入發(fā)展,我國軟件產業(yè)發(fā)展迅猛,不僅在產值上超過了傳統(tǒng)產業(yè)規(guī)模,也為國民經濟發(fā)展和產品質量提升提供了必要的技術支撐。尤其是近幾年,隨著人工智能技術的發(fā)展,由軟件控制的計量器具的占比已經迅速超越95%,與信息技術緊密結合的新型設備不斷涌現,推動著科學技術不斷創(chuàng)新。
作為人類思維的拓展,軟件具有低成本、智能化、功能復雜和易替代等優(yōu)點,但從計量角度而言,也存在著欺騙性使用、Bug不易發(fā)現、算法的正確性以及穩(wěn)定性較差、法律法規(guī)依從性較差等問題。因此隨著對計量器具軟件產品質量要求的不斷提高和軟件工程技術的發(fā)展,軟件測評成為計量器具軟件生產和使用中的重要環(huán)節(jié)。
根據JJF1182-2018《計量器具軟件測評指南》,在計量器具軟件的計量特性功能測評中,是利用測試用例,將被驗證算法的計算結果與可供參考的期望值進行比較,通過判斷是否在最大允許誤差范圍內,給出算法是否正確的驗證結果。從計量上講,該驗證方法屬于定性判斷,很少涉及定量,即使涉及定量,也沒有對量值進行溯源,不能完全滿足計量保障量值準確可靠的要求。
為了解決這一問題,需要以算法對應的軟件為被測對象,軟件的輸出量為被測量,測量不確定度評定為評價手段,提出一種將算法軟件輸出量溯源至現有計量基標準、標準參考數據或算法標準的算法溯源的方法,從而基于計量技術對算法軟件輸出量的準確可靠性進行精準刻畫。
算法溯源是通過一條具有規(guī)定不確定度的不間斷的比較鏈,使算法軟件的輸出量能夠與規(guī)定的參考標準(計量基標準、標準參考數據或算法標準)聯系起來。
算法溯源中的被測對象為基于算法形成的軟件,包括計量數字化過程中計量器具檢定/校準中所涉及的一些算法軟件和未來數字計量化過程中有溯源需求的算法軟件。
算法溯源中的被測量為算法軟件的輸出量,該輸出量一般分為三類,分別為:計量量值(如手機測距軟件中的長度、數字指示秤軟件中的質量、化學分析軟件中的濃度等);基于計量量值的定性判斷(如基于深度學習算法判斷臨床質控數據是否合格等);未來數字計量化過程中將納入計量范疇的輸出量(如人臉識別算法的輸出量、行人重識別算法的輸出量)。上述的輸出量,可以溯源至計量基標準或由計量標準形成的標準參考數據或基于上述標準參考數據模型生成的理論標準參考數據或算法標準。
在算法溯源中,相同的算法可能對應不同的軟件;相同的輸出量可能由不同的算法實現,因此會對算法軟件的輸出量的準確性和可靠性有影響。例如,在多點平均中,采用3點平均、5點平均、100點平均是屬于3種不同的算法,顯然這3種算法的準確性和可靠性是不相同的。
基于上述軟件特有的原因,需要引入測量不確定度評定方法,對算法軟件輸出量的量值進行測量不確定度評定。
在經濟全球化的國際大背景下,數字計量已成為全球計量領域研究的熱點。2018年,國際計量委員會(CIPM)制定了2030+戰(zhàn)略并成立Digital-SI任務組,把計量數字化轉型作為重點任務進行全球研究與合作;BIPM/CIPM-OIML/CIML聯合任務組一致認為要與質量基礎設施領域的所有利益相關方密切合作,積極開展工業(yè)計量、法制計量和科學計量活動和流程的數字化轉型工作,使用數字化國際單位制和FAIR數據準則來促進全球計量數字化轉型進程;歐洲計量合作組織(EURAMENT)和美洲計量組織(SIM)分別成立了M4D和M4DT計量數字化轉型工作組,致力于實驗室流程自動化、計量云和數字校準證書(DCC)的研究。目前,德國聯邦物理技術研究院(PTB)和英國國家物理實驗室(NPL)已經開發(fā)了DCC,正在收集有關校準的標準化元數據和數據。美國國家標準與技術研究院(NIST)正在著手NIST計量云的開發(fā)。
2021年3月,《中華人民共和國國民經濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標綱要》提出“加快數字化發(fā)展、建設數字中國”的目標;2021年12月,國務院發(fā)布的《“十四五”數字經濟發(fā)展規(guī)劃》提出“形成統(tǒng)一公平、競爭有序、成熟完備的數字經濟現代市場體系”的目標;2022年1月,市場監(jiān)管總局聯合各部門共同研究制定的《關于加強國家現代先進測量體系建設的指導意見》提出“到2035年,測量對我國經濟社會高質量發(fā)展的貢獻水平顯著提高”的目標,都為我國數字計量發(fā)展指明方向。
無論國內還是國外,在貿易、零售、醫(yī)療、教育、交通、金融和政務等多個領域中,生產、消費和管理等方面必將基于數字深度融合。由智能設備或大數據、物聯網、區(qū)塊鏈、人工智能、數字孿生等技術生成的大量信息豐富的數據和算法,將成為驅動經濟增長的關鍵生產要素,用于經濟社會眾多領域的洞見、分析、決策和行動。這些生產要素使用的同時,也面臨著諸如數字鴻溝、數字安全、數據產權、算法正確性、算法共謀等方面涉及的計量法律法規(guī)滯后的挑戰(zhàn),包括計量術語不清晰、計量技術規(guī)范缺失、數據可信度較低,算法正確性和結果的客觀公正性無法保證等問題。因此,為了解決新一代信息技術變革而催生的新型計量問題,保障數字經濟時代測量的準確性、一致性和可信度,支持我國在數字時代建設數字中國、提升數字質量,保障數字經濟的健康發(fā)展,大力開展數字計量研究具有重要的意義。
作者:中國計量科學研究院?崔偉群
文章來源網絡,由中測校準平臺總結發(fā)布,供業(yè)內讀者參考交流,如有侵權,請聯系刪除