1 橋梁監(jiān)測(cè)數(shù)據(jù)預(yù)處理流程
橋梁監(jiān)測(cè)原始數(shù)據(jù)采集并傳輸?shù)綌?shù)據(jù)中心后,這些數(shù)據(jù)伴有許多噪聲與異常問(wèn)題,首先要這些數(shù)據(jù)進(jìn)行可信度評(píng)估、數(shù)據(jù)清洗工作,為了便于后面的數(shù)據(jù)分析,一般還要做數(shù)據(jù)統(tǒng)計(jì)分析、特征創(chuàng)建和數(shù)據(jù)降維,這些都是數(shù)據(jù)預(yù)處理要做的工作。
大致可以分為:
①傳感器數(shù)據(jù)的可信度評(píng)估,也就是利用各種方法檢測(cè)出有問(wèn)題的數(shù)據(jù)序列和采集這些據(jù)序列的傳感器,保證數(shù)據(jù)的正確性,確??梢杂脕?lái)進(jìn)行數(shù)據(jù)分析。
②數(shù)據(jù)的清洗,也即,對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行異常數(shù)據(jù)剔除,然后進(jìn)行插補(bǔ)
③監(jiān)測(cè)數(shù)據(jù)的統(tǒng)計(jì)分析,也就是對(duì)具有連續(xù)性、時(shí)序性的橋梁監(jiān)測(cè)數(shù)據(jù)統(tǒng)計(jì)或記錄一些對(duì)后面數(shù)據(jù)分析有用的特征,如均值、方差、最大值和最小值等。有些監(jiān)測(cè)系統(tǒng)還需要對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行數(shù)據(jù)概化和規(guī)范化。
④監(jiān)測(cè)數(shù)據(jù)的特征創(chuàng)建,也就是用各種方法與模型對(duì)橋梁監(jiān)測(cè)數(shù)據(jù)進(jìn)行特征創(chuàng)建,代替原始的時(shí)序監(jiān)測(cè)數(shù)據(jù)作為特征矢量,以便于后面的數(shù)據(jù)挖掘。
⑤數(shù)據(jù)降維,當(dāng)數(shù)據(jù)維數(shù)或者構(gòu)建的特征數(shù)量過(guò)多時(shí),如果把這些參數(shù)值都作為算法的輸入向量,會(huì)有可能會(huì)導(dǎo)致維災(zāi)難,也會(huì)影響算法的效率和準(zhǔn)確度。這時(shí)就要做數(shù)據(jù)降維,減少輸入向量的維數(shù),可采用主成分分析、奇異值分解、特征子集選擇等方法。
預(yù)處理的主要工作集中在前三個(gè)部分,后面兩個(gè)部分一般根據(jù)數(shù)據(jù)分析的需求來(lái)確定是否需要。預(yù)處理的每個(gè)部分都是很重要的,但不是每個(gè)部分工作是孤立的,就像傳感器數(shù)據(jù)的可信度評(píng)估,在可信度評(píng)估前要對(duì)數(shù)據(jù)做濾波去噪工作,做一些必要的數(shù)據(jù)處理工作,以便能準(zhǔn)確的做傳感器數(shù)據(jù)的可信度評(píng)估。還有在數(shù)據(jù)的特征創(chuàng)建的過(guò)程中,可能需要對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,以便更科學(xué)的對(duì)監(jiān)測(cè)數(shù)據(jù)做特征創(chuàng)建,本文主要研究前三個(gè)部分的工作:數(shù)據(jù)的可信度評(píng)估、數(shù)據(jù)清洗和監(jiān)測(cè)數(shù)據(jù)的統(tǒng)計(jì)分析。
2橋梁監(jiān)測(cè)數(shù)據(jù)預(yù)處理方法介紹
傳感器數(shù)據(jù)可信度評(píng)估的評(píng)價(jià)方法如下。
1用傳感器返回的狀態(tài)標(biāo)志判斷數(shù)據(jù)的可信度,因?yàn)槊總€(gè)傳感器都有采集時(shí)的狀態(tài)標(biāo)志。
②對(duì)每個(gè)傳感器的數(shù)據(jù)建立歷史趨勢(shì)模型,橋梁監(jiān)測(cè)數(shù)據(jù)都是時(shí)序數(shù)據(jù),可用時(shí)序 序列分析技術(shù)建立歷史趨勢(shì)模型,建立模型的數(shù)據(jù)要用開始采集的正常的據(jù)。建立模型后,可根據(jù)模型來(lái)預(yù)測(cè)數(shù)據(jù),只要是不在預(yù)測(cè)范圍的都是不可信的數(shù)據(jù)。
③對(duì)同截面、同類型的傳感器建立模型。可以對(duì)同一個(gè)截面的各類傳感器建立相關(guān)模型,判定一個(gè)傳感器數(shù)據(jù)時(shí)可以根據(jù)其他數(shù)據(jù)來(lái)確定是否可疑。也可以對(duì)同類型相的傳感器數(shù)據(jù)進(jìn)行關(guān)聯(lián)度分析,確定關(guān)聯(lián)度閾值,然后根據(jù)關(guān)聯(lián)度分析計(jì)算得到的概率與閾值相比,若小于閾值,則關(guān)聯(lián)性好,說(shuō)明傳感器工作正常;否則關(guān)聯(lián)性不好,說(shuō)明有傳感器工作不正常。
數(shù)據(jù)清洗要對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行濾波去噪、去除異常值、數(shù)據(jù)插補(bǔ)。
1)濾波去噪的常見方法有平均值濾波、中值濾波、復(fù)合濾波等。近年來(lái)小波技術(shù)也被常用于濾波去噪,并且展現(xiàn)了比較好的性能
2)異常值一般分為單點(diǎn)異常值和連續(xù)異常值,針對(duì)單點(diǎn)異常值剔除方法有固定閾值法和基于樣本閾值方法。對(duì)于連續(xù)異常值得剔除方法還沒(méi)有比較好的方法,也需要根據(jù)具體數(shù)據(jù)特性具體分析。
3)數(shù)據(jù)插補(bǔ)研究比較多所以方法也比較多,方法有均值插入法、時(shí)間序列移動(dòng)平均模型插值法、拉格朗日插值法、神經(jīng)網(wǎng)絡(luò)插補(bǔ)法等。
數(shù)據(jù)的統(tǒng)計(jì)分析就是利用數(shù)理統(tǒng)計(jì)的方法計(jì)算與記錄監(jiān)測(cè)數(shù)據(jù)的特征。
1)橋梁監(jiān)測(cè)系統(tǒng)所采集的監(jiān)測(cè)數(shù)據(jù)受到很多方面因素的影響,橋梁監(jiān)測(cè)數(shù)據(jù)也是一個(gè)連續(xù)、長(zhǎng)時(shí)間的時(shí)序數(shù)據(jù),統(tǒng)計(jì)橋梁監(jiān)測(cè)數(shù)據(jù)一段時(shí)間內(nèi)的的均值、方差、絕對(duì)方差、最大值、最小值等特征,可以反映橋梁結(jié)構(gòu)的變化。
2)數(shù)據(jù)概化,對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行時(shí)間序列分析,獲得更有意義地結(jié)果,把數(shù)據(jù)采集時(shí)間通過(guò)數(shù)理統(tǒng)計(jì)概化到天、周、月、季度和年份,可以更好觀察監(jiān)測(cè)數(shù)據(jù)的規(guī)律性?;蛘邔?duì)一個(gè)時(shí)間段的不同監(jiān)測(cè)參數(shù)做關(guān)聯(lián)性分析,將這幾種監(jiān)測(cè)數(shù)據(jù)的數(shù)據(jù)融合存入一個(gè)數(shù)據(jù)表中
3)數(shù)據(jù)規(guī)范化,不同的橋梁監(jiān)測(cè)參數(shù)取值范圍是不同,如溫度相對(duì)于撓度變化的數(shù)值區(qū)間較大,把不同監(jiān)測(cè)參數(shù)的取值區(qū)間規(guī)范到同一個(gè)區(qū)間
監(jiān)測(cè)數(shù)據(jù)的特征創(chuàng)建的方法基本有 4 大類:基于統(tǒng)計(jì)方法的特征創(chuàng)建,基于模型的特征創(chuàng)建,基于變換的特征創(chuàng)建,基于分形維數(shù)的特征創(chuàng)建。
1)基于統(tǒng)計(jì)方法的特征創(chuàng)建,對(duì)時(shí)域數(shù)據(jù)統(tǒng)計(jì)方法有均值、極值、方差等特征,對(duì)頻域信息采用功率密度比、功率譜、平均功率頻率等方法統(tǒng)計(jì)功率譜密度、熵值、平均功率和中值頻率等特征。用統(tǒng)計(jì)方法提取了特征向量后,可以采用構(gòu)造分類器對(duì)提取出的特征向量分類;也可以采用神經(jīng)網(wǎng)絡(luò)對(duì)從監(jiān)測(cè)數(shù)據(jù)中提取的特征向量進(jìn)行分類此,這樣可以達(dá)到比較好效果。它基于統(tǒng)計(jì)方法的特征創(chuàng)建比較適合統(tǒng)計(jì)特征比較明顯的時(shí)間序列數(shù)據(jù)。
2)基于模型的的特征創(chuàng)建的方法是用合適的模型刻畫時(shí)序數(shù)據(jù),然后計(jì)算提取模型的系書作為特征向量。對(duì)于平穩(wěn)的時(shí)間序列,常采用自回歸模型(AR 模型)、移動(dòng)平均模型(MA 模型)、自回歸移動(dòng)平均模型(ARMA 模型)等。對(duì)于非平穩(wěn)時(shí)間序列,常采用 ARIMA 模型(差分自回歸移動(dòng)平均模型)。
3)基于變換的特征創(chuàng)建一般分為基于時(shí)頻變換的特征創(chuàng)建和基于線性變換的特征創(chuàng)建。基于時(shí)頻變換的特征創(chuàng)建是時(shí)域信息變換成頻域信息,在這變換的過(guò)程中提取出有用的特征向量。常采用的變換方法有傅里葉變換、小波變換和倒譜系數(shù)等手段。橋梁監(jiān)測(cè)數(shù)據(jù)一般來(lái)說(shuō)都是時(shí)序數(shù)據(jù),可能含有大量周期模式,并且也很有可能存在大量噪聲,在時(shí)域角度很難檢測(cè)這些模式,通過(guò)對(duì)時(shí)序數(shù)據(jù)實(shí)施傅里葉變換,將它轉(zhuǎn)換成頻率數(shù)據(jù)信息明顯的表示,就能檢測(cè)到這些模式了。經(jīng)過(guò)驗(yàn)證,對(duì)時(shí)間序列數(shù)據(jù)實(shí)施小波變換也非常有用。基于線性變化常采用的變換手段有 PCA(主成分分析)、小波變換、神經(jīng)網(wǎng)絡(luò)等。
4)基于分形理論的特征創(chuàng)建,利用分形理論的自相似現(xiàn)象的特點(diǎn),用局部特征代替整體特征。分析理論的真正發(fā)展不到 20 年,但應(yīng)用于時(shí)間序列數(shù)據(jù)的特征提取已越來(lái)越廣泛了。至于是否應(yīng)用分析理論對(duì)時(shí)序數(shù)據(jù)進(jìn)行特征創(chuàng)建,要看時(shí)間序列數(shù)據(jù)的特征符合分析理論的自相似現(xiàn)象。
數(shù)據(jù)降維的目標(biāo)就是降低輸入向量的維數(shù),并且維數(shù)降低后沒(méi)有失去所需要的數(shù)據(jù)信息。常用的方法有主成分分析、奇異值分解和特征子集選擇。主成分分析是一種用于連續(xù)屬性的線性代數(shù)技術(shù),它找出數(shù)據(jù)的新的屬性(主成分),這些屬性是原屬性的線性組合,是相互正交的,并且捕獲了數(shù)據(jù)的最大變差。奇異值分解,它與PCA有關(guān),也適用于數(shù)據(jù)降維。