新一代智能變電站大量使用一次設(shè)備同體設(shè)計(jì)、緊密耦合的數(shù)字化就地模塊,因而系統(tǒng)對就地模塊等硬件可靠性有很高的要求。硬件設(shè)計(jì)方面,隨著微處理器尤其是現(xiàn)場可編程門陣列(field pro- grammable gate array, FPGA)以及數(shù)字信號處理(digital signal processor, DSP)技術(shù)的發(fā)展,在單一處理器芯片中實(shí)現(xiàn)復(fù)雜控制和保護(hù)功能成為可能,它簡化了硬件設(shè)計(jì),具有更好的抗干擾性能,有利于提高硬件可靠性。
根據(jù)變電站現(xiàn)場運(yùn)行經(jīng)驗(yàn),就地模塊靠近一次設(shè)備,電磁環(huán)境嚴(yán)酷復(fù)雜。氣體絕緣組合電器設(shè)備(gas insulated metal switchgear, GIS)隔離開關(guān)操作時(shí),觸頭間隙會(huì)發(fā)生預(yù)擊穿或重?fù)舸┓烹?,產(chǎn)生陡變的行波向兩側(cè)傳播,遇到波阻抗變化處發(fā)生折反射,形成特快速瞬態(tài)過電壓(very fast transient over-voltage, VFTO)。
在早期采用電子式互感器的智能站中,GIS電子式互感器中的采集器就很容易受到VFTO的影響,具體的干擾波形與不同廠家GIS設(shè)備、線路長度、現(xiàn)場接地情況、一次傳感器和信號線屏蔽等有關(guān)。在貴州某智能站中,電子式互感器采集器受到干擾,曾出現(xiàn)合開關(guān)時(shí)采樣器模數(shù)轉(zhuǎn)換芯片誤采虛假大電流而出現(xiàn)跳閘,使運(yùn)行過程中高速數(shù)據(jù)總線傳輸?shù)拈_關(guān)量狀態(tài)異常變位導(dǎo)致保護(hù)誤動(dòng)。還有不少電源受浪涌類干擾而出現(xiàn)損壞的情況。
受電子元器件的老化、一次設(shè)備高電壓沖擊等因素的影響,保證數(shù)字化就地設(shè)備的硬件永遠(yuǎn)不損壞是實(shí)現(xiàn)不了的。要提高硬件可靠性,就必須具有硬件自檢功能,在裝置的調(diào)試和運(yùn)行過程中能及時(shí)發(fā)現(xiàn)硬件故障,保證裝置不誤動(dòng)并能立即報(bào)警,通過系統(tǒng)綜合決策,在最短時(shí)間內(nèi)采取措施予以修復(fù)。
國內(nèi)幾大二次設(shè)備廠家的裝置都具備硬件自檢和互檢能力,比如繼電器、開入的智能化檢測以及對容易損壞的電源電壓輸出質(zhì)量的測量、溫度綜合監(jiān)測等。但目前的硬件檢測也有不足,比如FPGA軟錯(cuò)誤、內(nèi)存(RAM)軟錯(cuò)誤等問題并不容易被檢測,從而引發(fā)電力系統(tǒng)事故造成損失。
半導(dǎo)體器件發(fā)生單粒子效應(yīng)時(shí),其危害包括數(shù)據(jù)丟失、功能中斷等。如在CPU的指令緩存中引起軟錯(cuò)誤(soft error),則將導(dǎo)致CPU不能執(zhí)行預(yù)期的功能。超級計(jì)算機(jī)的軟錯(cuò)誤曾造成美國Los Alamos國家實(shí)驗(yàn)室重大損失。隨著芯片半導(dǎo)體尺寸的減小和存儲容量的持續(xù)擴(kuò)大,靜態(tài)存儲器(SRAM)或者片外的動(dòng)態(tài)存儲器(DRAM)單邏輯位的軟錯(cuò)誤概率(soft error rate, SER)呈指數(shù)級增長。
本文研究硬件全面自檢的方法,及時(shí)獲取硬件設(shè)備運(yùn)行狀態(tài),實(shí)現(xiàn)變電站二次設(shè)備狀態(tài)的全面感知,從而保證就地模塊設(shè)備可靠運(yùn)行。
就地模塊硬件(其架構(gòu)如圖1所示)采用系統(tǒng)級芯片(system on chip, SOC)(A9雙核800MHz,F(xiàn)PGA LC125K),支持256MB內(nèi)存和豐富的存儲設(shè)備。采用16位模數(shù)轉(zhuǎn)換器(ADC),支持網(wǎng)絡(luò)口(ETH)、CAN總線、I2C總線擴(kuò)展,面板支持4路網(wǎng)口、對時(shí)口等。
1.1 自檢設(shè)計(jì)分類
自檢設(shè)計(jì)分類是從產(chǎn)品設(shè)計(jì)角度來研究處理系統(tǒng)故障,對硬件進(jìn)行自檢設(shè)計(jì),將可能發(fā)生的故障根據(jù)成因和功能電路進(jìn)行分析和分類。
就地模塊硬件自檢的信息主要來自外設(shè),包括處理器及外設(shè)自檢、內(nèi)存自檢、通信自檢、電源和其他硬件自檢等。其分類如圖2所示。
圖1 就地模塊硬件架構(gòu)
圖2 就地模塊硬件自檢信息分類圖
1.2 自檢設(shè)計(jì)的實(shí)現(xiàn)
硬件自檢的難點(diǎn)主要在處理器和內(nèi)存,其關(guān)系到應(yīng)用功能的運(yùn)行可靠性。
1)處理器及外設(shè)自檢設(shè)計(jì)
處理器(DSP、SOC等)的特點(diǎn)是速度快、結(jié)構(gòu)復(fù)雜、可觀察性低。本文對處理器的自檢從處理器的功能實(shí)現(xiàn)出發(fā),對不可見的復(fù)雜功能電路進(jìn)行故障分析。通過設(shè)計(jì)將運(yùn)算指令、傳送指令、跳轉(zhuǎn)指令、邏輯指令等組合為完成一定運(yùn)算功能的指令塊,利用該指令塊的結(jié)果判斷處理器的傳輸、計(jì)算、輸出等功能。
檢查處理器是否能夠正確執(zhí)行全部指令,并且可以在定時(shí)器中斷中清除中斷異常標(biāo)志,來檢查處理器的中斷和定時(shí)器功能是否正常。
處理器內(nèi)部自檢流程如圖3所示。
圖3 處理器內(nèi)部自檢流程圖
裝置上電后,執(zhí)行預(yù)先的指令塊,利用該指令塊的結(jié)果判斷CPU的傳輸、計(jì)算、輸出等功能,如果運(yùn)算結(jié)果與存儲正確值不一樣,設(shè)置CPU錯(cuò)誤標(biāo)志;如果結(jié)果一致,就繼續(xù)進(jìn)行處理器中斷和定時(shí)器功能檢測。
若在規(guī)定時(shí)間內(nèi)中斷程序中的異常標(biāo)志被清零,則置CPU自檢成功;若超過規(guī)定時(shí)間中斷程序中的異常標(biāo)志依然存在,則設(shè)置CPU自檢錯(cuò)誤。
處理器外設(shè)自檢通過監(jiān)視接口模塊寄存器狀態(tài)、輸入、輸出數(shù)據(jù)互相校驗(yàn),采用通信接口發(fā)送、接收自環(huán)檢測等方式自檢。
2)內(nèi)存自檢設(shè)計(jì)
內(nèi)存自檢用于解決運(yùn)行過程中內(nèi)存意外出錯(cuò)的問題,以有效防止因存儲器出錯(cuò)導(dǎo)致的程序邏輯異常。內(nèi)存自檢包括數(shù)據(jù)內(nèi)存自檢(如保護(hù)定值、系數(shù)表、關(guān)鍵全局變量、指針等)和指令內(nèi)存自檢(如運(yùn)行過程中RAM代碼等)。
處理器運(yùn)行時(shí),RAM中存儲的信息主要包含程序代碼和數(shù)據(jù)兩大類,其中代碼屬于只讀屬性,在運(yùn)行過程中被處理器讀取并執(zhí)行,內(nèi)容不會(huì)被修改。數(shù)據(jù)在運(yùn)行過程中可能部分會(huì)被修改覆蓋,還有部分是只讀狀態(tài),會(huì)一直保持不變。對于運(yùn)行過程中保持不變的代碼空間和部分?jǐn)?shù)據(jù)空間,采用多存儲器的相互校驗(yàn)機(jī)制進(jìn)行監(jiān)視檢查和出錯(cuò)恢復(fù)。
圖4 內(nèi)存自檢架構(gòu)圖
嵌入式板卡上的程序文件一般存儲于Flash中,分為BOOT引導(dǎo)程序和應(yīng)用程序,板卡上電后,處理器從BOOT引導(dǎo)程序開始執(zhí)行,把Flash中的程序塊解析后載入到不同的內(nèi)存區(qū)域,完成該步驟后自動(dòng)跳轉(zhuǎn)應(yīng)用程序,并開始執(zhí)行。
Flash中只讀狀態(tài)的程序在內(nèi)存中形成了備份,程序運(yùn)行過程中,將內(nèi)存中導(dǎo)入程序與Flash中的源程序代碼進(jìn)行實(shí)時(shí)比較,監(jiān)視內(nèi)存中的代碼區(qū)域是否發(fā)生了軟錯(cuò)誤,再進(jìn)行記錄以及糾錯(cuò)。
根據(jù)對源程序在不同物理介質(zhì)進(jìn)行備份、互校的機(jī)制,本文提出一種程序、數(shù)據(jù)多重備份、互校的軟錯(cuò)誤處理辦法。在繼電保護(hù)裝置中,跳閘門檻、瞬態(tài)電流等可能會(huì)引起裝置拒動(dòng)作或誤動(dòng)作,嵌入式板卡處理器運(yùn)行時(shí),處理器根據(jù)程序和數(shù)據(jù)區(qū)的重要程度,將待監(jiān)視的程序及數(shù)據(jù)在動(dòng)態(tài)RAM空間分配相同大小的區(qū)域,將源程序和數(shù)據(jù)進(jìn)行雙重備份。
備份程序及數(shù)據(jù)運(yùn)行之前,首先將源程序和數(shù)據(jù)與兩塊備份區(qū)域進(jìn)行三者校驗(yàn),若三者一致,則判斷程序、數(shù)據(jù)正確,載入運(yùn)行。根據(jù)半導(dǎo)體器件發(fā)生單粒子效應(yīng)的特點(diǎn),內(nèi)存出現(xiàn)軟錯(cuò)誤時(shí),不一致的區(qū)域很容易被對比發(fā)現(xiàn),若兩個(gè)區(qū)域相同,第3個(gè)區(qū)域不同,則借鑒繼電保護(hù)邏輯中一項(xiàng)“三取二”的思想,用一致的兩個(gè)區(qū)域來糾正第三個(gè)區(qū)域;若3個(gè)區(qū)域都不相同,則可認(rèn)為發(fā)生了超出預(yù)知的錯(cuò)誤,判斷程序、數(shù)據(jù)有運(yùn)行風(fēng)險(xiǎn),采取處理器復(fù)位重起的方式來確保安全性。
當(dāng)系統(tǒng)監(jiān)視檢測到內(nèi)存異常時(shí),會(huì)記錄到本板非易失性存儲器中。具體內(nèi)容包括異常發(fā)生時(shí)間、正確的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、異常地址、異常地址附近的內(nèi)容等。異常記錄被存放于板卡非易失性存儲器中,可以通過調(diào)試工具上招,便于異常分析。
現(xiàn)場應(yīng)對內(nèi)存出錯(cuò)采取的措施一般是軟重起,以便使系統(tǒng)能夠盡快恢復(fù)運(yùn)行。獲取到內(nèi)存出錯(cuò)標(biāo)志后,首先閉鎖裝置,然后做內(nèi)存出錯(cuò)報(bào)文。若當(dāng)前檢測輪次大于3次,則重起處理器。
1.3 自檢系統(tǒng)可靠性
硬件自檢系統(tǒng)除了本身需要完備的功能以檢測主要硬件故障外,還需要保證自檢系統(tǒng)工作可靠運(yùn)行。在設(shè)計(jì)系統(tǒng)時(shí),應(yīng)考慮當(dāng)故障自動(dòng)被檢測出不安全狀態(tài)時(shí),系統(tǒng)能做出正確響應(yīng)。設(shè)計(jì)故障檢測的優(yōu)先級結(jié)構(gòu)及安全性控制、校正邏輯、處理和響應(yīng)故障的模塊,產(chǎn)生對硬件進(jìn)行自主控制信號,能直接影響硬件部件運(yùn)行或啟動(dòng)安全關(guān)鍵功能。
硬件自檢系統(tǒng)可靠機(jī)制主要體現(xiàn)在軟硬件結(jié)合處理方面,包括電源失效防護(hù)、加電檢測、電磁干擾、系統(tǒng)不穩(wěn)定、接口故障、干擾信號、錯(cuò)誤操作等設(shè)計(jì)。
硬件加電的瞬間,電源可能出現(xiàn)間歇故障,系統(tǒng)或因電源上電過程的抖動(dòng)或上電順序不一致而出現(xiàn)運(yùn)行問題,此時(shí)需軟硬件配合處理這兩種狀態(tài)下的潛在不安全初始狀態(tài),提供安全的關(guān)閉措施,使電源有波動(dòng)時(shí)的系統(tǒng)不會(huì)產(chǎn)生潛在的危險(xiǎn)。系統(tǒng)加電的過程,軟件對系統(tǒng)進(jìn)行檢測,驗(yàn)證系統(tǒng)安全且在正常運(yùn)行;軟件還對系統(tǒng)進(jìn)行周期性檢測,以監(jiān)視系統(tǒng)的安全狀態(tài)。
對于電磁干擾、宇宙重粒子的沖擊,硬件設(shè)計(jì)應(yīng)將這些干擾控制在電磁兼容(electromagnetic compatibility, EMC)規(guī)范之下,軟件設(shè)計(jì)要使得在出現(xiàn)這種干擾時(shí),系統(tǒng)仍處于安全狀態(tài)。當(dāng)外來干擾使系統(tǒng)出現(xiàn)不穩(wěn)定、不宜繼續(xù)執(zhí)行指令時(shí),軟件應(yīng)有等系統(tǒng)穩(wěn)定后再執(zhí)行指令的措施。
軟件應(yīng)能判斷輸入操作正確(或合理)與否,并在遇到不正確(或不合理)輸入和操作時(shí)拒絕該操作的執(zhí)行,并進(jìn)行提醒或報(bào)警,同時(shí)給出錯(cuò)誤的類型和糾正措施。
自診斷系統(tǒng)通信架構(gòu)的功能是將就地模塊的自檢信息通過站控層上送到監(jiān)控系統(tǒng),對保護(hù)運(yùn)行狀態(tài)進(jìn)行遠(yuǎn)程監(jiān)視,并編制保護(hù)運(yùn)行狀態(tài)評估信息(以下簡稱保信)上送方案。
系統(tǒng)選用的過程層設(shè)備為電磁式互感器電壓電流就地模塊,程序?qū)崿F(xiàn)其硬件全面自檢后,從光口發(fā)出含自檢信息的面向通用對象的變電站事件(generic object oriented substation event, GOOSE)報(bào)文。
站控層選用支持GOOSE功能的PCS-9705A-D型號測控,接收就地模塊的自檢信息并搬運(yùn)到站控層網(wǎng)絡(luò),通過站內(nèi)制造報(bào)文規(guī)范(manufacturing message specification, MMS)通信上送到后臺,最后由子站匯集整理所有監(jiān)視設(shè)備的全信息,并以系統(tǒng)工程測試程序(system engineering test program, SFTP)方式推送到保信主站,如圖5所示。
圖5 狀態(tài)信息上送架構(gòu)圖
基于硬件平臺分析發(fā)現(xiàn)了可能出現(xiàn)的不同程度裝置的運(yùn)行故障,針對這些故障提出了硬件自診斷的算法或判定邏輯。
數(shù)據(jù)對象引用名便于理解自檢信息在icd文件中的模型配置。自檢信息包括信號量和模擬量:①信號量動(dòng)作時(shí)表示出現(xiàn)自檢告警,復(fù)歸表示告警消失;②模擬量可以實(shí)時(shí)監(jiān)測其變化過程和趨勢。各信號對應(yīng)的自檢信息分類見表1右側(cè)所示。
系統(tǒng)模擬兩層一網(wǎng)簡化架構(gòu),通信符合現(xiàn)代61850數(shù)字化站的要求,過程層使用GOOSE通信,站控層使用MMS通信。
就地模塊一旦發(fā)生自檢告警,就會(huì)通過GOOSE協(xié)議發(fā)送給測控裝置,由測控裝置轉(zhuǎn)成MMS上送。為實(shí)現(xiàn)以上站內(nèi)通信,整理就地模塊二次自檢信息,統(tǒng)計(jì)有意義的信號,在應(yīng)用層完成這些自檢信號的變量定義,根據(jù)相關(guān)內(nèi)容完成邏輯判斷,實(shí)現(xiàn)對應(yīng)功能,完成GOOSE文本及icd文件的配置,符合61850通信規(guī)范,導(dǎo)出供工程配置使用,搭建硬件平臺,進(jìn)行工程配置,搭建實(shí)例化展示系統(tǒng)(如圖6所示)。
圖6 實(shí)例化展示系統(tǒng)
國家電網(wǎng)公司國內(nèi)首座半戶內(nèi)智慧變電站——湖南某智慧變電站已于2019年年底正式投入運(yùn)行。該站使用南瑞繼保公司的就地設(shè)備具備異常主動(dòng)預(yù)警功能,自動(dòng)識別二次設(shè)備隱性故障,若發(fā)現(xiàn)設(shè)備異常則主動(dòng)預(yù)警,實(shí)現(xiàn)了變電站二次設(shè)備狀態(tài)全面感知,為狀態(tài)檢修提供了技術(shù)支撐。
本文針對新一代智能變電站二次系統(tǒng)對就地設(shè)備硬件可靠性的要求,研究硬件全面自檢的方法,及時(shí)獲取了硬件設(shè)備運(yùn)行狀態(tài),通過通信協(xié)議進(jìn)行擴(kuò)展,將硬件自檢信息上送到硬件自檢監(jiān)控系統(tǒng)(如圖7所示),為檢修等工作提供信息數(shù)據(jù),提高了設(shè)備運(yùn)行的可靠性,為運(yùn)維檢修工作帶來了便利。
圖7 監(jiān)控系統(tǒng)自診斷信息圖