国产精品不卡在线,精品国产_亚洲人成在线高清,色亚洲一区,91激情网

  • 頭條基于在線附加Q學(xué)習(xí)的伺服電機(jī)速度最優(yōu)跟蹤控制方法
    2019-11-15 作者:鄒曉敏、肖曦 等  |  來(lái)源:《電工技術(shù)學(xué)報(bào)》  |  點(diǎn)擊率:
    分享到:
    導(dǎo)語(yǔ)清華大學(xué)電機(jī)工程與應(yīng)用電子技術(shù)系、陜西航空電氣有限責(zé)任公司、圣彼得堡彼得大帝理工大學(xué)圣彼得堡的研究人員鄒曉敏、肖曦、何琪、Shkodyrev Vyacheslav,在2019年第5期《電工技術(shù)學(xué)報(bào)》上撰文,該文將在線Q學(xué)習(xí)方法與附加控制思想相結(jié)合,討論了其在伺服系統(tǒng)中電機(jī)速度最優(yōu)跟蹤控制問題上的應(yīng)用。 首先在線性二次型跟蹤器問題的框架下對(duì)待求解問題進(jìn)行了定義;然后給出了在線附加Q學(xué)習(xí)迭代式地進(jìn)行策略評(píng)價(jià)、策略改善的具體算法。仿真測(cè)試中,首先為電機(jī)速度跟蹤問題設(shè)計(jì)了傳統(tǒng)的PI控制器,然后將基于該文思路所設(shè)計(jì)的附加控制器與其并聯(lián),組成新的速度控制器。 仿真結(jié)果表明,附加控制器顯著改善了電機(jī)速度跟蹤的動(dòng)態(tài)響應(yīng)特性,并且具備在被控系統(tǒng)參數(shù)發(fā)生改變時(shí)自動(dòng)調(diào)優(yōu)的自適應(yīng)能力。非線性系統(tǒng)在特定條件下可進(jìn)行局部線性化時(shí),也可用該方法來(lái)得到更優(yōu)的控制性能。

    在工業(yè)應(yīng)用場(chǎng)景中,跟蹤控制問題無(wú)處不在,如化工生產(chǎn)中的溫度控制、濃度控制,伺服系統(tǒng)中的速度控制、位置控制等。提高跟蹤控制器的控制性能有利于工業(yè)系統(tǒng)朝著精密化、節(jié)能化的方向發(fā)展。為研究如何實(shí)現(xiàn)最優(yōu)跟蹤控制,學(xué)界提出了線性二次型跟蹤器(Linear Quadratic Tracker, LQT)問題。

    該問題的目標(biāo)是設(shè)計(jì)一個(gè)控制器,使得在該控制器作用下系統(tǒng)輸出在某個(gè)線性二次型指標(biāo)下性能最優(yōu)。傳統(tǒng)的LQT解法包含兩個(gè)步驟:首先求解代數(shù)黎卡提方程(Algebraic Riccati Equation, ARE)得到一個(gè)反饋?lái)?xiàng),然后求解一個(gè)非因果的微分方程得到一個(gè)前饋?lái)?xiàng)[1]。該解法一般需要離線進(jìn)行,且需要知道被控系統(tǒng)的動(dòng)態(tài)模型。

    為了擴(kuò)大LQT的應(yīng)用范圍,使其在系統(tǒng)動(dòng)態(tài)模型未知的情況下也能得到最優(yōu)控制輸出,人們嘗試將自適應(yīng)動(dòng)態(tài)規(guī)劃(Adaptive Dynamic Programming,ADP)的思想(文獻(xiàn)[2]中也稱其為強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL))應(yīng)用到LQT問題中。

    Q學(xué)習(xí)算法是ADP方法中較為流行的一種,已有大量研究將其用在了線性二次型調(diào)節(jié)器(Linear Quadratic Regulator, LQR)問題的求解上。該算法屬于一種策略迭代(Policy Iteration)式的算法,它的應(yīng)用不需要知道被控系統(tǒng)的動(dòng)態(tài)模型。

    然而,相比于LQR問題,LQT問題中前饋?lái)?xiàng)的計(jì)算帶來(lái)了額外的復(fù)雜度,因此Q學(xué)習(xí)在LQT問題中還未能得到大量的應(yīng)用。文獻(xiàn)中已有的應(yīng)用案例也往往附帶了某些前提條件,如要求系統(tǒng)動(dòng)態(tài)模型已知等[5]。文獻(xiàn)[4]提出了一種將Q學(xué)習(xí)應(yīng)用于離散線性系統(tǒng)最優(yōu)跟蹤控制的方法,并給出了理論上的收斂性證明。該算法可在線運(yùn)行,并且將系統(tǒng)模型的辨識(shí)包含在了策略迭代的過程中,因此不需要知道系統(tǒng)的動(dòng)態(tài)模型即可達(dá)到線性二次型指標(biāo)下的最優(yōu)控制。

    值得指出的是,目前基于ADP思想的控制方法具有對(duì)噪聲干擾敏感、收斂性差、運(yùn)行工況受限、運(yùn)算量大的缺點(diǎn),這些都限制了它們?cè)趯?shí)際控制器中的應(yīng)用。在實(shí)際應(yīng)用中,一般被控系統(tǒng)都已經(jīng)預(yù)先擁有可用的控制器,只是該控制器的控制性能需要得到改善。

    為充分發(fā)揮ADP控制方法的自適應(yīng)性與原控制器的穩(wěn)定性,賦予原控制器在線學(xué)習(xí)的能力,近年來(lái)有學(xué)者提出將基于ADP思想的控制器作為附加控制器與原控制器并聯(lián)使用,取得了一定的效果。

    在電力系統(tǒng)控制領(lǐng)域,文獻(xiàn)[6]將附加學(xué)習(xí)控制用于含大規(guī)模風(fēng)電的電力系統(tǒng)中傳統(tǒng)火電機(jī)組的附加頻率控制,文獻(xiàn)[7]將附加學(xué)習(xí)控制用于雙饋風(fēng)電場(chǎng)的暫態(tài)無(wú)功控制。在電力電子領(lǐng)域,文獻(xiàn)[8]將附加學(xué)習(xí)控制用于并聯(lián)型有源電力濾波器的控制,文獻(xiàn)[9,10]將附加學(xué)習(xí)控制用于虛擬同步機(jī)的控制。在以上文獻(xiàn)的仿真驗(yàn)證中,附加學(xué)習(xí)控制均帶來(lái)了一定的控制性能提升。

    速度控制是交流電機(jī)伺服系統(tǒng)中的一個(gè)重要問題,傳統(tǒng)上多采用PID控制。在電機(jī)運(yùn)行過程中,轉(zhuǎn)動(dòng)慣量、轉(zhuǎn)矩環(huán)時(shí)間常數(shù)等參數(shù)均容易發(fā)生一定的變化,影響速度環(huán)的控制性能。因此在要求高精度的場(chǎng)合中,傳統(tǒng)的PID控制無(wú)法滿足需要,往往需要對(duì)速度控制器做自適應(yīng)設(shè)計(jì)。

    常見的自適應(yīng)設(shè)計(jì)方法有非線性PI控制、自適應(yīng)控制、自抗擾控制、模糊系統(tǒng)、滑??刂频取F渲蟹蔷€性PI控制包括PI參數(shù)自整定、變結(jié)構(gòu)PI控制等。部分PI參數(shù)自整定的研究用到了ADP思想,即通過某種逼近結(jié)構(gòu)(如神經(jīng)網(wǎng)絡(luò))對(duì)系統(tǒng)進(jìn)行建模,再根據(jù)某種代價(jià)函數(shù)動(dòng)態(tài)地調(diào)整Kp、Ki,一般用于控制難以建模的電機(jī)(如開關(guān)磁阻電機(jī))。雖然對(duì)于速度環(huán)的改進(jìn)方向已經(jīng)很豐富,然而目前將Q學(xué)習(xí)與附加學(xué)習(xí)相結(jié)合用于電機(jī)速度控制的研究還非常之少。

    本文在文獻(xiàn)[4]所提的用于跟蹤控制的Q學(xué)習(xí)方法的基礎(chǔ)上,結(jié)合附加控制的思想,提出了用于跟蹤控制的在線附加Q學(xué)習(xí)方法。首先在LQT問題的框架下對(duì)待求解問題進(jìn)行了定義;然后針對(duì)性地給出了在線附加Q學(xué)習(xí)迭代式地進(jìn)行策略評(píng)價(jià)、策略改善的具體算法。

    為驗(yàn)證所提算法的有效性,選取伺服系統(tǒng)中電機(jī)速度跟蹤這一實(shí)際問題進(jìn)行仿真。首先為被控系統(tǒng)設(shè)計(jì)了傳統(tǒng)的PI控制器,然后將本文所提出的附加控制器與其并聯(lián)組成新的控制器,最后通過仿真對(duì)不同參數(shù)設(shè)置下的控制效果進(jìn)行了分析。

    基于在線附加Q學(xué)習(xí)的伺服電機(jī)速度最優(yōu)跟蹤控制方法

    圖1 附加Q學(xué)習(xí)最優(yōu)跟蹤控制器結(jié)構(gòu)示意圖

    基于在線附加Q學(xué)習(xí)的伺服電機(jī)速度最優(yōu)跟蹤控制方法

    圖2 附加控制下電機(jī)速度環(huán)結(jié)構(gòu)框圖

    結(jié)論

    本文將在線Q學(xué)習(xí)最優(yōu)跟蹤控制方法與附加控制思想相結(jié)合,討論了其在線性離散系統(tǒng)無(wú)模型化跟蹤控制問題上的應(yīng)用。對(duì)于電機(jī)速度跟蹤這一實(shí)際問題,首先為其設(shè)計(jì)了傳統(tǒng)的PI控制器,然后設(shè)計(jì)了基于在線Q學(xué)習(xí)的附加控制器與原控制器并聯(lián)。仿真結(jié)果表明,這一做法顯著改善了電機(jī)速度跟蹤的動(dòng)態(tài)響應(yīng)特性,并且具備在被控系統(tǒng)參數(shù)發(fā)生改變時(shí)自動(dòng)調(diào)優(yōu)的自適應(yīng)能力。

    雖然本文的研究基于線性系統(tǒng),但實(shí)際生產(chǎn)中有大量的非線性系統(tǒng)在特定條件下可以進(jìn)行局部線性化,此時(shí)即可用本文方法來(lái)處理。當(dāng)檢測(cè)到系統(tǒng)進(jìn)入不可線性化的區(qū)域時(shí)(如PI發(fā)生飽和時(shí)),可停止附加控制的輸入,此時(shí)可通過原控制器繼續(xù)維持系統(tǒng)在不可線性化區(qū)域的穩(wěn)定運(yùn)行。