国产精品不卡在线,精品国产_亚洲人成在线高清,色亚洲一区,91激情网

  • 頭條基于在線附加Q學習的伺服電機速度最優(yōu)跟蹤控制方法
    2019-11-15 作者:鄒曉敏、肖曦 等  |  來源:《電工技術學報》  |  點擊率:
    分享到:
    導語清華大學電機工程與應用電子技術系、陜西航空電氣有限責任公司、圣彼得堡彼得大帝理工大學圣彼得堡的研究人員鄒曉敏、肖曦、何琪、Shkodyrev Vyacheslav,在2019年第5期《電工技術學報》上撰文,該文將在線Q學習方法與附加控制思想相結合,討論了其在伺服系統(tǒng)中電機速度最優(yōu)跟蹤控制問題上的應用。 首先在線性二次型跟蹤器問題的框架下對待求解問題進行了定義;然后給出了在線附加Q學習迭代式地進行策略評價、策略改善的具體算法。仿真測試中,首先為電機速度跟蹤問題設計了傳統(tǒng)的PI控制器,然后將基于該文思路所設計的附加控制器與其并聯(lián),組成新的速度控制器。 仿真結果表明,附加控制器顯著改善了電機速度跟蹤的動態(tài)響應特性,并且具備在被控系統(tǒng)參數(shù)發(fā)生改變時自動調優(yōu)的自適應能力。非線性系統(tǒng)在特定條件下可進行局部線性化時,也可用該方法來得到更優(yōu)的控制性能。

    在工業(yè)應用場景中,跟蹤控制問題無處不在,如化工生產中的溫度控制、濃度控制,伺服系統(tǒng)中的速度控制、位置控制等。提高跟蹤控制器的控制性能有利于工業(yè)系統(tǒng)朝著精密化、節(jié)能化的方向發(fā)展。為研究如何實現(xiàn)最優(yōu)跟蹤控制,學界提出了線性二次型跟蹤器(Linear Quadratic Tracker, LQT)問題。

    該問題的目標是設計一個控制器,使得在該控制器作用下系統(tǒng)輸出在某個線性二次型指標下性能最優(yōu)。傳統(tǒng)的LQT解法包含兩個步驟:首先求解代數(shù)黎卡提方程(Algebraic Riccati Equation, ARE)得到一個反饋項,然后求解一個非因果的微分方程得到一個前饋項[1]。該解法一般需要離線進行,且需要知道被控系統(tǒng)的動態(tài)模型。

    為了擴大LQT的應用范圍,使其在系統(tǒng)動態(tài)模型未知的情況下也能得到最優(yōu)控制輸出,人們嘗試將自適應動態(tài)規(guī)劃(Adaptive Dynamic Programming,ADP)的思想(文獻[2]中也稱其為強化學習(Reinforcement Learning, RL))應用到LQT問題中。

    Q學習算法是ADP方法中較為流行的一種,已有大量研究將其用在了線性二次型調節(jié)器(Linear Quadratic Regulator, LQR)問題的求解上。該算法屬于一種策略迭代(Policy Iteration)式的算法,它的應用不需要知道被控系統(tǒng)的動態(tài)模型。

    然而,相比于LQR問題,LQT問題中前饋項的計算帶來了額外的復雜度,因此Q學習在LQT問題中還未能得到大量的應用。文獻中已有的應用案例也往往附帶了某些前提條件,如要求系統(tǒng)動態(tài)模型已知等[5]。文獻[4]提出了一種將Q學習應用于離散線性系統(tǒng)最優(yōu)跟蹤控制的方法,并給出了理論上的收斂性證明。該算法可在線運行,并且將系統(tǒng)模型的辨識包含在了策略迭代的過程中,因此不需要知道系統(tǒng)的動態(tài)模型即可達到線性二次型指標下的最優(yōu)控制。

    值得指出的是,目前基于ADP思想的控制方法具有對噪聲干擾敏感、收斂性差、運行工況受限、運算量大的缺點,這些都限制了它們在實際控制器中的應用。在實際應用中,一般被控系統(tǒng)都已經預先擁有可用的控制器,只是該控制器的控制性能需要得到改善。

    為充分發(fā)揮ADP控制方法的自適應性與原控制器的穩(wěn)定性,賦予原控制器在線學習的能力,近年來有學者提出將基于ADP思想的控制器作為附加控制器與原控制器并聯(lián)使用,取得了一定的效果。

    在電力系統(tǒng)控制領域,文獻[6]將附加學習控制用于含大規(guī)模風電的電力系統(tǒng)中傳統(tǒng)火電機組的附加頻率控制,文獻[7]將附加學習控制用于雙饋風電場的暫態(tài)無功控制。在電力電子領域,文獻[8]將附加學習控制用于并聯(lián)型有源電力濾波器的控制,文獻[9,10]將附加學習控制用于虛擬同步機的控制。在以上文獻的仿真驗證中,附加學習控制均帶來了一定的控制性能提升。

    速度控制是交流電機伺服系統(tǒng)中的一個重要問題,傳統(tǒng)上多采用PID控制。在電機運行過程中,轉動慣量、轉矩環(huán)時間常數(shù)等參數(shù)均容易發(fā)生一定的變化,影響速度環(huán)的控制性能。因此在要求高精度的場合中,傳統(tǒng)的PID控制無法滿足需要,往往需要對速度控制器做自適應設計。

    常見的自適應設計方法有非線性PI控制、自適應控制、自抗擾控制、模糊系統(tǒng)、滑模控制等。其中非線性PI控制包括PI參數(shù)自整定、變結構PI控制等。部分PI參數(shù)自整定的研究用到了ADP思想,即通過某種逼近結構(如神經網絡)對系統(tǒng)進行建模,再根據某種代價函數(shù)動態(tài)地調整Kp、Ki,一般用于控制難以建模的電機(如開關磁阻電機)。雖然對于速度環(huán)的改進方向已經很豐富,然而目前將Q學習與附加學習相結合用于電機速度控制的研究還非常之少。

    本文在文獻[4]所提的用于跟蹤控制的Q學習方法的基礎上,結合附加控制的思想,提出了用于跟蹤控制的在線附加Q學習方法。首先在LQT問題的框架下對待求解問題進行了定義;然后針對性地給出了在線附加Q學習迭代式地進行策略評價、策略改善的具體算法。

    為驗證所提算法的有效性,選取伺服系統(tǒng)中電機速度跟蹤這一實際問題進行仿真。首先為被控系統(tǒng)設計了傳統(tǒng)的PI控制器,然后將本文所提出的附加控制器與其并聯(lián)組成新的控制器,最后通過仿真對不同參數(shù)設置下的控制效果進行了分析。

    基于在線附加Q學習的伺服電機速度最優(yōu)跟蹤控制方法

    圖1 附加Q學習最優(yōu)跟蹤控制器結構示意圖

    基于在線附加Q學習的伺服電機速度最優(yōu)跟蹤控制方法

    圖2 附加控制下電機速度環(huán)結構框圖

    結論

    本文將在線Q學習最優(yōu)跟蹤控制方法與附加控制思想相結合,討論了其在線性離散系統(tǒng)無模型化跟蹤控制問題上的應用。對于電機速度跟蹤這一實際問題,首先為其設計了傳統(tǒng)的PI控制器,然后設計了基于在線Q學習的附加控制器與原控制器并聯(lián)。仿真結果表明,這一做法顯著改善了電機速度跟蹤的動態(tài)響應特性,并且具備在被控系統(tǒng)參數(shù)發(fā)生改變時自動調優(yōu)的自適應能力。

    雖然本文的研究基于線性系統(tǒng),但實際生產中有大量的非線性系統(tǒng)在特定條件下可以進行局部線性化,此時即可用本文方法來處理。當檢測到系統(tǒng)進入不可線性化的區(qū)域時(如PI發(fā)生飽和時),可停止附加控制的輸入,此時可通過原控制器繼續(xù)維持系統(tǒng)在不可線性化區(qū)域的穩(wěn)定運行。