隨著技術(shù)的發(fā)展,人們對(duì)電子產(chǎn)品質(zhì)量的要求越來越高,在一些特殊的使用場(chǎng)合,如醫(yī)療、軍工等領(lǐng)域,可靠性是一項(xiàng)重要指標(biāo)。對(duì)生產(chǎn)企業(yè)來說,產(chǎn)品可靠性代表責(zé)任、信譽(yù)和效益。因此產(chǎn)品研制過程出現(xiàn)故障時(shí),要求快速、準(zhǔn)確地定位故障原因,并采取有效措施避免故障再次發(fā)生。
在工程實(shí)際中,電子產(chǎn)品的故障表現(xiàn)形式多種多樣,從故障現(xiàn)象是否容易復(fù)現(xiàn)的角度,將其分為兩類,對(duì)于能夠輕易復(fù)現(xiàn)的故障,通過實(shí)驗(yàn)對(duì)比的方法,查找原因較為簡(jiǎn)單。而另一類故障很難復(fù)現(xiàn),往往只出現(xiàn)一次或幾次,極難捕獲,原因也較為隱蔽,因而容易被忽視,但它同樣會(huì)使產(chǎn)品乃至系統(tǒng)失效,導(dǎo)致嚴(yán)重后果。
我公司研制的一款永磁電機(jī)控制器產(chǎn)品串行通信功能在現(xiàn)場(chǎng)運(yùn)行時(shí)曾出現(xiàn)過此類故障,經(jīng)過耐心細(xì)致的分析及測(cè)試,我們對(duì)各種情況逐一排查,最終查清原因,排除了隱患。以下做具體分析。
2.1 永磁電機(jī)控制器工作狀況
永磁電機(jī)是總體系統(tǒng)若干執(zhí)行機(jī)構(gòu)中的一個(gè),控制器用于驅(qū)動(dòng)電機(jī),根據(jù)檢測(cè)到的電機(jī)轉(zhuǎn)子位置信號(hào)發(fā)出驅(qū)動(dòng)信號(hào),通過功率開關(guān)依次向電機(jī)三相繞組供電,驅(qū)動(dòng)電機(jī)轉(zhuǎn)動(dòng)。該控制器同時(shí)具有通信和鍵盤控制方式。
與上位總控系統(tǒng)之間通過RS422串行通信方式傳輸信息,控制器接收總控系統(tǒng)發(fā)出的電機(jī)啟動(dòng)和轉(zhuǎn)速指令,同時(shí)向總控系統(tǒng)反饋電機(jī)的工作狀態(tài),包括電壓、電流、轉(zhuǎn)速、轉(zhuǎn)向等信息。通信接口硬件原理見圖1。
圖1 通信接口硬件原理
圖中SCI_RXD、SCI_RXD信號(hào)與處理器串口連接, U7為RS422收發(fā)器件,U6為通信隔離器件,采用隔離電源為通信接口電路供電。全雙工工作模式,實(shí)現(xiàn)同時(shí)接收控制指令和反饋狀態(tài)信息。其工作特征是,控制器上電復(fù)位后,自動(dòng)定時(shí)向總控系統(tǒng)發(fā)送狀態(tài)信息。
2.2 控制器通信故障現(xiàn)象
該控制器已在總體系統(tǒng)中穩(wěn)定運(yùn)行數(shù)月,在某次例行檢查測(cè)試中,控制器突然出現(xiàn)通信連接故障,具體現(xiàn)象為:上位總控系統(tǒng)向電機(jī)控制器發(fā)出1280rpm轉(zhuǎn)速指令,電機(jī)啟動(dòng),上傳指令顯示控制器狀態(tài)正常;上位總控系統(tǒng)再發(fā)出200rpm變速指令時(shí),發(fā)現(xiàn)控制器無響應(yīng),電機(jī)未減速,狀態(tài)信息不上傳,上位總控系統(tǒng)再發(fā)出停機(jī)和復(fù)位指令,控制器均不響應(yīng),顯示通信發(fā)生故障,無法傳輸指令和信息,此時(shí),鍵盤顯示正常。
故障狀態(tài)一直保持,其間有2次可以正常上傳信息,后又進(jìn)入故障狀態(tài)。約20分鐘后,通信恢復(fù)正常,重復(fù)進(jìn)行上述測(cè)試,一切正常。
2.3 故障發(fā)生后補(bǔ)充測(cè)試
控制器出現(xiàn)通信故障后又進(jìn)行了幾百次重復(fù)測(cè)試,測(cè)試時(shí)用示波器同時(shí)監(jiān)視圖1中U6前后、U7之后的上傳信號(hào)及RS422通信電源電壓共4個(gè)點(diǎn)的信號(hào),結(jié)果故障現(xiàn)象未能復(fù)現(xiàn),4個(gè)測(cè)試點(diǎn)觀測(cè)到的信號(hào)完全正常。
上述故障現(xiàn)象和補(bǔ)充測(cè)試表明,該控制器發(fā)生的通信故障具有偶發(fā)性,只出現(xiàn)一次,之后進(jìn)行的目的為復(fù)現(xiàn)故障的測(cè)試中,未能再次捕獲到通信中斷現(xiàn)象,這使得排查故障原因變得相當(dāng)困難。但該款產(chǎn)品可靠性要求很高,通信功能一旦失靈,作為執(zhí)行機(jī)構(gòu)的永磁無刷電機(jī)將不受控,導(dǎo)致總體系統(tǒng)失效。
只要故障現(xiàn)象出現(xiàn)一次,就證明了隱患的存在。我們?cè)敿?xì)了解了故障發(fā)生時(shí)刻相關(guān)信息,包括操作方法、環(huán)境條件、供電情況等,分析了控制器通信部分的工作原理,按照故障樹自上而下的全系統(tǒng)分析方法,將可能導(dǎo)致通信中斷的原因分為三大類:硬件原因、軟件原因和電磁干擾。具體做出故障樹,按照故障樹對(duì)引起通信中斷的原因進(jìn)行逐一分析。
圖2 故障樹
3.1 控制器軟件檢查測(cè)試
電機(jī)控制器采用DSP作為處理器,匯編語言編程,程序中利用一個(gè)定時(shí)器實(shí)現(xiàn)控制器定時(shí)向總控系統(tǒng)上傳狀態(tài)信息;接收指令設(shè)計(jì)為中斷方式,一旦收到總控系統(tǒng)發(fā)出的啟動(dòng)或停機(jī)指令,程序立即響應(yīng)中斷跳入指令處理段。
通過對(duì)通信相關(guān)程序進(jìn)行測(cè)試和分析,認(rèn)為控制邏輯簡(jiǎn)單清晰、控制合理,編程方面也無漏洞,不會(huì)引起通信故障。另一方面,假如通信故障由軟件引起,故障現(xiàn)象不會(huì)持續(xù)20分鐘左右自行恢復(fù),而且同批產(chǎn)品中也不可能只有一臺(tái)出現(xiàn)通信故障,因此排除軟件出錯(cuò)的可能。
3.2 電磁干擾原因分析
電磁干擾是導(dǎo)致電子產(chǎn)品故障發(fā)生的一個(gè)外在電應(yīng)力,對(duì)產(chǎn)品的影響可能是永久的,也可能是暫時(shí)的,引發(fā)的故障具有偶發(fā)特征,這點(diǎn)與控制器通信故障在一定程度上吻合。但從產(chǎn)品設(shè)計(jì)方面,已經(jīng)采取了相應(yīng)的屏蔽、隔離、濾波去藕、地線處理等電磁兼容措施,控制器產(chǎn)品本身抗干擾能力較強(qiáng);同時(shí),了解到故障發(fā)生時(shí),現(xiàn)場(chǎng)電磁環(huán)境無變化,同在現(xiàn)場(chǎng)的同批次控制器均未出現(xiàn)異常情況,可以排除電磁干擾的可能性。
3.3 控制器硬件檢查
從硬件角度考慮,器件的管腳虛焊、線纜虛接和有關(guān)器件本身質(zhì)量缺陷可能引起偶發(fā)故障,具體到本案,可以分為以下幾種情況分析。
3.3.1控制器內(nèi)部及外接通信線纜虛接
RS422通信方式共4根線與上位總控系統(tǒng)進(jìn)行上行和下行數(shù)據(jù)通信,整個(gè)通道上使用了2個(gè)航空插頭進(jìn)行連接,根據(jù)經(jīng)驗(yàn),航空插頭焊杯與線纜的焊接處是焊接的薄弱環(huán)節(jié),容易發(fā)生虛焊、虛接。為此,我們做了2項(xiàng)檢查:
(1) 由總控系統(tǒng)發(fā)出指令啟動(dòng)電機(jī)運(yùn)行,再發(fā)送不同的轉(zhuǎn)速指令,用示波器監(jiān)視上傳數(shù)據(jù)信號(hào)波形,同時(shí)用絕緣棒輕輕晃動(dòng)航空插頭焊杯處線纜,觀測(cè)上傳數(shù)據(jù)波形的變化。試驗(yàn)結(jié)果顯示,通信信號(hào)波形正常(圖3),晃動(dòng)線纜時(shí),未出現(xiàn)通信中斷現(xiàn)象。
圖3 通信上行通道信號(hào)波形
(2) 停機(jī)后仔細(xì)檢查2個(gè)航空插頭焊杯處的焊接情況,焊接較好,未發(fā)現(xiàn)焊接線纜連接不牢靠問題。因此排除通信線纜虛接的可能性。
3.3.2控制器印制板上通信相關(guān)管腳虛焊
控制器印制板上幾乎都是表貼器件,有些是大規(guī)模集成電路,管腳細(xì)小密集,如果與通信有關(guān)的個(gè)別管腳存在虛焊,也會(huì)導(dǎo)致偶發(fā)的通信故障。將該控制器全部器件焊點(diǎn)置于光學(xué)放大鏡下做詳細(xì)檢查,重點(diǎn)檢查DSP、RS422收發(fā)器件管腳焊點(diǎn)情況,檢查結(jié)果顯示器件焊接狀況良好,沒有發(fā)現(xiàn)虛焊和短路。詳見圖4、圖5。
圖4 PCB板上集成電路焊接形貌1
圖5 PCB板上集成電路焊點(diǎn)形貌2
3.3.3通信隔離電源工作狀態(tài)檢查
為保證控制器通信不被干擾,可靠工作,產(chǎn)品設(shè)計(jì)時(shí)將通信電路做隔離處理,專門設(shè)計(jì)了一路5V隔離電源給收發(fā)器供電。
若該電源電壓質(zhì)量差或掉電,必然導(dǎo)致通信中斷。用示波器觀測(cè)通信隔離電源在電機(jī)運(yùn)行與停機(jī)狀態(tài)的波形,結(jié)果顯示通信電源電壓波形較好,質(zhì)量穩(wěn)定;而且,通信電源與處理器電源電壓出自同一開關(guān)電源,故障發(fā)生時(shí)刻處理器電源電壓正常,通信電源并未掉電。
因此排除通信隔離電源異常導(dǎo)致通信故障的可能性。
3.3.4通信相關(guān)器件質(zhì)量檢查
控制電路中與通信有關(guān)的集成芯片包括處理器、隔離器件、收發(fā)器,都屬于塑料封裝半導(dǎo)體集成電路。將控制器拿到專業(yè)的實(shí)驗(yàn)室,對(duì)這三種器件進(jìn)行了聲學(xué)掃描顯微鏡檢查。
檢查結(jié)果顯示:DSP處理器、通信隔離器2種集成電路內(nèi)部引線架與塑封料界面、半導(dǎo)體基板與塑封料界面均連接良好,未出現(xiàn)分層(詳見圖6 圖7 圖8);RS422通信收發(fā)器集成電路內(nèi)部引線架與塑封料界面出現(xiàn)分層(詳見圖9),圖9中黃色圈住的區(qū)域內(nèi)部顯示紅色的點(diǎn),表示內(nèi)部集成電路引線與管腳連接處出現(xiàn)分離,這種現(xiàn)象與器件管腳虛焊情況類似,表明連接不可靠,有可能導(dǎo)致通信故障。
圖6 控制板上DSP集成電路聲學(xué)掃描形貌
圖7 通信隔離器集成電路聲學(xué)掃描形貌1
圖8 通信隔離器集成電路聲學(xué)掃描形貌2
圖9 RS422收發(fā)器集成電路聲學(xué)掃描形貌
綜上所述,偶發(fā)的通信故障極有可能是由通信收發(fā)器集成電路內(nèi)部分層引起,為進(jìn)一步確認(rèn)故障原因,我們對(duì)控制器進(jìn)行了3個(gè)循環(huán)的溫度沖擊試驗(yàn),高溫60℃、低溫-40℃,之后立即進(jìn)行通信功能測(cè)試,結(jié)果出現(xiàn)通信故障,更換收發(fā)器件后,再次測(cè)試通信情況,一切正常。這就證實(shí)了偶發(fā)的通信故障確由收發(fā)器內(nèi)部分層引起。
進(jìn)一步的機(jī)理分析見圖10。
圖10 塑封半導(dǎo)體集成電路內(nèi)部結(jié)構(gòu)連接示意圖
其中各界面表示含義是:A為芯片與塑封料界面;B為引線架與塑封料界面;C為引線架與塑封料界面;D為基板邊緣與塑封料界面;E為基板與塑封料界面。
各界面若產(chǎn)生分層,表示內(nèi)部電路布線連接狀態(tài)異常,很可能發(fā)生虛接,直接影響其工作可靠性。如果產(chǎn)生分層的器件再受到溫度應(yīng)力變化的影響,就會(huì)使隱性的故障因素顯性化,故障現(xiàn)象由偶發(fā)變?yōu)榇_定。
塑封半導(dǎo)體器件產(chǎn)生分層的原因在于器件內(nèi)部殘留少量水分,在溫度應(yīng)力作用下,內(nèi)部產(chǎn)生微小形變,致使半導(dǎo)體內(nèi)部不同材料連接處分離。
針對(duì)塑封半導(dǎo)體器件由于分層引起電子產(chǎn)品偶發(fā)故障的問題,應(yīng)從幾方面采取措施加以解決和防范:
(1)在可靠性要求高的使用場(chǎng)合,關(guān)鍵電子器件的選型要慎用塑封器件;
(2)器件入廠檢驗(yàn)時(shí)對(duì)塑封器件質(zhì)量要重點(diǎn)檢查,剔除有明顯缺陷的器件;
(3)將塑封器件儲(chǔ)存在干燥恒溫的環(huán)境中;
(4)焊接工藝上應(yīng)控制好塑封器件的焊接溫度和時(shí)間。
(5)產(chǎn)品出廠前,要嚴(yán)格按照標(biāo)準(zhǔn)進(jìn)行老練試驗(yàn),以發(fā)現(xiàn)早期失效器件。
電子產(chǎn)品的偶發(fā)故障不易捕獲,特別是器件本身存在缺陷時(shí),對(duì)于產(chǎn)品設(shè)計(jì)者而言不易查清根源,本文分析了電機(jī)控制器通信故障發(fā)生的原因,進(jìn)一步探究了由于塑封半導(dǎo)體器件分層引發(fā)故障的機(jī)理。只要從器件選型、檢驗(yàn)、儲(chǔ)存、工藝等環(huán)節(jié)采取相應(yīng)措施,這一類偶發(fā)故障就可以得到控制,產(chǎn)品可靠度得以提高。
(本文編自《電氣技術(shù)》,作者為楊德榮。)