CPCI總線的冗余設(shè)計、故障切換和故障管理
發(fā)布時間:2022/4/27
可用性技術(shù)的目標(biāo)就是通過硬件和軟件設(shè)計,使系統(tǒng)的宕機(jī)時間(Downtime) 為最小。今天,大多數(shù)電信設(shè)備供應(yīng)商都將高可用性作為一個主要的技術(shù)指標(biāo)。電信設(shè)備要求系統(tǒng)每年的連續(xù)運(yùn)行時間為99.999%,即每年宕機(jī)時間不超過5 分15秒鐘。根據(jù)可用性的計算公式 Availability = MTBF / ( MTBF + MTTR ),給出下表。
系統(tǒng)可用性示意表
9's |
Availability |
Downtime/Year |
Examples |
1 |
90.0% |
36 days 12 hours |
Personal clients |
2 |
99.0% |
87 hours 36 minutes |
Entry-level businesses |
3 |
99.9% |
8 hours 46 minutes |
ISPs, mainstream businesses |
4 |
99.99% |
52 minutes 33 seconds |
Data centers |
5 |
99.999% |
5 minutes 15 seconds |
Carrier-grade Telco, medical, banking |
6 |
99.9999% |
31.5 seconds |
Military defense system, CG goal |
從技術(shù)的角度來看,PICMG發(fā)布的熱插拔規(guī)范只是“預(yù)警”機(jī)制,也就是當(dāng)系統(tǒng)出現(xiàn) 故障時,通過一種方式通知操作員按照規(guī)定的程序,在不關(guān)機(jī)的條件下更換故障模板,使系統(tǒng)繼續(xù)運(yùn)行。當(dāng)然,在一定時間內(nèi),故障模板上的功能是不能工作的。但 高可用性系統(tǒng)必須具有故障自動檢測、診斷和排除故障能力,保證系統(tǒng)所有功能都正常連續(xù)運(yùn)行。這就需要冗余設(shè)計(Redundancy)、自動故障切換 (Failover)以及進(jìn)行故障管理(Fault Management)。
冗余設(shè)計的目的是為了消除單點故障(Single Point of Failure)。單點故障是指“由于系統(tǒng)中一個部件出現(xiàn)故障而將導(dǎo)致整個系統(tǒng)大部分失效或完全失效的故障”。這是高可用性系統(tǒng)所不允許的。冗余設(shè)計分為系統(tǒng)槽冗余、I/O冗余和整機(jī)冗余。
系統(tǒng)槽冗余(Redundancy of System Slot, RSS),也稱為CPU板冗余。在傳統(tǒng)CPCI系統(tǒng)中,CPU板冗余主要有兩種方式,即主/主方式(Active/Active)和主/備方式 (Active/Standby)。在主/主方式中,將系統(tǒng)分成2個獨(dú)立的段(Segment),每段一般6個插槽。每個CPU板管理一個段,兩個CPU 同時工作。當(dāng)一個CPU板出現(xiàn)故障時,這個CPU板被隔離,由另一個CPU接管控制權(quán)來同時管理2個段,維持系統(tǒng)的正常運(yùn)轉(zhuǎn)。在主/備方式(Active /Standby)中,在某一時間段,系統(tǒng)只有一個CPU工作。當(dāng)一個CPU出現(xiàn)故障時,系統(tǒng)馬上切換到備份CPU板,由備份CPU板接管系統(tǒng)的控制權(quán), 故障CPU板被迅速隔離。備份CPU板是處于“熱備份”狀態(tài),還是處于“冷備份”狀態(tài),需視具體情況而定。當(dāng)然,冗余設(shè)計和多主系統(tǒng)設(shè)計是不能等同起來 的,多主系統(tǒng)可以實現(xiàn)負(fù)載均衡,但CPCI的冗余設(shè)計一般還不能。在CPCI系統(tǒng)中,CPU板與段之間的連接和故障切換需要通過PCI-to-PCI橋或 Switched PCI Fabric實現(xiàn)。
I/O冗余(Peripheral Redundancy)。I/O模板的熱插拔功能可以縮短系統(tǒng)的MTTR,但卻不能防止系統(tǒng)出現(xiàn)宕機(jī)。為此,需要設(shè)計I/O冗余。I/O冗余一般采用主 /備機(jī)制,當(dāng)主工作不正常時,在沒有人干預(yù)的情況下,自動切換到備份,由備份I/O板作為主I/O板,接替原主I/O板的工作。然后通知系統(tǒng)維護(hù)人員,更 換故障I/O,將系統(tǒng)恢復(fù)到冗余狀態(tài)。
故障管理。為了將系統(tǒng)的宕機(jī)時間降到最短,系統(tǒng)還必須有完善的故障管理機(jī)制。故障管理一般分為5個階段或過程:
·故障檢測(Detection);
·故障診斷與定位(Diagnosis & Location);
·故障隔離(Isolation);
·故障切換(Failover);
·故障排除(Repair or Replacing)。
當(dāng)然,系統(tǒng)的高可用性硬件設(shè)計也只能保證硬件系統(tǒng)連續(xù)工作,但不能保證系統(tǒng)連續(xù)可 用,還需要高可用性系統(tǒng)管理軟件的支持。高可用性系統(tǒng)管理軟件一般分三個層次:底層硬件驅(qū)動程序,由硬件供應(yīng)商提供;中間層是軟件中間件 (middleware),對系統(tǒng)工作狀態(tài)進(jìn)行檢測、實現(xiàn)硬件資源管理與切換,一般由第三方提供;最上層是系統(tǒng)應(yīng)用管理軟件,對整個系統(tǒng)進(jìn)行管理,保證信 息的正常流通和信息的完整性,一般由系統(tǒng)設(shè)備制造商針對特定應(yīng)用自行研制。
需要指出的是,多處理器技術(shù)(Multi-Processors, MPS)也是冗余設(shè)計中經(jīng)常采用的技術(shù)之一,一般分為對稱多處理器(Symmetric Multi-Processor, SMP)系統(tǒng)以及非對稱多處理器(Asymmetric Multi-Processor, AMP)系統(tǒng)兩種。冗余設(shè)計也可以采用系統(tǒng)級冗余設(shè)計,如雙機(jī)冗余和三模冗余(Triple Modular Redundancy, TMR)等。
上海高臨電子有限公司經(jīng)過多年的積累和創(chuàng)新,我們已經(jīng)自主研發(fā)了多種基于CPCI、PXI/PXIe、VPX等總線技術(shù)的19寸上架式計算機(jī)平臺,產(chǎn)品包括背板、機(jī)箱、電源、控制器以及國產(chǎn)化的飛騰主板,提供基于標(biāo)準(zhǔn)化及定制化產(chǎn)品的開發(fā)設(shè)計,向客戶提供符合行業(yè)標(biāo)準(zhǔn)的產(chǎn)品和服務(wù)。
服務(wù)于客戶是我們的宗旨。關(guān)注客戶需求,滿足客戶需求,通過服務(wù)為客戶創(chuàng)造價值,是我們不懈的追求;通過快速反應(yīng)、精益生產(chǎn)、專業(yè)服務(wù),實現(xiàn)產(chǎn)品性能和價值最大化,同時將費(fèi)用和復(fù)雜性降到最低。
服務(wù)于客戶是我們的宗旨。關(guān)注客戶需求,滿足客戶需求,通過服務(wù)為客戶創(chuàng)造價值,是我們不懈的追求;通過快速反應(yīng)、精益生產(chǎn)、專業(yè)服務(wù),實現(xiàn)產(chǎn)品性能和價值最大化,同時將費(fèi)用和復(fù)雜性降到最低。 備案號:滬ICP備20004832號-1 |
聯(lián)系我們
聯(lián)系地址
上海市松江區(qū)九新公路1198號G60微衡科技園2號樓4層
郵編:201615
電話:021-67630928
傳真:021-67630905
手機(jī):18939739869(同微信)
Q Q: 2814911302
|
快速鏈接 |