電網(wǎng)企業(yè)是天然的資產(chǎn)密集、技術(shù)密集型企業(yè),實(shí)物設(shè)備數(shù)量龐大、種類繁多,建設(shè)和運(yùn)維管理復(fù)雜程度較高。電網(wǎng)實(shí)物資產(chǎn)主要包括架空輸電線路、電纜輸電線路、變壓器、換流設(shè)備、配電線路、配電設(shè)備、自動化控制設(shè)備及儀器儀表、生產(chǎn)管理用工器具、運(yùn)輸設(shè)備、輔助生產(chǎn)設(shè)備及器具、房屋及建筑物等有關(guān)資產(chǎn)。在電網(wǎng)企業(yè)資產(chǎn)結(jié)構(gòu)中,實(shí)物資產(chǎn)所占比例高達(dá)80%以上。
隨著電網(wǎng)投資不斷加大,電網(wǎng)企業(yè)實(shí)物資產(chǎn)規(guī)模持續(xù)增長,加強(qiáng)和提升電網(wǎng)實(shí)物資產(chǎn)管理水平愈加成為實(shí)現(xiàn)電網(wǎng)科學(xué)有序規(guī)劃發(fā)展、保障電網(wǎng)安全運(yùn)行和提升資產(chǎn)利用效率的重要手段。在管理信息化水平快速提高、經(jīng)濟(jì)性越來越受到重視的背景下,急需實(shí)現(xiàn)由傳統(tǒng)只注重技術(shù)屬性的“設(shè)備管理”到綜合考慮價(jià)值和技術(shù)效益的“實(shí)物資產(chǎn)管理”的轉(zhuǎn)變。
近年來,全壽命周期成本(life cycle casts, LCC)管理方法應(yīng)用逐步深入,它從項(xiàng)目的長期經(jīng)濟(jì)效益出發(fā),全面考慮使資產(chǎn)的全壽命周期成本最小?,F(xiàn)有電網(wǎng)全壽命周期資產(chǎn)管理的研究大多圍繞管理體系、評價(jià)指標(biāo)分析開展,或針對某一環(huán)節(jié)、某一具體設(shè)備提出改進(jìn)的管理方法和模型。
田洪迅等人綜合全壽命周期成本,構(gòu)建了資產(chǎn)管理決策框架體系。尤菲等人通過集對分析法建立了電網(wǎng)實(shí)物資產(chǎn)的綜合分析評價(jià)模型,實(shí)現(xiàn)定量評價(jià)和具體分析。王申華和孫袆等人基于管理實(shí)際,分析了現(xiàn)有資產(chǎn)管理評價(jià)體系的問題議。吳貴義等人在設(shè)計(jì)高壓斷路器時(shí)采用凈現(xiàn)值法(net present value, NPV)得到基準(zhǔn)年成本,建立了以年均全壽命周期成本最小為目標(biāo)的高壓斷路器經(jīng)濟(jì)壽命評估模型。劉亮等人采用工程估算法,將項(xiàng)目基本費(fèi)用單元進(jìn)行工程估算后疊加求解LCC費(fèi)用,并作為輸電線路選型的依據(jù)。Zhang G等人建立了具有全壽命周期分解和成本分解結(jié)構(gòu)的全壽命周期成本綜合評價(jià)模型。
以上學(xué)者對資產(chǎn)全壽命周期理論方法在電網(wǎng)資產(chǎn)管理方面的應(yīng)用展開了研究,推動了資產(chǎn)全壽命周期理論的深化應(yīng)用。
隨著資產(chǎn)規(guī)模的積累,海量數(shù)據(jù)處理成為電網(wǎng)實(shí)物資產(chǎn)管理中的難題。沈園和常屹等人指出大數(shù)據(jù)技術(shù)能夠?qū)崿F(xiàn)海量數(shù)據(jù)的識別、提取、分析和處理等,在電力行業(yè)設(shè)備管理及評估方面具有戰(zhàn)略意義,但未涉及具體的實(shí)現(xiàn)方案。
楊璽等人基于大數(shù)據(jù)技術(shù)建立了輸變電一次主設(shè)備的資產(chǎn)墻模型。王健提出智能電網(wǎng)大數(shù)據(jù)系統(tǒng)結(jié)構(gòu)設(shè)計(jì)方案。諶迅等人設(shè)計(jì)了大數(shù)據(jù)資產(chǎn)管理系統(tǒng),包括資產(chǎn)目錄及其子系統(tǒng),數(shù)據(jù)稽核規(guī)則、流程及評分辦法等模塊;大數(shù)據(jù)技術(shù)在電網(wǎng)資產(chǎn)管理中的引入和逐步深化,促進(jìn)了電網(wǎng)實(shí)物資產(chǎn)定量管理。
鑒于上述問題,本文建立了一種基于大數(shù)據(jù)技術(shù)的電網(wǎng)實(shí)物資產(chǎn)分析評級系統(tǒng)。該系統(tǒng)通過綜合運(yùn)用多種大數(shù)據(jù)存儲和分析技術(shù)實(shí)現(xiàn)了海量數(shù)據(jù)的獲取、存儲、分析和展現(xiàn),提出了一種基于ID- CROSS算法實(shí)現(xiàn)的大數(shù)據(jù)定位、識別和演算,同時(shí)設(shè)計(jì)了一種數(shù)據(jù)解析鏈路,以簡化數(shù)據(jù)加工處理過程。
該系統(tǒng)實(shí)現(xiàn)了實(shí)物資產(chǎn)分析評價(jià)過程的自動化,降低了工作難度,提高了工作效率與分析的準(zhǔn)確性。目前,該系統(tǒng)已成功在電網(wǎng)企業(yè)應(yīng)用,并在實(shí)踐中逐步得到了完善,使系統(tǒng)具備廣泛的應(yīng)用前景,亦可為類似大數(shù)據(jù)分析系統(tǒng)提供參照。
電網(wǎng)實(shí)物資產(chǎn)管理的目標(biāo)是實(shí)現(xiàn)電網(wǎng)實(shí)物資產(chǎn)(技術(shù))狀態(tài)準(zhǔn)確,使資產(chǎn)賬簿(賬)、資產(chǎn)卡片(卡)、設(shè)備臺帳(物)動態(tài)一致,資產(chǎn)安全完整。電網(wǎng)實(shí)物資產(chǎn)評價(jià)工作針對資產(chǎn)管理中的核心問題,對電網(wǎng)實(shí)物資產(chǎn)規(guī)模、資產(chǎn)結(jié)構(gòu)、資產(chǎn)狀態(tài)、資產(chǎn)效率(負(fù)載)、資產(chǎn)缺陷等現(xiàn)狀進(jìn)行分析,同時(shí)開展“資產(chǎn)墻”分析、設(shè)備的經(jīng)濟(jì)壽命分析。
實(shí)物資產(chǎn)分析評價(jià)是一系列海量數(shù)據(jù)的獲取、分析和展現(xiàn)的過程。首先,確立電網(wǎng)大數(shù)據(jù)的來源,定義原始數(shù)據(jù)的來源和收集粒度;然后,建立實(shí)物資產(chǎn)分析評價(jià)指標(biāo)體系,明確各指標(biāo)的定義與計(jì)算方法;再次,定義實(shí)物資產(chǎn)分析維度,統(tǒng)一多來源的數(shù)據(jù)的維度值,計(jì)算相關(guān)指標(biāo);最后,設(shè)計(jì)分析評價(jià)結(jié)果的展現(xiàn)工具。
1.1 數(shù)據(jù)來源
實(shí)物資產(chǎn)分析評價(jià)的來源數(shù)據(jù)產(chǎn)生于建造、購置、運(yùn)行、備用、維護(hù)、改造、報(bào)廢等多個(gè)環(huán)節(jié)之中。電網(wǎng)企業(yè)實(shí)物資產(chǎn)原始數(shù)據(jù)取自于多個(gè)信息化系統(tǒng),包括:
1)工程生產(chǎn)管理系統(tǒng)(power production mangement system, PMS)2.0。該系統(tǒng)主要匯集了生產(chǎn)類的實(shí)物資產(chǎn)設(shè)備臺賬和運(yùn)行數(shù)據(jù),設(shè)備臺賬記錄了資產(chǎn)的物理位置、技術(shù)型號細(xì)節(jié)、投運(yùn)時(shí)間、再利用情況等信息。運(yùn)行數(shù)據(jù)包括運(yùn)行狀態(tài)、健康狀態(tài)和缺陷記錄,生產(chǎn)此部分?jǐn)?shù)據(jù)的單位主要是區(qū)縣級公司。
2)企業(yè)資源計(jì)劃(enterprise resource planning, ERP)系統(tǒng)。該系統(tǒng)主要匯集了實(shí)物資產(chǎn)規(guī)模、項(xiàng)目、費(fèi)用數(shù)據(jù),資產(chǎn)規(guī)模數(shù)據(jù)包括資產(chǎn)原值、凈值和數(shù)量,項(xiàng)目數(shù)據(jù)包括資產(chǎn)新增、報(bào)廢退役時(shí)的項(xiàng)目信息,費(fèi)用數(shù)據(jù)主要包括運(yùn)維成本、大修搶修費(fèi)用、報(bào)廢處置成本等。生產(chǎn)此部分?jǐn)?shù)據(jù)的單位主要是省級公司和地市級公司。
3)能源管理系統(tǒng)(energy management system, EMS)。該系統(tǒng)提供了主網(wǎng)變壓器的運(yùn)行負(fù)載率信息。
4)調(diào)度系統(tǒng)。該系統(tǒng)提供了4類主要輸電設(shè)備的強(qiáng)迫停運(yùn)數(shù)據(jù)。
5)營銷系統(tǒng)。該系統(tǒng)提供了各級電力公司的售電量數(shù)據(jù)。
處理來源數(shù)據(jù)時(shí)需要特別注意幾個(gè)方面:①統(tǒng)一多系統(tǒng)數(shù)據(jù)的格式,在獲取數(shù)據(jù)后,將數(shù)據(jù)中的管理單位、分類編碼、電壓等級、狀態(tài)、數(shù)據(jù)時(shí)間粒度和數(shù)據(jù)單位轉(zhuǎn)為相同的編碼;②統(tǒng)一數(shù)據(jù)的統(tǒng)計(jì)口徑,避免同一資產(chǎn)數(shù)據(jù)被系統(tǒng)多次重復(fù)計(jì)數(shù);③清洗異常數(shù)據(jù),上述各類業(yè)務(wù)系統(tǒng)中由于管理、錄入等問題,難免會存在一定比例的異常數(shù)據(jù),需要在獲取后進(jìn)行識別和清理。
1.2 指標(biāo)體系
基于資產(chǎn)全壽命周期管理,構(gòu)建電網(wǎng)實(shí)物資產(chǎn)評價(jià)分析工作一覽圖,如圖1所示。通過開展電網(wǎng)實(shí)物資產(chǎn)評價(jià),一方面為生產(chǎn)經(jīng)營的中長期規(guī)劃提供基礎(chǔ)信息,為資產(chǎn)管理的持續(xù)深化奠定基礎(chǔ),提高資產(chǎn)的利用效率和資產(chǎn)貢獻(xiàn);另一方面為健康運(yùn)營提供科學(xué)管理的策略,優(yōu)化電網(wǎng)各類設(shè)備資產(chǎn)配置。
圖1 實(shí)物資產(chǎn)分析評價(jià)工作一覽圖
電網(wǎng)實(shí)物資產(chǎn)評價(jià)分析內(nèi)容分為5部分,即資產(chǎn)規(guī)模結(jié)構(gòu)、資產(chǎn)健康水平、資產(chǎn)利用效率和資產(chǎn)退役報(bào)廢分析。指標(biāo)體系是建立在以評價(jià)維度為主線的基礎(chǔ)之上,對評價(jià)維度的深化與豐富?;凇叭宕蟆斌w系建設(shè)成果,針對評價(jià)的四大維度搭建指標(biāo)體系,如圖2所示。
該指標(biāo)體系基于LCC的思想構(gòu)建,考慮了資產(chǎn)從采購轉(zhuǎn)資到報(bào)廢各個(gè)環(huán)節(jié)的關(guān)鍵因素。
1)資產(chǎn)結(jié)構(gòu)。指對電網(wǎng)實(shí)物資產(chǎn)的存量、增量從價(jià)值規(guī)模和技術(shù)規(guī)??趶竭M(jìn)行分析,能夠反映企業(yè)擁有資產(chǎn)的數(shù)量和質(zhì)量。
圖2 實(shí)物資產(chǎn)分析評價(jià)體系
2)利用效率。指對電網(wǎng)實(shí)物其處于運(yùn)行階段實(shí)物資產(chǎn)的運(yùn)行效率進(jìn)行分析。通過對利用效率分析,可以了解資產(chǎn)整體利用狀況及單體運(yùn)行效率,為資產(chǎn)配置優(yōu)化和提升效率提供數(shù)據(jù)支撐。
3)健康水平。指對電網(wǎng)實(shí)物資產(chǎn)的缺陷以及強(qiáng)迫停運(yùn)情況進(jìn)行分析。
4)退役報(bào)廢。指對電網(wǎng)實(shí)物資產(chǎn)中退役報(bào)廢資產(chǎn)的價(jià)值規(guī)模水平、處置況以及成因進(jìn)行分析。
1.3 分析維度
分析維度是相關(guān)對象(稱為屬性)的集合,用于提供有關(guān)一個(gè)或多個(gè)多維數(shù)據(jù)集中的事實(shí)數(shù)據(jù)的信息。在實(shí)物資產(chǎn)分析評價(jià)中,主要的分析維度包括地區(qū)、公司、年份、資產(chǎn)類型、電壓等級、缺陷資產(chǎn)分類、缺陷部位、缺陷責(zé)任原因、缺陷技術(shù)原因、再利用與備品備件資產(chǎn)分類等基本維度:
①單位維度,是指實(shí)物資產(chǎn)的歸屬單位,在部分系統(tǒng)中稱之為利潤中心;
②資產(chǎn)類型,是指實(shí)物資產(chǎn)在電網(wǎng)中所屬的分類;
③電壓等級,是指電網(wǎng)運(yùn)行中所采用的額定電壓等級,包括交流與直流2類;
④缺陷部分,是指主變壓器、斷路器、隔離開關(guān)等19類主要運(yùn)行設(shè)備常見缺陷所發(fā)生的部位;
⑤缺陷原因,是指19類主要運(yùn)行設(shè)備缺陷產(chǎn)生的具體責(zé)任原因和技術(shù)原因。
實(shí)物資產(chǎn)分析評價(jià)的展現(xiàn)方法主要是基于圖表的多維度對比展現(xiàn),如圖3所示。通過對實(shí)物資產(chǎn)進(jìn)行多維度的分析,充分地了解整體資產(chǎn)的價(jià)值規(guī)模和數(shù)量規(guī)模,對資產(chǎn)目前的利用狀態(tài)、健康狀態(tài)和退役報(bào)廢情況有一個(gè)清晰的認(rèn)識,并且依據(jù)獲取的多維數(shù)據(jù),開展應(yīng)用設(shè)計(jì),深度挖掘資產(chǎn)關(guān)聯(lián)趨勢和深層次問題,從而為公司未來決策提供可靠的支持。
圖3 實(shí)物資產(chǎn)分析評價(jià)展現(xiàn)過程
2.1 需求分析
實(shí)物資產(chǎn)分析評價(jià)需要采集多個(gè)業(yè)務(wù)系統(tǒng)數(shù)據(jù),并對數(shù)據(jù)進(jìn)行統(tǒng)一的數(shù)據(jù)格式、粒度、單位、維度值轉(zhuǎn)換,實(shí)現(xiàn)數(shù)據(jù)的多維統(tǒng)計(jì)、溯源和分析功能。系統(tǒng)的設(shè)計(jì)要求包括以下4個(gè)方面。
1)多層級應(yīng)用。本系統(tǒng)實(shí)現(xiàn)多層級數(shù)據(jù)管理功能,同時(shí)服務(wù)于省、市、縣公司,提供多維度指標(biāo)分析。
2)擴(kuò)展性。系統(tǒng)設(shè)計(jì)充分考慮了擴(kuò)展性,以適應(yīng)新的業(yè)務(wù)需求,為潛在的新增分析指標(biāo)做好了擴(kuò)展兼容準(zhǔn)備。
3)實(shí)時(shí)性。通過系統(tǒng)的建設(shè)和實(shí)物資產(chǎn)評價(jià),可以做到實(shí)時(shí)獲取原始數(shù)據(jù)、實(shí)時(shí)統(tǒng)計(jì)分析指標(biāo)和生成報(bào)表報(bào)告。
4)閉環(huán)管理。采用閉環(huán)管理思想,可通過系統(tǒng)反饋資產(chǎn)評價(jià)工作優(yōu)化效果,實(shí)現(xiàn)數(shù)據(jù)獲取、資產(chǎn)評價(jià)、資產(chǎn)考核、問題改進(jìn)、任務(wù)跟蹤和任務(wù)比較。
2.2 功能架構(gòu)
系統(tǒng)所采用的大數(shù)據(jù)挖掘技術(shù)主要體現(xiàn)于多數(shù)據(jù)源管理、數(shù)據(jù)清洗和多維分析展現(xiàn)技術(shù)。系統(tǒng)的功能包括數(shù)據(jù)源、數(shù)據(jù)管理、數(shù)據(jù)填報(bào)、數(shù)據(jù)展現(xiàn)、報(bào)表報(bào)告展現(xiàn)和系統(tǒng)管理。系統(tǒng)功能架構(gòu)如圖4所示。
圖4 系統(tǒng)功能架構(gòu)圖
來源數(shù)據(jù)是系統(tǒng)外部數(shù)據(jù)經(jīng)過數(shù)據(jù)源模塊加工后獲取的數(shù)據(jù),在系統(tǒng)中以虛擬的數(shù)據(jù)表形式存在。分析評價(jià)工作是以ERP-AM/PM、PMS、EMS、輸變電設(shè)備可靠性管理系統(tǒng)等系統(tǒng)中的數(shù)據(jù)作為基礎(chǔ)的,因此需要實(shí)現(xiàn)從多種系統(tǒng)中獲取數(shù)據(jù)的功能。
本系統(tǒng)將數(shù)據(jù)的管理對象定義為來源數(shù)據(jù)、數(shù)據(jù)中心中間表數(shù)據(jù)、基本維度數(shù)據(jù)、系統(tǒng)配置數(shù)據(jù)和輸出數(shù)據(jù)5個(gè)部分,根據(jù)數(shù)據(jù)的特點(diǎn)設(shè)計(jì)存儲和操作管理方案。
數(shù)據(jù)中心中間表數(shù)據(jù)是經(jīng)過轉(zhuǎn)換和清洗后,以實(shí)物資產(chǎn)分析指標(biāo)體系構(gòu)建的中間表數(shù)據(jù),其特點(diǎn)為數(shù)據(jù)與分析所需的最小粒度、分類編碼一致?;揪S度數(shù)據(jù)是指所有的維度表,包括公司維度表、資產(chǎn)分類維度表等,用于對系統(tǒng)進(jìn)行維度轉(zhuǎn)換的統(tǒng)一。系統(tǒng)配置數(shù)據(jù)包括數(shù)據(jù)展現(xiàn)視圖、數(shù)據(jù)報(bào)表和報(bào)告結(jié)構(gòu)定義數(shù)據(jù),用于控制數(shù)據(jù)輸出內(nèi)容。
數(shù)據(jù)輸出數(shù)據(jù)以實(shí)物資產(chǎn)分析框架為主題建立,用于保存經(jīng)過分析處理后的數(shù)據(jù)。通過對業(yè)務(wù)數(shù)據(jù)源數(shù)據(jù)的轉(zhuǎn)換、清理和加載后,系統(tǒng)中形成原始模型數(shù)據(jù),用于報(bào)表和報(bào)告的最小數(shù)據(jù)粒度數(shù)據(jù)。通過原始模型數(shù)據(jù)和維度數(shù)據(jù)及指標(biāo)數(shù)據(jù)構(gòu)建縱橫交織表格視圖,形成結(jié)果數(shù)據(jù)模型。
2.3 數(shù)據(jù)庫設(shè)計(jì)
采用非關(guān)系型數(shù)據(jù)庫與傳統(tǒng)的數(shù)據(jù)庫實(shí)體關(guān)系模型(E-R)的實(shí)現(xiàn)方式不同。本系統(tǒng)的數(shù)據(jù)庫結(jié)構(gòu)是一種流程化的模塊,如圖5所示。
圖5 數(shù)據(jù)庫結(jié)構(gòu)圖
其中原始數(shù)據(jù)表是對應(yīng)的外部業(yè)務(wù)系統(tǒng)數(shù)據(jù),包括了Web應(yīng)用程序連接、DB連接、Excel文件連接3種方式。中間表是依托于原始數(shù)據(jù)進(jìn)行創(chuàng)建的,在創(chuàng)建之前需根據(jù)需求在數(shù)據(jù)庫中定義好字段,可將多張?jiān)紨?shù)據(jù)表進(jìn)行整合成需要的中間表。中間表是結(jié)果表及透視表的基礎(chǔ)。
結(jié)果表是以中間表為基礎(chǔ),在創(chuàng)建之前需先根據(jù)需求在數(shù)據(jù)庫中定義好字段,對中間表的數(shù)據(jù)進(jìn)行初步計(jì)算,得到需求數(shù)據(jù)。結(jié)果表與中間表數(shù)據(jù)是以指標(biāo)屬性進(jìn)行關(guān)聯(lián)的。
透視表是根據(jù)頁面展示需求,確定需要展示的數(shù)據(jù),再依托于中間表、結(jié)果表進(jìn)行計(jì)算處理,輸出最后滿足需求的數(shù)據(jù)。
3.1 系統(tǒng)架構(gòu)
本系統(tǒng)采用了輕量級Java企業(yè)版(Java platform, enterprise edition, Java EE)架構(gòu)設(shè)計(jì),底層使用Spring、Struts2和Hibernate框架進(jìn)行支撐和B/S架構(gòu)設(shè)計(jì),易于部署,免安裝客戶端,方便升級維護(hù)。該方案對軟硬件環(huán)境的要求低,且開發(fā)效率高,是當(dāng)前主流的Web應(yīng)用開發(fā)框架。
基于Java EE的Web工程需要一個(gè)容器,本系統(tǒng)所選用的Web容器為Tomcat。Tomcat就是JSP/servlet容器,它實(shí)現(xiàn)了Java EE的一些接口,具有高性能、高并發(fā)、低成本等特性。此外,系統(tǒng)采用了Maven框架進(jìn)行持續(xù)集成,將系統(tǒng)開發(fā)與部署進(jìn)行了緊密結(jié)合,提高了系統(tǒng)發(fā)布的效率和頻率。系統(tǒng)架構(gòu)如圖6所示。
圖6 系統(tǒng)架構(gòu)
核心應(yīng)用是在系統(tǒng)框架層面對Java EE的擴(kuò)展,對數(shù)據(jù)庫和系統(tǒng)操作采用了對開發(fā)者更加友好的函
數(shù)封裝。同時(shí),將日志、異常處理、緩存管理、Session操作、Cookie操作等企業(yè)應(yīng)用平臺通用功能需求進(jìn)行擴(kuò)展和封裝。此外,還提供了應(yīng)用平臺開發(fā)所需要的算法工具集和數(shù)據(jù)結(jié)構(gòu)工具集,幫助開發(fā)者提高項(xiàng)目開發(fā)效率。
核心應(yīng)用層提供了組件系統(tǒng)與Web Service接口的應(yīng)用程序編程接口(API)系統(tǒng)。該系統(tǒng)可用于定義直接以核心應(yīng)用為起點(diǎn)所進(jìn)行的應(yīng)用開發(fā)組件的標(biāo)準(zhǔn)化架構(gòu),以及業(yè)務(wù)功能的Web Service接口。
業(yè)務(wù)組件是以核心應(yīng)用為基礎(chǔ)所建立的標(biāo)準(zhǔn)化架構(gòu)模塊和組件集合,其內(nèi)容涵蓋系統(tǒng)管理模塊、消息傳送模塊、用戶模塊、組件模塊、內(nèi)容管理模塊、主題管理模塊、商業(yè)智能組件和工作流組件。后端與前端是面向業(yè)務(wù)組件系統(tǒng)以模型-視圖-控制器(MVC)模式實(shí)現(xiàn)的表示層范例,后端與前端均以主題文件包的形式進(jìn)行封裝,可靈活地進(jìn)行二次開發(fā)與擴(kuò)展。
在大數(shù)據(jù)框架方面,數(shù)據(jù)源模塊的設(shè)計(jì)思路采用了提取-轉(zhuǎn)換-加載(extract-transform-load, ETL)結(jié)構(gòu),采用了HBase數(shù)據(jù)庫結(jié)構(gòu)和MapReduce數(shù)據(jù)分析工具集作為支撐,實(shí)現(xiàn)了海量數(shù)據(jù)的存儲分析。
1)ETL數(shù)據(jù)管理
數(shù)據(jù)源模塊的設(shè)計(jì)思路采用了ETL結(jié)構(gòu)。ETL是指從源系統(tǒng)中提取數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)換為一個(gè)標(biāo)準(zhǔn)的格式,并加載數(shù)據(jù)到目標(biāo)數(shù)據(jù)存儲區(qū),通常是數(shù)據(jù)倉庫。ETL主要通過數(shù)據(jù)庫引擎來實(shí)現(xiàn)系統(tǒng)的可擴(kuò)展性,可保持所有的數(shù)據(jù)始終在數(shù)據(jù)庫當(dāng)中,避免數(shù)據(jù)的加載和導(dǎo)出,從而保證效率,提高系統(tǒng)的可監(jiān)控性。通過對相關(guān)數(shù)據(jù)庫進(jìn)行性能調(diào)優(yōu),ETL過程獲得3~4倍的效率。
本系統(tǒng)將數(shù)據(jù)的過程劃分為數(shù)據(jù)獲取、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)加載3個(gè)環(huán)節(jié)。本系統(tǒng)通過ETL功能模塊的開發(fā)完成了前述多個(gè)系統(tǒng)數(shù)據(jù)的統(tǒng)一采集與數(shù)據(jù)導(dǎo)入,在數(shù)據(jù)源處理中制定了一系列統(tǒng)一規(guī)則,包括數(shù)據(jù)交叉關(guān)聯(lián)對照規(guī)則、數(shù)據(jù)清洗規(guī)則和矛盾數(shù)據(jù)核查規(guī)則。
2)HBase數(shù)據(jù)庫
HBase是一個(gè)開源的非關(guān)系型分布式數(shù)據(jù)庫(NoSQL),實(shí)現(xiàn)的編程語言為Java,提供了BigTable規(guī)模的服務(wù)。HBase在列上實(shí)現(xiàn)了BigTable壓縮算法、內(nèi)存操作和布隆過濾器。因此,它可以容錯(cuò)地存儲海量稀疏的數(shù)據(jù)。對于海量的實(shí)物資產(chǎn)數(shù)據(jù),其特點(diǎn)是以資產(chǎn)編碼作為ID,隨著時(shí)間的推演而不斷產(chǎn)生新的數(shù)據(jù)。
傳統(tǒng)的關(guān)系型數(shù)據(jù)庫需要采用多行數(shù)據(jù)來描述一個(gè)資產(chǎn),而HBase作為非關(guān)系型數(shù)據(jù)庫,只需要用一行數(shù)據(jù)即可描述資產(chǎn),因?yàn)榉顷P(guān)系型數(shù)據(jù)庫的數(shù)據(jù)列可通過時(shí)間戳記錄數(shù)據(jù)的變化,只有實(shí)際發(fā)生了變化的數(shù)值才會占用新的空間,可大量節(jié)省存儲容量。
3)MapReduce數(shù)據(jù)分析工具集
MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算,也是分布式數(shù)據(jù)處理模型,可實(shí)現(xiàn)下列數(shù)據(jù)挖掘算法:
(1)文本統(tǒng)計(jì)分析(比如報(bào)告內(nèi)容的WordCount、詞頻TFIDF分析)以及運(yùn)維檢修數(shù)據(jù)分析等。
(2)海量數(shù)據(jù)挖掘以及非結(jié)構(gòu)化數(shù)據(jù)、時(shí)空數(shù)據(jù)、圖像數(shù)據(jù)的挖掘。
(3)機(jī)器學(xué)習(xí),監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、分類算法(如決策樹、安全語音模塊SVM等)。
可將MapReduce處理數(shù)據(jù)過程主要分成兩個(gè)階段,即Map階段和Reduce階段。首先執(zhí)行Map階段,再執(zhí)行Reduce階段。Map和Reduce的處理邏輯由用戶自定義實(shí)現(xiàn),但要符合MapReduce框架的約定。系統(tǒng)采用MapReduce數(shù)據(jù)分析工具集,可以開發(fā)大量數(shù)據(jù)展現(xiàn)圖形。
3.2 ID-CROSS算法的實(shí)現(xiàn)
為了滿足實(shí)物資產(chǎn)分析評價(jià)過程中需要分析大量指標(biāo)的問題,本系統(tǒng)采用一種數(shù)維交叉(index- dimension cross, ID-CROSS)算法,專門用于解決指標(biāo)在大數(shù)據(jù)存儲空間中的定位問題。ID-CROSS算法其原理是,將指標(biāo)作為數(shù)據(jù)空間縱軸,維度作為數(shù)據(jù)空間橫軸。
若指標(biāo)和維度在同一BigTable中出現(xiàn)交叉,則認(rèn)為制定的指標(biāo)在當(dāng)前維度下有效,其原理如圖7所示,通過數(shù)據(jù)行模型、數(shù)據(jù)列模型和數(shù)據(jù)表模型,進(jìn)行多維交叉計(jì)算。
圖7 ID-CROSS算法示例圖
設(shè)Cell為目標(biāo)單元格,table為當(dāng)前數(shù)據(jù)表,index為目標(biāo)指標(biāo),dim為目標(biāo)維度值。當(dāng)矩陣中只有一個(gè)與目標(biāo)維度相關(guān)的維度時(shí),其定位方法為Cell=table.position(index,DIM(dim1,dim2,dim3...))(1)
若矩陣中有多個(gè)單元格與目標(biāo)維度相關(guān),則需要進(jìn)行降為處理,其處理方法為Cell=SET(indexValue,dim_1,dim_2,...,dim_(i-1),dim_(i+1),...,dim_n)=dim_reduction(SET(indexValue,dim_1,dim_2,...,dim_n),dim_i)(2)
式中:dim_ j(j=1,…,n);各自的定義域?yàn)镈OM_ j= {dom_1,…,dom_(l_ j)(l_ j取大于1的整數(shù))}。
3.3 數(shù)據(jù)解析
數(shù)據(jù)解析鏈路是一種將數(shù)據(jù)處理過程化的方法,其要求是將數(shù)據(jù)處理過程分在不同的塊中,將每一個(gè)塊的輸出作為另一個(gè)塊的輸入。在本系統(tǒng)中,實(shí)現(xiàn)的模型如圖8所示。
在本系統(tǒng)數(shù)據(jù)鏈路中,元數(shù)據(jù)表對應(yīng)于外部系統(tǒng)的來源數(shù)據(jù),包括其他系統(tǒng)業(yè)務(wù)數(shù)據(jù)庫、數(shù)據(jù)文件和Web站點(diǎn)等。元數(shù)據(jù)表被加工后,將數(shù)據(jù)傳送至中間數(shù)據(jù)表,中間數(shù)據(jù)表負(fù)責(zé)對數(shù)據(jù)進(jìn)行存儲,保存在數(shù)據(jù)倉庫中。
中間表將需要進(jìn)行初步降維和運(yùn)算的數(shù)據(jù)傳送至結(jié)果表,該步驟的目的是減少后續(xù)查詢的運(yùn)算量,以提高數(shù)據(jù)處理速度。結(jié)果表將需要進(jìn)行統(tǒng)計(jì)運(yùn)算的數(shù)據(jù)傳送至數(shù)據(jù)透視表,實(shí)現(xiàn)數(shù)據(jù)的透視分析功能。最后,透視表將數(shù)據(jù)傳送至數(shù)據(jù)展現(xiàn)表,實(shí)現(xiàn)各類數(shù)據(jù)分析圖表的生成,并分別輸出到數(shù)據(jù)展現(xiàn)頁面、Word報(bào)告和Excel報(bào)表中。
圖8 數(shù)據(jù)解析鏈路
在電網(wǎng)實(shí)物資產(chǎn)評價(jià)中,本系統(tǒng)生成了某省電網(wǎng)公司地市及省公司十大類實(shí)物資產(chǎn)的重要報(bào)表與實(shí)物資產(chǎn)分析評價(jià)報(bào)告。全部數(shù)據(jù)的處理過程僅需要10min即可完成。數(shù)據(jù)準(zhǔn)確性較傳統(tǒng)的人工方式統(tǒng)計(jì)有極大改善。圖9和圖10分別展示了實(shí)物資產(chǎn)分析評價(jià)系統(tǒng)資產(chǎn)概覽總體圖和下屬二級單位關(guān)鍵績效指標(biāo)對比圖。該系統(tǒng)能夠動態(tài)展現(xiàn)實(shí)物資產(chǎn)分析評價(jià)結(jié)果和關(guān)鍵考核指標(biāo)。
圖9 系統(tǒng)資產(chǎn)概覽總體圖
圖10 下屬二級單位關(guān)鍵績效指標(biāo)對比圖
通過將大數(shù)據(jù)技術(shù)應(yīng)用于實(shí)物資產(chǎn)分析評價(jià)系統(tǒng)的設(shè)計(jì),解決了傳統(tǒng)的業(yè)務(wù)分析系統(tǒng)開發(fā)所面臨的空間和效率問題,同時(shí)借助于開源框架簡化了開發(fā)復(fù)雜性。主要結(jié)論包括:
1)提高電網(wǎng)企業(yè)實(shí)物資產(chǎn)評價(jià)報(bào)表及報(bào)告書中實(shí)物資產(chǎn)重要指標(biāo)信息統(tǒng)計(jì)結(jié)果的準(zhǔn)確性,避免了人為操作的不確定性。
2)通過信息化手段,提高了實(shí)物資產(chǎn)管理信息統(tǒng)計(jì)分析工作效率,節(jié)省大量人力,實(shí)現(xiàn)對電網(wǎng)主要實(shí)物資產(chǎn)的常態(tài)化、實(shí)時(shí)化、規(guī)范化與信息化的監(jiān)控管理,為實(shí)物資產(chǎn)管理工作決策的制定提供了有力的量化數(shù)據(jù)支持。