鐵路列車在其運行的全過程中,不可避免地受到來自鐵路系統(tǒng)內部與外部的一些擾動,這些擾動可能源于設備故障、交通事故、極端天氣等,也可能源于非預期車流或考慮不周的調度指揮。擾動對列車運行造成的影響是一個不斷累積的過程,鋪畫合理的運行圖是在一些區(qū)間、站點設有一定的冗余時間,以吸收和緩解擾動對列車運行造成的影響。而無法通過冗余時間吸收的擾動將持續(xù)累加,最終導致列車無法按圖準時行車,因此,列車晚點現(xiàn)象產(chǎn)生。
列車在發(fā)生晚點后繼續(xù)行駛,部分晚點現(xiàn)象可以通過區(qū)間趕點、壓縮停站時間等方式得到改善甚至是消除;另一些沒能得到緩解的晚點可能會一直持續(xù),甚至因后續(xù)的擾動影響而進一步惡化;還有一些晚點是在列車之間的相互影響作用下于路網(wǎng)中傳播。
晚點演化就是在列車運行過程中,晚點產(chǎn)生、傳播、持續(xù)、惡化、恢復的全過程。高速鐵路列車具有旅速高、開行頻次多、開行密度大的特點,這意味著晚點一旦發(fā)生,就會產(chǎn)生復雜而劇烈的演化,故傳統(tǒng)的理論方法難以對其進行有效的研究。
既有的高速鐵路列車晚點研究主要圍繞晚點分布、晚點仿真生成、晚點傳播鏈構建、晚點恢復等方面展開。
受北方降雨影響全國高鐵大部分晚點
在晚點分布方面,劉巖等分析了列車實際區(qū)間運行時分、列車區(qū)間運行時分、停站時分與列車晚點之間的關系。Briggs等基于英國鐵路列車運行數(shù)據(jù)進行了晚點分布的統(tǒng)計,建立了全部晚點的q指數(shù)分布模型。劉健等以京滬高速鐵路實績數(shù)據(jù)為基礎進行列車運行仿真,得到了突發(fā)事件的發(fā)生概率。Yuan等構建了列車晚點傳播模型,通過理論推導預測列車在車站的到達時間分布。Xu等基于列車運行實績數(shù)據(jù),繪制了高速列車晚點的分布曲線,但其研究并未建立起致因—初始晚點時長的相關模型。莊河等基于廣鐵集團高速列車運行實績,研究不同致因情況下初始晚點時長的分布模型。
有關晚點傳播過程、列車延誤模型、列車晚點恢復方面的研究尚且沒有一套完整的理論體系,孟令云等提出一種基于列車運行實績數(shù)據(jù)挖掘的列車晚點傳播過程構建方法。姜雯、李曉娟等將高速鐵路列車運行過程作為離散事件系統(tǒng),并采用極大代數(shù)的方法建立列車延誤仿真模型。黃平等提出基于列車運行實績的列車晚點恢復模型,分析高速列車初始晚點恢復的影響因素,建立了初始晚點恢復的隨機森林模型。
從已有研究分析來看,基于列車運行實績進行高速鐵路晚點演化相關問題的研究尚不成熟,雖然這些研究均指出基于高速鐵路列車運行實績數(shù)據(jù)對于運輸組織優(yōu)化問題具有重要的作用,但少有對晚點演化過程全面整體的認知,關于高速鐵路晚點演化預測、規(guī)律的研究暫時處于起步階段。
近幾十年來,隨著計算機性能飛躍般地提升,人類收集、存儲、傳輸、處理數(shù)據(jù)的能力也取得了里程碑式的突破,對數(shù)據(jù)進行深層挖掘、分析利用的機器學習算法也受到了前所未有的廣泛關注與應用。機器學習算法通過對大數(shù)據(jù)進行預處理、降維、特征提取與關聯(lián),可以揭示深藏于數(shù)據(jù)之中的機理與規(guī)律,從而完成對現(xiàn)實具體問題的指導。
隨著鐵路信息化發(fā)展,列車運行實績數(shù)據(jù)的收集工作日益完善。高速鐵路有著更加先進、健全的信息管理系統(tǒng),列車運行信息的收集也更加精細化與標準化。龐大的列車運行實績數(shù)據(jù)成為了分析列車運行狀況、線路基礎設施運用狀況的寶貴資源,高鐵列車晚點演化的過程及其深層次的演化機理也蘊藏其中。
為此,本文嘗試構建基于機器學習的晚點演化預測模型,通過對高鐵列車運行實績數(shù)據(jù)的特征提取與處理,結合表現(xiàn)效果好的支持向量機算法,達到對晚點演化進行預測的目標。
本文借助機器學習的理論與方法,對京滬高鐵列車運行實績數(shù)據(jù)進行了樣本提取、特征標準化、過采樣、晚點標簽離散化等處理;結合晚點分類構建了混淆矩陣,并給出一些評價指標;建立了基于支持向量機的單車次列車晚點預測模型和區(qū)間全車次列車晚點預測模型并編程實現(xiàn)。通過構造評價指標評估了模型的有效性,結果表明,模型對高鐵列車的晚點范圍有理想的預測結果。
本文是機器學習理論遷移至高速鐵路列車晚點研究領域的一次嘗試,實例證明了機器學習方法具有一定的可行性。