網(wǎng)絡(luò)流量數(shù)據(jù)是實現(xiàn)更好的網(wǎng)絡(luò)管理的必要條件,作為整個網(wǎng)絡(luò)的概述,它是許多網(wǎng)絡(luò)任務(wù)的關(guān)鍵輸入?yún)?shù),如流量工程、容量規(guī)劃和異常檢測。由于流量測量系統(tǒng)受硬件和傳輸?shù)挠绊?,在采集過程中,不可靠的連接和傳輸協(xié)議造成流量數(shù)據(jù)結(jié)構(gòu)丟失。如何有效地處理這些缺失數(shù)據(jù)仍然是一個挑戰(zhàn)。因此,準確地從流量數(shù)據(jù)中恢復(fù)缺失值非常重要。
目前,數(shù)據(jù)填充算法主要包括基于機器學(xué)習(xí)的K近鄰法(K-nearest neighbors, KNN)等,基于矩陣的稀疏正則化矩陣分解(sparsity regularized matrix factorization, SRMF)和奇異值閾值算法(singular value thresholding, SVT)等,以及基于張量的張量最小交替二乘法(tensor alternating least squares, TenALS)和低秩張量填充算法(tensor matrix completion, TMac)等。
在對網(wǎng)絡(luò)流量的缺失數(shù)據(jù)進行處理時,上述方法都存在著一些缺點。例如,K近鄰法需要大量的歷史數(shù)據(jù),造成計算量過大;基于矩陣的方法不能利用數(shù)據(jù)的多維特性,導(dǎo)致數(shù)據(jù)恢復(fù)的精確度仍然較低;基于張量的方法沒有充分考慮數(shù)據(jù)潛在的時空相關(guān)性,無法達到令人滿意的恢復(fù)結(jié)果。
交替最小二乘法是矩陣分解中使用的一種算法,它能有效地估算稀疏矩陣中的缺失值,因此,在眾多領(lǐng)域中得到廣泛應(yīng)用。如,運用多元曲線分辨-交替最小二乘法(multivariate curve resolution- alternating least squares, MCR-ALS)研究各種藥物之間的相互作用,以及在Spark框架下利用交替最小二乘法優(yōu)化各種推薦算法等。
時空張量(矩陣)填充算法利用數(shù)據(jù)之間的時空相關(guān)性來提高缺失數(shù)據(jù)的恢復(fù)準確性。如,Roughan等人利用時空矩陣填充算法估算網(wǎng)絡(luò)流量矩陣的缺失值,以及Lin等人利用時空張量填充算法提高交通數(shù)據(jù)張量的恢復(fù)精度。
為了提高網(wǎng)絡(luò)流量缺失數(shù)據(jù)的恢復(fù)精度,本文提出了一種基于交替最小二乘法的時空張量填充算法。該算法不僅利用了張量分解及其低維表示,還充分考慮了網(wǎng)絡(luò)流量數(shù)據(jù)的時空相關(guān)性,進一步提高了流量數(shù)據(jù)恢復(fù)的準確性。
本文研究了網(wǎng)絡(luò)流量數(shù)據(jù)的缺失問題。為了減少數(shù)據(jù)估計的誤差,本文利用張量CP分解和網(wǎng)絡(luò)流量數(shù)據(jù)的時空相關(guān)性,提出了一種基于ALS的時空張量填充算法(TenALS-ST)以恢復(fù)流量數(shù)據(jù)的缺失值。本文使用真實的網(wǎng)絡(luò)數(shù)據(jù)集對提出的算法進行測試,實驗結(jié)果表明,所提出的方法在各種缺失率下都能實現(xiàn)較好的恢復(fù)精確度。