(1)起草單位
國網(wǎng)信息通信產(chǎn)業(yè)集團(tuán)有限公司、四川中電啟明星信息技術(shù)有限公司、國網(wǎng)重慶市電力公司、國網(wǎng)重慶市電力公司電力科學(xué)研究院、重慶大學(xué)。
(2)主要起草人
李強(qiáng)、宋衛(wèi)平、王紅蕾、趙峰、周孔均、鐘加勇、倪平波、李炳森、田鵬、李歡歡、徐小云、劉禮、崔秋實(shí)、張強(qiáng)、李立、李軍、高攀、高勝杰。
近年來,隨著人工智能的不斷發(fā)展,人工智能技術(shù)在電力行業(yè)中被廣泛應(yīng)用。而智能交互技術(shù)作為人工智能技術(shù)的一個(gè)分支,也被應(yīng)用于眾多電力業(yè)務(wù)場景中,且某些場景需結(jié)合文本訓(xùn)練語料標(biāo)注操作。
然而,電力行業(yè)中各企業(yè)沒有采用統(tǒng)一的文本訓(xùn)練語料標(biāo)注標(biāo)準(zhǔn),各企業(yè)標(biāo)注的文本訓(xùn)練語料不能直接或間接共享,同時(shí)文本訓(xùn)練語料的標(biāo)注需要消耗大量人力和時(shí)間, 這就導(dǎo)致已標(biāo)注完成的文本訓(xùn)練語料匱乏或者重復(fù)標(biāo)注等問題的存在。因此,指導(dǎo)企業(yè)協(xié)同共享樣本數(shù)據(jù)、模型資源,統(tǒng)一化、規(guī)范化、專業(yè)化文本訓(xùn)練語料標(biāo)注標(biāo)準(zhǔn)工作迫在眉睫。
(1)范圍
本標(biāo)準(zhǔn)規(guī)定了對(duì)電力智能交互文本訓(xùn)練語料的基本要求、標(biāo)注要求和標(biāo)注流程方面技術(shù)要求。本標(biāo)準(zhǔn)適用于電力智能交互文本訓(xùn)練語料的標(biāo)注、管理及質(zhì)量管控等。
(2)規(guī)范性引用文件
下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件
(3)術(shù)語及定義
主要包括語料、樣本數(shù)據(jù)、訓(xùn)練語料、標(biāo)注、意圖、槽位、標(biāo)注工具的定義。
(4)縮略語
主要包括BIOES、BIO的描述。
(5)總則
主要對(duì)電力智能交互文本訓(xùn)練語料的標(biāo)注規(guī)范基本要求、標(biāo)注要求和標(biāo)注流程三個(gè)方面。
(6)基本要求
主要包括存儲(chǔ)格式要求、命名要求、質(zhì)量要求、樣本描述文件要求。
(7)標(biāo)注要求
主要包括基本要求、意圖標(biāo)注要求、槽位標(biāo)注要求、標(biāo)注完成的語料樣本命名與存儲(chǔ)要求。
(8)標(biāo)注流程
主要包括總體要求、語料樣本檢查、安全管控、標(biāo)注工具選擇、語料樣本標(biāo)注、標(biāo)注結(jié)果收集、標(biāo)注結(jié)果檢查。
本標(biāo)準(zhǔn)批準(zhǔn)發(fā)布后,將為電力智能交互文本訓(xùn)練語料標(biāo)注提供統(tǒng)一明確的技術(shù)規(guī)范,進(jìn)而推動(dòng)電力智能交互技術(shù)的協(xié)同管理、填補(bǔ)電力智能交互領(lǐng)域標(biāo)準(zhǔn)的空白,指導(dǎo)企業(yè)協(xié)同共享樣本數(shù)據(jù)、模型資源,促進(jìn)電力智能交互技術(shù)在電力行業(yè)的發(fā)展應(yīng)用。