(1)起草單位
國網(wǎng)信息通信產(chǎn)業(yè)集團有限公司、四川中電啟明星信息技術有限公司、國網(wǎng)重慶市電力公司、國網(wǎng)重慶市電力公司電力科學研究院、重慶大學。
(2)主要起草人
李強、宋衛(wèi)平、王紅蕾、趙峰、周孔均、鐘加勇、倪平波、李炳森、田鵬、李歡歡、徐小云、劉禮、崔秋實、張強、李立、李軍、高攀、高勝杰。
近年來,隨著人工智能的不斷發(fā)展,人工智能技術在電力行業(yè)中被廣泛應用。而智能交互技術作為人工智能技術的一個分支,也被應用于眾多電力業(yè)務場景中,且某些場景需結合文本訓練語料標注操作。
然而,電力行業(yè)中各企業(yè)沒有采用統(tǒng)一的文本訓練語料標注標準,各企業(yè)標注的文本訓練語料不能直接或間接共享,同時文本訓練語料的標注需要消耗大量人力和時間, 這就導致已標注完成的文本訓練語料匱乏或者重復標注等問題的存在。因此,指導企業(yè)協(xié)同共享樣本數(shù)據(jù)、模型資源,統(tǒng)一化、規(guī)范化、專業(yè)化文本訓練語料標注標準工作迫在眉睫。
(1)范圍
本標準規(guī)定了對電力智能交互文本訓練語料的基本要求、標注要求和標注流程方面技術要求。本標準適用于電力智能交互文本訓練語料的標注、管理及質(zhì)量管控等。
(2)規(guī)范性引用文件
下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件
(3)術語及定義
主要包括語料、樣本數(shù)據(jù)、訓練語料、標注、意圖、槽位、標注工具的定義。
(4)縮略語
主要包括BIOES、BIO的描述。
(5)總則
主要對電力智能交互文本訓練語料的標注規(guī)范基本要求、標注要求和標注流程三個方面。
(6)基本要求
主要包括存儲格式要求、命名要求、質(zhì)量要求、樣本描述文件要求。
(7)標注要求
主要包括基本要求、意圖標注要求、槽位標注要求、標注完成的語料樣本命名與存儲要求。
(8)標注流程
主要包括總體要求、語料樣本檢查、安全管控、標注工具選擇、語料樣本標注、標注結果收集、標注結果檢查。
本標準批準發(fā)布后,將為電力智能交互文本訓練語料標注提供統(tǒng)一明確的技術規(guī)范,進而推動電力智能交互技術的協(xié)同管理、填補電力智能交互領域標準的空白,指導企業(yè)協(xié)同共享樣本數(shù)據(jù)、模型資源,促進電力智能交互技術在電力行業(yè)的發(fā)展應用。