• <button id="rbctj"></button><th id="rbctj"></th>

    <progress id="rbctj"></progress><s id="rbctj"><object id="rbctj"><menuitem id="rbctj"></menuitem></object></s>
    <tbody id="rbctj"><pre id="rbctj"></pre></tbody>

    首頁|滾動|國內|國際|運營|制造|監管|原創|業務|技術|報告|測試|博客|特約記者
    手機|互聯網|IT|5G|光通信|LTE|云計算|芯片|電源|虛擬運營商|移動互聯網|會展
    首頁 >> 云計算 >> 正文

    HDC.Cloud網絡AI劇透|網絡故障數據的那些事

    2020年3月18日 10:48  CCTIME飛象網  作 者:周堯

    2020年3月20號華為開發者大會HDC.Cloud上,華為網絡人工智能NAIE將線上揭秘網絡AI領域10大公開數據集的具體內容和數據集構建經驗,歡迎大家關注公眾號【網絡人工智能園地】,點擊菜單【HDC】,接入我們的直播和專家線上探討交流!

    一、網絡數據治理背景

    網絡自動駕駛的本質,是利用AI技術對存量網絡的海量數據進行挖掘和分析,發現并解決復雜網絡環境下的痛點問題。該方法可被用于網絡的規劃、建設、運維和優化等階段,基于AI應用逐步實現網絡的智能化。

    眾所周知,在AI應用的開發過程中,70%以上的工作都花費在數據的采集、分析和處理。雖然AI技術發展至今,在圖片、語音和視頻等領域已經有大量公開的、準確標注的數據,可被直接應用用于AI開發,而網絡領域卻沒有太多公開準確高質量的數據集,可供AI開發者使用。原因除了網絡領域業務的專業性和安全等因素以外。網絡數據標準復雜,數據質量不高需要大成本治理也是主要原因。

    網絡的數據難治理主要原因如下:

    1)數據格式差異大不同設備、網管系統生產的數據,其格式和內容是不同的,這些數據往往只能被對應的系統理解和使用,無法直接被端到端整網性的解決方案理解和使用,這樣往往導致開發出來的AI模型部署、使用范圍有限,無法最大化的發揮AI模型的價值。

    2)數據標注難度大網絡領域的數據與標準協議、業務規劃、網絡配置和運行環境都有關系,只有將這些因素綜合考慮全面,才能實現準確標準。導致網絡數據標注門檻高,無法通過業界常用的眾籌和眾包等方式完成數據標注。

    本文以網絡故障類數據集準備為例,給大家介紹一下,華為網絡人工智能平臺NAIE做過的數據治理工作,和積累的數據標注和數據質量評估方法。

    二、華為網絡人工智能NAIE數據治理方案

    1、網絡故障處理的終極目標:一故障一工單  

    電信網絡技術經過幾十年的不斷演進和發展,加上網絡的持續擴容和升級,現在的電信網絡實際上是由不同技術產品組合而成,涵蓋了寬帶、無線、固話等多種業務,區分為無線、傳送、數通、核心網等多個領域,且每個領域都有一系列技術產品,每一個產品都有特定的組網配置要求,它們的業務功能和技術指標各不相同。這樣的組網特點導致電信網絡故障場景復雜,一旦故障就出現設備告警泛濫的痛點。

    華為網絡人工智能平臺NAIE將AI技術引入電信網絡故障場景,構建了“一故障一工單”方案——即基于大量的設備告警信息及運維工單,結合網絡拓撲數據,通過機器學習的方式完成故障定界和工單壓縮,從而減少故障定界的時間,降低運維人力成本,避免派發不必要的維護工單,以提升運維效率。

    圖一、描述了一套完整的數據治理流程

    2、“一故障一工單”方案中數據工作內容  

    數據治理工作在AI項目中是貫穿始終的,可以將其分為六部分內容:數據采集、數據清洗、數據轉換、數據標注、數據質量評估和數據集生成。數據工程師需要從業務出發,充分了解數據內容和特點,依次完成數據的采集、清洗和轉換過程,最終生成AI算法需要的數據集,包括訓練集、驗證集和測試集。

    2.1 數據采集  

    數據工程師需要從網元、網管和其他管理系統上采集到所需數據。數據采集是繁瑣枯燥而且困難的,過程中可能會遇到很多意想不到的問題。而且數據采集首先必須經過客戶的授權,采集到的數據必須先對隱私和保密信息進行脫敏或匿名化處理。

    例如一故障一工單方案,如果要解決無線網絡的工單壓縮問題,需要無線基站、承載接入、承載匯聚等領域多個設備的告警數據。

    2.2 數據清洗  

    通常情況下,采集到的數據存在著格式雜亂、數據缺失、數據錯誤等問題,必須解析復雜的半結構化/非結構化數據,檢測和校正損壞或不準確的數據,識別出不完整、不正確和不相關的數據,通過增補、替換、修改、刪除等方式來完善和修正數據。

    數據清洗的基本動作包括:特殊字符替換、空行剔除、重復數據剔除、無效數據剔除、數據類型轉換、異常數據過濾和數據增補。

    根據“一故障一工單”的業務要求和數據特點,數據工程師除了上述數據清洗的基本動作,還需要針對特定場景完成特定的數據清洗動作。

    例如:

    ▪ 不同批次采集的原始告警,數據字段錯位或不一致,需要先做歸一化處理;

    ▪ 若告警數據的實體對象ID缺失,需要從實體對象名稱及擴展信息字段中提取并填充;

    ▪ 對于無效及異常的數據內容,如果通過業務關系可以還原恢復的,應該盡量恢復為有效值,不能恢復的則直接剔除;

    ▪ 復雜的拓撲原始數據需要經過再次解析,結合正則表達式采用通用的方式分解為多個字段信息,保證列的原子性,符合數據庫第一范式的要求。

    2.3 數據轉換  

    為了在業務上進行數據分析和數據挖掘,原始數據需要通過特征選擇、數據標準化和數據關聯等操作轉換為主題域數據。華為NAIE主題模型規范包含了時空數據模型、測量數據模型、設備數據模型、拓撲數據模型、故障數據模型等。這些主題模型是各個業務領域的數據抽象和提煉,能夠完整的表達業務內容或數據特征,去除了無關或冗余的數據信息。因此,根據華為NAIE主題模型規范構建的主題數據,可直接作為電信網絡的標準化數據。

    2.4 數據標注  

    數據標注是指對數據樣本進行標記,增加一個有信息含義的標簽。樣本標簽可以是人工手動標注的,也可能基于業務系統已有的信息進行整合,實現自動化標注。

    在絕大多數情況下,如果沒有標注的樣本數據標簽,相關的算法性能指標(平均絕對誤差、均方差、準確率、精確率、召回率以及F1-score等)就無法計算,算法模型的性能沒有指標進行衡量,更不能進行模型的優化。所以說,數據標注在數據工作中是非常重要的。

    數據標注的依據可以是人的經驗。比如,大面積的無線基站連接中斷告警加上某些傳輸節點上的連接丟失告警,經驗豐富的運維專家很容易判斷出這是一個群障,很可能是市電掉電導致的,也有可能是光路中斷或者硬件故障。結合現網各類故障的發生頻率和傳輸節點的數量和位置,運維專家會給出最可能的原因,作為當前故障的一個根因標注。

    數據標注的依據也可以來自于產品文檔,比如,電信網絡是一個分段、分層構建的,硬件層故障可能會導致系統層、應用層的故障,應用層故障不會影響到硬件層,產品文檔中記錄了層次關系,可以通過對文檔分析實現告警關系的提取和總結,從而用于告警數據的標注;

    2.5數據質量評估  

    不是所有的數據都有價值。錯誤的、失衡的、失真的數據都會影響算法效果,甚至影響算法的建模,所以說數據質量會直接影響業務結果。在完成了上述的數據工作之后,我們需要系統的對治理后的數據質量進行評估。

    結合網絡領域運維效率低、能源消耗高、資源利用率低等應用場景,參照業界常用的數據質量六性原則,華為網絡人工智能NAIE已形成網絡領域八大評估指標,分別是數據準確性、可靠性、完整性、一致性、可理解性、可獲得性、相關性、時效性;華為網絡人工智能NAIE平臺匹配這些評估指標,積累了大量網絡領域數據質量提升措施,實現在數據準備階段對數據質量的提升,縮短數據反饋流程,加速AI模型開發。

    2.6 數據集生成  

    針對具體的業務目標,通過對組合后的主題數據進行特征提取、關聯和標注,形成數據洞察所需的數據集,或者算法訓練驗證所需的數據集。

    算法訓練所需的數據集可以劃分為訓練集、交叉驗證集和測試集三類。

    監督學習和半監督學習的訓練集必須有樣本標簽,用于算法模型的訓練(通過樣本標簽計算模型誤差,利用梯度下降等方法迭代提升模型精度)。無監督學習的訓練集可以沒有樣本標簽,但是驗證集和測試集應當有樣本標簽,用于模型的調優和驗證,以及模型效果的評估。

    “一故障一工單”選擇了故障主題數據和拓撲主題數據的部分特征,再將故障特征和拓撲特征進行關聯,最后按照時空關系進行故障集合劃分,就形成了基本數據集。然后按照一定的比例對數據集進行劃分,劃分為訓練集、驗證集和測試集。

    3、“一故障一工單”方案應用  

    華為網絡人工智能NAIE 一故障一工單”數據集包含高質量數據和高準確的標注,可以有效支撐AI模型的訓練和驗證,經過已經在現網多個局點的部署和應用驗證,可實現網絡故障工單減少21%。

    未來,華為網絡人工智能NAIE將持續構建覆蓋類型全、價值樣本多、數據質量高的網絡運維操作領域的數據集,供廣大網絡領域AI開發者應用

    華為開發者大會2020(Cloud)是華為面向ICT(信息與通信)領域全球開發者的年度頂級旗艦活動。大會旨在搭建一個全球性的交流和實踐平臺,開放華為30年積累的ICT技術和能力,以“鯤鵬+昇騰”硬核雙引擎,為開發者提供澎湃動力,改變世界,變不可能為可能。屆時在網絡人工智能將在線上有更多詳細內容,我們期待與你共創計算新時代,在一起,夢飛揚!

    網絡人工智能園地,力求打造運營商領域第一的人工智能交流平臺,促進華為iMaster NAIE理念在業界(尤其通信行業)形成影響力!

    線上直播鏈接:

    https://www.hwtelcloud.com/externals/hdc-2020?from=singlemessage&isappinstalled=0

    編 輯:孫秀杰
    免責聲明:刊載本文目的在于傳播更多行業信息,不代表本站對讀者構成任何其它建議,請讀者僅作參考,更不能作為投資使用依據,請自行核實相關內容。
    相關新聞              
     
    人物
    華為楊濤:中國市場有廣度有深度,世界將共享中國5G產業紅利
    精彩專題
    MWC19 上海 - 智聯萬物
    2019年世界電信和信息社會日大會
    中國電信5G創新合作大會
    2019年世界移動大會
    CCTIME推薦
    關于我們 | 廣告報價 | 聯系我們 | 隱私聲明 | 本站地圖
    CCTIME飛象網 CopyRight © 2007-2017 By CCTIME.COM
    京ICP備08004280號  電信與信息服務業務經營許可證080234號 京公網安備110105000771號
    公司名稱: 北京飛象互動文化傳媒有限公司
    未經書面許可,禁止轉載、摘編、復制、鏡像
    A片毛片免费视频在线看 - 视频 - 在线观看 - 影视资讯 - 唯一网