內容安全審核是什么?
內容審核是指國家有關規(guī)定、公司企業(yè)相關制度要求,對網(wǎng)站所發(fā)布的內容進行檢查和處理,檢查的內容主要包含文字、圖像、音頻、視頻、程序、游戲等。
主要對包含色情、涉政、涉政敏感人物、圖文違規(guī)、暴恐、違禁、廣告等垃圾信息的文本、圖片、音頻、視頻進行檢測和識別,通過系統(tǒng)化的方式提供審核、打標、自定義配置等能力來保障企業(yè)內容安全。一方面為了凈化網(wǎng)絡,讓人們在享受網(wǎng)絡便利的同時,也是安全的。另一方面客戶降低業(yè)務違規(guī)風險。一般公司產(chǎn)品包括圖片審核、文本審核、音頻審核、視頻審核。
大多數(shù)公司在搭建平臺時投入太大的成本,一種是主動審核,使用AI和人工去主動審查用戶上傳的內容,對不良信息進行處理。另一種是被動處理,收到用戶的上報和投訴,無論主動和被動,被處理的信息都會被收錄系統(tǒng),再有類似內容將直接屏蔽。平臺運營公司應在所有細節(jié)上具備內容審查的能力,同時在系統(tǒng)中加入審查功能,為用戶添加投訴按鈕。
2、人工智能如何幫助內容審核增加準確性?
人工智能已經(jīng)被深入應用到了內容領域。人工智能能勝任基本的內容審核工作,依靠算法和深度學習等技術,人工智能完全可以通過對一些關鍵詞的采集和分析來分辨有問題的內容;另一方面,則可能人工智能內容審核其實在平時就已經(jīng)廣被應用,早就經(jīng)受過檢驗可以保證上崗就能發(fā)揮價值。通過人工智能技術,幫助平臺完成內容創(chuàng)作、分發(fā)、審核及數(shù)據(jù)統(tǒng)計。
人工智能的應用,大大提升了內容生產(chǎn)、內容審核、內容分發(fā)的效率,有效助力了內容行業(yè)的長期發(fā)展。3 秒可以生成一篇快訊、1 秒可以審核100 篇稿件、用智能分發(fā)之前平臺每天曝光內容 5000 條,用 AI 之后曝光內容超過 120 萬條的對比、使用智能推薦后人均時長提升 45%、點擊率提升 19 倍,這些都是AI 賦能內容帶來的具體的價值和收益。
關鍵詞攔截
關鍵詞攔截是最常用的人工智能審核方式,其運行方式是設置敏感詞庫,只要帖子中出現(xiàn)敏感詞庫中的關鍵詞,機器就會被觸發(fā),從而自動攔截。
黃暴圖檢測
黃色、暴力圖片是影響互聯(lián)網(wǎng)環(huán)境的一大毒瘤,而且機器檢測的難度較高,無法像文字一樣通過關鍵詞進行攔截。
彈幕審核
實時檢測彈幕文本、保證網(wǎng)絡直播間內容安全,降低業(yè)務違規(guī)風險。
昵稱注冊
網(wǎng)站的用戶注冊信息進行智能審核,過濾包含廣告、反動、色情等內容的用戶昵稱。
3、內容審核的依據(jù)是什么?
網(wǎng)站內容安全審核的主要依據(jù)自于法律法規(guī)以及互聯(lián)網(wǎng)內容監(jiān)管單位發(fā)布的相關審核要求,其次是網(wǎng)站從產(chǎn)品、運營角度出來所制定的平臺運營規(guī)則。
不管是什么內容的審核,都應該包含以下四個基礎模塊:機器審核、人工審核、用戶投訴審核、結果復審。
1、機器審核
是按照制定好的規(guī)則或機器學習算法對內容進行審核。
通常,成熟的審核系統(tǒng)能將95%甚至99%以上的內容都自動審核并做出處理。確定有問題的會被自動刪除,難以判斷是否有問題的會被標注,進入人工審核程序。
2、人工審核
雖然用戶投訴審核和結果復審大多時候也是人工審核,但這里所說的人工審核,特指審核機器無法判別的內容,通常占平臺內容數(shù)量的比例不超過5%。
但對于一些大型的內容平臺,絕對數(shù)量已經(jīng)很多了。在內容爆炸的時代,我們看到許多平臺在全國都有多個審核中心,每個審核中心的員工數(shù)量都成千甚至上萬。
3、用戶投訴審核
是前兩者的彌補,有很多違規(guī)內容以前沒有出現(xiàn)過;所以不在規(guī)則可以過濾的范圍內,或者非常隱蔽,規(guī)則難以嚴格過濾。
用戶的投訴是發(fā)現(xiàn)新問題的重要渠道。通過知乎的危機事件,我們更應該重視對投訴的審核,并及時據(jù)此對機器審核做出補充。
4、結果復審
通常采取抽查方式,比如通過復審機器刪除的內容,看規(guī)則或算法是否過于嚴格;比如通過查看人工刪除和通過的內容,看員工的工作是否按要求執(zhí)行;比如通過內容的整體巡查,看是否存在新的問題未被注意到。
隨著互聯(lián)網(wǎng)用戶的增加,中國互聯(lián)網(wǎng)絡信息中心(CNNIC)發(fā)布最新的《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示,中國網(wǎng)民規(guī)模達到10億,手機網(wǎng)民民規(guī)模更達8億。網(wǎng)絡的發(fā)展促生了網(wǎng)站信息審核工作的出現(xiàn),并使其從輔助性工作成為一個專業(yè)性較強的獨立工作,逐漸發(fā)展成為一個新生的行業(yè)。對于信息量較大的網(wǎng)站來說,信息審核工作成了了一個核心工作,整個網(wǎng)站的質量控制就由信息審核部門來進行把握。均不可或缺的需要大量的信息審核人員進行整個網(wǎng)站質量的監(jiān)控工作,并通過信息審核工作來對整個網(wǎng)站的信息取向起到關鍵性作用。
內容審核的依據(jù)是什么?
網(wǎng)站內容安全審核的主要依據(jù)自于法律法規(guī)以及互聯(lián)網(wǎng)內容監(jiān)管單位發(fā)布的相關審核要求,其次是網(wǎng)站從產(chǎn)品、運營角度出來所制定的平臺運營規(guī)則。
不管是什么內容的審核,都應該包含以下四個基礎模塊:機器審核、人工審核、用戶投訴審核、結果復審。
1、機器審核
是按照制定好的規(guī)則或機器學習算法對內容進行審核。
通常,成熟的審核系統(tǒng)能將95%甚至99%以上的內容都自動審核并做出處理。確定有問題的會被自動刪除,難以判斷是否有問題的會被標注,進入人工審核程序。
2、人工審核
雖然用戶投訴審核和結果復審大多時候也是人工審核,但這里所說的人工審核,特指審核機器無法判別的內容,通常占平臺內容數(shù)量的比例不超過5%。
但對于一些大型的內容平臺,絕對數(shù)量已經(jīng)很多了。在內容爆炸的時代,我們看到許多平臺在全國都有多個審核中心,每個審核中心的員工數(shù)量都成千甚至上萬。
3、用戶投訴審核
是前兩者的彌補,有很多違規(guī)內容以前沒有出現(xiàn)過;所以不在規(guī)則可以過濾的范圍內,或者非常隱蔽,規(guī)則難以嚴格過濾。
用戶的投訴是發(fā)現(xiàn)新問題的重要渠道。通過知乎的危機事件,我們更應該重視對投訴的審核,并及時據(jù)此對機器審核做出補充。
4、結果復審
通常采取抽查方式,比如通過復審機器刪除的內容,看規(guī)則或算法是否過于嚴格;比如通過查看人工刪除和通過的內容,看員工的工作是否按要求執(zhí)行;比如通過內容的整體巡查,看是否存在新的問題未被注意到。
隨著互聯(lián)網(wǎng)用戶的增加,中國互聯(lián)網(wǎng)絡信息中心(CNNIC)發(fā)布最新的《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示,中國網(wǎng)民規(guī)模達到10億,手機網(wǎng)民民規(guī)模更達8億。網(wǎng)絡的發(fā)展促生了網(wǎng)站信息審核工作的出現(xiàn),并使其從輔助性工作成為一個專業(yè)性較強的獨立工作,逐漸發(fā)展成為一個新生的行業(yè)。對于信息量較大的網(wǎng)站來說,信息審核工作成了了一個核心工作,整個網(wǎng)站的質量控制就由信息審核部門來進行把握。均不可或缺的需要大量的信息審核人員進行整個網(wǎng)站質量的監(jiān)控工作,并通過信息審核工作來對整個網(wǎng)站的信息取向起到關鍵性作用。
網(wǎng)站內容審核的重要性是什么?
國信網(wǎng)安作為專業(yè)的互聯(lián)網(wǎng)內容安全審核供應商認為,網(wǎng)站內容審核的重要性主要取決于以下幾個方面:
1、嚴防網(wǎng)絡信息犯罪,維護國家及社會安全穩(wěn)定
隨著互聯(lián)網(wǎng)的高速發(fā)展,互聯(lián)網(wǎng)信息平臺成為很多犯罪分子通過互聯(lián)網(wǎng)來實施各類犯罪,包括違禁物品的買賣、違法服務的提供,群體事件的召集以及各類互聯(lián)網(wǎng)詐騙等。嚴格控制互聯(lián)網(wǎng)信息安全,及時處理違禁信息,為國家治安部門提供線索,成為網(wǎng)站信息審核工作的必要工作。
2、確保網(wǎng)站信息質量,為網(wǎng)站發(fā)展提供保障
通過對整個網(wǎng)站信息的控制,確保網(wǎng)站呈現(xiàn)高質量內容,不斷提高網(wǎng)站的用戶數(shù)量,提高網(wǎng)站用戶的滿意度,從而使整個網(wǎng)站價值得到不斷的提升。
3、不斷發(fā)掘網(wǎng)站價值,反饋各類意見建議
通過對網(wǎng)站整體信息持續(xù)性的審核,從中發(fā)現(xiàn)信息變化規(guī)律及各類特殊信息線索,為其他部門提供相關的數(shù)據(jù)基礎,并且通過對網(wǎng)站用戶的反饋信息進行分析,為網(wǎng)站發(fā)展提供最貼合實際的建議。
內容審核的四個維度是什么?
1、關鍵詞審核
詞語過濾的環(huán)節(jié),關鍵詞主要分為三類:
1)禁止關鍵詞
只要匹配到這個詞,內容就被自動刪除或禁止提交。通常只有極少數(shù)詞會被納入禁止關鍵詞,比如明確的色情、邪教以及廣告的專屬關鍵詞。
2)審核關鍵詞
這是最常見的關鍵詞種類,只要匹配到就會自動進入后臺進行審核,文章中的關鍵詞會被高亮并羅列出來,有助于審核人員快速判斷。審核關鍵詞也應該盡量是專屬關鍵詞,以防止太多內容被攔截到后臺。
3)替換關鍵詞
在許多平臺,我們會在文中看到莫名的號或字母縮寫*,這可能不是文章作者寫的,而是這個詞被系統(tǒng)自動替換。平臺不希望出現(xiàn)這個關鍵詞,但用別的代替讀者通常也能讀懂。比如一些政治、宗教、不文明用語類詞語,都有可能被自動替換。
2、用戶發(fā)布次數(shù)限制
主要限制一名用戶無限制地發(fā)送評論。
對這種情況可以設置同一用戶一分鐘內最多發(fā)送一條評論;一小時內最多發(fā)送10條評論,一天最多發(fā)送三十條評論,評論次數(shù)如果超出時則彈出toast“發(fā)言太多累了吧,請休息下”的提示。
其實這個限制上線后,發(fā)現(xiàn)發(fā)廣告的人會不斷注冊新號來規(guī)避這個問題,后續(xù)可以考慮再加上。新用戶需注冊多長時間才可發(fā)布評論,或需綁定手機號才可以發(fā)布評論這些嚴格的條件。
3、重復內容過濾
這種一般都是對于發(fā)廣告的。
對比時去掉除漢字外的任何符號,如“抖丶音”、“快aabb手”,對比時用“抖音”“快手”;將評論與同一用戶上條評論作對比,10個漢字以上的若與其中一條重復率達70%(20,60%;30,50%)則彈出toast“請不要發(fā)布重復內容”;同時將評論僅與評論庫最近發(fā)布50條的評論作對比,20個漢字以上的若與其中一條重復率達80%則機審失敗(30,70%;50,60%)。
4、白名單用戶,黑名單用戶
白名單用戶、黑名單用戶需要有個可編輯的后臺,可隨時增減;若同一用戶一天內機審失敗的評論超過10,則自動列入黑名單。
白名單的用戶不受發(fā)布次數(shù)限制,但內容需要檢查廣告詞、敏感詞、屏蔽詞,如果一天內發(fā)布的評論超過10條機審失敗,也自動列入黑名單。列在黑名單的用戶發(fā)布評論時,彈出toast“您暫時無法發(fā)布評論”或機審直接失敗。