中國專業(yè)IT外包服務(wù)

加入收藏??

公司微博

網(wǎng)站地圖??

IT外包價格計算器

您當(dāng)前位置：主頁 > 資訊動態(tài) > IT知識庫 >

IT安全運維 -內(nèi)容安全審核

2020-05-01 17:25 作者：艾銻無限瀏覽量：

隨著《網(wǎng)絡(luò)安全法》的實施，互聯(lián)網(wǎng)內(nèi)容安全的法規(guī)更加健全。內(nèi)容安全審核成為以短視頻、新聞資訊，直播等平臺優(yōu)先級最高的運營需求，不管是通過人工審核還是以系統(tǒng)性的機器審核，都是以最安全與最適合產(chǎn)品的審核結(jié)果維度為主，在以前這些都屬于網(wǎng)站管理員，論壇社區(qū)版主等網(wǎng)站運維的工作內(nèi)容。隨著國家監(jiān)管的力度不斷提升，暴力、血腥、政治、黃賭毒及危機青少年不良社會導(dǎo)內(nèi)容向已成為重點關(guān)注區(qū)域。作為IT安全運維必須了解。
常見的違規(guī)內(nèi)容，在文字、圖片、音視頻很容易被肉眼所捕捉到，對于需要肉眼仔細(xì)審核才能會發(fā)現(xiàn)內(nèi)容存在的問題，如文字中攜帶的形變、音變與直接赤裸顯示粗陋內(nèi)容；圖片中常見的血腥、帶有諷刺性、暗示性的內(nèi)容導(dǎo)向；音頻波形中雜亂外音包裹的其傳達(dá)核心無法識別的訊息。視頻中常見的漏點、涉黃、及音畫不同步現(xiàn)象。而這些違規(guī)內(nèi)容對現(xiàn)在的人工智能科技來講，識別審核程度較難，且識別效果不準(zhǔn)確。若處理類似于藏頭詩、漫畫圖、帶有正向文字的負(fù)面導(dǎo)向內(nèi)容，機器更是難上加難。當(dāng)企業(yè)領(lǐng)導(dǎo)為了減輕企業(yè)成本，執(zhí)意采用機器來審核，可能被監(jiān)管部門抽中的“中獎”幾率性會增加很高，畢竟這場博弈，用僥幸的概率去對比約談甚至關(guān)停的企業(yè)風(fēng)險還是有些大的。

內(nèi)容審核流程

內(nèi)容審核常分為兩個系統(tǒng)，一個是政治審核系統(tǒng)，一個其他系統(tǒng)審核。企業(yè)對于其他的審核條件會根據(jù)企業(yè)的運營需求調(diào)整寬松程度，甚至打擦邊球。但對于政治審核來講，沒有企業(yè)甘愿冒此風(fēng)險。內(nèi)容審核系統(tǒng)基本上就是根據(jù)國家法律法規(guī)，外加地方網(wǎng)監(jiān)法律法規(guī)，文化部和公安部的政策規(guī)定，進(jìn)行審核的。對于內(nèi)容審核，第一是相關(guān)部門是親眼看到不良相關(guān)性的內(nèi)容，第二是通過API接口審核排查，不管是地方的網(wǎng)監(jiān)，還是國家監(jiān)管部門，都是有一套相關(guān)的數(shù)據(jù)排查系統(tǒng)。政治違規(guī)相比其他違規(guī)監(jiān)測更為嚴(yán)格，目前市面上內(nèi)容審核方案服務(wù)商，對政治違規(guī)內(nèi)容判別檢測都做到近似100%。（這里普及一個知識：法律法規(guī)是已經(jīng)成文的，就是不能觸犯的信息。犯了就是犯罪，必須有行政處罰的。而政策規(guī)定只能算是規(guī)矩，觸犯了根據(jù)情節(jié)嚴(yán)重，還有中國慣有國情的關(guān)系，可以有伸縮的。）內(nèi)容安全圖像、文字、音視頻是如何審核的？什么AI技術(shù)呢？這些審核的準(zhǔn)確度如何呢？

圖片審核技術(shù)與邏輯：

對于政治人物（圖片）的審核，可直接調(diào)用服務(wù)商的接口，如云凈網(wǎng)、圖譜科技、數(shù)美等，這些服務(wù)商已成型的識別技術(shù)可判斷當(dāng)前圖片是否涉黃，涉政，及違規(guī)性指數(shù)，滿足企業(yè)對于圖片的審核條件。對于暴力、血腥、漫畫這類圖片，通常還是需配有人工逐條審核。在對于大并發(fā)量的上傳情況下，單人審核肯定無法滿足先審后發(fā)的規(guī)定，并可能會對用戶體驗造成產(chǎn)品不舒適的感覺，引發(fā)規(guī)模性的流失。而避免這一漏洞，這時，通常就需招聘多人甚至人工審核外包團(tuán)隊進(jìn)行內(nèi)容審核管理。對圖片識別技術(shù)方式而言，圖片的識別一般采用大數(shù)據(jù)標(biāo)簽學(xué)習(xí)與相似度對比技術(shù)。對于政治人物檢測識別則使用AI系統(tǒng)中的人臉識別系統(tǒng)，人臉識別技術(shù)被廣泛采用的區(qū)域特征分析算法，通過深度學(xué)習(xí)技術(shù)從視頻和照片中提取人像特征點，利用生物統(tǒng)計學(xué)的原理進(jìn)行分析建立數(shù)學(xué)模型，即人臉特征模板。在已建成的人臉特征模板與被測者的人的面像進(jìn)行特征分析，根據(jù)分析的結(jié)果來給出一個相似度值，最終搜索到最佳匹配人臉特征模板，并因此確定個人的身份信息。廣義的人臉識別實際包括構(gòu)建人臉識別系統(tǒng)的一系列相關(guān)技術(shù)：包括圖像采集、人臉檢測、特征建模、比對辨識、身份確認(rèn)等；而狹義的人臉識別特指通過人臉進(jìn)行身份確認(rèn)或者身份查找的技術(shù)或系統(tǒng)。

文本的審核技術(shù)與邏輯：

文本的審核要比圖片更加多樣化及專業(yè)化，從文字場景來講，文字可能是一個簽名、一個詞組，一段文本甚至是一篇文章，還有些文字附帶在圖片上，如一張海報，一張頭像圖等。從內(nèi)容上分，內(nèi)容應(yīng)該分為三種，文字，圖形與語言。在文字上來說，國內(nèi)圖書有中圖法，國外有亞馬遜分類法，高斯分類等。對于圖片中存在的文字，識別最多使用的還是OCR（文本識別技術(shù)）。對于長短文本及變形變異字體中，會使用到垃圾文本處理技術(shù)（在AI技術(shù)來講：CRF分詞，NLP，n-gram算法，隨機森林算法）隨機森林指的是利用多棵樹對樣本進(jìn)行訓(xùn)練并預(yù)測的一種分類器，通過對文本的處理進(jìn)行歸類，自動預(yù)測文本內(nèi)容的形式。當(dāng)你要做預(yù)測的時候，新的觀察值隨著決策樹自上而下走下來并被賦予一個預(yù)測值或標(biāo)簽。一旦森林中的每棵樹都給有了預(yù)測值或標(biāo)簽，所有的預(yù)測結(jié)果將被歸總到一起，所有樹的投票返回做為最終的預(yù)測結(jié)果。簡單來說，99.9%不相關(guān)的樹做出的預(yù)測結(jié)果涵蓋所有的情況，這些預(yù)測結(jié)果將會彼此抵消。少數(shù)優(yōu)秀的樹的預(yù)測結(jié)果將會脫穎而出，從而得到一個好的預(yù)測結(jié)果。對于圖片的識別，目前單靠機器識別，往往無法滿足審核需求，恕我直言，目前階段機器識別技術(shù)只能輔助人工審核，暫無法全面機器審核。AI機器審核還相當(dāng)于人類三歲的智商，是處于弱智能時代，為了增強內(nèi)容審核安全及無延遲的用戶體驗，建議企業(yè)還是組建人工審核團(tuán)隊。

語音識別技術(shù)與能力

語音在專業(yè)角度劃分為兩種：音頻與視頻。

語音（音頻）識別的應(yīng)用場景較多，比如AI智能音響常用到的語音識別，電話通話視頻中的語音視頻，甚至是直播平臺中主播在講的音頻內(nèi)容。音頻等于說話，說話包含說了什么？（涉政、涉黃、涉賭還是廣告信息）。

在音頻技術(shù)識別方面，針對不同的內(nèi)容有不同識別技術(shù)。針對說話內(nèi)容有語音識別、關(guān)鍵詞檢索等；針對語種的判別有語種識別的技術(shù)；針對說話人的識別有聲紋識別技術(shù)；針對說話內(nèi)容無關(guān)的通常采用音頻比對的技術(shù)來進(jìn)行檢測。通常一般短視頻，直播或者音頻平臺，對音頻對比、聲紋的技術(shù)較為重視，是保證錄音質(zhì)量及外放聲音很有效的一種運營手段，但對內(nèi)容語音識別，則不太關(guān)注，畢竟語音識別技術(shù)對這些企業(yè)的應(yīng)用場景不是剛需。

基于語音識別的關(guān)鍵詞檢索是將語音識別的結(jié)構(gòu)構(gòu)建成一個索引網(wǎng)絡(luò)，然后把關(guān)鍵詞從索引網(wǎng)絡(luò)中找出來。從上圖流程中可以看到，首先把語音進(jìn)行識別處理，從里面提取索引構(gòu)建索引網(wǎng)絡(luò)，進(jìn)行關(guān)鍵詞檢索的時候，在通過關(guān)鍵詞表在網(wǎng)絡(luò)中進(jìn)行頻率，找到概率最高的，輸出其關(guān)鍵詞匹配結(jié)果。（在這一步可通過垃圾文本處理及上下語義分，對轉(zhuǎn)化的文本進(jìn)行處理）。目前音頻的識別技術(shù)能力還遠(yuǎn)遠(yuǎn)達(dá)不到準(zhǔn)確階段，比如音頻出現(xiàn)的“嬌喘聲”單靠技術(shù)根本無法識別，或識別（轉(zhuǎn)化）出來就是一串亂字。再如在人潮擁擠的雜音中，出現(xiàn)的音頻，也無法準(zhǔn)確的轉(zhuǎn)化成文字識別。遇到這種隱晦場景下的文本，通常還是需要人工去審核。

視頻識別技術(shù)與處理模式：

在視頻上，根據(jù)內(nèi)容不同，如直播、短視頻、個人上傳的視頻，視頻是畫面與音頻組成的以幀為單位的畫面。對于音頻常存在暴恐、淫穢傳播、甚至是音畫不同步等問題。在視頻處理上面，通常采用截幀上傳服務(wù)器數(shù)據(jù)對比來識別。其審核模式與圖片審核相同，會判斷場景（外室外還是室內(nèi)）、會判斷人臉（畫面中出現(xiàn)的人是否是明星或者政治）、會判斷是否色情（根據(jù)畫面圖片的裸露狀態(tài)，可為正常、性感、色情等不同唯獨）。

如抖音、映客、等以視頻流為主的APP，對視頻內(nèi)容的審核往往通過機器的方式進(jìn)大量的審核篩檢，畫面中存在的嚴(yán)重血腥、暴恐、色情、政治新聞等危害畫面內(nèi)容會優(yōu)先被干掉，而那些不以直接性的畫面展示的內(nèi)容機器難以審查出來。講了這么多，內(nèi)容違規(guī)存在的音、視、圖、文，以技術(shù)的識別方式都是通用的，只不過在審核時設(shè)定的策略及寬進(jìn)程度不同，如圖片的識別，可設(shè)定存有性感，但不能色情，也可設(shè)置存有只能人臉，但不能物體，攔截的寬緊程度需要人工來設(shè)定，對于大量的內(nèi)容并發(fā)，則是需要大量人工通過機器輔助人工進(jìn)行審核，而非機器單獨進(jìn)行全方位過濾。

內(nèi)容審核技術(shù)與邏輯不單單是套系統(tǒng)，而非一套非常的準(zhǔn)確且嚴(yán)謹(jǐn)?shù)墓ぷ鳎瑑?nèi)容審核既要及時攔截違規(guī)內(nèi)容信息，又不能對用戶造成產(chǎn)品上的體驗落差。內(nèi)容審核，任重而道遠(yuǎn)。

艾銻無限科技專業(yè)：IT外包、企業(yè)外包、北京IT外包、桌面運維、弱電工程、網(wǎng)站開發(fā)、wifi覆蓋方案,網(wǎng)絡(luò)外包,網(wǎng)絡(luò)管理服務(wù),網(wǎng)管外包,綜合布線,服務(wù)器運維服務(wù),中小企業(yè)it外包服務(wù),服務(wù)器維保公司,硬件運維,網(wǎng)站運維服務(wù)

以上文章由北京艾銻無限科技發(fā)展有限公司整理

分享到:

上一篇：IT系統(tǒng)運維| 數(shù)據(jù)庫高可用技術(shù)

下一篇：IT系統(tǒng)運維-MaxCompute簡介

相關(guān)文章