国产亚洲av在线,国产高清,欧美激情,国产精品久久久久7777,国产精品人成在线观看,国产精品永久免费视频

中國專業(yè)IT外包服務(wù)

用心服務(wù)每一天
IT之道-艾銻知道

您當(dāng)前位置: 主頁 > 資訊動態(tài) > IT知識庫 >

IT安全運維 -內(nèi)容安全審核


2020-05-01 17:25 作者:艾銻無限 瀏覽量:

 
隨著《網(wǎng)絡(luò)安全法》的實施,互聯(lián)網(wǎng)內(nèi)容安全的法規(guī)更加健全。內(nèi)容安全審核成為以短視頻、新聞資訊,直播等平臺優(yōu)先級最高的運營需求,不管是通過人工審核還是以系統(tǒng)性的機器審核,都是以最安全與最適合產(chǎn)品的審核結(jié)果維度為主,在以前這些都屬于網(wǎng)站管理員,論壇社區(qū)版主等網(wǎng)站運維的工作內(nèi)容。隨著國家監(jiān)管的力度不斷提升,暴力、血腥、政治、黃賭毒及危機青少年不良社會導(dǎo)內(nèi)容向已成為重點關(guān)注區(qū)域。作為IT安全運維必須了解。
常見的違規(guī)內(nèi)容,在文字、圖片、音視頻很容易被肉眼所捕捉到,對于需要肉眼仔細(xì)審核才能會發(fā)現(xiàn)內(nèi)容存在的問題,如文字中攜帶的形變、音變與直接赤裸顯示粗陋內(nèi)容;圖片中常見的血腥、帶有諷刺性、暗示性的內(nèi)容導(dǎo)向;音頻波形中雜亂外音包裹的其傳達(dá)核心無法識別的訊息。視頻中常見的漏點、涉黃、及音畫不同步現(xiàn)象。而這些違規(guī)內(nèi)容對現(xiàn)在的人工智能科技來講,識別審核程度較難,且識別效果不準(zhǔn)確。若處理類似于藏頭詩、漫畫圖、帶有正向文字的負(fù)面導(dǎo)向內(nèi)容,機器更是難上加難。當(dāng)企業(yè)領(lǐng)導(dǎo)為了減輕企業(yè)成本,執(zhí)意采用機器來審核,可能被監(jiān)管部門抽中的“中獎”幾率性會增加很高,畢竟這場博弈,用僥幸的概率去對比約談甚至關(guān)停的企業(yè)風(fēng)險還是有些大的。


 

 
內(nèi)容審核流程

內(nèi)容審核常分為兩個系統(tǒng),一個是政治審核系統(tǒng),一個其他系統(tǒng)審核。企業(yè)對于其他的審核條件會根據(jù)企業(yè)的運營需求調(diào)整寬松程度,甚至打擦邊球。但對于政治審核來講,沒有企業(yè)甘愿冒此風(fēng)險。內(nèi)容審核系統(tǒng)基本上就是根據(jù)國家法律法規(guī),外加地方網(wǎng)監(jiān)法律法規(guī),文化部和公安部的政策規(guī)定,進(jìn)行審核的。對于內(nèi)容審核,第一是相關(guān)部門是親眼看到不良相關(guān)性的內(nèi)容,第二是通過API接口審核排查,不管是地方的網(wǎng)監(jiān),還是國家監(jiān)管部門,都是有一套相關(guān)的數(shù)據(jù)排查系統(tǒng)。政治違規(guī)相比其他違規(guī)監(jiān)測更為嚴(yán)格,目前市面上內(nèi)容審核方案服務(wù)商,對政治違規(guī)內(nèi)容判別檢測都做到近似100%。(這里普及一個知識:法律法規(guī)是已經(jīng)成文的,就是不能觸犯的信息。犯了就是犯罪,必須有行政處罰的。而政策規(guī)定只能算是規(guī)矩,觸犯了根據(jù)情節(jié)嚴(yán)重,還有中國慣有國情的關(guān)系,可以有伸縮的。)內(nèi)容安全圖像、文字、音視頻是如何審核的?什么AI技術(shù)呢?這些審核的準(zhǔn)確度如何呢?

圖片審核技術(shù)與邏輯:

對于政治人物(圖片)的審核,可直接調(diào)用服務(wù)商的接口,如云凈網(wǎng)、圖譜科技、數(shù)美等,這些服務(wù)商已成型的識別技術(shù)可判斷當(dāng)前圖片是否涉黃,涉政,及違規(guī)性指數(shù),滿足企業(yè)對于圖片的審核條件。對于暴力、血腥、漫畫這類圖片,通常還是需配有人工逐條審核。在對于大并發(fā)量的上傳情況下,單人審核肯定無法滿足先審后發(fā)的規(guī)定,并可能會對用戶體驗造成產(chǎn)品不舒適的感覺,引發(fā)規(guī)模性的流失。而避免這一漏洞,這時,通常就需招聘多人甚至人工審核外包團(tuán)隊進(jìn)行內(nèi)容審核管理。對圖片識別技術(shù)方式而言,圖片的識別一般采用大數(shù)據(jù)標(biāo)簽學(xué)習(xí)與相似度對比技術(shù)。對于政治人物檢測識別則使用AI系統(tǒng)中的人臉識別系統(tǒng),人臉識別技術(shù)被廣泛采用的區(qū)域特征分析算法,通過深度學(xué)習(xí)技術(shù)從視頻和照片中提取人像特征點,利用生物統(tǒng)計學(xué)的原理進(jìn)行分析建立數(shù)學(xué)模型,即人臉特征模板。在已建成的人臉特征模板與被測者的人的面像進(jìn)行特征分析,根據(jù)分析的結(jié)果來給出一個相似度值,最終搜索到最佳匹配人臉特征模板,并因此確定個人的身份信息。廣義的人臉識別實際包括構(gòu)建人臉識別系統(tǒng)的一系列相關(guān)技術(shù):包括圖像采集、人臉檢測、特征建模、比對辨識、身份確認(rèn)等;而狹義的人臉識別特指通過人臉進(jìn)行身份確認(rèn)或者身份查找的技術(shù)或系統(tǒng)。

文本的審核技術(shù)與邏輯:

文本的審核要比圖片更加多樣化及專業(yè)化,從文字場景來講,文字可能是一個簽名、一個詞組,一段文本甚至是一篇文章,還有些文字附帶在圖片上,如一張海報,一張頭像圖等。從內(nèi)容上分,內(nèi)容應(yīng)該分為三種,文字,圖形與語言。在文字上來說,國內(nèi)圖書有中圖法,國外有亞馬遜分類法,高斯分類等。對于圖片中存在的文字,識別最多使用的還是OCR(文本識別技術(shù))。對于長短文本及變形變異字體中,會使用到垃圾文本處理技術(shù)(在AI技術(shù)來講:CRF分詞,NLP,n-gram算法,隨機森林算法)隨機森林指的是利用多棵樹對樣本進(jìn)行訓(xùn)練并預(yù)測的一種分類器,通過對文本的處理進(jìn)行歸類,自動預(yù)測文本內(nèi)容的形式。當(dāng)你要做預(yù)測的時候,新的觀察值隨著決策樹自上而下走下來并被賦予一個預(yù)測值或標(biāo)簽。一旦森林中的每棵樹都給有了預(yù)測值或標(biāo)簽,所有的預(yù)測結(jié)果將被歸總到一起,所有樹的投票返回做為最終的預(yù)測結(jié)果。簡單來說,99.9%不相關(guān)的樹做出的預(yù)測結(jié)果涵蓋所有的情況,這些預(yù)測結(jié)果將會彼此抵消。少數(shù)優(yōu)秀的樹的預(yù)測結(jié)果將會脫穎而出,從而得到一個好的預(yù)測結(jié)果。對于圖片的識別,目前單靠機器識別,往往無法滿足審核需求,恕我直言,目前階段機器識別技術(shù)只能輔助人工審核,暫無法全面機器審核。AI機器審核還相當(dāng)于人類三歲的智商,是處于弱智能時代,為了增強內(nèi)容審核安全及無延遲的用戶體驗,建議企業(yè)還是組建人工審核團(tuán)隊。

語音識別技術(shù)與能力

語音在專業(yè)角度劃分為兩種:音頻與視頻。

語音(音頻)識別的應(yīng)用場景較多,比如AI智能音響常用到的語音識別,電話通話視頻中的語音視頻,甚至是直播平臺中主播在講的音頻內(nèi)容。音頻等于說話,說話包含說了什么?(涉政、涉黃、涉賭還是廣告信息)。

在音頻技術(shù)識別方面,針對不同的內(nèi)容有不同識別技術(shù)。針對說話內(nèi)容有語音識別、關(guān)鍵詞檢索等;針對語種的判別有語種識別的技術(shù);針對說話人的識別有聲紋識別技術(shù);針對說話內(nèi)容無關(guān)的通常采用音頻比對的技術(shù)來進(jìn)行檢測。通常一般短視頻,直播或者音頻平臺,對音頻對比、聲紋的技術(shù)較為重視,是保證錄音質(zhì)量及外放聲音很有效的一種運營手段,但對內(nèi)容語音識別,則不太關(guān)注,畢竟語音識別技術(shù)對這些企業(yè)的應(yīng)用場景不是剛需。


 

 
基于語音識別的關(guān)鍵詞檢索是將語音識別的結(jié)構(gòu)構(gòu)建成一個索引網(wǎng)絡(luò),然后把關(guān)鍵詞從索引網(wǎng)絡(luò)中找出來。從上圖流程中可以看到,首先把語音進(jìn)行識別處理,從里面提取索引構(gòu)建索引網(wǎng)絡(luò),進(jìn)行關(guān)鍵詞檢索的時候,在通過關(guān)鍵詞表在網(wǎng)絡(luò)中進(jìn)行頻率,找到概率最高的,輸出其關(guān)鍵詞匹配結(jié)果。(在這一步可通過垃圾文本處理及上下語義分,對轉(zhuǎn)化的文本進(jìn)行處理)。目前音頻的識別技術(shù)能力還遠(yuǎn)遠(yuǎn)達(dá)不到準(zhǔn)確階段,比如音頻出現(xiàn)的“嬌喘聲”單靠技術(shù)根本無法識別,或識別(轉(zhuǎn)化)出來就是一串亂字。再如在人潮擁擠的雜音中,出現(xiàn)的音頻,也無法準(zhǔn)確的轉(zhuǎn)化成文字識別。遇到這種隱晦場景下的文本,通常還是需要人工去審核。

視頻識別技術(shù)與處理模式:

在視頻上,根據(jù)內(nèi)容不同,如直播、短視頻、個人上傳的視頻,視頻是畫面與音頻組成的以幀為單位的畫面。對于音頻常存在暴恐、淫穢傳播、甚至是音畫不同步等問題。在視頻處理上面,通常采用截幀上傳服務(wù)器數(shù)據(jù)對比來識別。其審核模式與圖片審核相同,會判斷場景(外室外還是室內(nèi))、會判斷人臉(畫面中出現(xiàn)的人是否是明星或者政治)、會判斷是否色情(根據(jù)畫面圖片的裸露狀態(tài),可為正常、性感、色情等不同唯獨)。

如抖音、映客、等以視頻流為主的APP,對視頻內(nèi)容的審核往往通過機器的方式進(jìn)大量的審核篩檢,畫面中存在的嚴(yán)重血腥、暴恐、色情、政治新聞等危害畫面內(nèi)容會優(yōu)先被干掉,而那些不以直接性的畫面展示的內(nèi)容機器難以審查出來。講了這么多,內(nèi)容違規(guī)存在的音、視、圖、文,以技術(shù)的識別方式都是通用的,只不過在審核時設(shè)定的策略及寬進(jìn)程度不同,如圖片的識別,可設(shè)定存有性感,但不能色情,也可設(shè)置存有只能人臉,但不能物體,攔截的寬緊程度需要人工來設(shè)定,對于大量的內(nèi)容并發(fā),則是需要大量人工通過機器輔助人工進(jìn)行審核,而非機器單獨進(jìn)行全方位過濾。

內(nèi)容審核技術(shù)與邏輯不單單是套系統(tǒng),而非一套非常的準(zhǔn)確且嚴(yán)謹(jǐn)?shù)墓ぷ鳎瑑?nèi)容審核既要及時攔截違規(guī)內(nèi)容信息,又不能對用戶造成產(chǎn)品上的體驗落差。內(nèi)容審核,任重而道遠(yuǎn)。

艾銻無限科技專業(yè):IT外包、企業(yè)外包、北京IT外包、桌面運維、弱電工程、網(wǎng)站開發(fā)、wifi覆蓋方案,網(wǎng)絡(luò)外包,網(wǎng)絡(luò)管理服務(wù),網(wǎng)管外包,綜合布線,服務(wù)器運維服務(wù),中小企業(yè)it外包服務(wù),服務(wù)器維保公司,硬件運維,網(wǎng)站運維服務(wù)
 
以上文章由北京艾銻無限科技發(fā)展有限公司整理

相關(guān)文章

IT外包服務(wù)
二維碼 關(guān)閉