123,123,123

我國深度合成應(yīng)用最新趨勢出爐透視技術(shù)升級和元宇宙發(fā)展

2022-02-21 14:04:09來源： 南方都市報

奧運AI手語主播、虛擬偶像、換臉明星……這些應(yīng)用背后的深度合成技術(shù)發(fā)展到了什么階段?大火的“元宇宙”和深度合成的關(guān)系是什么?深度合成監(jiān)管面臨怎樣的技術(shù)和倫理難題?

2月18日，在北京舉辦的第二次長城工程科技會議“人工智能的安全可控與倫理治理”分論壇上，《深度合成應(yīng)用十大趨勢報告》(2022)發(fā)布。圍繞深度合成帶來的倫理問題，多位專家在會上進行了探討。

深度合成內(nèi)容高速增長，相關(guān)研究不斷升級

深度合成技術(shù)，是指利用以深度學(xué)習(xí)、虛擬現(xiàn)實為代表的生成合成類算法制作文本、圖像、音頻、視頻、虛擬場景等信息的技術(shù)。2017年，一位名叫“Deepfakes”的用戶在美國Reddit網(wǎng)站上分享了篡改人臉的色情視頻，將深度合成技術(shù)帶到了大眾面前。

《報告》顯示，近幾年，深度合成內(nèi)容制作和傳播數(shù)量高速增長。2021年新發(fā)布的深度合成視頻的數(shù)量，較2017年已增長10倍以上。此外，深度合成內(nèi)容關(guān)注度也呈指數(shù)級增長，以視頻的點贊/喜歡數(shù)據(jù)為例進行統(tǒng)計，2021年新發(fā)布的深度合成視頻的點贊數(shù)已超過6億。

數(shù)據(jù)說明：在10家國內(nèi)外平臺中(愛奇藝、騰訊視頻、優(yōu)酷、嗶哩嗶哩、抖音、快手、微博、YouTube、 Twitter、TikTok)，以“Deepfakes”等10個中英文關(guān)鍵詞進行檢索，并通過URL去重后，統(tǒng)計出數(shù)據(jù)結(jié)果。圖自《深度合成應(yīng)用十大趨勢報告》(2022)

研究成果是深度合成內(nèi)容傳播的底層推動力。其中，蒙特利爾大學(xué)在2014年提出了生成對抗網(wǎng)絡(luò)(GAN)，將數(shù)據(jù)的逼真度推到了一個新的高度，大大降低了深度合成的門檻。《報告》顯示，每年深度合成領(lǐng)域的論文數(shù)量正持續(xù)增長。這些深度合成領(lǐng)域的論文，包含對圖像、語音、文本等不同模態(tài)的合成方面的技術(shù)研究，其中，對圖像生成的研究占比最高，為64%。音頻和文本分別占24%和12%。

論文研究之外，深度合成領(lǐng)域開源項目也呈持續(xù)攀升的趨勢。開源項目促進了深度合成方法在合成質(zhì)量、制作效率等方面不斷升級和迭代。

在應(yīng)用場景方面，《報告》顯示，深度合成的應(yīng)用場景不斷豐富，如修復(fù)歷史照片、AI手語主播、虛擬偶像等應(yīng)用。特別是在影視制作領(lǐng)域，近些年來，深度合成技術(shù)已成為受少數(shù)藝人劣跡行為拖累作品的救場工具。

此外，越來越多的企業(yè)機構(gòu)開始利用深度合成技術(shù)提供面向公眾的產(chǎn)品和服務(wù)。不同領(lǐng)域的情況有所差異，《報告》顯示，圖像和視頻在深度合成應(yīng)用的初期應(yīng)用最為普遍，但是由于產(chǎn)品質(zhì)量良莠不齊且容易侵犯用戶隱私，當監(jiān)管規(guī)范到位后其數(shù)量逐漸減少。音頻方面，語音合成已經(jīng)成為人機交互的重要一環(huán)，且被廣泛應(yīng)用于智能硬件、智能客服、語音導(dǎo)航、有聲讀物、機器人、語音助手、自動新聞播報等場景。文本方面，深度合成在新聞報道、詩文創(chuàng)作、聊天問答等方面都得到越來越多的應(yīng)用，并顯現(xiàn)出巨大的創(chuàng)作效率和未來潛力。

《報告》預(yù)測，伴隨著自動數(shù)據(jù)生成、全身合成、3D塑型等技術(shù)的逐漸成型，一個新的人類生存場景將以深度合成技術(shù)為基石展開。元宇宙就是基于深度合成技術(shù)打造的未來人類虛擬數(shù)字空間，它“完成了對現(xiàn)實空間和時間的多重復(fù)制和延伸，跳脫了傳統(tǒng)物理空間的局限，提供了一個虛擬人、自然人和機器人融生的逼近現(xiàn)實且超越現(xiàn)實的新世界”。

深度合成負面風(fēng)險加劇，各國監(jiān)管成趨勢

《報告》認為，在深度合成技術(shù)向社會生活的各個領(lǐng)域滲透之時，深度合成內(nèi)容負面風(fēng)險持續(xù)加劇且產(chǎn)生實質(zhì)危害。隨著深度合成技術(shù)的開放開源、深度合成產(chǎn)品和服務(wù)的增多，深度合成內(nèi)容制作的技術(shù)門檻越來越低，實現(xiàn)了技術(shù)的“平民化”。通過深度合成技術(shù)制造虛假視頻、虛假音頻進行誣陷、誹謗、詐騙、勒索等違法行為已屢見不鮮。

深度合成技術(shù)還將對信息傳播產(chǎn)生更為深遠的影響?！秷蟾妗贩治?，人類的傳播活動，因深度合成技術(shù)逐漸步入“深度后真相”時代。首先， “深度偽造”深刻影響了新聞對真相的記錄，對虛假內(nèi)容高難度的甄別影響了事實核查的有效性。其次，在社會重大突發(fā)事件或政治事件節(jié)點上，深度合成技術(shù)如若被惡意使用，將會借助社交媒體，使虛假信息在互聯(lián)網(wǎng)上產(chǎn)生病毒式的擴散和蔓延。第三，在日常事件的信息發(fā)布與追蹤中，深度偽造的信息還會造成輿論場中輿論意見的不斷翻轉(zhuǎn)，激化社會不同群體的矛盾。亟需警惕的是，深度合成技術(shù)的惡意偽造內(nèi)容通常迎合大眾獵奇心理，具有極強的意識塑造能力。

《報告》還指出，深度合成內(nèi)容的鑒別正面臨技術(shù)挑戰(zhàn)。新型偽造方法的層出不窮，加上基于深度神經(jīng)網(wǎng)絡(luò)的檢測算法存在結(jié)構(gòu)性缺陷等，反深偽檢測技術(shù)也面臨“強對抗性”，需要持續(xù)更新與迭代優(yōu)化。這類似于“貓鼠游戲”，深度合成和檢測在不斷學(xué)習(xí)攻防過程中會自我進化，規(guī)避上一代的對抗技術(shù)。目前，學(xué)術(shù)界和產(chǎn)業(yè)界均已對鑒別檢測技術(shù)的研發(fā)進行了大量投入，國內(nèi)外多個科研機構(gòu)和科技企業(yè)推出了檢測產(chǎn)品。

隨著深度合成的負面影響顯現(xiàn)，世界各國監(jiān)管機制的建立也成為一個趨勢。歐盟傾向于將深度合成納入既有法律框架進行規(guī)制;在美國，已有一些州通過了正式法律，對“深度偽造”進行規(guī)制，如加利福尼亞州、弗吉尼亞州和德克薩斯州;新加坡也出臺了專門法案明確主體、平臺責(zé)任;我國在2021年1月發(fā)布的《網(wǎng)絡(luò)音視頻服務(wù)管理規(guī)定》專門提到了不得利用深度學(xué)習(xí)技術(shù)制作并傳播虛假新聞信息，今年1月，國家網(wǎng)信辦發(fā)布了《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定(征求意見稿)》，是一份具有系統(tǒng)性、針對性和可操作性的專門管理規(guī)定。

專家：未來一切有價值的東西都可能被偽造

面對當前的挑戰(zhàn)，如何規(guī)范深度合成技術(shù)應(yīng)用、減輕技術(shù)帶來的負面影響?多位專家從倫理和治理的角度表達了自己的看法。

阿里巴巴安全感知與認知智能部負責(zé)人薛輝認為，難點主要有兩方面，一是因為深度合成技術(shù)有很大的商業(yè)價值，因此不能一刀切地禁止，而是要采取“包容審慎”的態(tài)度，但怎么確定監(jiān)管的邊界，這是一個問題。另一個問題在于，深度合成面臨持續(xù)的攻防和博弈，而攻防中往往攻擊方找到了一個點就能突破，但防御卻是相對落后的。

中國科學(xué)院自動化研究所研究員陶建華指出，目前，深度合成概念的內(nèi)涵和外延并不清晰，造成監(jiān)管上的困難。“是不是用深度學(xué)習(xí)方法得到的就叫深度合成?我覺得這值得商榷。”

此外，他認為，應(yīng)該更有效地管理深度合成的使用者，而不是過多地約束它的研發(fā)者。人工智能的大量技術(shù)是有兩面性的，他把技術(shù)比較刀，技術(shù)的影響取決于如何使用它。最早從事深度合成相關(guān)研究的人，很多人的動機是娛樂、改善人的生活，比如，有人想能不能讓機器自主學(xué)習(xí)媽媽的聲音，給嬰兒做朗讀，這是改善生活的方式。但也不排除一些惡意的攻擊工具。因此，對技術(shù)的監(jiān)管還是應(yīng)當采用開放的方式。

浙江大學(xué)網(wǎng)絡(luò)空間安全學(xué)院院長任奎提出了數(shù)據(jù)集不足的問題。他介紹，當前的深度合成技術(shù)主要還是針對人，因此訓(xùn)練深度合成檢測模型需要大量人臉數(shù)據(jù)，但是人臉數(shù)據(jù)和音頻數(shù)據(jù)都是高度敏感的個人信息，這部分數(shù)據(jù)很難獲取。他建議公信力比較高的非營利性機構(gòu)能夠把數(shù)據(jù)梳理出來，讓合格的研究機構(gòu)一起參與，這樣能夠把數(shù)據(jù)的價值最大化發(fā)揮出來，“用在正面的方向”。

不過，未來的深度合成場景可能會更加復(fù)雜。在他看來，深度合成在未來不僅僅停留在簡單的音頻、圖像和視頻，而是會用于各種各樣的偽造，而且不僅限于數(shù)字空間的偽造，在物理空間的偽造可能更加有欺騙性和致命性。“從關(guān)鍵場景來看，比如說自動駕駛，在這里我可能偽造一個場景，這個場景可能是數(shù)字的，也有可能是跟物理世界融合的方式。如果我們考慮更遠一點，比如元宇宙的概念，不見得是偽造關(guān)于人的信息，一切有價值的東西都可能被偽造，這里深度合成可能有非常多的想象空間和利用、攻擊的空間。”

北京瑞萊智慧科技有限公司首席執(zhí)行官田天認為，深度偽造的本質(zhì)問題是透明度不足。在這項技術(shù)中，傳統(tǒng)的“眼見為實”受到了沖擊，因此，提高人們對深度合成技術(shù)的認知尤為重要。“對于普通觀眾來說，需要降低問題的門檻，認識到什么是深度合成，或者有簡單的工具判斷它是合成的。只有把門檻降低到所有的受眾能夠在共同的框架下認識、討論、理解這個問題的時候，它才有可能是比較健康、良性的發(fā)展，它的應(yīng)用才可能更大范圍地拓展。”他說。

關(guān)鍵詞：深度合成應(yīng)用元宇宙發(fā)展最新趨勢方向技術(shù)升級加速豐富應(yīng)用場景

相關(guān)新聞

專題新聞