Gemini對陣ChatGPT,誰能辨出12段視頻真假?

【編者按】


生成式人工智能的出現,將人類帶入壹個機器生成內容與人類原創內容深度交織的世界。

以 Sora、Midjourney為代表的AIGC模型,展示了人類通向通用人工智能(AGI)的想象力,也讓虛假影像以前所未有的速度湧入公共空間。而人類的識別速度卻遠遠落後於造假的節奏。

在此背景下,“以AI辨AI”似乎成為壹種可行的思路:人工智能如何定義“真實”的邊界?大模型能否輔助核查員和讀者完成核查工作?

為此,“澎湃明查”發起挑戰,將ChatGPT、Gemini、DeepSeek、豆包等熱門模型請上了實驗台。

背景

2024年2月,壹段由 Sora 生成的“櫻花雪景”視頻在網絡上引發熱議。視頻中櫻花飄落的細節可謂逼真,卻被谷歌的智能模型 Gemini 1.5瞬間識破為AI作品。

這個案例帶來了啟示:我們或許可以依靠AI本身來識別AI視頻。



基於這壹思路,我們嘗試搜尋能夠直接讀取視頻文件的大語言模型。但現階段,面向公眾開放且具備視頻解析能力的商業模型仍拾分有限——包括國產大模型“豆包”、馬斯克團隊研發的Grok在內的眾多大語言模型都暫未支持視頻檢測或網頁端上傳視頻功能。經過篩選,我們最終選擇了 Gemini 2.5 Pro 和 ChatGPT-5 進行測試。

我們為兩款模型各准備了12段視頻:其中3段由不同的文生視頻模型生成,3段含有深偽(deepfake)元素,3段使用計算機生成圖像(CGI),另有3段為真實拍攝素材。針對每段視頻,我們向模型提出相同的問題:這段視頻是真實拍攝的,還是經過後期制作的?它所展示的內容是否與網傳說法壹致?

借此提問,我們不僅想探究大模型的識假、辨假能力,更想了解,大模型在劃定“真實”與“虛構”的邊界時,會采用何種視角與邏輯。


明查

真實與虛構的界線

在事實核查中,壹段真實的視頻,往往意味著它是對我們所處的物理世界的實景記錄。而凡是經由計算機技術生成的影像,即便包含高度擬真乃至還原現實的元素,本質上仍屬於虛構。

在這壹點上,大模型與核查員的認知是壹致的。當我們將壹段“游戲模擬俄戰機著陸航母”的畫面投喂給ChatGpt時,模型會告訴我們“該視頻為電腦生成影像(CGI)或後期合成制作的影像,不屬於真實世界實景拍攝”。而在識別“2024年1月日本石川縣能登半島地震畫面”時,模型則表示,“該視頻屬於真實拍攝。沒有發現AI生成、深度偽造或重大後期合成制作的跡象。”

在測試中,僅就“是否使用計算機生成圖像”這壹維度而言,Gemini 2.5 pro的表現令人驚歎。它不僅幾乎准確識別了全部12段視頻,且對於使用了不同計算機技術,如AIGC或CGI的畫面,也能進行區分。但在識別深偽視頻,如“美國女歌手泰勒·斯威夫特說中文接受訪談”的畫面時,Gemini雖能察覺到視頻經過編輯,其音頻部分有異樣,卻無法明確指出異常源自深偽技術。



[加西網正招聘多名全職sales 待遇優]
無評論不新聞,發表壹下您的意見吧
上壹頁1234下壹頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     延伸閱讀
    GPT-5.2被曝作弊!不如Gemini 3(圖 谷歌翻譯引入Gemini技術,支持耳機實時翻譯
    GPT-5.2獲封"最強打工人" Gemini"性價比"系列應戰 讀完8家頂級投行的2026展望,Gemini給總結
    Google Gemini最新功能曝光 畫圈搜尋落伍了 Google首席AI架構師:Gemini 逆風翻盤有18個關鍵
    用了兩天谷歌Gemini 3 感覺它徹底瘋狂了 谷歌 Gemini 3 深夜炸場:沒有懸念的最強 AI
    Gemini 3獲盛贊 谷歌股價壹度漲近7% 創歷史新高 谷歌全新AI模型Gemini 3發布:宣稱"全球最智能模型"
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)

    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站