亞洲資本網(wǎng) > 資訊 > 民生 > 正文
AI聊天機器人越聊越“笨”?可能真不是錯覺_焦點觀察
2026-02-22 12:09:11來源: 科技美學

不知道大家有沒有這種感覺:和AI機器人短時間聊天的話還行,時間一長,就感覺對話開始變的前言不搭后語、邏輯不通。

其實這種感覺并不是錯覺。


(資料圖片僅供參考)

最近,微軟發(fā)表的一項研究證實,即使是目前最先進的大語言模型,在多輪對話中的可靠性也會急劇下降。

研究人員對包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在內的 15 款頂尖模型進行了超過 20 萬次模擬對話分析,揭示出一個被稱為“迷失會話”的系統(tǒng)性缺陷。

數(shù)據(jù)顯示,這些模型在單次提示任務中的成功率可達 90%,但當同樣的任務被拆解成多輪自然對話后,成功率驟降至約 65%。

研究指出,模型的核心能力僅降低約 15%,但“不可靠性”卻飆升 112%。

也就是說,AI 大模型仍然具備解決問題的能力,但在多輪對話中變得高度不穩(wěn)定,難以持續(xù)跟蹤上下文。

研究人員進一步分析了造成性能下降的行為機制。

首先是“過早生成”。模型在用戶尚未完整說明需求前就嘗試給出最終答案。一旦在早期回合中形成錯誤假設,模型后續(xù)便會在該錯誤的基礎上繼續(xù)推理,而不是隨著新信息的加入進行修正,從而導致錯誤逐步放大。

其次是“答案膨脹”。在多輪對話中,模型的回復長度比單輪對話增加了 20% 至 300%。更長的回答往往包含更多假設與“幻覺”,這些內容隨后被納入對話的持續(xù)上下文,從而進一步影響后續(xù)推理的準確性。

令人意外的是,即使是配備了額外“思考詞元”(thinking tokens)的新一代推理模型,如 OpenAI o3 和 DeepSeek R1,也未能顯著改善在多輪對話中的表現(xiàn)。

研究人員指出,現(xiàn)有的基準測試主要基于理想的單輪場景,忽略了模型在真實世界中的行為。

因此,對于那些依賴 AI 構建復雜對話流程或智能體的開發(fā)者而言,這一結論意味著未來將要接受嚴峻挑戰(zhàn)。

再來看看其他消息。

微軟日前測試 Windows 11新版“畫圖”(Paint)應用,重點引入“自由旋轉”功能。

根據(jù)微軟官方描述,用戶現(xiàn)在可以全方位角度調整形狀、文本框以及任何活動的圖像選區(qū)。用戶選中對象后,其上方會出現(xiàn)一個“旋轉手柄”,用戶只需拖動該手柄即可向任意方向自由旋轉對象,從而實現(xiàn)更自然的構圖和布局。

除了直觀的手動拖拽,微軟還為需要高精度編輯的用戶提供了解決方案。在“旋轉”菜單下新增了“自定義旋轉”選項,用戶可以在此輸入具體的角度數(shù)值,實現(xiàn)精確到 1 度的微調。

關鍵詞: 用戶 機器人 錯覺 單輪 DeepSeek 錯誤

專題資訊
  • 這份“北京禮物”,藏著 70 年零事故的底氣
  • 山東治療血小板減少癥推薦去哪家醫(yī)院
  • 長城汽車成為央視新聞2026年春晚新媒體指定用車,硬核護航彰顯品牌實力
  • 太康有“戲”:村晚唱響鄉(xiāng)村振興新風尚
  • 破解初老困局:艷存曉年輕膠原水光的離經(jīng)叛道公式
  • 重磅數(shù)據(jù)來襲!就在2月10日晚21:56!

京ICP備2021034106號-51

Copyright © 2011-2020  亞洲資本網(wǎng)   All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com