123,123,123

亞洲資本網(wǎng) > 資訊 > 民生 > 正文

AI聊天機器人越聊越“笨”？可能真不是錯覺_焦點觀察

2026-02-22 12:09:11來源： 科技美學

不知道大家有沒有這種感覺：和AI機器人短時間聊天的話還行，時間一長，就感覺對話開始變的前言不搭后語、邏輯不通。

其實這種感覺并不是錯覺。

(資料圖片僅供參考)

最近，微軟發(fā)表的一項研究證實，即使是目前最先進的大語言模型，在多輪對話中的可靠性也會急劇下降。

研究人員對包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在內的 15 款頂尖模型進行了超過 20 萬次模擬對話分析，揭示出一個被稱為“迷失會話”的系統(tǒng)性缺陷。

數(shù)據(jù)顯示，這些模型在單次提示任務中的成功率可達 90%，但當同樣的任務被拆解成多輪自然對話后，成功率驟降至約 65%。

研究指出，模型的核心能力僅降低約 15%，但“不可靠性”卻飆升 112%。

也就是說，AI 大模型仍然具備解決問題的能力，但在多輪對話中變得高度不穩(wěn)定，難以持續(xù)跟蹤上下文。

研究人員進一步分析了造成性能下降的行為機制。

首先是“過早生成”。模型在用戶尚未完整說明需求前就嘗試給出最終答案。一旦在早期回合中形成錯誤假設，模型后續(xù)便會在該錯誤的基礎上繼續(xù)推理，而不是隨著新信息的加入進行修正，從而導致錯誤逐步放大。

其次是“答案膨脹”。在多輪對話中，模型的回復長度比單輪對話增加了 20% 至 300%。更長的回答往往包含更多假設與“幻覺”，這些內容隨后被納入對話的持續(xù)上下文，從而進一步影響后續(xù)推理的準確性。

令人意外的是，即使是配備了額外“思考詞元”（thinking tokens）的新一代推理模型，如 OpenAI o3 和 DeepSeek R1，也未能顯著改善在多輪對話中的表現(xiàn)。

研究人員指出，現(xiàn)有的基準測試主要基于理想的單輪場景，忽略了模型在真實世界中的行為。

因此，對于那些依賴 AI 構建復雜對話流程或智能體的開發(fā)者而言，這一結論意味著未來將要接受嚴峻挑戰(zhàn)。

再來看看其他消息。

微軟日前測試 Windows 11新版“畫圖”（Paint）應用，重點引入“自由旋轉”功能。

根據(jù)微軟官方描述，用戶現(xiàn)在可以全方位角度調整形狀、文本框以及任何活動的圖像選區(qū)。用戶選中對象后，其上方會出現(xiàn)一個“旋轉手柄”，用戶只需拖動該手柄即可向任意方向自由旋轉對象，從而實現(xiàn)更自然的構圖和布局。

除了直觀的手動拖拽，微軟還為需要高精度編輯的用戶提供了解決方案。在“旋轉”菜單下新增了“自定義旋轉”選項，用戶可以在此輸入具體的角度數(shù)值，實現(xiàn)精確到 1 度的微調。

關鍵詞：用戶機器人錯覺單輪 DeepSeek 錯誤

相關新聞

熱文：喝牛奶時做一個小改變，血脂降了、血糖穩(wěn)了、腸道好了→

熱文：喝牛奶時做一個小改變，血脂降了、血糖穩(wěn)了、腸道好了→

關于草銨膦板塊龍頭，相關上市公司名單快收藏（2026/2/20）

關于草銨膦板塊龍頭，相關上市公司名單快收藏（2026/2/20）

專題資訊

熱點資訊

2026春節(jié)檔票房破46億元-當前焦點

2026春節(jié)檔票房破46億元-當前焦點

焦點熱議:科創(chuàng)板水利概念股股票一覽,代碼查詢

焦點熱議:科創(chuàng)板水利概念股股票一覽,代碼查詢

前沿熱點:春節(jié)返程高峰來臨全國鐵路今天預計發(fā)送旅客1680萬人次長三角預計295萬人次

前沿熱點:春節(jié)返程高峰來臨全國鐵路今天預計發(fā)送旅客1680萬人次長三角預計295萬人次

貴陽鐵路進入節(jié)后客流高峰期

貴陽鐵路進入節(jié)后客流高峰期

2026年跨境電商上市公司龍頭一覽（附名單）（2月20日）_每日短訊

2026年跨境電商上市公司龍頭一覽（附名單）（2月20日）_每日短訊

美股太空概念股盤前走強，火箭實驗室漲近1%

美股太空概念股盤前走強，火箭實驗室漲近1%

微資訊！港股異動｜港股機器人概念普漲越疆、禾賽-W等個股表現(xiàn)活躍

微資訊！港股異動｜港股機器人概念普漲越疆、禾賽-W等個股表現(xiàn)活躍

2026年春節(jié)檔票房已突破25億元

2026年春節(jié)檔票房已突破25億元

觀察：記者：王燊超肋骨骨折，目前還在靜養(yǎng)康復階段

觀察：記者：王燊超肋骨骨折，目前還在靜養(yǎng)康復階段

十大數(shù)據(jù)中心排行榜-2026年2月18日相關股票成交額前十名

十大數(shù)據(jù)中心排行榜-2026年2月18日相關股票成交額前十名

大家都在看

最近更新

AI聊天機器人越聊越“笨”？可能真不是錯覺_焦點觀察

阿里云Coding Plan支持千問3.5、GLM-4.7、Kimi-K2.5等模型

截至2025年底我國80%以上粗鋼產(chǎn)能實現(xiàn)超低排放

70余萬人到北京市屬公園“尋味”新春

新春走基層丨來“成語之都”邯鄲過個文化中國年每日速遞

2026年度電影總票房破70億最資訊

熱點評！臺胞在大陸怎么過年？跟著記者在福州沉浸式體驗

臺胞在大陸怎么過年？跟著記者在福州沉浸式體驗_觀速訊

速訊：2026年度電影總票房破70億

2026年丁辛醇2只概念龍頭股，看看有你關注的嗎？（2/20）

實時：一分鐘了解衣柜行業(yè)龍頭：有2家?。?026/2/20）

游客青海自駕被野牦牛攔路6小時，當?shù)孛窬钜柜Y援精選

華工科技：公司聯(lián)接業(yè)務訂單已經(jīng)排到2026年第四季度，AI高速光模塊產(chǎn)線24小時滿負荷運轉

2026春節(jié)檔票房破46億元-當前焦點

假期第七天湖南客流2274.5萬人次多家景區(qū)發(fā)布限流提醒

安順古城五天迎客上百萬觀熱點

每日熱點:降門檻、擴范圍新一輪設備更新已陸續(xù)啟動

每日訊息!今天全國高速公路車流量超7100萬輛次

春節(jié)返京高峰探訪火車站，你的行李箱里都裝著什么？

鐵路春運迎來返程客流高峰 21日約74萬人乘火車抵京

友情鏈接

新聞發(fā)布平臺 |科極網(wǎng) |環(huán)球周刊網(wǎng) |中國創(chuàng)投網(wǎng) |教體產(chǎn)業(yè)網(wǎng) |中國商界網(wǎng) |萬能百科 |薄荷網(wǎng) |資訊_時尚網(wǎng) |連州財經(jīng)網(wǎng) |劇情啦 |5元服裝包郵 |中華網(wǎng)河南 |網(wǎng)購省錢平臺 |海淘返利 |太平洋裝修網(wǎng) |勵普網(wǎng)校 |九十三度白茶網(wǎng) |商標注冊 |專利申請 |啟哈號 |速挖投訴平臺 |深度財經(jīng)網(wǎng) |深圳熱線 |財報網(wǎng) |財報網(wǎng) |財報網(wǎng) |咕嚕財經(jīng) |太原熱線 |電路維修 |防水補漏 |水管維修 |墻面翻修 |舊房維修 |參考經(jīng)濟網(wǎng) |中原網(wǎng)視臺 |財經(jīng)產(chǎn)業(yè)網(wǎng) |全球經(jīng)濟網(wǎng) |消費導報網(wǎng) |外貿(mào)網(wǎng) |重播網(wǎng) |國際財經(jīng)網(wǎng) |星島中文網(wǎng) |手機測評 |品牌推廣 |名律網(wǎng) |項目大全 |整形資訊 |整形新聞 |美麗網(wǎng) |佳人網(wǎng) |稅法網(wǎng) |法務網(wǎng) |法律服務 |法律咨詢 |成報網(wǎng) |媒體采購網(wǎng) |聚焦網(wǎng) |參考網(wǎng) |熱點網(wǎng)

亞洲資本網(wǎng) 版權所有

京ICP備2021034106號-51

Copyright © 2011-2020 亞洲資本網(wǎng) All Rights Reserved. 聯(lián)系網(wǎng)站：55 16 53 8 @qq.com