国产欧美一区二区精品免费观看 ,国产午精品午夜福利757视频播放

ChatGPT做決策：潛力大，風險也更大

2023-08-15 05:41:10來源： 騰訊網

（視覺中國/圖）

(相關資料圖)

既能搜索信息，也能回答問題，人工智能應用ChatGPT流行之后，包括各領域科學家在內，社會上對ChatGPT這類人工智能應用決策能力的探討不斷拓展，對相關風險的規(guī)制也已經開始實踐。

2023年7月10日，《生成式人工智能服務管理暫行辦法》已經國家發(fā)改委、教育部、科技部、工信部、公安部、國家廣電總局等多部門同意并公布，自2023年8月15日起施行。管理辦法針對生成式人工智能技術提供的文本、圖片、音頻、視頻等內容，對相關服務堅持發(fā)展和安全并重、促進創(chuàng)新和依法治理相結合的原則。

事實上，針對這類人工智能應用的決策潛力和風險，一些科學研究已經通過實驗等方式對部分場景進行了初步預演。最近，一項醫(yī)學研究就對比了人工智能應用與醫(yī)生在回答病人問題上的效果，評價結果顯示，人工智能應用的回答收獲更多好評，在近六百個評價中，超過78%的評價認為其優(yōu)于醫(yī)生的回答。

或可成為新型醫(yī)療器械

這項對比研究中的醫(yī)學問題全部隨機選自公共社交媒體論壇，經過認證的醫(yī)生已經在線回答了這些問題。2022年底，加州大學圣迭戈分校的研究人員利用智能聊天應用ChatGPT也來回答這些病人提出的問題，此時的ChatGPT即當時剛發(fā)布的GPT-3.5版本。研究人員隨后通過收集評估意見，對相關能力進行了對比。

這項研究2023年4月發(fā)表在《美國醫(yī)學會內科學雜志》（JAMA Internal Medicine），經過比對，ChatGPT和醫(yī)生所獲評價差距極大，從好評度的角度看，相比超過78%的評價認為ChatGPT的回答質量很好，認為醫(yī)生的回答很好或非常好的比例僅有約22%，好評率有三倍多的差距。

不僅如此，ChatGPT的回答在同理心方面的好評度也遠超醫(yī)生。僅有不到5%的評價認為醫(yī)生的回答具有同理心或者非常具有同理心，但在這一指標上，45%的評價都認為ChatGPT對病人問題的回答具有同理心或者非常有同理心，這更是近十倍的差距。從一定程度上反映出人工智能應用生成內容所具有的潛力，在人們已習慣于就醫(yī)前先在線搜索相關病癥的環(huán)境下，這或許可以輔助醫(yī)療行業(yè)提高對病人問題的回應。

正因如此，一些健康領域的研究人員已經開始考慮讓大語言模型人工智能應用成為專業(yè)醫(yī)療設備的可能性。德累斯頓工業(yè)大學數(shù)字健康中心教授斯蒂芬·吉爾伯特（Stephen Gilbert）等人就在《自然醫(yī)學》（Nature Medicine）撰文指出，基于大語言模型的人工智能聊天應用需要獲批才能成為醫(yī)療器械，但它們現(xiàn)在不穩(wěn)定的特點使得這樣的設備很難獲批。

這樣的不穩(wěn)定性體現(xiàn)在多個方面，比如缺乏解釋性、透明度，難以驗證和監(jiān)督，而且可能存在偏見。因為現(xiàn)在的大語言模型并不是專門針對醫(yī)學實踐開發(fā)的模型，缺乏足夠專業(yè)的支撐，可能會提供一些錯誤的信息，給病人帶來危險。而要想成為醫(yī)療器械，那么就要通過更科學嚴謹?shù)姆绞皆跍蚀_性、安全性和臨床效果方面證明自己，獲得專業(yè)機構的認可。

參與社會價值判斷不夠穩(wěn)定

相較而言，如果ChatGPT不用做相對獨立的決策，而只是輔助提高醫(yī)療行業(yè)的自動化程度，技術得到應用可能更容易。倫敦圣瑪麗醫(yī)院外科和癌癥部門的研究人員在年初該應用剛流行時就提出了一種應用場景，即寫出院報告。因為記錄內容龐雜，傳統(tǒng)的出院報告寫作對于醫(yī)生而言不僅任務繁重，而且容易丟失細節(jié)。但如果用ChatGPT等人工智能應用來寫出院報告，這種文體標準化的格式可能正利于技術發(fā)揮優(yōu)勢。

而一旦涉及更多自主決策，相關應用的潛力和風險明顯更大。2023年4月，丹麥和德國等機構的研究人員就用人工智能應用ChatGPT復現(xiàn)了經典道德判斷難題“電車困境”，而令研究人員感到驚訝和不幸的是，身為機器人的應用并沒有因為超脫情緒羈絆而始終做出一致的道德判斷。

爭論近半個世紀的“電車困境”模擬的是人類社會一些普遍的道德情境，比如如何看待救人和犧牲，如何認識直接傷害和間接傷害，以及如何權衡個體與集體的利益。該命題假設了一個交通場景，當電車將要撞到五個人時，是否應為了救這五個人而讓電車立刻轉向，撞到另一條軌道上本可以幸免的一個人。

人類社會的各類道德難題之所以難解，很重要的一個原因在于決策所受到的社會干擾因素太多，而道德標準作為全社會的尺度，穩(wěn)定性和一致性是一個基本的需要，這樣不同人在遇到同樣的問題時能采取極為相似的行為，從而保持良好的社會秩序。

人類的立場偏見和情緒等直覺層面的因素一般會干擾人們做出客觀的判斷，而ChatGPT面對同一道德問題也搞雙重標準，暴露出其參與社會道德決策問題時存在較大的風險。這一研究發(fā)表在《科學報告》（Scientific Reports），ChatGPT不一致的道德判斷與此前科學家所揭示的其九歲兒童的心智能力相呼應。

模仿人VS超越人

2023年2月，斯坦福大學計算社會科學家米哈爾·科辛斯基（Michal Kosinski）用人類標準的測試題測試ChatGPT的心智能力，結果表明GPT-3.5版本可以解決93%的心智任務，相當于一個九歲兒童的表現(xiàn)。

米哈爾·科辛斯基告訴南方周末記者，這種像人一樣，可以推測其他人心理狀態(tài)的能力預示著人工智能發(fā)展到了一個分水嶺，可以極大地提高人工智能應用與人類互動和溝通的能力，使其基于心智理論能夠進一步開發(fā)出其他能力，諸如同理心、道德判斷或自我意識等。

而在ChatGPT參與的電車難題實驗中，研究人員就發(fā)現(xiàn)，當提問方式不同，ChatGPT回答時會給出不同的道德建議，有時支持犧牲一個人救五個人，有時又特別反對為了救人而犧牲任何無辜的人，理由是“每個人的生命都有價值，不該由我們決定誰該活、誰該死”。而即便是支持救五個人的觀點，ChatGPT在回答時也會用很多委婉的說法，比如“很難說怎么做才對”“總體上”等等。

這種根據(jù)提問者的情況給出不同答案的行為，雖然提高了互動和溝通的體驗，但不一致的道德判斷通過影響使用該技術的人，可能會干擾人們在現(xiàn)實社會中做出明智的決策。實驗隨后對比驗證后還發(fā)現(xiàn)，ChatGPT的回答確實會影響使用者如何看待這個道德問題，即便他們知道這個建議來自聊天機器人，但人們通常會低估自己受到影響的程度。

ChatGPT這類智能應用可以通過不一致的道德判斷影響使用者的決策，這一發(fā)現(xiàn)不僅對未來相關產品的設計和優(yōu)化提出了更高的要求，也提醒現(xiàn)實中的使用者要提升自身的數(shù)字素養(yǎng)，以更好地駕馭人工智能應用。

而隨著科學家對ChatGPT決策潛力認識的深入，相關風險的管控可能并不容易。人們在面對大量新問題，解決新問題的過程中，通常會運用類比推理，從熟悉的問題中找到新問題的答案。而根據(jù)加州大學洛杉磯分校心理學系研究人員的對比測試，GPT-3版本的邏輯推理能力就達到了大學生的水平，只是不知道這種能力是在模擬人類推理還是某種新型認知過程。

加強風險規(guī)制

此外，2023年7月13日，麻省理工學院經濟系的研究人員在《科學》雜志（Science）發(fā)布實驗結果，支持ChatGPT這樣的生成式人工智能應用在提高生產力方面的能力。通過聚焦寫作方面的任務，研究人員發(fā)現(xiàn)，受過高等教育的專業(yè)人士如果使用了ChatGPT，就會更高產，更有效率，而且也會更享受這樣完成任務的過程，其中寫作能力更差的人在其中受益更多。

數(shù)據(jù)表明用了ChatGPT之后，人們完成任務的平均時間減少了40%，產出質量卻高了18%。這些結果表明，無論是取代還是輔助專業(yè)人士，諸如ChatGPT這樣的生成式人工智能應用可能會攪動勞動力市場的格局。這種影響不只限于醫(yī)療、寫作等領域，在一些創(chuàng)造力測試中，有研究還發(fā)現(xiàn)GPT-4版本的ChatGPT，其標準創(chuàng)造力思維測試得分可以擠進人類排名的前1%，而這種創(chuàng)造性思維可能適用的領域顯然更廣。

為了規(guī)制相關的風險，包括ChatGPT所屬公司OpenAI在內，谷歌、微軟等多家人工智能公司已于2023年7月下旬參與了在白宮舉行的會議，承諾去防范人工智能應用開發(fā)中潛在的風險。

比如，發(fā)布前邀請獨立專家進行安全性審查，報告技術的局限性，加強社會風險研究，以及幫助用戶識別人工智能所生成內容等。從科學證據(jù)來看，面對相關應用決策潛力和風險的發(fā)展，如何兼顧應用潛力與風險規(guī)制還有大量具體工作要做。

南方周末記者王江濤

責編朱力遠

關鍵詞：