【資料圖】
谷歌DeepMind于8月21日發(fā)布論文,提出一種使LLM與人類偏好對齊更簡單的算法ReST(Reinforced Self-Training)。不同于RLHF(基于人類反饋的強化學習)使用人類反饋改進語言模型,ReST通過生成和使用離線數(shù)據(jù)進行訓練,從而使得LLM與人類偏好保持一致。研究團隊表示,雖然ReST可用于所有生成任務,但本文的重點是機器翻譯。研究者在機器翻譯任務上進行了實驗,測試基準包括IWSLT 2014、WMT 2020和Web Domain。結果表明,ReST可以極大地提高翻譯質量。
關鍵詞:
新聞發(fā)布平臺 |科極網 |環(huán)球周刊網 |tp錢包官網下載 |中國創(chuàng)投網 |教體產業(yè)網 |中國商界網 |萬能百科 |薄荷網 |資訊_時尚網 |連州財經網 |劇情啦 |5元服裝包郵 |中華網河南 |網購省錢平臺 |海淘返利 |太平洋裝修網 |勵普網校 |九十三度白茶網 |商標注冊 |專利申請 |啟哈號 |速挖投訴平臺 |深度財經網 |深圳熱線 |財報網 |財報網 |財報網 |咕嚕財經 |太原熱線 |電路維修 |防水補漏 |水管維修 |墻面翻修 |舊房維修 |參考經濟網 |中原網視臺 |財經產業(yè)網 |全球經濟網 |消費導報網 |外貿網 |重播網 |國際財經網 |星島中文網 |手機測評 |品牌推廣 |名律網 |項目大全 |整形資訊 |整形新聞 |美麗網 |佳人網 |稅法網 |法務網 |法律服務 |法律咨詢 |成報網 |媒體采購網 |聚焦網 |參考網
亞洲資本網 版權所有
Copyright © 2011-2020 亞洲資本網 All Rights Reserved. 聯(lián)系網站:55 16 53 8 @qq.com