chinesefreesexvideos高潮,欧美极品少妇性运交,久久久国产一区二区三区,99久久婷婷国产综合精品,成人国产一区二区三区

APP推廣合作
聯(lián)系“鳥哥筆記小喬”
俞揚團隊首次揭示「記憶池」最優(yōu)利用方法
2021-12-17 10:48:42

新智元報道  

編輯:好困


【新智元導(dǎo)讀】在剛剛結(jié)束的NeurIPS 2021上,俞揚團隊首次揭示了深度強化學(xué)習(xí)「記憶池」的最優(yōu)利用方法。那么,在南京大學(xué)人工智能學(xué)院做科研又是怎樣的一種體驗?zāi)兀?/p>


「記憶池」是深度強化學(xué)習(xí)的基本部件,但多年以來如何最優(yōu)利用記憶池仍然未知。


在剛剛閉幕的機器學(xué)習(xí)國際頂級會議NeurIPS 2021上,南京大學(xué)人工智能學(xué)院獨立完成的工作「Regret Minimization Experience Replay in Off-Policy Reinforcement Learning」,首次揭示了深度強化學(xué)習(xí)「記憶池」的最優(yōu)利用方法。


https://openreview.net/forum?id=5AixAJweEyC

該工作由俞揚教授指導(dǎo),其共同第一作者,2018級本科生薛正海,是南大人工智能學(xué)院的首屆本科生。


本文對論文工作進行了總結(jié),并采訪了薛正海同學(xué)在南大人工智能學(xué)院學(xué)習(xí)的體驗。


從本質(zhì)出發(fā),解決深度強化學(xué)習(xí)難題


什么是強化學(xué)習(xí)


與廣為人知的人臉識別技術(shù)不同,強化學(xué)習(xí)并非通過帶有標(biāo)簽的數(shù)據(jù),而是考慮一個處在環(huán)境中的智能體,通過智能體與環(huán)境的交互進行學(xué)習(xí)。


這就類似于人類的嬰兒,他會觀察、傾聽、觸摸所在的環(huán)境,收獲環(huán)境的反饋,來認識這個世界,改變自己的行為。


2016年AlphaGo運用了這項技術(shù),在圍棋項目中戰(zhàn)勝了人類選手,也讓強化學(xué)習(xí)這項技術(shù)獲得了空前的曝光度。


經(jīng)過近年來的發(fā)展,強化學(xué)習(xí)技術(shù)在許多環(huán)境中都取得了超越人類的決策水平,也被認為是實現(xiàn)通用人工智能的一種重要途徑。

圖1. 強化學(xué)習(xí)與環(huán)境交互的過程

強化學(xué)習(xí)的記憶池


人類會記住自己經(jīng)歷過的事情,通過回憶這些經(jīng)歷,進行學(xué)習(xí)。與此類似,強化學(xué)習(xí)將智能體與環(huán)境交互的數(shù)據(jù)存入記憶池,再從記憶池中取出數(shù)據(jù),從而訓(xùn)練智能體。


自記憶池這個概念提出一來,就產(chǎn)生了一個問題,我們應(yīng)當(dāng)如果利用記憶池中的數(shù)據(jù)?最直接的做法我們把記憶池中的數(shù)據(jù)認為是同等重要的,在學(xué)習(xí)過程中所有的記憶擁有相同的權(quán)重。


這也正是2015年第一個能玩Atari游戲的「深度強化學(xué)習(xí)」所采用的方法。


但是這個做法是不是最好的呢?


如果我們從我們?nèi)祟愖陨斫嵌葋砜矗辽傥覀內(nèi)祟惒⒉皇撬械挠洃浂加邢嗤臋?quán)重,首先一般而言我們對更近時間的記憶會更清晰,時間久遠的記憶就更模糊,其次就是某些事情我們會印象深刻,另外一些事情我們很快就會忘記。


這是因為,并不是所有記憶都是同等重要的,重點關(guān)注關(guān)鍵的記憶,忽略意義不大的記憶,是利用好我們記憶的重點。


那么,我們?nèi)祟惖闹庇X對于強化學(xué)習(xí)來說是不是適用的呢?強化學(xué)習(xí)又如何對于記憶池中的數(shù)據(jù)進行更好的利用?


自記憶池出現(xiàn)以來,學(xué)術(shù)界就開始關(guān)注記憶池的數(shù)據(jù)利用問題。尤其隨著深度強化學(xué)習(xí)的興起,記憶池越來越大,問題也越來越緊迫。


2015年,Schaul等人從優(yōu)化角度上來審視這個問題,設(shè)計了優(yōu)先級記憶回放機制(PER)。僅此一項改進,就在Atari游戲上取得了很大的提升,這說明記憶池的數(shù)據(jù)利用確實是影響強化學(xué)習(xí)的性能的一個重要因素。


自此,這方面的研究開始活躍起來。例如,優(yōu)先級序列記憶回放(PSER)考慮到了強化學(xué)習(xí)的序列關(guān)系;近期記憶增強(ERE)認為相較于時間更久的數(shù)據(jù),新采集到的數(shù)據(jù)更重要;分布修正(DisCor)則選擇在記憶池中避開值學(xué)得比較差的地方;無似然重要性采樣(LFIW)認為智能體用當(dāng)前策略采集的數(shù)據(jù)更重要。


從本質(zhì)問題出發(fā),求解最優(yōu)利用方法


以往研究從不同的角度發(fā)明了不同的記憶池利用方案,但是完整的答案仍然缺失,其中的原因在于,它們的出發(fā)點忽略了強化學(xué)習(xí)的最終目標(biāo)。


強化學(xué)習(xí)的目標(biāo)是獲取最高的回報,以此目標(biāo)作為出發(fā)點,就是這項工作的初衷。在這個思想的啟發(fā)下,工作構(gòu)造了針對回放池權(quán)重的最大回報優(yōu)化問題:



其中wk就是歷史記憶的權(quán)重。


通過求解這樣一個優(yōu)化問題,該工作得到了關(guān)于最優(yōu)回放池的結(jié)論:


1)如上面提到的LFIW算法的原則,要更多的選取由智能體當(dāng)前策略采集到的數(shù)據(jù)。

2)也不能僅僅局限于當(dāng)前策略,數(shù)據(jù)的分布要稍微廣一些,也要重視當(dāng)前策略附近的數(shù)據(jù)。

3)同DisCor算法原則一樣,要避開值學(xué)得較差的地方,避免被優(yōu)化過程帶偏。

4)類似于PER算法的原則,要更多關(guān)注差分誤差較大的地方。


這個定理給出了實現(xiàn)記憶池數(shù)據(jù)的最優(yōu)利用的四項原則,可以看到,以往研究只是其中的一個拼圖。自此,該工作回答了如何最優(yōu)利用強化學(xué)習(xí)記憶池的問題。


但是,這幾項原則是在理論層面上的闡述,真正去實現(xiàn)與之相匹配的算法并非一件簡單的事情。


論文中提出了ReMERN和ReMERT兩個算法,這兩個算法對上面提到的四項原則進行了逼近。


從算法設(shè)計的角度,ReMERT在環(huán)境隨機性較小的情況下近似較為準(zhǔn)確,ReMERN則不太受環(huán)境隨機性影響。


實驗表明,ReMERT在環(huán)境隨機性較小的MuJoCo和Atari環(huán)境里取得了SoTA的效果,ReMERN則在環(huán)境隨機性較大的MetaWorld上有更好的表現(xiàn)。


在南大人工智能學(xué)院讀書的體驗


薛正海同學(xué)是南大人工智能學(xué)院的首批本科生,目前已在NeurIPS 2021發(fā)表共同作者論文一篇,獲得DAI2020自動駕駛競賽第三名,并參與了創(chuàng)新工場與南京大學(xué)組織的Deecamp人工智能夏令營等。


關(guān)于在南大人工智能學(xué)院學(xué)習(xí)的體驗,筆者采訪了薛同學(xué)。


筆者:能說說你感受到的南大的氛圍?


薛正海:在南大的校園、教室、圖書館、實驗室里,南大的師生或多或少都有“誠樸雄偉“的氣質(zhì),認認真真做事,踏踏實實做人。這些都時時刻刻影響著我,提醒自己做一個合格的南大人??梢哉f,學(xué)校更多是潛移默化的影響著我的成長。


筆者:人工智能學(xué)院對你的成長有什么幫助?


薛正海:學(xué)院對我的幫助,我認為主要可以體現(xiàn)在扎實的數(shù)理和專業(yè)基礎(chǔ)、良好的科研環(huán)境這兩方面。前期主要是在大一大二安排了很多數(shù)理和專業(yè)基礎(chǔ)課,打下了扎實的基礎(chǔ)。我們這篇論文涉及到很多微積分、線性代數(shù)和概率論的知識,實驗代碼的編寫也與之前的編程訓(xùn)練密不可分。后期是大三進入專業(yè)選修階段后,課程壓力相對小了很多,我有充足的時間在實驗室進行科研工作。此外,周院長每一次的座談會總能給我們鼓舞士氣、堅定信心,班主任、輔導(dǎo)員和教務(wù)員老師也都給過我各種各樣的幫助。


筆者:在人工智能學(xué)院你是怎么參加科研的?


薛正海:我很早就加入了LAMDA研究所俞揚老師的課題組,一直在了解強化學(xué)習(xí)的基礎(chǔ)知識。2020年5月左右俞老師安排我與李子牛師兄交流學(xué)習(xí)。李師兄向我推薦了很多前沿論文,當(dāng)時我只是囫圇吞棗地讀了,也沒有太多想法,但回過頭看卻是幫助我熟悉了研究領(lǐng)域。2021年的3月我在和劉旭輝師兄討論其中一篇論文時恰好發(fā)現(xiàn)了一處漏洞。經(jīng)過初期的理論和實驗驗證,我們發(fā)現(xiàn)這一漏洞可以被一種全新的強化學(xué)習(xí)算法彌補。得到俞老師的認可后,我們便開展了進一步研究,期間得到了龐竟成、徐峰和蔣圣翊師兄的幫助。我們在5月28日提交了論文,在8月份的時候經(jīng)歷了rebuttal(與審稿人來回討論),隨后就得到了論文被接受的消息。


筆者:俞老師在科研過程中與你的交流如何?


薛正海:指導(dǎo)老師俞揚老師對我的幫助,首先是俞老師為我們創(chuàng)造了良好的科研環(huán)境,比如大一時就讓我加入實驗室旁聽組會,大三時為我在實驗室分配座位——正好在劉旭輝師兄邊上,這次的論文也是從我們的交流討論開始的。當(dāng)然俞老師實驗室的計算設(shè)備也必不可少。然后,關(guān)于具體的研究課題、理論、算法和論文,俞老師都會親自指點并提出關(guān)鍵意見。在論文和rebuttal提交ddl前,俞老師還和我們一起熬夜修改,精益求精。另外,平時的組會上俞老師時常會對我們進行方法論層面的指導(dǎo),比如科研怎么選題、實驗環(huán)境如何選擇、如何展示自己的工作等。


有關(guān)南京大學(xué)人工智能學(xué)院


南京大學(xué)人工智能學(xué)院于2018年3月5日成立,是我國C9高校中首個人工智能學(xué)院,致力于建設(shè)人工智能領(lǐng)域國際一流學(xué)術(shù)重鎮(zhèn)和拔尖創(chuàng)新人才培養(yǎng)基地。


學(xué)院成立三年來取得了長足發(fā)展,建設(shè)了一支由世界級專家領(lǐng)銜、青年學(xué)者蓬勃成長、具有國際影響力的高水平教師隊伍,傾力培養(yǎng)家國情懷厚植、專業(yè)能力突出、德智體全面發(fā)展的優(yōu)秀學(xué)生,率先發(fā)布我國首個人工智能本科專業(yè)教育培養(yǎng)體系,首批入選國家一流本科人工智能專業(yè)建設(shè)點,并在連續(xù)15年獲評計算機類第一名的國家重點實驗室、國家基金委創(chuàng)新群體、教育部引智基地、江蘇省優(yōu)秀協(xié)同創(chuàng)新中心等一流平臺的支撐下,在多家著名頭部企業(yè)聯(lián)合實驗室/研究中心/實訓(xùn)基地等的助力下,在前沿科技研究、國家重大工程、產(chǎn)學(xué)研協(xié)同創(chuàng)新方面不斷取得重要進展。


-END-

新智元
分享到朋友圈
收藏
收藏
評分

綜合評分:

我的評分
Xinstall 15天會員特權(quán)
Xinstall是專業(yè)的數(shù)據(jù)分析服務(wù)商,幫企業(yè)追蹤渠道安裝來源、裂變拉新統(tǒng)計、廣告流量指導(dǎo)等,廣泛應(yīng)用于廣告效果統(tǒng)計、APP地推與CPS/CPA歸屬統(tǒng)計等方面。
20羽毛
立即兌換
一書一課30天會員體驗卡
領(lǐng)30天VIP會員,110+門職場大課,250+本精讀好書免費學(xué)!助你提升職場力!
20羽毛
立即兌換
順豐同城急送全國通用20元優(yōu)惠券
順豐同城急送是順豐推出的平均1小時送全城的即時快送服務(wù),專業(yè)安全,準(zhǔn)時送達!
30羽毛
立即兌換
新智元
新智元
發(fā)表文章33
智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人革命對人類
確認要消耗 0羽毛購買
俞揚團隊首次揭示「記憶池」最優(yōu)利用方法嗎?
考慮一下
很遺憾,羽毛不足
我知道了

我們致力于提供一個高質(zhì)量內(nèi)容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內(nèi)容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內(nèi)容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡(luò)信息。


一、根據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
    1)反對憲法所確定的基本原則;
    2)危害國家安全,泄露國家秘密,顛覆國家政權(quán),破壞國家統(tǒng)一,損害國家榮譽和利益;
    3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
    4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
    5)煽動民族仇恨、民族歧視,破壞民族團結(jié);
    6)破壞國家宗教政策,宣揚邪教和封建迷信;
    7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
    8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
    9)煽動非法集會、結(jié)社、游行、示威、聚眾擾亂社會秩序;
    10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權(quán)益;
    11)通過網(wǎng)絡(luò)以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網(wǎng)絡(luò)欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法規(guī)禁止的其他內(nèi)容;


2. 不友善:不尊重用戶及其所貢獻內(nèi)容的信息或行為。主要表現(xiàn)為:
    1)輕蔑:貶低、輕視他人及其勞動成果;
    2)誹謗:捏造、散布虛假事實,損害他人名譽;
    3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
    4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應(yīng),蓄意制造事端;
    5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
    6)謾罵:以不文明的語言對他人進行負面評價;
    7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
    8)威脅:許諾以不良的后果來迫使他人服從自己的意志;


3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內(nèi)容,或進行相關(guān)行為。主要表現(xiàn)為:
    1)多次發(fā)布包含售賣產(chǎn)品、提供服務(wù)、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
    2)單個帳號多次發(fā)布包含垃圾廣告的內(nèi)容;
    3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
    4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點擊鏈接
    5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當(dāng)曝光;
    6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
    7)發(fā)布包含欺騙性的惡意營銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進行惡意營銷;
    8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。


4. 色情低俗信息,主要表現(xiàn)為:
    1)包含自己或他人性經(jīng)驗的細節(jié)描述或露骨的感受描述;
    2)涉及色情段子、兩性笑話的低俗內(nèi)容;
    3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
    4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
    5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
    6)炒作緋聞、丑聞、劣跡等;
    7)宣揚低俗、庸俗、媚俗內(nèi)容。


5. 不實信息,主要表現(xiàn)為:
    1)可能存在事實性錯誤或者造謠等內(nèi)容;
    2)存在事實夸大、偽造虛假經(jīng)歷等誤導(dǎo)他人的內(nèi)容;
    3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構(gòu)或個人存在關(guān)聯(lián)。


6. 傳播封建迷信,主要表現(xiàn)為:
    1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治病;
    2)求推薦算命看相大師;
    3)針對具體風(fēng)水等問題進行求助或咨詢;
    4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;


7. 文章標(biāo)題黨,主要表現(xiàn)為:
    1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導(dǎo)用戶;
    2)內(nèi)容與標(biāo)題之間存在嚴(yán)重不實或者原意扭曲;
    3)使用夸張標(biāo)題,內(nèi)容與標(biāo)題嚴(yán)重不符的。


8.「飯圈」亂象行為,主要表現(xiàn)為:
    1)誘導(dǎo)未成年人應(yīng)援集資、高額消費、投票打榜
    2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
    3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
    4)以號召粉絲、雇用網(wǎng)絡(luò)水軍、「養(yǎng)號」形式刷量控評等行為
    5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序


9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
    1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導(dǎo)未成年人不良嗜好影響未成年人身心健康的;
    2)不當(dāng)評述自然災(zāi)害、重大事故等災(zāi)難的;
    3)美化、粉飾侵略戰(zhàn)爭行為的;
    4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡(luò)生態(tài)造成不良影響的其他內(nèi)容。


二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當(dāng)一個用戶發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴(yán)重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當(dāng)涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將加重處罰。


三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)

我知道了
恭喜你~答對了
+5羽毛
下一次認真讀哦
成功推薦給其他人
+ 10羽毛
評論成功且進入審核!審核通過后,您將獲得10羽毛的獎勵。分享本文章給好友閱讀最高再得15羽毛~
(羽毛可至 "羽毛精選" 兌換禮品)
好友微信掃一掃
復(fù)制鏈接