您現(xiàn)在的位置:首頁 > 背景提升 > 博雅計劃:密集項目:人工智能與數(shù)據(jù)科學(xué)專題: AlphaGo的算法原理:強化學(xué)習(xí)與圖神經(jīng)網(wǎng)絡(luò)(GNN)研究【大學(xué)組】
驗證碼

獲取驗證碼

博雅計劃—博雅計劃:密集項目:人工智能與數(shù)據(jù)科學(xué)專題: AlphaGo的算法原理:強化學(xué)習(xí)與圖神經(jīng)網(wǎng)絡(luò)(GNN)研究【大學(xué)組】

開始日期:

2023年7月8日

專業(yè)方向:

計算機與人工智能

導(dǎo)師:

Pietro (劍橋大學(xué) University of Cambridge 終身正教授)

課程周期:

4周在線小組科研+2周論文指導(dǎo)

語言:

英文

建議學(xué)生年級:

大學(xué)生


項目產(chǎn)出:

4周在線小組科研學(xué)習(xí)+2周論文指導(dǎo)學(xué)習(xí) 學(xué)術(shù)報告 EI/CPCI/Scopus/ProQuest/Crossref/EBSCO或同等級別索引國際會議全文投遞與發(fā)表指導(dǎo)(共同一作) 結(jié)業(yè)證書 成績單


項目介紹:

項目內(nèi)容涉及強化學(xué)習(xí)核心理論和技能,具體包括遺傳算法、強化學(xué)習(xí)框架、Q-learning、行動者-批評(actor-critic;AC)模型、馬爾可夫決策過程、優(yōu)化控制、圖神經(jīng)網(wǎng)絡(luò)(graph neural networks; GNN)、自動機器學(xué)習(xí)(Auto ML)等。學(xué)生通過項目了解如何開發(fā)基于強化學(xué)習(xí)的生產(chǎn)力軟件,在結(jié)束時提交項目個性化研究課題報告,進行成果展示。 個性化研究課題參考: 強化學(xué)習(xí)在博弈論中的應(yīng)用:類alpha算法開發(fā) 利用經(jīng)驗留存解決強化學(xué)習(xí)所需樣本太多問題的可行性分析 強化學(xué)習(xí)中的機器獎勵設(shè)置方法迭代 為強化學(xué)習(xí)過擬合的特定場景重新建模的自動過程研究 具有精確尺度估計的動作-評價網(wǎng)絡(luò)結(jié)構(gòu)與強化學(xué)習(xí)優(yōu)勢函數(shù)

更多課程分類
驗證碼

獲取驗證碼