- 關(guān)于我們
- 針對假冒留學(xué)監(jiān)理網(wǎng)的聲明
- 留學(xué)熱線:4000-315-285
留學(xué)中介口碑查詢
開始日期:
2023年7月8日
專業(yè)方向:
計算機(jī)與人工智能
導(dǎo)師:
Pietro (劍橋大學(xué) University of Cambridge 終身正教授)
課程周期:
2周專業(yè)預(yù)修+2周在線科研+2周線下面授
語言:
英文
建議學(xué)生年級:
大學(xué)生 高中生
項(xiàng)目產(chǎn)出:
2周專業(yè)預(yù)修+2周在線科研+2周深入面授科研與實(shí)驗(yàn)室Workshop 與諾貝爾獎得主交流機(jī)會 學(xué)術(shù)報告 優(yōu)秀學(xué)員獲主導(dǎo)師Reference Letter EI/CPCI/Scopus/ProQuest/Crossref/EBSCO或同等級別索引國際會議全文投遞與發(fā)表指導(dǎo)(共同一作或獨(dú)立一作可選) 結(jié)業(yè)證書 成績單
項(xiàng)目介紹:
項(xiàng)目內(nèi)容涉及強(qiáng)化學(xué)習(xí)核心理論和技能,具體包括遺傳算法、強(qiáng)化學(xué)習(xí)框架、Q-learning、行動者-批評(actor-critic;AC)模型、馬爾可夫決策過程、優(yōu)化控制、圖神經(jīng)網(wǎng)絡(luò)(graph neural networks; GNN)、自動機(jī)器學(xué)習(xí)(Auto ML)等。學(xué)生通過項(xiàng)目了解如何開發(fā)基于強(qiáng)化學(xué)習(xí)的生產(chǎn)力軟件,在結(jié)束時提交項(xiàng)目個性化研究課題報告,進(jìn)行成果展示。 個性化研究課題參考: 強(qiáng)化學(xué)習(xí)在博弈論中的應(yīng)用:類alpha算法開發(fā) 利用經(jīng)驗(yàn)留存解決強(qiáng)化學(xué)習(xí)所需樣本太多問題的可行性分析 強(qiáng)化學(xué)習(xí)中的機(jī)器獎勵設(shè)置方法迭代 為強(qiáng)化學(xué)習(xí)過擬合的特定場景重新建模的自動過程研究 具有精確尺度估計的動作-評價網(wǎng)絡(luò)結(jié)構(gòu)與強(qiáng)化學(xué)習(xí)優(yōu)勢函數(shù) 學(xué)生將進(jìn)入到世界知名學(xué)府-劍橋大學(xué),在為期兩周的實(shí)地科研學(xué)習(xí)中與教授、Teaching Fellow面對面交流,在實(shí)驗(yàn)室中將理論與實(shí)踐結(jié)合,沉浸式感受濃厚的學(xué)術(shù)氛圍。用餐在校內(nèi)食堂、住宿在學(xué)校宿舍中、生活在美麗、靜謐的校園內(nèi),學(xué)生將真正零距離體驗(yàn)名校文化與生活方式。 The content of the project involves the core theories and skills of reinforcement learning, including genetic algorithm, reinforcement learning framework, Q-learning, actor-critic (AC) model, Markov decision process, optimal control, graph neural networks (GNN), automatic machine learning (Auto ML), etc. Students learn how to develop productivity software based on reinforcement learning through the project, and submit a personalized research project report at the end of the project to display the results. Personalization research topic reference: application of reinforcement learning in game theory: feasibility analysis of using experience retention to solve the problem of too many samples required for reinforcement learning in the development of alpha-like algorithm; automatic process research of re-modeling for specific scenes that reinforcement learning is over-fitted by iterative machine reward setting method in reinforcement learning; action-evaluation network structure with accurate scale estimation and reinforcement learning advantage function