您現(xiàn)在的位置:首頁 > 背景提升 > 人工智能 強化學習與推薦系統(tǒng)專題: 隨機過程、強化學習前沿AI算法在Tik Tok智能推薦內容等推薦系統(tǒng)中的應用 【大學組】
驗證碼

獲取驗證碼

人工智能 強化學習與推薦系統(tǒng)專題: 隨機過程、強化學習前沿AI算法在Tik Tok智能推薦內容等推薦系統(tǒng)中的應用 【大學組】

專業(yè):人工智能

項目類型:國外小組科研

開始時間:2024年11月23日

是否可加論文:是

項目周期:7周在線小組科研學習+5周不限時論文指導學習

語言:英文

有無剩余名額:名額充足

建議學生年級:大學生

是否必需面試:否

適合專業(yè):軟件工程機器學習數(shù)據(jù)科學數(shù)據(jù)分析深度學習數(shù)據(jù)工程推薦系統(tǒng)

地點:無

建議選修:Python數(shù)據(jù)處理及其數(shù)學原理

建議具備的基礎:人工智能、數(shù)據(jù)科學、統(tǒng)計學等專業(yè)學生; 學生需要具備微積分、概率論與數(shù)理統(tǒng)計基礎,同時會使用Python編程語言;

產出:7周在線小組科研學習+5周不限時論文指導學習 共125課時 項目報告 優(yōu)秀學員獲主導師Reference Letter EI/CPCI/Scopus/ProQuest/Crossref/EBSCO或同等級別索引國際會議全文投遞與發(fā)表指導(可用于申請) 結業(yè)證書 成績單

項目背景: 一個賭徒面前有N個賭博機,事先他不知道每臺賭博機的真實盈利情況,他應該如何根據(jù)機器的操作結果做出反應,來使自身的收益最大化呢?——這個假設便是著名的“多臂強盜”問題的名字來源。實際上在機器學習被應用的領域當中,時時刻刻也都存在著這樣的選擇與決策情景:一個品牌針對其商品有著多款廣告宣傳,但不知道每一個用戶對于每一種廣告的接受程度;在投資中我們可能會面臨多個項目,但并無法確認每個項目的具體回報率;亦或是在線零售商如何在不完全了解需求信息的背景下進行實時動態(tài)定價……

項目介紹:“多臂強盜”問題是概率論中的一個經(jīng)典問題,亦是深度強化學習中的重要模塊。人們針對解決此類不確定性序列決策問題,提出了“多臂強盜”算法框架(Multi-Armed Bandits,簡稱MAB,中文又譯作“多臂老虎機”)。近年來這一算法框架因優(yōu)異的性能和較少的反饋學習等優(yōu)點,在推薦系統(tǒng)、信息檢索到醫(yī)療保健和金融投資等諸多應用領域中受到了廣泛關注。本課題正是以此框架為核心內容,學生將在參與的過程中深入了解算法的基礎模型及應用,將認識到被廣泛使用的上置信界算法(Upper Confidence Bound,簡稱UCB)及湯普森采樣算法(Thompson Sampling Algorithms)。導師還將講授自身在該領域的最新研究成果。

This is an introductory course on multi-armed bandits, which provides a sequential decision-making framework under uncertainty and has broad applications in recommendation systems, dynamic pricing, clinical trials, financial investments, etc. We will cover the classical multi-armed bandit model and its applications, several widely used algorithms proposed for its solution including the Explore-Then-Commit (ETC), Upper Confidence Bound (UCB) and Thompson Sampling (TS) Algorithms, performance analysis of these algorithms, and conclude the lectures with the recent work of the instructor on correlated and structured bandits.

項目大綱:多臂老虎機問題的基礎介紹 Introduction to Multi-armed Bandits 隨機多臂老虎機模型 Stochastic Multi-armed Bandits 上置信界(UCB)算法 The Upper Confidence Bound (UCB) Algorithm 貝葉斯強盜策略與湯普森采樣算法 Bayesian Bandits and Thompson Sampling (TS) 算法應用于實施,算法性能分析 Algorithm implementation, performance analysis 多臂老虎機算法在推薦系統(tǒng)中的應用 Applications of Bandits in Recommendation Systems 學術研討1:教授與各組學生探討并評估個性化研究課題可行性,幫助學生明晰后續(xù)科研思路 Final Project Preparation Session I 學術研討2:學生將在本周課前完成程序設計原型(prototype)及偽代碼(Pseudocode),教授將根據(jù)各組進度進行個性化指導,確保學生優(yōu)質的終期課題產出 Final Project Preparation Session II 項目成果展示 Final Presentation 論文指導 Project Deliverables Tutoring

更多課程分類
驗證碼

獲取驗證碼