您現(xiàn)在的位置:首頁(yè) > 背景提升 > 數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)專題:“橫行賭場(chǎng)” 基于統(tǒng)計(jì)分析原理的不確定性過(guò)程決策分析,以如何利用算法在“多臂老虎機(jī)”游戲中取勝為例 【大學(xué)組】
驗(yàn)證碼

獲取驗(yàn)證碼

數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)專題:“橫行賭場(chǎng)” 基于統(tǒng)計(jì)分析原理的不確定性過(guò)程決策分析,以如何利用算法在“多臂老虎機(jī)”游戲中取勝為例 【大學(xué)組】

專業(yè):計(jì)算機(jī)科學(xué),自然科學(xué)

項(xiàng)目類型:國(guó)外小組科研

開(kāi)始時(shí)間:2024年11月23日

是否可加論文:是

項(xiàng)目周期:7周在線小組科研學(xué)習(xí)+5周不限時(shí)論文指導(dǎo)學(xué)習(xí)

語(yǔ)言:英文

有無(wú)剩余名額:名額充足

建議學(xué)生年級(jí):大學(xué)生

是否必需面試:否

適合專業(yè):數(shù)據(jù)科學(xué)數(shù)據(jù)分析統(tǒng)計(jì)學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)

地點(diǎn):無(wú)

建議選修:Python數(shù)據(jù)處理及其數(shù)學(xué)原理

建議具備的基礎(chǔ):人工智能、數(shù)據(jù)科學(xué)、統(tǒng)計(jì)學(xué)等專業(yè)學(xué)生 學(xué)生需要具備微積分、概率論與數(shù)理統(tǒng)計(jì)基礎(chǔ),同時(shí)會(huì)使用Python編程語(yǔ)言

產(chǎn)出:7周在線小組科研學(xué)習(xí)+5周不限時(shí)論文指導(dǎo)學(xué)習(xí) 共125課時(shí) 項(xiàng)目報(bào)告 優(yōu)秀學(xué)員獲主導(dǎo)師Reference Letter EI/CPCI/Scopus/ProQuest/Crossref/EBSCO或同等級(jí)別索引國(guó)際會(huì)議全文投遞與發(fā)表指導(dǎo)(可用于申請(qǐng)) 結(jié)業(yè)證書 成績(jī)單

項(xiàng)目背景: 一個(gè)賭徒面前有N個(gè)賭博機(jī),事先他不知道每臺(tái)賭博機(jī)的真實(shí)盈利情況,他應(yīng)該如何根據(jù)機(jī)器的操作結(jié)果做出反應(yīng),來(lái)使自身的收益最大化呢?——這個(gè)假設(shè)便是著名的“多臂強(qiáng)盜”問(wèn)題的名字來(lái)源。實(shí)際上在機(jī)器學(xué)習(xí)被應(yīng)用的領(lǐng)域當(dāng)中,時(shí)時(shí)刻刻也都存在著這樣的選擇與決策情景:一個(gè)品牌針對(duì)其商品有著多款廣告宣傳,但不知道每一個(gè)用戶對(duì)于每一種廣告的接受程度;在投資中我們可能會(huì)面臨多個(gè)項(xiàng)目,但并無(wú)法確認(rèn)每個(gè)項(xiàng)目的具體回報(bào)率;亦或是在線零售商如何在不完全了解需求信息的背景下進(jìn)行實(shí)時(shí)動(dòng)態(tài)定價(jià)……

項(xiàng)目介紹:“多臂強(qiáng)盜”問(wèn)題是概率論中的一個(gè)經(jīng)典問(wèn)題,亦是深度強(qiáng)化學(xué)習(xí)中的重要模塊。人們針對(duì)解決此類不確定性序列決策問(wèn)題,提出了“多臂強(qiáng)盜”算法框架(Multi-Armed Bandits,簡(jiǎn)稱MAB,中文又譯作“多臂老虎機(jī)”)。近年來(lái)這一算法框架因優(yōu)異的性能和較少的反饋學(xué)習(xí)等優(yōu)點(diǎn),在推薦系統(tǒng)、信息檢索到醫(yī)療保健和金融投資等諸多應(yīng)用領(lǐng)域中受到了廣泛關(guān)注。本課題正是以此框架為核心內(nèi)容,學(xué)生將在參與的過(guò)程中深入了解算法的基礎(chǔ)模型及應(yīng)用,將認(rèn)識(shí)到被廣泛使用的上置信界算法(Upper Confidence Bound,簡(jiǎn)稱UCB)及湯普森采樣算法(Thompson Sampling Algorithms)。導(dǎo)師還將講授自身在該領(lǐng)域的最新研究成果。

This is an introductory course on multi-armed bandits, which provides a sequential decision-making framework under uncertainty and has broad applications in recommendation systems, dynamic pricing, clinical trials, financial investments, etc. We will cover the classical multi-armed bandit model and its applications, several widely used algorithms proposed for its solution including the Explore-Then-Commit (ETC), Upper Confidence Bound (UCB) and Thompson Sampling (TS) Algorithms, performance analysis of these algorithms, and conclude the lectures with the recent work of the instructor on correlated and structured bandits.

項(xiàng)目大綱:多臂老虎機(jī)問(wèn)題的基礎(chǔ)介紹 Introduction to Multi-armed Bandits 隨機(jī)多臂老虎機(jī)模型 Stochastic Multi-armed Bandits 上置信界(UCB)算法 The Upper Confidence Bound (UCB) Algorithm 貝葉斯強(qiáng)盜策略與湯普森采樣算法 Bayesian Bandits and Thompson Sampling (TS) 算法應(yīng)用于實(shí)施,算法性能分析 Algorithm implementation, performance analysis 多臂老虎機(jī)算法在推薦系統(tǒng)中的應(yīng)用 Applications of Bandits in Recommendation Systems 學(xué)術(shù)研討1:教授與各組學(xué)生探討并評(píng)估個(gè)性化研究課題可行性,幫助學(xué)生明晰后續(xù)科研思路 Final Project Preparation Session I 學(xué)術(shù)研討2:學(xué)生將在本周課前完成程序設(shè)計(jì)原型(prototype)及偽代碼(Pseudocode),教授將根據(jù)各組進(jìn)度進(jìn)行個(gè)性化指導(dǎo),確保學(xué)生優(yōu)質(zhì)的終期課題產(chǎn)出 Final Project Preparation Session II 項(xiàng)目成果展示 Final Presentation 論文指導(dǎo) Project Deliverables Tutoring

更多課程分類
驗(yàn)證碼

獲取驗(yàn)證碼