马氏决策理论与应用第五讲

讲师风采
刘克
中国科学院数学与系统科学研究院应用数学所研究员
讲师简介:
刘克,中国科学院数学与系统科学研究院应用数学所研究员。
视频简介:
马尔可夫是彼得堡数学学派的代表人物,以数论和概率论方面的工作著称。马尔可夫决策过程是基于马尔可夫过程理论的随机动态系统的最优决策过程。马尔可夫决策过程是序贯决策的主要研究领域。它是马尔可夫过程与确定性的动态规划相结合的产物,故又称马尔可夫型随机动态规划,属于运筹学中数学规划的一个分支。马尔可夫决策过程是指决策者周期地或连续地观察具有马尔可夫性的随机动态系统,序贯地作出决策。即根据每个时刻观察到的状……
发布评论
全部评论
段落信息
在给定了一个策略,给定了一个初始分布时,可以诱导出一个二元的随机过程。当有了这个随机过程之后,可以根据这个随机过程定义一个随机变量序列,这样一个随机变量的序列就是一个随机过程。对于这个报酬过程,我们可以定义一个效用函数。从初始状态i∈S出发并且使用策略π∈∏,用υ(i,π)表示其效用函数。在马氏决策过程的理论研究中,最优策略的存在性问题和寻找最优策略的算法问题是最重要的研究课题。
全文文稿

收藏说明: