当前位置:文档之家› 计算机科学与技术导论学习报告

计算机科学与技术导论学习报告

计算机科学与技术导论学习报告经过这一学期的学习,计算机科学与技术这门课使我受益匪浅,课上所讲授的有关计算机的发展方向与应用前景给了我很大的震撼与憧憬。

其中印象尤为深刻的,是有关图像处理,网络搜索引擎,信息复原和信息安全,算法实现这些课程。

而在这当中对我来说吸引力最大的是李庆老师的算法实现这节课。

在从众多老师的授课中多次提到了2016年上半年的阿尔法狗战胜李世石事件,李庆老师则是较多的为我们介绍了其中涉及到的算法原理。

我个人对此很感兴趣,因而对此做了一个粗浅的了解。

阿尔法狗是谷歌旗下的DeepMind项目的成果,在与李世石一战成名之后,它的先进的AI技术得到了广泛的关注,在社会上也掀起了新一轮关于AI的讨论热潮。

曾经有这样一种说法:围棋是人类对抗人工智能的最后一块阵地。

这种说法的产生是由于围棋的棋盘变化极多(状态复杂度约为10^170),因此曾经的单纯依靠概率计算的AI始终攻克不了围棋这座难关(如五子棋就被证明先手必赢)。

但阿尔法狗成功地战胜了前世界围棋第一李世石,这确实AI发展上的一大历史性事件。

DeepMind团队使用了从上个世纪90年代兴起的“深度卷积神经网络”技术,在获得了大量的围棋对战样本后,DeepMind团队编写了可以模拟人类棋手的策略函数P_human,给定某个棋局状态s,它可以计算出人类选手可能在棋盘上落子的概率分布a = P_human(s),利用这个函数已经初步可以达到人类棋手业余六段的水平,但距离围棋顶尖水平还很远。

因此DeepMind团队结合了当时世界上最好的围棋AI:CrazyStone的算法:蒙特卡洛搜索树(Monte-Carlo Tree Search)。

该算法可以实现AI的自我博弈,同时可以对博弈样本进行最优化分析。

利用P_human来优化CrazyStone使蒙特卡洛搜索树(Monte-Carlo Tree Search)得评估优化效率提高。

在此后的研发中为了提高速度又开发出了P_ human_Plus
函数作为P_human函数在中场的补充。

在AI的不断对弈中得到了海量的对局样本,通过v(s)函数对这些样本进行胜率统计,最后再为了确保不陷入定势,引入了L+1步产生随机步数的机制。

至此,阿尔法狗就已经搭建完毕。

阿尔法狗的出现是AI的一次重大突波,其中的自我学习机制更是打破了传统AI的固有算法。

我希望通过这几年的学习,有一天也可以做出如此牛的作品。

相关主题