本站讯(记者 赵习钧)天津大学软件学院多智能体与深度强化学习研究团队在与东京大学、日本 AIST 研究所合作研究基础上,首次利用深度强化学习方法来检测信息物理系统模型中的缺陷,合作研究论文被国际软件工程形式化领域顶级学术会议FM2018(International Symposium on Formal Methods)采用。

随着第一个战胜围棋世界冠军的人工智能程序——阿尔法狗的出现,深度强化学习的浪潮在世界范围内掀起,国内外众多科研机构和高校科研团队纷纷投入其中。深度强化学习方法在游戏、智能机器人控制等领域取得了不错的成效,如星际争霸游戏研发、机器人Atlas等。
与此同时,承载着物联网、智能家居、机器人、智能导航等新一代智能科技的多维复杂系统——信息物理系统,也逐渐走进人们生活,应用也越来越广泛,但系统的安全性检测一直存在问题。如何更高效更准确地检测出系统缺陷,从而保障系统的稳定性和安全性成为研究人员关注的焦点。

通过数年的深入研究,天津大学的研究人员首次将深度强化学习方法应用于信息物理系统的安全性检测,大大提高了系统安全性检测的成功率,检测效率也得到明显提升。
传统的缺陷检测方法是以鲁棒性(系统稳定性)为导向,采取随机全局优化的算法,来达到最小化鲁棒性的目的。传统方法必须要将整个模拟实验完整执行一遍后才能给出反馈,因此在缺陷检测过程中需要大量反复的模拟运行,时间久且无法保证检测效果。
而基于强化学习的信息物理系统模型性质的缺陷检测方法,采用了当下国际上最先进的强化学习技术A3C 和DDQN,来解决信息物理系统模型违反鲁棒性性质的问题。该技术可以观察环境反馈,进行自我优化,及时调整输入行为,以更少次的模拟实验找出系统缺陷。