“知识图谱+”系列：知识图谱+强化学习_图强化学习-程序员宅基地

泽宇个人一直认为强化学习是建模动态系统最好的方法之一，通过与环境的不断交互，在动作选择和状态更新的动态过程中逐渐达到优化目标。因此，本期泽宇将从知识图谱结合强化学习的角度介绍几个不同的研究方向的内容，包括知识图谱推理、自动驾驶、时序推理、对话式问答系统和推荐系统。

1 知识图谱推理

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning. EMNLP 2017.

Wenhan Xiong, Thien Hoang, and William Yang Wang

核心贡献：这篇论文是最早将强化学习应用于知识图谱推理的研究。由于基于路径的知识图谱推理需要在知识图谱中找到能够从头实体走到尾实体的一条多跳路径，这个路径搜索的过程就可以看成是一个马尔可夫决策过程，因此很自然的可以想到用强化学习来建模这个马尔可夫决策过程。这篇论文通过巧妙的设计了一个奖励函数，保证在知识图谱推理中能够同时考虑精度、多样性和效率。

这个任务简单来说可以看成是一个简单的问答系统，给定一个实体和关系，智能体在不断交互中从知识图谱中找到一条连通给定实体和答案实体的路径，且这条路径能够很好的表示给定的关系。

了解强化学习基本概念的朋友应该知道，强化学习具体的方法主要有深度Q网络（DQN）和基于策略梯度的方法（Policy-based），其中基于策略梯度的方法更满足知识图谱路径搜索的任务要求，而基于策略梯度的方法最核心的几个组成部分包括：环境、动作（Actions）、状态（States）、奖励（Rewards）、策略网络（Policy Network）。接下来，针对这篇论文分别介绍这几个部分对应的内容。

环境：整个知识图谱就是强化学习任务中的环境，需要从知识图谱中找到满足目标的路径。

动作：所有的关系组成动作空间，每一步智能体选择“下一步走向何方”其实就是在选择当前实体关联的哪一个关系。

状态：智能体的状态就是智能体当前在知识图谱中所处的位置，状态向量包括当前实体embedding和当前实体与目标实体embedding的距离。

奖励：奖励可以评价当前所处状态的质量，这篇论文中用三种评价指标来定义奖励，包括：

全局精度：站在全局的角度来看，如果智能体走到这一步之后的路径能否到达目标实体。

路径效率：通过观察发现短路径比长路径更加可靠，因此可以用路径的长度来衡量推理效率。

路径多样性：为了让每一次训练选择的路径能够更加多样，而不是重复选择到之前已经走过的路径，定义当前路径与已存在路径之间的多样性。

策略网络：这里策略网络的设计就是一个两层的全连接网络，将当前状态向量映射为可能动作的分布概率。

训练过程中，为了加速强化学习的收敛，类似于AlphaGo，这篇论文也采用了广度优先搜索学习有监督的策略，然后用蒙特卡洛策略梯度更新参数，更多的训练细节详见论文。

之后也有一些研究在这篇论文的基础上进行了改进，总体框架都是一样的，知识加入了一些训练策略，例如action drupout和reward shaping，可以增加动作选择的多样性和提供更有效的奖励函数。此外，还有一些在强化学习的基础上引入逻辑规则来引导路径的搜索。

2 自动驾驶

Reinforcement Learning for Autonomous Driving with Latent State Inference and Spatial-Temporal Relationships. ICRA 2021.

Xiaobai Ma, Jiachen Li, Mykel J. Kochenderfer, David Isele, Kikuo Fujimura

核心贡献：这篇论文发表在机器人顶会ICRA，研究了在自动驾驶领域，驾驶员会受到周围车辆的影响的现实情况，通过对驾驶员隐状态中编码先验知识来优化强化学习，并结合周围车辆构建知识图谱进一步采用基于图神经网络的图表示学习方法来更新驾驶员的隐状态，在自动导航任务中加速强化学习的过程。

对应强化学习过程中的几个概念，本研究分别定义：

状态：这里特别的是定义了一个联合状态，包括进入或离开环境的每个车辆自身的位置和速度，及每个车辆邻域车辆信息的表示。

观测值：每个车辆自身状态叠加一个高斯噪声组成观测值。

动作：控制车辆自身速度的选择空间。

转移：车辆自身是通过一个PD控制器跟踪期望的速度来实现轨迹控制。

奖励：奖励函数由任务完成是否完成的打分和速度组成，目标是在尽量快的速度下完成车辆右转。

这里特别的是，论文中将建模时间序列模型的LSTM和图表示学习中的GraphSAGE结合，实现对于动态车辆及周围邻域车辆状态的表示学习，顶层LSTM网络的输出就是动作分布，这个时空GNN网络结构在整个模型的策略网络和隐式推理中都会用到。

3 时序推理

Search from History and Reason for Future: Two-stage Reasoning on Temporal KnowledgeGraphs. ACL 2021.

Zixuan Li, Xiaolong Jin, Saiping Guan, Wei Li, Jiafeng Guo, Yuanzhuo Wang, Xueqi Cheng

核心贡献：这篇论文研究了动态知识图谱的时序推理。通过设计了包含线索搜索和时序推理的两阶段模式，预测未来将发生的事件。在线索搜索阶段，通过强化学习来训练一个集束搜索策略，以从历史事件中推断多条线索。在时序推理阶段，使用基于GCN的时序模型从线索中推理答案。

这里我们重点讨论基于强化学习的线索搜索部分，对应强化学习过程中的几个概念，本研究分别定义：

环境：整个知识图谱就是强化学习任务中的环境。

状态：智能体的状态是一个五元组，其中包含给定需要查询的头实体、关系、时间点和智能体当前到达的实体和时间点。

时间约束的动作：与静态知识图谱不同，动态知识图谱中的时间维度会极大的增加动作空间的规模，并且人类记忆集中在最近的一段时间内。因此，这里动作定义为在智能体当前到达的实体，一段时间区间内的能够到达的（实体，关系，时间点）组成的三元组。

转移：智能体通过动作选择从当前状态更新到新的实体。

奖励：奖励由评价是否达到正确的尾实体的二值奖励和在阶段二中得到的实值奖励组成。

策略网络包括：

编码线索路径的LSTM网络。
计算动作分布的多层感知器。

论文中介绍的随机集束搜索策略和时序推理部分可以详见论文。

4 对话式问答系统

Reinforcement Learning from Reformulations in Conversational Question Answering over Knowledge Graphs. SIGIR 2021

Magdalena Kaiser, Rishiraj Saha Roy, Gerhard Weikum

核心贡献：类似于多轮对话系统，这篇论文研究了对话式问答。利用强化学习从提问和复述的对话流中学习有效信息以从知识图谱中找到正确的答案。论文中设计的模型通过将回答的过程建模为在知识图谱中多个智能体并行游走，如何游走通过策略网络选择的动作决定，策略网络的输入包括对话上下文和知识图谱中的路径。

对应强化学习过程中的几个概念，本研究分别定义：

状态：第t轮的问句表示+之前对话的一个子集作为上下文问句+上下文实体中的其中一个作为智能体出发的起始点。

动作：从当前实体出发的所有路径，每条路径到达的end point实体都是候选答案。

转移：转移函数将状态更新为智能体到达的end point实体。

奖励：奖励函数为二值奖励，如果用户下一次说的是一个新的问题，说明模型给出的回答解决了用户的问题给正向奖励，如果用户下一次说的是相近意图的复述内容，说明没有回答用户的问题给负向奖励。

这篇论文中采用策略梯度训练强化学习模型，由于这个模型中涉及多智能体，动作选择是从每个智能体选择top-k个动作。多个智能体都可能得到候选答案，按照被智能体选择为候选答案的次数对实体进行排序，排名最高的实体为预测的答案。

5 推荐系统

Interactive Recommender System via Knowledge Graph-enhanced Reinforcement Learning. Arxiv 2021.

Sijin Zhou, Xinyi Dai, Haokun Chen, Weinan Zhang, Kan Ren, Ruiming Tang, Xiuqiang He, Yong Yu

核心贡献：这篇论文研究了能够和用户交互的推荐系统。为了处理用户的兴趣变化和逐渐积累的项目，将交互式推荐看成一个决策制定和长期规划的马尔科夫决策问题，就可以将强化学习引入交互式推荐系统。然而强化学习的训练效率较低，为了解决这一问题，利用知识图谱中项目相关的先验知识来指导候选推荐项的选择。

对应强化学习过程中的几个概念，本研究分别定义：

状态：当前项目及其多跳邻域组成的子图。

动作：接下来选择推荐的项目。

转移：转移函数将状态更新为智能体到达的end point实体。

奖励：对于系统传递给用户的推荐项目，根据用户的反馈是“点击”，“购买”还是“跳过”来给定奖励。

由于在强化学习中，状态的表示是非常关键的，这篇论文中提出一个知识图谱增强的状态表示机制。其中，将已经点击的项目转换为embedding表示，并利用GCN对项目在知识图谱中的邻域信息进行聚合更新项目的embedding，得到邻域表示。

进一步，为了编码对用户的观测信息，采用GRU聚合用户的历史行为并蒸馏用户的状态表示，其中得到的当前用户状态的表示可以输入Q网络中。

此外，论文中提出了的一个基于邻域的候选选择机制，从已点击项目在知识图谱中多跳邻域中选择候选推荐项目，可以利用知识图谱提供的语义相关性有效缩小动作空间的大小，便于提高模型的计算效率。

这篇论文采用DQN来学习最优策略，训练整个强化学习模型。

从以上几个不同领域的研究内容可以发现，只要是需要和环境交互的动态系统，都有可能通过强化学习的方法来进行建模，知识图谱不仅可以是强化学习的对象例如知识图谱推理，也可能为强化学习的状态和动作选择提供语义信息得到更好的表示来优化强化学习的过程。

以上就是本期所有对于知识图谱+强化学习的学习分享了。所有内容都是泽宇经过调研和学习理解总结的，之后还会陆续分享知识图谱+各类方向的技术介绍，如果大家有对某个方向感兴趣的可以联系泽宇，敬请关注啊。

往期精选：

“知识图谱+”系列：知识图谱+图神经网络

年末巨制：知识图谱嵌入方法研究总结

介绍一些知识图谱的实际应用类项目

知识图谱最新权威综述论文解读：知识表示学习部分

手把手教你搭建一个中式菜谱知识图谱可视化系统

如果对文章感兴趣欢迎关注知乎专栏“人工智能遇上知识图谱“，也可以扫描下方二维码关注同名微信公众号“人工智能遇上知识图谱”，让我们一起学习并交流讨论人工智能与知识图谱技术。

本文链接：https://blog.csdn.net/ngl567/article/details/118390949

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

Maven编译打包项目 mvn clean install报错ERROR_mvn clean install有errors-程序员宅基地

文章浏览阅读1.1k次。在项目的target文件夹下把之前"mvn clean package"生成的压缩包(我的是jar包)删掉重新执行"mvn clean package"再执行"mvn clean install"即可_mvn clean install有errors

navacate连接不上mysql_navicat连接mysql失败怎么办-程序员宅基地

文章浏览阅读974次。Navicat连接mysql数据库时，不断报1405错误，下面是针对这个的解决办法：MySQL服务器正在运行，停止它。如果是作为Windows服务运行的服务器，进入计算机管理--->服务和应用程序------>服务。如果服务器不是作为服务而运行的，可能需要使用任务管理器来强制停止它。创建1个文本文件(此处命名为mysql-init.txt)，并将下述命令置于单一行中：SET PASSW..._nvarchar链接不上数据库

Python的requests参数及方法_python requests 参数-程序员宅基地

文章浏览阅读2.2k次。Python的requests模块是一个常用的HTTP库，用于发送HTTP请求和处理响应。_python requests 参数

近5年典型的的APT攻击事件_2010谷歌网络被极光黑客攻击-程序员宅基地

文章浏览阅读2.7w次，点赞7次，收藏50次。APT攻击APT攻击是近几年来出现的一种高级攻击，具有难检测、持续时间长和攻击目标明确等特征。本文中，整理了近年来比较典型的几个APT攻击，并其攻击过程做了分析（为了加深自己对APT攻击的理解和学习）Google极光攻击2010年的Google Aurora(极光)攻击是一个十分著名的APT攻击。Google的一名雇员点击即时消息中的一条恶意链接，引发了一系列事件导致这个搜_2010谷歌网络被极光黑客攻击

Android 开发的现状及发展前景_android现状-程序员宅基地

文章浏览阅读8.8k次，点赞3次，收藏31次。在几年前的时候，曾听过很多人说 Android 学习很简单，做个App就上手了，工作机会多，毕业后也比较容易找工作。这种观点可能是很多Android开发者最开始入行的原因之一。在工作初期，工作主要是按照业务需求实现App页面的功能，按照设计师的设计稿实现页面的效果。在实现的过程中，总是会被提如下的需求：这个字能不能大点或者醒目点儿?感觉颜色和设计稿有差别，能不能再调调?怎么老是崩溃啊，行不行啊?…所以，工作过一、两年后你会发现，自己每天重复工作内容就是将找各种各样的组件、框架，拖拖拽拽，改_android现状

php获取当月天数及当月第一天及最后一天、上月第一天及最后一天实现方法_php 判断是否月最后一天取上月月份-程序员宅基地

文章浏览阅读274次。在做查询过程中,例如要实现查上个月从第一天到最后一天的佣金(提成),那我们在程序实现过程中就要让程序在上个月的范围内查询,第一天是比较好办,但最后一天就不定,要去写段函数进行月份及年份判断来得出上个月共有多少天.那就比麻烦,还有获取当前月份,当前年份等常规日期获取函数,以下代码都是经过本公司工程师测试后的正确代码,可以放心使用. 1.获取上个月第一天及最后一天. echo date('_php 判断是否月最后一天取上月月份

随便推点

uploadify2.1.4如何能使按钮显示中文-程序员宅基地

文章浏览阅读48次。uploadify2.1.4如何能使按钮显示中文博客分类：uploadify网上关于这段话的搜索恐怕是太多了。方法多也试过了不知怎么，反正不行。最终自己想办法给解决了。当然首先还是要有fla源码。直接去管网就可以下载。[url]http://www.uploadify.com/wp-content/uploads/uploadify-v2.1.4...

戴尔服务器安装VMware ESXI6.7.0教程（U盘安装）_vmware-vcsa-all-6.7.0-8169922.iso-程序员宅基地

文章浏览阅读9.6k次，点赞5次，收藏36次。戴尔服务器安装VMware ESXI6.7.0教程（U盘安装）一、前期准备1、下载镜像下载esxi6.7镜像：VMware-VMvisor-Installer-6.7.0-8169922.x86_64.iso这里推荐到戴尔官网下载，Baidu搜索“戴尔驱动下载”，选择进入官网，根据提示输入服务器型号搜索适用于该型号服务器的所有驱动下一步选择具体类型的驱动选择一项下载即可待下载完成后打开软碟通（UItraISO），在“文件”选项中打开刚才下载好的镜像文件然后选择启动_vmware-vcsa-all-6.7.0-8169922.iso