分享嘉宾:王泉博士百度资深研发工程师
编辑整理:付一韬
出品平台:DataFunTalk
导读:知识图谱是让机器像人类一样理解客观世界的基石。本次报告首先简要介绍知识图谱在百度的位置及整体的发展概况。接下来从通用知识图谱和行业知识图谱两个分支重点介绍百度知识图谱技术及应用的最新进展,另外会介绍两个特殊的知识图谱——事件图谱和视频理解图谱。最后介绍百度知识图谱在技术和数据开放方面的工作。
我们先通过一个非常直观的例子看一下,为什么知识是机器理解世界的一个重要基础。对于上面这张图片,如果机器完全没有任何的背景知识,它其实是很难去理解这张图片背后所表达的含义。但是因为我们人类在智能发展的过程中,是不断的积累知识并去运用知识的,所以说其实如果我们有丰富的背景知识,人类是很容易能够看懂这张图片,它可能描述出刘备、关羽和张飞桃园三结义这样的一个故事。所以从这个直观的例子我们就能很直接的理解到,知识是能够让机器像我们人类一样去理解客观世界的一个重要基础。
上图是知识图谱的一个基本结构。直观来说,知识图谱就是以图的形式来展示知识,节点用来描述客观世界中一些实体或者概念,边用来描述实体和实体之间的关系或者实体的一些属性。通过这种结构化的知识表示形式,知识图谱将存在于客观世界的丰富知识表达成机器能够处理和理解的形式,从而使机器能够像人类一样去认知世界并且做出合理的决策,进而为人类提供更加广泛的智能化服务。
01百度知识图谱上图回顾了百度知识图谱在过去几年的主要工作和发展历程。百度知识图谱可以说是源于搜索,服务搜索,同时随着自身技术的积累和深化,我们用知识图谱技术广泛赋能搜索之外的业务和产品线。
在图谱构建和应用方面,我们大概经历了四个比较大的阶段。第一阶段是年以前的Pre-KG阶段,这个阶段实际上也是学术界和业界知识图谱技术发展的一个初期阶段。当时我们以定制化的模式来生产结构化数据,并应用于百度搜索的知心产品中。第二个阶段是到年,这是我们知识图谱方法论和架构逐渐成型的一个阶段。在这个阶段,我们建立了面向垂类知识图谱构建的架构机制,并且将领域图谱应用于百度搜索的推荐、阿拉丁、智能摘要以及百度的第一代智能助理度秘等重要产品中。第三个阶段是到年。在这个阶段,百度逐渐深化建设通用知识图谱相关的架构、算法和机制。技术聚焦的重点在多领域打通、平台化、外包化的图谱构建,并深化建设了一系列特色的领域知识图谱,比如汉语知识图谱、娱乐知识图谱等。在应用落地方面主要有智能搜索问答以及百度信息流产品中基于知识兴趣点的内容推荐。第四个阶段是近两年,我们逐渐将知识图谱的能力释放出去,并深入探索了一些领域内相对前瞻的问题。这一阶段我们技术建设的重点在多元图谱的异构互联,图谱的主动收录与自学习,多媒体知识、复杂知识以及行业知识的理解构建。应用落地上除了继续在百度的搜索和信息流产品深化支持,还在法律、客服、医疗、金融等行业领域取得了一些突破和进展。值得说明的是我们在今年发布了百度知识中台,实现了规模化的产业落地。截止目前我们在通用和行业图谱数据建设层面累积了50亿实体和亿事实,日均响应亿次请求,知识图谱的服务规模增长了千倍。
这里我们总结一下百度知识图谱的覆盖类目和规模。百度知识图谱覆盖十亿级实体,千亿级事实,涉及类目40多个,是最大规模的中文知识图谱,覆盖人物、影视、音乐、文学、商品、餐饮、旅游、出行等垂类。对于行业知识图谱,我们也有丰富的积累和应用。
接下来我们主要介绍百度知识图谱近两年最新的一些技术和应用情况。
02知识图谱技术及应用前面讲过,随着百度知识图谱的发展,近两年我们技术建设的重点在多元图谱的异构互联,也就是从通用知识图谱出发,逐步去考虑一些更复杂的知识,比如从简单的事实拓展到复杂的事件,同时我们也会考虑一些多媒体、跨媒体的知识。此外,在行业知识方面,我们重点面向医疗、法律、金融、风控等强专业性领域,去构建一站式行业知识图谱的构建、计算和应用平台。
1.通用知识图谱
接下来先介绍最基础的通用知识图谱,也就是开放域海量数据知识图谱的构建和应用。
面向互联网的海量开放信息,我们研发了一套基于主动学习的大规模知识图谱构建方法,主要包括无标签大数据开放知识挖掘、数据驱动的本体自动构建,以及基于多源数据的知识整合。基于这样一系列技术,我们把知识图谱扩大了几个数量级,显著提高了知识图谱的覆盖率和构建效率。
接下来针对三个技术模块进行详细展开。
①关键技术:开放知识挖掘
首先介绍通用知识图谱构建的第一个关键技术——开放知识挖掘。为了实现大规模开放领域的信息抽取,我们基于多维数据分析和语言理解的技术自动获取知识挖掘模板,并通过不断迭代获取新模板、挖掘新知识。另一方面通过远监督的方式自动构建大规模的训练语料,为实体关系判定模型提供高质量的训练数据。
基于结构自注意力网络的富实体篇章级关系判定
这里介绍一个我们最新的且相对偏前瞻的工作。对于实体关系判定,早期我们的做法是给定一个句子,再标注两个实体之后,去判断这两个实体之间是怎样的关系。随着我们研究和应用的深入,我们可能会去处理一些更复杂的输入形式,比如在篇章级文本以及非常丰富的实体场景之下做关系的判定。这个是我们最新的一个工作。我们考虑到实体提及之间可能存在丰富的语义关联,比如最简单的共指,这些语义关联对我们进行实体之间关系判定是非常具有指导意义的。所以我们设计了一种结构自注意力机制去建模实体提及之间的语义关联,从而提升关系判定的准确率。我们这个最新的工作被AAAI录取。
②关键技术:知识自学习
通用知识图谱构建的另一关键技术是知识的自学习。我们建立了一套自顶向下和自底向上相结合的图谱构建驱动模式。所谓自顶向下是一直以来图谱构建的传统模式,也就是说它的schema是全人工构建,非常的准确,专业,且完备性也比较高。这种模式适合于知识图谱建设初期所面临的头部垂类数据的构建,它要求领域的专业知识,成本较高,对于中长尾的知识收录是比较困难的。而自底向上模式则是将知识体系的自动发现和开放知识挖掘相结合,从海量数据中自动学习元知识,它比较适用于通用域下的大规模图谱构建。
在百度是通过自底向上和自顶向下两者相结合的方式,去做知识体系的自学习。通过这种方式,我们知识图谱的schema规模增长了30倍,基于搜索需求的事实覆盖率提升了两倍。
③关键技术:基于多源数据的知识融合
通用知识图谱构建最后一个关键技术是基于多源数据的知识整合。面对开放领域数十亿规模的实体,我们通过基于语义空间变换的实体消歧和实体归一的技术,实现多源开放域大规模实体的归一融合,从而去解决知识表示形式多样、关联融合困难的问题。
④关键技术:知识图谱问答
百度知识图谱最重要的应用之一是搜索问答,针对这个应用我们有一个非常关键的技术,知识图谱问答。实际上,用户在搜索引擎上输入的查询问题类型非常多样,表达形式也是千变万化。有些问题是直接围绕实体进行相关的查询,比如“张柏芝的身高”,“魔兽世界上映时间”等等。有些问题的答案是存在于网页或者知识库里面,比如“形容不会说话的成语”。还有一些问题可能需要进行更进一步的推理和计算才能得到,比如“Zippo能否带上飞机”,“谢霆锋的儿子的妈妈的身高”等等。这些问题比较长尾,但是它确实也存在。为了同时满足这些不同问题类型,我们开发了多方案融合的知识图谱问答技术。
具体来说,对于那些直接围绕实体相关的查询,我们会用一些基于知识库问答(KBQA)的技术进行处理,包括自动挖掘模板进行语义解析,进行文法和语义端到端子图匹配等等。对于答案存在于网页或知识库里面的问题,我们采用IRQA的方式,使用阅读理解的方式从现有网页里自动挖掘答案。最后对于需要进行推理计算的问题,我们基于动态函数计算、规则逻辑推理等方式进行处理。也就是说我们针对不同问题类型,研发适用的问答技术方案。
⑤知识增强的机器阅读理解
这里再给大家介绍一个我们在机器阅读理解方向相对偏前瞻性的工作,知识增强的机器阅读理解。
简单介绍一下机器阅读理解的任务形式。所谓机器阅读理解,即给定一个问题或查询(question或query),比如“人在囧途是谁的代表作?”,同时给定相应的段落(passage或paragraph),在段落中找到问题的答案。
传统基于文本的阅读理解模型,能够捕捉到答案类型和一些局部的模式,但是对于比较难的问题,尤其是当段落中包含多个相同类型的候选答案时,仍然容易犯错。比如在上图例子里,给定段落“李卫的扮演者徐峥,他的代表作品:泰囧、港囧、疯狂的石头、人在囧途”,提问“人在囧途是谁的代表作?”,如果仅仅基于文本表示,模型很可能会给出错误答案“李卫”。但如果能提供一些背景知识,比如知道徐峥是演员、毕业于哪儿、他的一些代表作等等,是能够很快判断出答案是“徐峥”而不是“李卫”。所以,我们将图谱里面的知识用起来,辅助机器能够更好地做阅读理解任务。
上图展示了我们在知识增强的机器阅读理解任务上做的相关的一些工作,基本思想都是将知识的表示和文本的表示进行融合后得到一个知识增强的文本表示,然后去更好地做机器阅读理解。实验表明在大部分场景,尤其是知识密集的医疗、法律等行业,直接将知识用起来增强文本理解的任务是非常有效的。
⑥关键技术:知识计算与推理
在我们的搜索引擎中还会面临一些查询,需要进一步知识计算和推理。比如当用户输入“zippo可以带上飞机吗”,智能搜索引擎可以根据“打火机不可以带上飞机”和“zippo是打火机”这两条知识,直接推断出“zippo不能带上飞机“并告诉用户。
⑦知识图谱应用—智能搜索
接下来介绍知识图谱在百度各个核心业务线的应用情况。智能搜索是我们最大最重要的应用,知识图谱最开始起源于搜索,也一直服务于搜索。截止到目前,百度搜索首位满足率已经达到58%,这背后是基于百度最新人工智能技术的推动,其中相当大的一部分是由知识图谱提供的AI能力。基于知识图谱,直接满足用户搜索需求,目前日满足上百亿的检索请求,其中包括各种知识图谱形态的问答卡片,以及对实体的各个维度进行信息聚合展示的卡片。此外还会基于图谱中的实体语义标签或者关系来进行推荐,搜索中用户的延展知识需求也能被极大地激发。
⑧知识图谱应用—智能推荐
知识图谱的另一大应用场景是信息流推荐。基于知识图谱的语义关联,我们构建了大规模