行业资讯

聚量观察 | 面对海量数据,谁是抽丝剥茧的侦探

2021.05.14

本期看点 ① 知识图谱:串联“珍珠”的那根线

② 知识图谱的建构过程

③ 知识图谱应用价值:对复杂数据的抽丝剥茧和深度价值的有效挖掘

④ 知识图谱在产业数字金融场景中的价值


人与人之间只要产生联系,就会有关系的定义,亲人、朋友、爱人等等。物与物之间也会有关系的定义,比如,面包是由面粉、牛奶、糖等多种原料制成,面粉和面包就是原材料和成品的关系。有的关系是显性的,一般肉眼就可知,有的关系是隐性的,刻意隐瞒或是隔了两三层的逻辑关系,需要挖掘、推导才可知。


随着互联网的发展,万物互联成为了可能,由此产生的数据也在爆发式增长,通过分析这些碎片化数据之间的信息关联来挖掘数据背后的价值,只要有关系分析的需求,知识图谱(Knowledge Graph)就有可能派的上用场。


知识图谱:串联“珍珠”的那根线


知识图谱是由谷歌公司在2012年提出来的一个新的概念。从学术的角度,可以这样定义:“知识图谱本质上是语义网络(Semantic Network)的知识库”,是以结构化的方式描述客观世界中实体、概念、事件以及关系。其中,实体是指客观世界的具体事物,概念是指人类对于客观事物的概念化描述表示,事件是指发生在客观世界的活动,而关系就是实体、概念、事件之间客观存在的关联。


举个例子,在某知识图谱开源网站上输入关键词“微软”:


资料来源:思知


在这里可以看到,微软作为一个实体,围绕它的概念有经营范围、公司性质、所属行业、主要产品等等,公司成立、发布年度财报、股权变更等都是跟它有关的事件,相互形成的关系构成了关于微软的知识图谱。而关于微软的“创始人“这条线出现了”比尔·盖茨“的名字,那我们如果点击“比尔·盖茨”,就又可以延伸出关于比尔·盖茨的相关信息:


资料来源:思知


对于直接使用知识图谱的人来说,知识图谱能帮助理解和记忆知识,毕竟图比文字要直观得多。在这方面,有点类似于思维导图,只是各自的专注点略有不同,知识图谱更关注知识本身的组织和保留,而思维导图更多的是从人的角度出发,除了知识本身,还包含了思维导图使用者本身的某些记忆技巧在里面。


人类往往习惯于用“有因必有果”的线性思维来存储记忆或是解决问题,这个时候就需要知识图谱将互联网上海量的碎片化信息转化成更接近人类认知世界的形式,如果把资讯比作一颗颗宝贵的珍珠,那么知识图谱就如同串起珍珠的那条线,进而提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱技术是融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义Web、数据挖掘与机器学习等交叉研究,属人工智能重要研究领域知识工程的研究范畴。



知识图谱的建构过程


知识图谱的分类方式很多,例如可以通过知识种类、构建方法等划分。从领域上来说,知识图谱通常分为通用知识图谱和特定领域知识图谱:


通用知识图谱:可以看成是一个面向通用领域的“结构化的百科知识库”,其中包含了大量的现实世界中的常识性知识,覆盖面广,注重广度,强调融合更多的实体,通常采用自下向上的构建方式,从海量信息中抽取出置信度高的实体,再逐层构建实体与实体之间的联系;


特定领域知识图谱:又叫行业知识图谱或垂直知识图谱,通常面向某一特定领域,可看成是一个“基于语义技术的行业知识库”,注重深度,具有丰富的实体属性和数据模式,通常采用自上向下的构建方式,先定义好本体与数据模式,再抽取实体加入到知识库。


知识图谱的构建遵循知识抽取、知识融合、知识加工、知识应用的基本流程。从海量结构化和非结构化数据中进行实体、关系、概念和事件的信息提取,通过解决多种类型的数据冲突问题,完成知识融合。将知识存储到知识库中,最后进行进一步的知识推理和图谱应用。



知识图谱应用价值:对复杂数据的抽丝剥茧和深度价值的有效挖掘


近些年的数据挖掘、大数据、人工智能、机器学习等等和信息处理关联的热门技术,其实都可以用知识图谱来进行串联。这些技术的最终目的,其实不外乎把数据收集整理成结构化、可复用、可推理的存储,进而用于更多的使用场景,而知识图谱这种方式,可以近乎完美地匹配这些需求。


在实际业务应用中,知识图谱技术有以下特征:


可视化:知识图谱作为图类型知识库,本身具有可视化特性。目前,通过知识图谱技术分析展示实体间关联关系已在多领域有广泛的应用;


准确性:知识图谱构建的语义网络中具有多种语义关系,多角度挖掘信息,保证相关信息的准确性;


关联分析:知识图谱本身强调实体间的关联和属性。在实际业务场景中,利用该技术能快速有效地发现无关实体间的隐性关联关系。目前关联分析在金融行业的营销与风控,政府与公共服务行业智能刑侦、治安管理、政务数字化等多领域有广泛应用;


拓展性:知识图谱本身的构建方式决定其本身具有良好的拓展性,当形成某细分领域知识图谱后可在此领域内快速拓展;


可解释性:弥补机器学习的不足,知识图谱本身与人类认知类似,通过实体、概念、事件、关系去认知世界,同时知识图谱目前都是大规模知识库,语义丰富,将搜索问题与答案相连接,提供解释性的来源;


知识学习:通过推理、标注、纠错等具有反馈能力的学习机制,快速积累沉淀行业知识,形成领域知识库,降低行业经验的依赖性。


比如谷歌、百度等的搜索,利用知识图谱可以很容易的发现数据的关联,进而直接给出答案,而不再是给出一个可能包含答案的网页,少了用户自己筛选并过滤信息的过程。如我们在搜索引擎中输入“微软的创始人”的字样,没有应用知识图谱之前,搜索出来的界面是这样:


应用知识图谱之后,结果是这样的:


直接给出答案,一目了然。谷歌在2012年提出知识图谱概念之后,利用该技术进一步优化了搜索信息的过程,国内搜索引擎百度在近些年也得以实现。


目前知识图谱的发展和应用状况,除了通用的大规模知识图谱,各行业也在建立行业和领域的知识图谱,当前知识图谱的应用包括语义搜索、问答系统与聊天、大数据语义分析以及智能知识服务等。


据认知智能国家重点实验室和艾瑞咨询的统计推算,2019年知识图谱核心产品的市场规模约为65.0亿元,仍有较大发展空间,预计2024年将突破200亿元,年复合增长率达到20.4%。此外,知识图谱技术的应用也进一步带动传统企业智能运维效率升级,据估算,2019年中国知识图谱技术带动经济增长规模达391.8亿元,预计到2024年将突破1000亿元。



知识图谱在产业数字金融场景中的价值


人工智能当前的发展正处于认知智能的起步阶段,从感知智能到认知智能,知识图谱是关键一步。感知智能主要是数据识别,只需要完成对大规模数据的采集,以及对图像、视频、声音等类型的数据进行特征抽取,完成结构化处理。认知智能是感知智能的进阶,需要在感知智能的基础上,结合行业知识,理解数据之间的逻辑关系以及代表的业务意义,并在此基础上进行分析决策。


产业数字金融模式,数字化采集供应链产业链上的底层交易信息,实现交易场景的数字化,随着人工智能与大数据技术的不断演进,业务场景数字化需求不断深化,大量无关联的数据使管理变得复杂,同时,对数据价值的理解往往还停留在表层,其复杂勾稽关系的深度价值并没有被很好地挖掘出来,这些都不利于用户数据管控。认知智能时代的到来,机器能够通过知识图谱挖掘产业数字金融场景中的隐形关系,洞察“肉眼”无法发现的关系和逻辑,用于最终的业务决策,注重行业知识图谱和关系挖掘,是人工智能在行业中更深层的落地应用。



产业数字金融体系庞大、场景丰富、产品类型多、定制化程度高,具有数据庞大且知识结构复杂的特性。产业数字金融场景中引入知识图谱技术,可提高企业生产经营流程中问题的预见和解决能力,提升资源管理能力、生产效率和产品质量。产业数字金融,更好地融合实体经济和金融机构,将产业链供应链的一手交易信息提供给金融机构,以构建企业的交易信用,帮助金融机构搭建更完整的智能风控体系。


在此过程中,机器学习算法和知识图谱的结合应用具有突出优势,是目前主流的解决方案。机器学习算法通过概率计算的方式,以数学运算特征反应风险情况,形成易于机器计算的风控模型;而知识图谱通过权威经验和规则,创建本体模型和抽取实体的范围,根据实体间关系形成关联数据网的图谱形式,打通相关数据,动态、实时地描画企业用户综合画像,并结合业务场景,根据画像的情况与模型对应,形成具有金融业务特性的风控体系,在解决方案的决策环节结合规则和概率的综合评价,给出最终的风险评估,整个过程能够实现秒级响应。知识图谱的应用串联起了金融业务中产生的大量多源异构数据,形成数据中台,挖掘数据深层价值,为产业数字金融服务的拓展打下坚实的基础。


当前知识图谱在构建和落地过程中对人工的依赖程度还较高,导致构建成本高、效率低,在相对通用的知识图谱中自动化、大规模、高质量的构建技术扔有待探索。产业数字金融场景下的知识图谱垂直领域解决方案面临繁杂的应用场景,通过长期深耕企业用户,准确理解行业痛点,细化知识的颗粒度,以解决领域应用的种种壁垒,形成场景更多、颗粒度更细的定制化解决方案,最终赋能金融机构,服务社会百业,共同促进实体经济降本增效。


参考文献:

[1]中国电子技术标准化研究院:《认知智能时代,知识图谱实践案例集》

[2]F. Gandon:A Survey of the First 20 Years of Research on Semantic Web and Linked Data

[3]L. Poirier: A Turn for the Scruffy: An Ethnographic Study of Semantic Web Architecture

[4]中国电子技术标准化研究院:《<信息技术 人工智能 知识图谱技术框架>国家标准草案》

[5]What is a Knowledge Graph https://web.stanford.edu/~vinayc/kg/notes/What_is_a_Knowledge_Graph.html

[6]中国中文信息学会语言与知识计算专委会:《知识图谱发展报告2018》

[7]爱分析:中国知识图谱应用趋势报告——《助力企业数字化转型,知识图谱为应用而生》

[8]Gupta, N.,Singh, S. and Roth, D., 2017. Entity linking via joint encoding of types,descriptions, and context. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing

[9]认知智能国家重点实验室&艾瑞咨询:《面向人工智能“新基建”的知识图谱行业白皮书2020》

[10]Xiao H, Huang M,Hao Y, et al: Trans G: A Generative Mixture Model for Knowledge GraphEmbedding


文章作者: 陆昕卉  李万林(聚均科技综合管理部)

播      音:陆昕卉(聚均科技综合管理部)

图片编制:  曹   蕾(聚量集团办公室)

总 策 划:  乔嘉男(聚量集团办公室)

上一篇:聚量观察 | 情感分析能有什么坏心思,无非是想更懂你罢...

下一篇:聚量观察 | 当年要有这个技术,唐僧还怕白骨精?

←返回列表