知识图谱驱动投资


2017-04-05    陈利人  尼克


先设想这样一个场景,平静的水面上漂着一片树叶,一个小孩往水里扔了一个石子,激起的涟漪一圈一圈地散开,最后都聚集到叶子的周围,因为水波的能量被阻断而无处扩散。


水面的各个部分是相互连接的,就像一个图谱,叶子就是其中的一个异常点。当图谱中发生一个事件时,能量或破坏力一定会体现在异样的地方。这种破坏力,可能发生在近邻,也可能发生在远邻,甚至可能是发生在千里之外的蝴蝶效应,因为世界是相互连接的,而图谱能够描述和表示这种世界的抽象和连接。


AlphaGo颠覆的不是围棋世界


AlphaGo在围棋比赛中完胜人类,颠覆了人类对围棋的认识,实际上是颠覆了人类对自己思维方式的认识。由于大脑的容量和计算能力是有限的,人类的思维受深度和广度的限制,所以,只好用一些定式来减少思考的深度和广度。


比如,看到某个定式时,人类对于这一着棋就不用再往下想了。因为按照定式、按照经验、按照棋手们的共识,大家应该这么走。同时,对于某些可能的广度搜索,有些棋子,至少对当前的棋局影响不大,至少对于人类棋手能预料的短期来看影响不大,所以也不用浪费带宽思考。而电脑,也就是AlphaGo,只要有计算能力和计算时间,完全可以大幅度地摆脱这种限制,能有更深的深度和更广的广度。


更甚的是,AlphaGo可以在人类休息时,通过自己和自己对弈,提前探索更多的搜索空间,这也就是现在很火的强化学习。那么,在天生不平衡的情况下,如何能扩大人类的联想?知识图谱就能完成这一使命。先看看Google的PageRank模型。


由于网页是相互链接的,一个高能量的网页会将能量顺着链接,传播到其他的网页,最后,能量会聚集到真正有价值的页面上。这也是图谱的一种表现形式,只是在这里,节点是一个个的网页,边是网页之间的链接。别小看这些链接,它们是人类智慧的结晶。只有当人觉得这两个网页相关或重要时,它们才会给出一个链接。


谷歌PageRank是怎样挖掘人类智慧


PageRank正是挖掘了人类智慧,通过随机行走模型和算法,让所有的网页有了自己的重要性指标,让它们有序。有序之后,很多任务就好办多了。比如,抓取网页知道先抓谁,索引时知道谁先处理,搜索结果排序时知道谁在前,等等。之后,Google进一步将PageRank算法进化成BrainRank,考虑了更多的特征和关系。有了图谱,加上先进的算法,将知识图谱中的节点和关系有序化,人类能够做很多的事情。


简单来讲,知识图谱,就是一张由知识点相互连接而成的语义网络。它是一种人工智能技术,是基于现有数据的再加工、结构化,再通过各种数据挖掘、信息抽取和知识融合技术形成一个统一的、逻辑上全局的知识库。一个知识图谱描述了世界里概念和概念之间的关系。


一般图谱中有实体、事件和关系。这些因素都有很多属性。实体一般是“物”,在语言中一般以名词形式出现,比如人、车、地点等。事件一般是在某个时间发生的行动,在语言中一般体现为动词,比如招聘、收购、发财报等。属性一般包括名字、标签、重量、高度、价格、时间、地点等,能以数字或具体值标识。关系表示了实体和实体、实体和事件之间的联系。


来看一个具体的例子:“2016年6月22日,腾讯86亿美元收购芬兰手游公司Supercell。”


实体:腾讯公司(名字:腾讯;营业地点:中国;主营业务:娱乐),Supercell公司(名字:Supercell;营业地点:芬兰;主营业务:手游)。事件:公司收购(名字:腾讯收购Supercell;收购时间:2016年6月22日;收购价格:86亿美元)。关系:(A)收购了(B),(B)被(A)收购了。属性:名字(标签)。收购时间,收购价格,主营业务,营业地点。


对于投资,各个股票、公司、事件等之间是相互连接和影响的。一个事件的发生会影响与它直接相关或间接相关的方面。比如,一款新电池进入市场,会影响它的上游,比如原材料、原材料厂商;也会影响它的下游,使用电池的商家,比如电动汽车、手机。而且还会影响与它相关的间接行业,比如通信、运营商,甚至电商、内容提供商等。


当Netflix超出盈利预期,Amazon明天表现如何


现在,我们来看两个将知识图谱用于投资分析决策的成功案例。


Kensho是一个市场数据分析系统,它能扫描90000多个可用户定制的行为,然后回答6500万个以上投资相关的问题。那些行为包括财报发布、全球数据环境、经济报告、公司产品发布、FDA药品批准,等等,也能监控股票价格变动,比如一个股票上涨了10%,明天将会怎样。来看看一些实际操作中的问题:


Kensho系统中,对于事件的抽取和表示,充分利用了知识图谱。它们有实体,主要是公司与公司相关的股票信息;有事件,这些是有可能影响股票交易价格的行为,比如管理层的变动、新品的发布等。然后,这些实体和事件通过关系连接起来,任何一个事件的影响都可能是连锁反应。分析师和交易员可以通过它们来验证假设或是警示风险。


PalantirMetropolis平台非常适合大规模的量化数据分析和调研。它整合了多个数据源,将不同的信息统一到一个量化分析环境中。至今,它部分解决了跟踪和分析保险赔付数据、网络流量分析和金融财务交易模式分析。通过Metropolis提供的丰富的统计和数学操作模块,分析师可以在模型上建立和执行计算来加深理解他们所拥有的数据。


知识图谱,让计算机学会思考


简单的模型可以作为复杂模型的构建模块,从而使复杂高深的分析变成流线化、模块化的处理过程。任何分析师能想象的分析都能够容易和迅速地表达。


Palantir投入了很大的精力去开发系统创建和管理知识图谱,它们甚至有一个自己的名字叫动态知识图谱。基本上它只定义了一个知识图谱的框架,类似于编程中的interface或是virutual,然后不同的应用,可以在这个框架下创建自己特有的图谱。


这样做的好处是可以开发大量不依赖于领域的算法、模块、工具和应用。比如,对于金融投资分析,它们在大的动态知识图谱的框架之下,定义了通用的金融股市相关领域的框架,然后框架上定义和实现了很多的分析模块。之后,对于特定的公司、特定的股票,只要按照这个领域框架实例化,那些通用的、在大的和领域实现的模块就可以随便使用了,不用再从头实现。


“人类失去联想,世界将会怎样。”知识图谱的发明和壮大,在某种程度上就是解决人类的联想,同时也让世界有机地数字化,让计算机能够思考,让人类能够快速全面地联想,而且是因果关系的、可解释性的联想。


有别于现在大数据很大程度上强调相关性,深度学习很大程度上强调难以解释的结果。尤其在投资决策领域,没有因果关系,不可理解的投资,那叫投机,不可持续。