由IBM和CDA数据分析研究院
联合举办的
机器学习行业应用国际峰会
昨天在北京召开了!
数库CTO夏磊应邀做了主旨发言:
如何将机器学习应用在金融信息处理中
没有到现场的小伙伴快来
速来围观
主讲人:夏磊,数库CTO
数库CTO夏磊分享了三部分内容:
PartI.人工智能和机器学习
PartII.数库在做什么?
PartIII.我们是如何做的?
PartI.人工智能和机器学习
大家眼里的人工智能是这样的:前沿、时尚。
而在数库CTO夏磊眼里,人工智能在金融信息的处理领域却是个苦差事,是一次次不断优化的算法。
PartII.那数库在做什么呢?
数库特色产品SAM-SegmentAnalysisMapping
(SAM产品树,点击可放大)
为什么要做SAM呢?
解决传统行业分类两大问题:
一个行业标签代表整个公司,多业务企业无法被正确反映
行业标签更新速度不及时,往往企业业务转型了,但是行业标签还是原来的
举个例子:
“杉杉股份”在大家的印象中,是一家从事服装行业的公司,它在申银万国中的行业分类中,被分在男装。数库SAM行业分析工具的处理逻辑是,解析每一家上市公的产品收入,再推导其行业分类,因此我们可以在杉杉股份转型锂离子电池后的第一时间,把他放在正确的行业分类里,“电子制造业”。在搭建投资组合过程中,单个公司的行业对标的错差,随着成份股的增加,行业对标的失真度会不断加大,往往对投资预期带来不可控的噪音。SAM能够量化和减少噪音的影响
可比公司分析是金融界公司估值中采用最重要也是最常用的估值方法
在对行业不熟悉的时候,寻找公司可比性最难的和最核心的点在于如何确定在海量企业中哪些在做同类的业务,相同度有多高,参与这些业务的规模多少,是否是公司的核心业务等
SAM产业链工具
数库通过SAM能够让任何人在一分钟之内精准完成专业级的可比公司分析
通过分析师对每个行业的深度研究,我们把业务线和业务线对接起来,形成上下游的产业链
数库的SAM产业链是目前全中国唯一针对全部上市公司(中国,香港和美国)从下而上的产业链架构
产业链架构的实现为数库在数据串联、解读金融现象、打造产品(如指数)带来相当大的灵活性
数库产业链示例:
从人工过渡到机器学习
年开始,25个人团队深度挖掘上市公司业务线含义,进行统一结构化搭建
年,SAM第一版本推出,以个标准化业务节点覆盖多家公司
从人工接入机器学习,目前机器取代了99%的SAM维护工作
SAM是数库将半结构化的数字结构化的
一个里程碑式的产品,
接下来的产品KAM就是数库
挑战非结构化数字的又一次飞跃了~~
KAM-KnowledgeAnalysisMapping,是对SAM对市场变动不够及时的补充,对互联网上的实时资讯进行收集,通过自然语言处理、机器学习、知识图谱等技术解读信息,让投资者能够实时捕捉市场热点、事件和投资机会。
举个例子:
"平潭发展",其55%的收入来自于“纤维板”这个产品,SAM的产品数据会根据半年报以及年报披露的数据来更新。这样的更新周期,也会造成我们对上市公司的认知有一定滞后性。在今年5月,我们通过KAM的工具发现,平潭发展开始涉足赛马行业。通过对新闻的分析,我们更加及时地去捕捉上市公司的动态,所以KAM是对与SAM工具的一种补充。同时,我们也可以通过SAM的工具持续跟踪这家公司是否在赛马这个产品分项上有实际收入,如果长期都没有的话,那说明这家公司是一家仅仅爱炒作的公司。上图为KAM的应用界面,通过KAM我可以实时发现市场上的热点概念、事件、关联的公司、股东等信息。
PartIII.我们如何做
数库使用到的人工智能有哪些?
自然语言处理NLP
深度学习DL
图像处理
机器学习是实现人工智能的基础,我们使用的算法有哪些呢?
分类算法
情绪分类:SVM-准确率89%、LSTM-准确率85%
择时策略:HMM
推荐算法
标签关联、知识推荐
聚类算法
主题提取
对新技术的不断追求,是为了实现这样两个目标
提升数库自己的运营杠杆
提升客户的知识决策效率
举个例子:
作为一家金融数据服务商,我们日常最多要处理的工作就是阅读上市公司的财报,财报中的附注信息,来获取数据。最初,数库建立了一个40人的团队来处理这部分数据,当时覆盖家公司,随着上市公司数量的增加,以及覆盖市场的不断拓展,像新三板的挂牌公司已经超过1万家,原有的工作方式使我们需要不断去拓展队伍,在招人的压力之下,我们转向了由技术,通过机器学习来解决这个问题。通过程序来抽取PDF公告中的数据,把人工放在校验,以及特殊的公告类型上。从PDF到文本的全过程:
非结构化数据标准化
将pdf解析为字符、线条、图像等中间数据,方便算法使用
算法
通过各类机器学习算法,实现文本抽取、表格构建、图像识别等挖掘出有用的数据
结构化存储
将算法输出的有用数据进行SQL或者NOSQL存储,以供进一步加工和使用(比如NLP、DL等等)
上图是我们日常将PDF中的文字变成数字入库的工作平台的界面。
深度学习在命名实体识别上的应用
新闻情绪分析
主题聚类与新主题发现
以上就是此次讲座的内容啦~~
大家有任何疑问可以留言
或者+–
数库数据服务覆盖
A股、港股、美股、新三板
查询到上市公司的业务分布以及归属行业
访问: