在方案设计流程中,虎博科技针对智能搜索功能这一目标服务功能的业务流程梳理出:用户问题、查询分析、组内搜索策略、组间搜索策略、输出API、展示卡片六个环节;其中所涉及的数据流程则包含:异构数据转换、离线索引构建、组内策略构建、组间策略构建四个环节。其中异构数据转换和离线索引构建都属于离线处理,虎博科技在数据处理管道上结合自身在NLP领域的审核积淀,提供了丰富的处理模型,从而提升搜索效果。
一、核心设施–虎博智能搜索引擎
虎博智能搜索引擎基于虎博MasterMind核心系统所打造,可利用自然语言处理、知识图谱等技术为券商等金融客户搭建智能数据中台,对接和管理海量文本数据。
对于本案例中客户在高效数据处理上的需求,引擎可提供:.多数据源智能适配–包含内外部财报、研报、公告、资讯、产品等数据在内,引擎可快速接入多种形式的数据(结构化数据及文档、表格、图片、音频等非结构化数据)。.搜索意图推荐–引擎可基于丰富的NLP算法在索引构建过程中对数据进行深度知识挖掘分析,提供更快速的查询检索。3.搜索功能快速构建–引擎的搜索API模块允许用户通过简单的后台配置快速构建搜索服务功能,并配合NLP算法理解用户检索语义和意图,支持口语化问答交互。此外,搜索服务于可对接口进行限流和鉴权实现安全性保障。4.监控–系统全流程监控,帮助用户快速定位问题。5.反馈日志-用户反馈日志收集持续优化搜索结果。二、结合NLP与知识图谱搭建数据处理管道,实现智能搜索为构建高效、精准的搜索服务,在数据流程中的离线处理部分,虎博科技基于自身在NLP领域的技术积累,通过意图识别模型、深度学习语义模型以及行业知识图谱和条件推理模型等技术优势构建数据处理管道,从而提升搜索效果。意图识别模型–用于准确识别用户搜索意图,进而反馈更加符合需求的结果。模型可对query进行分类,识别出SQL类query和匹配类query。若识别结果为SQL类query,系统将直接采用文本分类模型进后续处理;若识别结果为匹配类query则使用深度排序模型。深度学习排序模型–用于查询匹配类query与文档的相关性。模型采用对离散特征做Embedding的方法,借鉴了FNN的思想,然后采用WideDeep模型同时训练一个Wide侧的线性模型和一个Deep侧的神经网络,Wide部分提供记忆能力,