[发明专利]一种基于语义分析的证券资讯查重方法及系统有效
申请号: | 201910520287.3 | 申请日: | 2019-06-14 |
公开(公告)号: | CN110321466B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 张凤娟;谭则涛;王永强;温丽香;杨嵩;钟志斌 | 申请(专利权)人: | 广发证券股份有限公司 |
主分类号: | G06F16/9032 | 分类号: | G06F16/9032;G06F16/951;G06F40/30;G06F18/22;G06Q40/06 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 颜希文;麦小婵 |
地址: | 510663 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 分析 证券 资讯 方法 系统 | ||
本发明公开了一种基于语义分析的证券资讯查重方法及系统,所述方法包括:从撰写资讯的业务系统中实时采集最新的待检测资讯数据;采用文本切分算法对所述待检测资讯数据进行分块处理,得到若干个资讯分块;分别对每个所述资讯分块进行爬虫处理,得到对应的关联文本后采用网页分块方法和网页信息结构化提取方法进行清洗拼装,得到最终爬虫数据;采用simhash邻域算法和最大文本片段算法对所述待检测资讯数据和所述最终爬虫数据依次进行邻域检索和语义相似度计算,最终得到语义相似度计算结果。本发明提出simhash算法和最大文本片段算法,与爬虫系统有机结合,在不需建立文本库的前提下解决证券行业资讯原创检测的问题,并提高查重精确度和效率。
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种基于语义分析的证券资讯查重方法及系统。
背景技术
随着互联网技术的不断发展,网络上的信息越来越庞大。微博、公众号以及新闻媒体等内容源,每时每刻都在更新大量的信息。而另一端,很多文字工作者每天负责产生大量的文章。对于证券公司而言,大量的投资顾问和行业研究员专门为广大投资者提供选股建议、买卖时机、热点分析等服务。投资顾问在为投资者提供投资建议的同时,必须遵守法律法规,为投资者提供恰当的建议。但是,如果投资顾问所撰写的资讯有抄袭现象,该服务过程会因为服务不当而引起内容版权问题或监管层的关注。
为了解决证券公司投资顾问和研究员撰写资讯的原创性问题,自然语言处理领域的文本查重算法就派上了用场。文本查重也称为copy detection,海量文本查重最开始主要来自google和百度等这一类科技公司,他们主要用来对搜索引擎的网页去重和过滤。现有的文本查重算法主要分为两类:基于指纹的算法和字符串匹配算法。
然而,在对现有技术的研究中,本发明的发明人发现,现有的查重算法具有以下缺点:一方面,必须预先建立文本库,类似知网的论文库或百度搜索引擎的网页库,而建立文本库的过程需要耗费大量的资源;另一方面,现有的查重算法主要计算文本与文本之间整体相似度,难以定位到具体某个句子是否抄袭。而对于证券公司投顾和行业研究员撰写的资讯,不仅精炼且每句话都很关键,因此对查重的要求非常高。针对证券行业的资讯,如何在资源消耗最小的情况下实现资讯查重,是当前亟待解决的问题。
发明内容
本发明要解决的技术问题在于,本发明提供的一种基于语义分析的证券资讯查重方法,能够精准高效地进行证券资讯查重检测。
为解决上述问题,本发明的一个实施例提供的一种基于语义分析的证券资讯查重方法,适用于在计算设备中执行,至少包括如下步骤:
从撰写资讯的业务系统中实时采集最新的待检测资讯数据;
采用文本切分算法对所述待检测资讯数据进行分块处理,得到若干个资讯分块;
分别对每个所述资讯分块进行爬虫处理,得到对应的关联文本后采用网页分块方法和网页信息结构化提取方法进行清洗拼装,得到最终爬虫数据;
采用simhash邻域算法和最大文本片段算法对所述待检测资讯数据和所述最终爬虫数据依次进行邻域检索和语义相似度计算,最终得到语义相似度计算结果。
进一步地,所述基于语义分析的证券资讯查重方法,还包括:
根据所述语义相似度计算结果,在判断所述待检测资讯数据通过查重检测后,通过资讯发布平台将资讯推送至目标客户端。
进一步地,所述待检测资讯数据包括作者信息、投顾证书编号、资讯点评对象、资讯点评依据信息以及资讯点评正文信息。
进一步地,所述邻域检索,具体为:
对所述待检测资讯数据中的每个句子取n-gram集合作为句子的特征,并对每个n-gram进行哈希编码,得到对应的64位二进制串;
对所述64位二进制串中的“1”进行保留,“0”取“-1”,乘以权重后进行累加;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广发证券股份有限公司,未经广发证券股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910520287.3/2.html,转载请声明来源钻瓜专利网。