[发明专利]一种基于语义分析的证券资讯查重方法及系统有效
申请号: | 201910520287.3 | 申请日: | 2019-06-14 |
公开(公告)号: | CN110321466B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 张凤娟;谭则涛;王永强;温丽香;杨嵩;钟志斌 | 申请(专利权)人: | 广发证券股份有限公司 |
主分类号: | G06F16/9032 | 分类号: | G06F16/9032;G06F16/951;G06F40/30;G06F18/22;G06Q40/06 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 颜希文;麦小婵 |
地址: | 510663 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于语义分析的证券资讯查重方法及系统,所述方法包括:从撰写资讯的业务系统中实时采集最新的待检测资讯数据;采用文本切分算法对所述待检测资讯数据进行分块处理,得到若干个资讯分块;分别对每个所述资讯分块进行爬虫处理,得到对应的关联文本后采用网页分块方法和网页信息结构化提取方法进行清洗拼装,得到最终爬虫数据;采用simhash邻域算法和最大文本片段算法对所述待检测资讯数据和所述最终爬虫数据依次进行邻域检索和语义相似度计算,最终得到语义相似度计算结果。本发明提出simhash算法和最大文本片段算法,与爬虫系统有机结合,在不需建立文本库的前提下解决证券行业资讯原创检测的问题,并提高查重精确度和效率。 | ||
搜索关键词: | 一种 基于 语义 分析 证券 资讯 方法 系统 | ||
【主权项】:
1.一种基于语义分析的证券资讯查重方法,适用于在计算设备中执行,其特征在于,至少包括如下步骤:从撰写资讯的业务系统中实时采集最新的待检测资讯数据;采用文本切分算法对所述待检测资讯数据进行分块处理,得到若干个资讯分块;分别对每个所述资讯分块进行爬虫处理,得到对应的关联文本后采用网页分块方法和网页信息结构化提取方法进行清洗拼装,得到最终爬虫数据;采用simhash邻域算法和最大文本片段算法对所述待检测资讯数据和所述最终爬虫数据依次进行邻域检索和语义相似度计算,最终得到语义相似度计算结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广发证券股份有限公司,未经广发证券股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910520287.3/,转载请声明来源钻瓜专利网。