[发明专利]一种引用识别方法、设备和计算机可存储介质有效
申请号: | 201810418503.9 | 申请日: | 2018-05-04 |
公开(公告)号: | CN108829659B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 黄泰文;孙彩霞;王磊;罗引 | 申请(专利权)人: | 北京中科闻歌科技股份有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/30;G06F40/205 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 陈英 |
地址: | 100028 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 引用 识别 方法 设备 计算机 存储 介质 | ||
1.一种引用识别方法,其特征在于,包括:
获取原创语料和候选语料;
利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值;
根据所述原创语料和所述候选语料的ROUGE值的大小,确定所述候选语料引用所述原创语料的程度;
在利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值之前,还包括:对所述原创语料和所述候选语料分别进行分段和分句处理;
利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值,包括:
步骤12,获取比较语料中的一个段落;其中,在所述原创语料和所述候选语料中,将段落总数大的语料作为比较语料,将段落总数小的语料作为基础语料;步骤14,计算所述段落与所述基础语料中每个段落的ROUGE值;步骤16,在所述段落与所述基础语料中每个段落的ROUGE值中,选择最大的ROUGE值作为所述段落与所述基础语料的ROUGE值,跳回步骤12,以获取所述比较语料的下一个段落,直到获取了所述比较语料中的所有段落为止;
或者,
步骤22,获取所述比较语料中的一个句子;其中,在所述原创语料和所述候选语料中,将句子总数大的语料作为比较语料,将句子总数小的语料作为基础语料;步骤24,计算所述句子与所述基础语料中每个句子的ROUGE值;步骤26,在所述句子与所述基础语料中每个句子的ROUGE值中,选择最大的ROUGE值作为所述句子与所述基础语料的ROUGE值,跳回步骤22,以获取所述比较语料的下一个句子,直到获取了所述比较语料中的所有句子为止。
2.如权利要求1所述的方法,其特征在于,根据所述原创语料和所述候选语料的ROUGE值的大小,确定所述候选语料引用所述原创语料的程度,包括:
预先设置多个引用程度区间,并且为每个引用程度区间对应设置引用等级;
根据所述原创语料和所述候选语料的ROUGE值所处的引用程度区间,确定所述候选语料引用所述原创语料的引用等级。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
如果识别出所述候选语料重复引用所述原创语料的部分内容达到预设次数,则对所述原创语料和所述候选语料的ROUGE值乘以预设的惩罚因子;其中,所述惩罚因子为大于0小于1的常数。
4.如权利要求3所述的方法,其特征在于,
所述ROUGE算法,包括:ROUGE-N算法和ROUGE-L算法。
5.如权利要求4所述的方法,其特征在于,
所述ROUGE-N算法获得的ROUGE-N值,包括:ROUGE-1值、ROUGE-2值、ROUGE-3值和ROUGE-4值;
所述ROUGE-L算法获得的ROUGE-L值,包括:摘要级别的ROUGE-L值。
6.一种引用识别设备,其特征在于,所述引用识别设备包括处理器、存储器;所述处理器用于执行所述存储器中存储的引用识别程序,以实现权利要求1~5中任一项所述的引用识别方法。
7.一种计算机可存储介质,其特征在于,所述计算机可存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~5中任一项所述的引用识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科闻歌科技股份有限公司,未经北京中科闻歌科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810418503.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:新词发现的方法及装置
- 下一篇:一种基于随机数分治递归的短文本签名生成方法