[发明专利]文本关键词的提取方法、装置及电子设备有效
申请号: | 201711171954.9 | 申请日: | 2017-11-22 |
公开(公告)号: | CN107861949B | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 米明恒 | 申请(专利权)人: | 珠海市君天电子科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/33;G06F16/335 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;项京 |
地址: | 519070 广东省珠海市唐家*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 关键词 提取 方法 装置 电子设备 | ||
本发明实施例提供了一种文本关键词的提取方法、装置及电子设备。该方法可以包括:获取待提取关键词的输入文本;按照输入文本中字符的预设顺序,从输入文本的首字符位置,以一个字符为步长,依次提取预设提取数量的多个字符串;针对多个字符串中的每个字符串,将该字符串中每个字符的编码,采用预设混淆算法进行混淆运算,得到混淆结果,并将得到的该字符串中每个字符的混淆结果求和,得到该字符串的叠加值;对多个字符串中满足预设条件的字符串,按照叠加值的预设大小顺序进行排序,得到排序后的字符串;选取排序后的字符串中,排在前面且与预设关键词数量相同的字符串,确定为输入文本的关键词,提高了相似文本检索精度和效率。
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种文本关键词的提取方法、装置及电子设备。
背景技术
在新闻网页抓取过程中,往往遇到不同网站转载同一篇新闻文本,或同一媒体对某一事件持续报道并连续更新该新闻页面。在为用户提供新闻文本时,此类新闻文本应当合并为同一篇文本,避免用户重复看到针对同一事件的新闻文本,从而提升用户体验。
目前可以通过文本排重技术对文本进行检测,文本排重技术可以分为特征对比算法以及全文检索算法等。其中,全文检索算法需要保留文本的全部内容,即对文本的全部内容进行检索,导致资源占用率高,检索效率低,因此应用较少。特征对比算法是将文本先提取可以代表文本,但长度很短的关键词,然后通过对比关键词的相似度来判定文本的相似度,即针对同一事件的多个相似文本的关键词相同或相似。其中,现有的关键词提取算法主要通过对输入文本中的分词或输入文本中的字符等进行间隔抽样的方式来获取关键词。例如,对于输入文本abcdefghijk,若采取固定间隔抽样,且规定间隔为2个字符,则可以得到的该输入文本的关键词分别为a、d、g、j。
然而,当针对某一事件的输入文本发生增删变化,转换为针对同一事件的相似输入文本时,该提取算法容易对相似输入文本提取出与输入文本不同的关键词。例如,对输入文本增加内容转换为相似输入文本,如增加字符X,相似输入文本为abcXdefghijk,此时提取出来的关键词变为a、X、f、i,与输入文本的关键词差距较大,判定出的文本的相似度不准确。
可见,固定间隔提取对于定长输入文本可用,但当输入文本出现增删变化时,容易对相似文本提取出不同的关键词,降低检索精确度。
发明内容
本发明实施例的目的在于提供一种文本关键词的提取方法、装置及电子设备,以提高了相似文本检索精度和效率。具体技术方案如下:
第一方面,提供了一种文本关键词的提取方法,该方法可以包括:获取待提取关键词的输入文本;按照输入文本中字符的预设顺序,从初始提取位置,以一个字符为步长,依次提取预设提取数量的多个字符串,初始提取位置为输入文本的首字符位置;针对多个字符串中的每个字符串,将该字符串中每个字符的编码,采用预设混淆算法进行混淆运算,得到混淆结果,并将得到的该字符串中每个字符的混淆结果求和,得到该字符串的叠加值;对多个字符串中满足预设条件的字符串,按照叠加值的预设大小顺序进行排序,得到排序后的字符串;选取排序后的字符串中,排在前面且与预设关键词数量相同的字符串,确定为输入文本的关键词。
在一个可选的示例中,预设关键词数量是基于输入文本的长度和预设关键词提取比例确定的。
在一个可选的示例中,预设关键词数量是采用如下表达式表示确定的:N=int(L*r);其中,int()为取整函数,L为输入文本的长度,r为预设关键词提取比例,N和L均为正整数,0r1。
在一个可选的示例中,排序后的字符串中叠加值相同的字符串,是按照从前到后的提取顺序进行排序的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海市君天电子科技有限公司,未经珠海市君天电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711171954.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种标签提取方法、装置、设备和介质
- 下一篇:异常文本的检测方法和装置