[发明专利]一种提取文本关键词的方法和装置有效
申请号: | 201410645724.1 | 申请日: | 2014-11-12 |
公开(公告)号: | CN105653547B | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 孟令彬;陈奕雷 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/289;G06F40/30 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 李敏 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提取 文本 关键词 方法 装置 | ||
本发明提供一种提取文本关键词的方法,结合文本内容和用户的反馈信息分别提取关键词,然后将得到的关键词合并作为文本的关键词,这样,可以更好的融合用户的反馈信息,由于用户的反馈更具有针对性,因此可以提取到和该文本更相关的关键词,解决了现有技术中仅针对文本内容提取关键词,得到的关键词准确性差、相关度不高或者覆盖面不全的问题,本方案提供了一种结合用户的反馈信息,可以得到更加全面、准确的提取文本关键词的方法。
技术领域
本发明涉及一种电子数据处理加工方法,具体地说是一种提取文本关键词的方法和装置。
背景技术
随着电子信息化技术的不断发展,电子资源日益普及。电子资源的数据量也变得越来越大,为了从海量数据中寻找到需要的信息,对数据的分类和查找显得尤为重要。为了更好的数据进行分类,便于数据的查找和统计,一般会对文本提取标签或者索引词,将这些可以标识文本内容的词语称为关键词,这些关键词可以用于文本分类、统计以及查找。
由于对数字电子资源进行分类和查找相关资源,离不开关键词,关键词的准确与否决定了对资源分类是否正确和相关资源是否有用。只是对文本内容进行机器分析得出的关键词过于大众化,并不能反映资源在特定用户群的作用,根据这样的关键词获得的相关资源,其可利用率也不是很高。
目前,为了方便用户记录阅读电子资源时的想法,电子资源一般允许用户添加笔记、评语、用户身份以及用户所属领域等内容。用户给博客、新闻文章等内容发布评语已经是常见的功能,阅读电子书做笔记在Apabi Reader等电子书阅读器中也早已实现。这说明现有技术中已经能够获取用户笔记以及评语等用户的反馈信息。
综合以上分析可以看出,根据文本内容提取关键词的机器学习已经广泛使用,但是这样得到的关键词过于宽泛,代表性较差,而现有技术中已经可以方便的获取用户的评语、评论、笔记等反馈信息,如何将用户的反馈信息应用于提取关键词的过程中,亟待实现。
发明内容
为此,本发明所要解决的技术问题在于现有技术中提取文本关键词的方法通过机器简单获得,关键词的代表性不强,从而提出一种结合用户反馈、更好的体现文本内容的提取关键词的方法和装置。
本发明提供一种提取文本关键词的方法,包括如下步骤:
根据文本内容确定第一关键词;
提取该文本内容的用户反馈信息;
根据所述反馈信息确定第二关键词;
根据所述第一关键词和所述第二关键词确定该文本的关键词。
优选地,根据所述反馈信息确定第二关键词的步骤,包括:
提取所述反馈信息的文字,得到反馈文本;
根据所述反馈文本的内容提取第二关键词。
优选地,根据所述反馈文本的内容提取第二关键词的过程,包括:
获取反馈文本对应的用户属性信息;
根据所述用户属性信息,对所述反馈文本分类;
针对相同类型的所述反馈文本提取关键词。
优选地,所述用户属性信息包括用户领域、用户身份、用户来源,所述根据所述用户属性信息对所述反馈文本分类的过程中,判断所述用户领域、用户身份、用户来源中的一个或多个是否相同,将相同用户的反馈文本划分为同一类。
优选地,根据所述反馈信息确定第二关键词的步骤,还包括:
获取请求用户的用户属性信息;
获取与请求用户具有相同属性的用户反馈的信息,作为反馈文本;
根据该反馈文本确定第二关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410645724.1/2.html,转载请声明来源钻瓜专利网。