[发明专利]提取业务领域的关键词的方法和装置在审
申请号: | 201611106707.6 | 申请日: | 2016-12-05 |
公开(公告)号: | CN108153781A | 公开(公告)日: | 2018-06-12 |
发明(设计)人: | 贺达 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 业务领域 文本 词频 方法和装置 逆文档频率 程度指标 词表 筛选 结果确定 预定条件 删除 维护 | ||
1.一种提取业务领域的关键词的方法,其特征在于,包括:
获取业务领域的至少一个文本;
计算每个文本中所包含的每个关键词的词频和逆文档频率;
根据所述每个关键词的词频和逆文档频率,确定所述文本中所包含的每个关键词的关键程度指标;
根据所述文本中所包含的每个关键词的关键程度指标,从所述文本中筛选得到满足预定条件的关键词;
根据筛选后的结果确定所述业务领域的关键词。
2.根据权利要求1所述的方法,其特征在于,所述关键程度指标用于表征所述文本中所包含的每个关键词在描述所述文本的语义时的关键程度值。
3.根据权利要求1所述的方法,其特征在于,计算每个文本中所包含的每个关键词的逆文档频率包括:
选取所述业务领域的文档库,所述文档库包括了多个预存的文本;
计算所述文档库中的文档总数;
根据倒排索引得到包含所述关键词的文档总数;
根据所述文档库中的文档总数以及包含所述关键词的文本总数,计算得到所述逆文档频率。
4.根据权利要求1所述的方法,其特征在于,通过如下公式确定所述文本中所包含的每个关键词的关键程度指标:
TF_IDF=TF*IDF
其中,所述TF_IDF为所述关键程度指标,所述TF为所述每个关键词的词频,所述IDF为所述每个关键词的逆文档频率。
5.根据权利要求1所述的方法,其特征在于,根据所述文本中所包含的每个关键词的关键程度指标,从所述文本中筛选得到满足预定条件的关键词包括:
对所述关键程度指标进行降序排序,得到第一降序排序结果;
从所述第一降序排序结果中选取所述关键程度指标大于第一预设阈值的关键词,得到所述至少一个文本中的关键词。
6.根据权利要求5所述的方法,其特征在于,根据筛选后的结果确定所述业务领域的关键词包括:
对所述至少一个文本的关键词进行聚合处理;
从聚合结果获取包含所述关键词的文本的总数量;
对所述文本的总数进行降序排序,得到第二降序排序结果;
从所述第二降序排序结果中选取所述文本总数大于第二预设阈值的关键词,作为所述业务领域的关键词。
7.一种提取业务领域的关键词的装置,其特征在于,包括:
获取模块,用于获取业务领域的至少一个文本;
第一计算模块,用于计算每个文本中所包含的每个关键词的词频和逆文档频率;
第二计算模块,用于根据所述每个关键词的词频和逆文档频率,确定所述文本中所包含的每个关键词的关键程度指标;
第一选择模块,用于根据所述文本中所包含的每个关键词的关键程度指标,从所述文本中筛选得到满足预定条件的关键词;
第二选择模块,用于根据筛选后的结果确定所述业务领域的关键词。
8.根据权利要求7所述的装置,其特征在于,所述关键程度指标用于表征所述文本中所包含的每个关键词在描述所述文本的语义时的关键程度值。
9.根据权利要求7所述的装置,其特征在于,所述第一计算模块包括:
第三选择模块,用于选取所述业务领域的文档库,所述文档库包括了多个预存的文本;
第三计算模块,用于计算所述文档库中的文档总数;
第四计算模块,用于根据倒排索引得到包含所述关键词的文档总数;
第五计算模块,用于根据所述文档库中的文档总数以及包含所述关键词的文本总数,计算得到所述逆文档频率。
10.根据权利要求7所述的装置,其特征在于,所述第一选择模块包括:
第一排序模块,用于对所述关键程度指标进行降序排序,得到第一降序排序结果;
第四选择模块,用于从所述第一降序排序结果中选取所述关键程度指标大于第一预设阈值的关键词,得到所述至少一个文本中的关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611106707.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人机对话装置及其实现人机对话的方法
- 下一篇:文件存储装置及方法