[发明专利]一种抽取关键词的方法及装置有效

专利信息
申请号: 201210212574.6 申请日: 2012-06-21
公开(公告)号: CN102779119A 公开(公告)日: 2012-11-14
发明(设计)人: 翟周伟 申请(专利权)人: 盘古文化传播有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京中博世达专利商标代理有限公司 11274 代理人: 申健
地址: 100162 北京市大兴区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 抽取 关键词 方法 装置
【权利要求书】:

1.一种抽取关键词的方法,其特征在于,包括:

获取文本经过词法分析以及预处理后的词语集合;

根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;

根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;

根据所述各个词语的综合测度确定关键词。

2.根据权利要求1所述的方法,其特征在于,所述根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度包括:

根据所述文本,确定所述词语集合中所述各个词语包含的文本义项集合;

确定所述词语集合中所述各个词语在语义知识管理系统中的词语义项集合;

根据所述文本义项集合和所述词语义项集合的交集,得到所述词语集合中所述各个词语的目标义项集合;

根据所述各个词语的目标义项集合,确定所述词语集合中任意两个词语的语义相似度。

3.根据权利要求2所述的方法,其特征在于,所述根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度包括:

根据所述词语集合中任意两个词语的语义相似度,生成所述文本的语义相似度图;

将所述语义相似度图划分为至少一个意群社团,所述意群社团包括语义相近的一组词语;

确定各个所述意群社团中包括的各个词语节点的综合测度参数中的至少两个;

根据确定的至少两个所述综合测度参数,计算各个所述意群社团中的各个词语的综合测度。

4.根据权利要求3所述的方法,其特征在于,所述综合测度参数包括:所述意群社团的社团因子权值、所述意群社团中包括的各个词语节点的平均路径变化量、所述各个词语节点的聚类系数变化量、所述各个词语节点的度、所述各个词语节点的词频-倒文档频率以及所述各个词语节点的区域位置权值。

5.根据权利要求3所述的方法,其特征在于,所述根据所述第一词语集合中任意两个词语的语义相似度,生成所述文本的语义相似度图;

1)当所述词语集合中第一词语和第二词语的语义相似度大于或者等于语义相似度阈值时,在标识所述第一词语的第一节点与标识所述第二词语的第二节点之间添加一条边,以连接所述第一节点和所述第二节点;

2)当所述词语集合中第三词语和第四词语为相同的词语时,合并标识所述第三词语的第三节点与标识所述第四词语的第四节点;

根据上述1)和2)生成所述文本的语义相似度图。

6.根据权利要求1所述的方法,其特征在于,所述根据所述各个词语的综合测度确定关键词包括:

将计算的各个所述意群社团中的所述各个词语的综合测度进行排序,确定所述综合测度最大的预设个数的词语为候选关键词;

将所述候选关键词进行复合,获得所述文本的关键词。

7.一种抽取关键词的装置,其特征在于,包括:

获取单元,用于获取文本经过词法分析以及预处理后的词语集合;

第一处理单元,用于根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;

第二处理单元,用于根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;

关键词确定单元,用于根据所述各个词语的综合测度确定关键词。

8.根据权利要求7所述的装置,其特征在于,所述第一处理单元包括:

第一确定模块,用于根据所述文本,确定所述词语集合中所述各个词语包含的文本义项集合;

第二确定模块,用于确定所述词语集合中所述各个词语在语义知识管理系统中的词语义项集合;

确定目标义项集合模块,用于根据所述文本义项集合和所述词语义项集合的交集,得到所述词语集合中所述各个词语的目标义项集合;

确定语义相似度模块,用于根据所述各个词语的目标义项集合,确定所述第一词语集合中任意两个词语的语义相似度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盘古文化传播有限公司,未经盘古文化传播有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210212574.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top