[发明专利]构建词语网络及抽取关键词的方法和装置在审
申请号: | 201510433937.2 | 申请日: | 2015-07-22 |
公开(公告)号: | CN105095430A | 公开(公告)日: | 2015-11-25 |
发明(设计)人: | 周青 | 申请(专利权)人: | 深圳证券信息有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518028 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 词语 网络 抽取 关键词 方法 装置 | ||
1.一种构建词语网络的方法,其特征在于,该方法包括:
对文本进行预处理,得到词语集合;
分别计算所述词语集合中任意两个词语之间的语义相似度;
根据所述词语集合及所述语义相似度,构建带权重的语义相似度网络。
2.根据权利要求1所述的构建词语网络的方法,其特征在于,所述计算所述词语集合中任意两个词语之间的语义相似度包括:
使用深度学习word2vec方法计算所述词语集合中任意两个词语之间的语义相似度。
3.根据权利要求1所述的构建词语网络的方法,其特征在于,所述根据所述词语集合及所述语义相似度,构建带权重的语义相似度网络包括:
将所述词语集合中语义相似度大于指定阈值的词语作为所述语义相似度网络的顶点;
在相似度大于指定阈值的两个顶点间加入一条边,所述边的权重为连接该边的两个顶点的语义相似度的倒数。
4.一种构建词语网络的装置,其特征在于,该装置包括:
预处理单元,用于对文本进行预处理,得到词语集合;
相似度计算单元,用于计算所述词语集合中任意两个词语之间的语义相似度;
词语网络构建单元,用于根据所述词语集合及所述语义相似度,构建带权重的语义相似度网络。
5.根据权利要求4所述的构建词语网络的装置,其特征在于,所述相似度计算单元还用于:
使用深度学习word2vec方法计算所述词语集合中任意两个词语之间的语义相似度。
6.根据权利要求4所述的构建词语网络的装置,其特征在于,所述词语网络构建单元还包括:
顶点选择单元,用于在所述词语集合中选择相似度大于指定阈值的词语作为所述语义相似度网络的顶点;
权重计算单元,用于在相似度大于指定阈值的两个顶点间加入一条边,所述边的权重为连接该边的两个顶点的语义相似度的倒数。
7.一种利用如权利要求1-3任一个所述的方法构建的词语网络进行抽取关键词的方法,其特征在于,该方法包括:
计算与所述顶点相连的各边权重的倒数之和,得到该顶点的加权中心度;
计算所述顶点的中间中心度;
根据所述顶点的加权中心度和中间中心度,计算所述顶点的重要度;
根据各顶点的重要度确定关键词。
8.根据权利要求7所述的抽取关键词的方法,其特征在于,所述计算所述顶点的重要度的公式为:
cpi=α·bwi+(1-α)·bci
其中,cpi为顶点Vi的顶点重要度,bwi为顶点Vi的加权中心度,bci为顶点Vi的中间中心度,α为调节bwi和bci的调节因子,0<α<1。
9.一种利用如权利要求7所述的抽取关键词的方法进行抽取关键词的装置,其特征在于,所述装置包括:
加权中心度计算单元,用于计算与所述顶点相连的各边权重的倒数之和,得到该顶点的加权中心度;
中间中心度计算单元,用于计算所述顶点的中间中心度;
重要度计算单元,用于根据所述顶点的加权中心度和中间中心度,计算所述顶点的重要度;
关键词确定单元,用于根据各顶点的重要度确定关键词。
10.根据权利要求9所述的抽取关键词的装置,其特征在于,所述重要度计算单元计算顶点的重要度公式为:
cpi=α·bwi+(1-α)·bci
其中,cpi为顶点Vi的顶点重要度,bwi为顶点Vi的加权中心度,bci为顶点Vi的中间中心度,α为调节bwi和bci的调节因子,0<α<1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳证券信息有限公司,未经深圳证券信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510433937.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:建立搜索词与应用数据推荐关系的方法及装置
- 下一篇:一种数据存储方法及装置