[发明专利]一种领域词典的构建方法、装置、设备及存储介质在审
申请号: | 201811133186.2 | 申请日: | 2018-09-27 |
公开(公告)号: | CN109284397A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 李坚强;颜果开;傅向华;李赛玲 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F17/27 |
代理公司: | 深圳青年人专利商标代理有限公司 44350 | 代理人: | 吴桂华 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词向量 通用词 构建 向量 向量空间模型 词语语义 存储介质 空间模型 相似度 自然语言处理技术 领域语料库 通用语料库 领域词汇 模型训练 新词发现 准确度 词汇量 种子词 准确率 算法 词汇 | ||
1.一种领域词典的构建方法,其特征在于,所述方法包括下述步骤:
对选取的通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型;
计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度;
根据计算得到的所述词语语义相似度,选取对应的通用词向量或者领域词向量对所述初始领域种子词典进行扩展,得到对应的领域词典;
通过新词发现算法对所述领域词典中的未成词词汇进行筛除,以完成所述领域词典的构建。
2.如权利要求1所述的方法,其特征在于,计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度的步骤,包括:
通过预设的向量余弦相似度公式计算所述通用词向量和所述领域词向量与所述种子词向量的词语语义相似度,所述向量余弦相似度公式为其中,V1为所述通用词向量或者所述领域词向量,V2为所述种子词向量,S(V1,V2)为所述词语语义相似度。
3.如权利要求1所述的方法,其特征在于,选取对应的通用词向量或者领域词向量对所述初始领域种子词典进行扩展的步骤,包括:
当计算得到的所述词语语义相似度大于预设的领域关键词阈值时,将所述词语语义相似度对应的通用词向量或者领域词向量添加到所述初始领域种子词典中,以对所述初始领域种子词典进行扩展。
4.如权利要求1所述的方法,其特征在于,通过新词发现算法对所述领域词典中的未成词词汇进行筛除的步骤之前,所述方法还包括:
判断当前迭代次数是否达到预设的交叉迭代次数;
是则,跳转到通过新词发现算法对所述领域词典中的未成词词汇进行筛除的步骤的步骤;
否则,将所述当前迭代次数增加1次,且将所述领域词典设置为所述初始领域种子词典,并跳转到计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度的步骤。
5.一种领域词典的构建装置,其特征在于,所述装置包括:
模型训练单元,用于对选取的通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型;
相似度计算单元,用于计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度;
词典扩展单元,用于根据计算得到的所述词语语义相似度,选取对应的通用词向量或者领域词向量对所述初始领域种子词典进行扩展,得到对应的领域词典;以及
未成词筛除单元,用于通过新词发现算法对所述领域词典中的未成词词汇进行筛除,以完成所述领域词典的构建。
6.如权利要求5所述的装置,其特征在于,所述相似度计算单元包括:
相似度计算子单元,用于通过预设的向量余弦相似度公式计算所述通用词向量和所述领域词向量与所述种子词向量的词语语义相似度,所述向量余弦相似度公式为其中,V1为所述通用词向量或者所述领域词向量,V2为所述种子词向量,S(V1,V2)为所述词语语义相似度。
7.如权利要求5所述的装置,其特征在于,所述词典扩展单元包括:
词典扩展子单元,用于当计算得到的所述词语语义相似度大于预设的领域关键词阈值时,将所述词语语义相似度对应的通用词向量或者领域词向量添加到所述初始领域种子词典中,以对所述初始领域种子词典进行扩展。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811133186.2/1.html,转载请声明来源钻瓜专利网。