[发明专利]一种领域词典的构建方法、装置、设备及存储介质在审
申请号: | 201811133186.2 | 申请日: | 2018-09-27 |
公开(公告)号: | CN109284397A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 李坚强;颜果开;傅向华;李赛玲 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F17/27 |
代理公司: | 深圳青年人专利商标代理有限公司 44350 | 代理人: | 吴桂华 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明适用自然语言处理技术领域,提供了一种领域词典的构建方法、装置、设备及存储介质,该方法包括:对选取的通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型,计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与初始领域种子词典中种子词向量的词语语义相似度,根据计算得到的词语语义相似度,选取对应的通用词向量或者领域词向量对初始领域种子词典进行扩展,得到对应的领域词典,通过新词发现算法对领域词典中的未成词词汇进行筛除,以完成领域词典的构建,从而扩大了领域词典的词汇量,且提高了领域词典中领域词汇的准确度,进而提高领域词典的准确率。 | ||
搜索关键词: | 词向量 通用词 构建 向量 向量空间模型 词语语义 存储介质 空间模型 相似度 自然语言处理技术 领域语料库 通用语料库 领域词汇 模型训练 新词发现 准确度 词汇量 种子词 准确率 算法 词汇 | ||
【主权项】:
1.一种领域词典的构建方法,其特征在于,所述方法包括下述步骤:对选取的通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型;计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度;根据计算得到的所述词语语义相似度,选取对应的通用词向量或者领域词向量对所述初始领域种子词典进行扩展,得到对应的领域词典;通过新词发现算法对所述领域词典中的未成词词汇进行筛除,以完成所述领域词典的构建。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811133186.2/,转载请声明来源钻瓜专利网。