[发明专利]一种词向量的构建方法及装置在审
申请号: | 201911197725.3 | 申请日: | 2019-11-29 |
公开(公告)号: | CN112883715A | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 刘垚;邹更;任钰欣;黄梓杰 | 申请(专利权)人: | 武汉渔见晚科技有限责任公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06F16/35;G06F16/36 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430070 湖北省*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 向量 构建 方法 装置 | ||
本发明公开了一种词向量的构建方法及装置,其中方法包括:对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,获得m篇独立文本构成的语料的所有句子和词汇;分别以语料的每一个词汇作为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合;对词汇集合中的词汇元素进行筛选;根据筛选后的词汇集合XI中每一个词汇元素的逆文本频率指数以及每一个词汇元素与概念主题词共现情况,确定同一概念主题词下的每个词汇元素的重要性;根据每个词汇元素的重要性以及初始词向量,构建筛选后的词汇集合XI的词向量。本发明的方法构建的词向量可以充分表达词汇与全局文本之间关系。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种词向量的构建方法及装置。
背景技术
目前在自然语言处理领域,词向量是一种常用的对于语言符号的特征表示方法。常用的词向量构建的word embedding方法主要有word2vec、GloVe等方法。
本申请发明人在实施本发明的过程中,发现现有方法至少存在如下技术问题:
word2vec方法依赖于词汇前后几个的词汇关系的局部信息,而对于文本的整体信息没有涉及;而GloVe在利用词汇局部信息的同时涉及了文本全局词汇的统计学信息。这两种方法无法全面表达词汇与全局文本之间关系,导致构建的词向量信息不够全面。
由此可知,现有技术中的方法存在信息不够全面的技术问题。
发明内容
有鉴于此,本发明提供了一种词向量的构建方法及装置,用以解决或者至少部分解决现有技术中的方法构建的词向量信息表达不全面的技术问题。
为了解决上述技术问题,本发明第一方面提供了一种词向量的构建方法,包括:
对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,获得m篇独立文本构成的语料的所有句子和词汇,其中,m为正整数;
分别以语料的每一个词汇作为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,其中,词汇集合包括概念主题词和词汇元素;
对词汇集合中的词汇元素进行筛选;
根据筛选后的词汇集合XI中每一个词汇元素的逆文本频率指数以及每一个词汇元素与概念主题词共现情况,确定同一概念主题词下的每个词汇元素的重要性;
根据每个词汇元素的重要性以及初始词向量,构建筛选后的词汇集合XI的词向量,其中,初始词向量通过预设词嵌入方式获得。
在一种实施方式中,对词汇集合中的词汇元素进行筛选,包括:
统计词汇集合中的每个词汇元素xj与概念主题词xi共同出现的文本数量z,其中,z≤m;
判断文本数量z是否大于或等于第一阈值,如果是,则将词汇元素作为词汇集合的有效词汇,保留在词汇集合中,否则,将词汇元素从词汇集合中去除。
在一种实施方式中,根据筛选后的词汇集合XI中每一个词汇元素的逆文本频率指数以及每一个词汇元素与概念主题词共现情况,确定同一概念主题词下的每个词汇元素的重要性,包括:
计算筛选后的词汇集合XI中每一个词汇元素的逆文本频率指数;
采用词汇元素xj与概念主题词xi共同出现的文本数量zj与词汇集合XI中所有词汇元素与概念主题词xi共同出现的文本数量之和的比值表征词汇元素与概念主题词共现情况;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉渔见晚科技有限责任公司,未经武汉渔见晚科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911197725.3/2.html,转载请声明来源钻瓜专利网。