[发明专利]一种词向量的构建方法及装置在审
申请号: | 201911197725.3 | 申请日: | 2019-11-29 |
公开(公告)号: | CN112883715A | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 刘垚;邹更;任钰欣;黄梓杰 | 申请(专利权)人: | 武汉渔见晚科技有限责任公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06F16/35;G06F16/36 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430070 湖北省*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 向量 构建 方法 装置 | ||
1.一种词向量的构建方法,其特征在于,包括:
对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,获得m篇独立文本构成的语料的所有句子和词汇,其中,m为正整数;
分别以语料的每一个词汇作为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,其中,词汇集合包括概念主题词和词汇元素;
对词汇集合中的词汇元素进行筛选;
根据筛选后的词汇集合XI中每一个词汇元素的逆文本频率指数以及每一个词汇元素与概念主题词共现情况,确定同一概念主题词下的每个词汇元素的重要性;
根据每个词汇元素的重要性以及初始词向量,构建筛选后的词汇集合XI的词向量,其中,初始词向量通过预设词嵌入方式获得。
2.如权利要求1所述的方法,其特征在于,对词汇集合中的词汇元素进行筛选,包括:
统计词汇集合中的每个词汇元素xj与概念主题词xi共同出现的文本数量z,其中,z≤m;
判断文本数量z是否大于或等于第一阈值,如果是,则将词汇元素作为词汇集合的有效词汇,保留在词汇集合中,否则,将词汇元素从词汇集合中去除。
3.如权利要求1所述的方法,其特征在于,根据筛选后的词汇集合XI中每一个词汇元素的逆文本频率指数以及每一个词汇元素与概念主题词共现情况,确定同一概念主题词下的每个词汇元素的重要性,包括:
计算筛选后的词汇集合XI中每一个词汇元素的逆文本频率指数;
采用词汇元素xj与概念主题词xi共同出现的文本数量zj与词汇集合XI中所有词汇元素与概念主题词xi共同出现的文本数量之和的比值表征词汇元素与概念主题词共现情况;
根据每一个词汇元素的逆文本频率指数和计算得出的比值,确定同一概念主题词下的每个词汇元素的重要性。
4.如权利要求3所述的方法,其特征在于,计算筛选后的词汇集合XI中每一个词汇元素的逆文本频率指数,包括:
根据词汇集合总数和包含词汇元素xj的词汇集合计算每一个词汇元素的逆文本频率指数,计算公式为:
其中,countX表示所有的词汇集合总数,countxj表示包含词汇元素xj的词汇集合数量,IDFj表示词汇元素xj的逆文本频率指数。
5.如权利要求3所述的方法,其特征在于,根据每一个词汇元素的逆文本频率指数和计算得出的比值,确定同一概念主题词下的每个词汇元素的重要性,包括:
将每一个词汇元素的逆文本频率指数与计算得出的比值相乘,得到权重系数,将权重系数用以表征同一概念主题词下的每个词汇元素的重要性。
6.如权利要求5所述的方法,其特征在于,根据每个词汇元素的重要性以及初始词向量,构建筛选后的词汇集合XI的词向量,包括:
将词汇集合中的每一个词汇元素的权重系数与词汇元素对应的初始词向量相乘后求和,得到词汇集合的词向量。
7.如权利要求1所述的方法,其特征在于,在构建词汇集合的词向量之后,所述方法还包括:
依据每个词汇集合XI的向量,采用k-means算法对所有词汇集合的向量进行聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉渔见晚科技有限责任公司,未经武汉渔见晚科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911197725.3/1.html,转载请声明来源钻瓜专利网。