[发明专利]中文语料的词向量生成方法、系统、电子装置及介质有效
申请号: | 201910429450.5 | 申请日: | 2019-05-22 |
公开(公告)号: | CN110309317B | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 殷复莲;王颜颜;李利;李思彤;冀美琪;夏欣雨 | 申请(专利权)人: | 中国传媒大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06F40/289;G06F40/247 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 张超艳;董永辉 |
地址: | 100024 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种中文语料的词向量生成方法、系统、电子装置及介质,包括:构建数据库,存储独立词集、同义词集和相关词集;采集中文语料分词得到词语集;将词语集中词语的独立词集、同义词集和相关词集进行编码;将编码向量输入词表示模型获得每个词语的第一向量;判断词语是否属于独立词集;属于独立词集,将第一向量作为输出向量;不属于独立词集,将词语的每个第一向量输入第一概率模型和第二概率模型,分别得到词语属于每个意思的第一概率及其上下文词语的第二概率;将第一概率和第二概率输入第三概率模型,获得词语属于每个意思的第三概率;将最大第三概率对应的所述词语的意思的第一向量作为所述词语的输出向量。 | ||
搜索关键词: | 中文 语料 向量 生成 方法 系统 电子 装置 介质 | ||
【主权项】:
1.一种中文语料的词向量生成方法,其特征在于,包括:构建数据库,所述数据库将独立词存储为独立词集,将词语的每个意思的同义词存储为同义词集,将词语的每个意思的相关词存储为相关词集;采集中文语料,对中文语料进行分词,得到中文语料的词语构成的词语集W=[w1,w2,...,wb],b为词语集的词语总数;将所述词语集中词语的独立词集、同义词集和相关词集按第一设定次序进行编码,得到独立词的编码向量、每个词语的每个意思的每个同义词的编码向量、每个词语的每个意思的每个相关词的编码向量及每个词语的每个意思的编码向量;将编码向量输入词表示模型,将词语集中的独立词、每个词语的每个意思的每个同义词、每个词语的每个意思的每个相关词及每个词语的每个意思转化为第一向量,每个词语的每个意思中每个同义词的第一向量构成每个词语的每个意思的同义词集的第一向量集,每个词语的每个意思的每个相关词的第一向量构成每个词语的每个意思的相关词集的第一向量集,每个词语的每个意思的同义词集和相关词集的第一向量集构成每个词语的每个意思的第一向量集,每个词语的所有意思的第一向量集构成每个词语的第一向量集;以第二设定次序判断词语集中每个词语是否属于独立词集;如果所述词语属于独立词集,将所述词语的第一向量作为所述词语的输出向量;如果所述词语不属于独立词集,执行下述步骤:将所述词语的每个意思的第一向量集中的每个第一向量输入第一概率模型,得到所述词语属于每个意思的第一概率,其中,所述第一概率模型通过下式(1)构建其中,wt为词语集中第t个词语,cj为词语wt的第j个意思,表示词语wt属于意思cj的第一概率,表示词语wt的第j个意思cj中第i个同义词或者第i个相关词的第一向量;将所述词语的每个意思的第一向量输入第二概率模型,得到所述词语属于每个意思的上下文词语的第二概率,其中,所述第二概率模型通过下式(2)构建其中,wt+k表示词语wt的上下文词语,表示词语wt的意思cj的第一向量,是词语集中除了词语wt以外的其他词语作为独立词的编码向量输入词表示模型得到的第一向量,为词语wt的意思cj的编码向量,表示词语wt属于意思cj的上下文词语的第二概率;将所述词语属于每个意思的第一概率和所述词语属于每个意思的上下文词语的第二概率输入第三概率模型,获得词语属于每个意思的第三概率,其中,所述第三概率模型通过下式(3)构建其中,p(cj|wt)表示词语wt属于意思cj的第三概率;将最大第三概率对应的所述词语的意思的第一向量作为所述词语的输出向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国传媒大学,未经中国传媒大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910429450.5/,转载请声明来源钻瓜专利网。