[发明专利]对语词向量生成方法、对语生成模型训练方法有效
申请号: | 202010038403.0 | 申请日: | 2020-01-14 |
公开(公告)号: | CN111241830B | 公开(公告)日: | 2023-09-01 |
发明(设计)人: | 吴仁守 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/211 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;车江华 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语词 向量 生成 方法 模型 训练 | ||
本发明公开一种对语词向量生成方法,所述对语包括第一语句和第二语句,所述方法包括:确定所述第一语句中的需要生成词向量的待对词;确定所述第二语句中与所述待对词在所述第一语句中的位置相对应的对词;根据所述第一语句中的对应于所述待对词的邻接词和所述第二语句中的所述对词的邻接词确定所述待对词的词向量。本发明不仅考虑词语与其所在训练序列中的前后词语之间的关系,还考虑上下联中对应位置的词语之间的联系。从而使得训练得到的词向量更符合对联对于韵律以及平仄等特征的要求的同时,还能兼顾句子前后文之间的联系,使得在用于生成对联时得到的上联或者下联整个句子更加的协调,不会显得生硬。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种对语词向量生成方法、对语生成模型训练方法及对语生成方法。
背景技术
对联,又叫做对子或者楹联,是中国的传统文化之一。对联讲究平仄要协调,对仗要工整,上下联字数相同,结构也保持一致,是中华语言的一种独特的艺术形式,具有非常浓厚的美感,受到了人们的广泛喜爱。
现有的对对联辅助系统通常基于统计信息,使用计算机根据数据库里面收集的历代律诗统计出的对偶结果,为常见的对语(字数一般局限与1~2个字)建立对语库。在用户输入求对的字词、词组后,系统在对语库中查询对应的候选对语,一旦对语库中不存在用户输入求对的字词、词组,则会查询失败。
发明内容
本发明实施例提供一种对语词向量生成方法、对语生成模型训练方法及对语生成方法,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种对语词向量生成方法,所述对语包括第一语句和第二语句,所述方法包括:
确定所述第一语句中的需要生成词向量的待对词;
确定所述第二语句中与所述待对词在所述第一语句中的位置相对应的对词;
根据所述第一语句中的对应于所述待对词的邻接词和所述第二语句中的所述对词的邻接词确定所述待对词的词向量。
在一些实施例中,当所述待对词为所述第一语句中的第一个词时,所述待对词的邻接词为所述第一语句中的所述待对词的后续词;
当所述待对词为所述第一语句中的最后一个词时,所述待对词的邻接词为所述第一语句中的所述待对词的前置词;
当所述待对词为所述第一语句中的中间词时,所述待对词的邻接词包括所述第一语句中的所述待对词的前置词和后续词。
在一些实施例中,所述对语为对联;所述第一语句为所述对联的上联,所述第二语句为所述对联的下联;或者,所述第一语句为所述对联的下联,所述第二语句为所述对联的上联。
第二方面,本发明还提供一种对语生成模型训练方法,包括:
获取样本对语,所述样本对语包括第一样本语句和第二样本语句;
采用前述任一实施例所述的对语词向量生成方法生成所述第一样本语句的多个词的多个词向量;
将所述第一样本语句的多个词的多个词向量输入至编码器,以得到对应于所述第一样本语句的语义向量;
至少将所述第一样本语句的语义向量输入至解码器,以确定对应于所述第二样本语句中的多个词的条件概率;
根据所述第二样本语句中的多个词的条件概率,基于最小交叉熵算法对所述编码器和所述解码器进行参数优化。
在一些实施例中,所述对语生成模型训练方法还包括:
确定所述第二样本语句中的当前待确定条件概率的词;
获取所述第一样本语句中与所述当前待确定条件概率的词相对应的词的词向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010038403.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:柚皮素纳米脂质载体及其制备方法与应用
- 下一篇:导盲寻路方法和装置