[发明专利]近义词扩展及生成对抗网络模型训练方法和装置有效
申请号: | 201910204138.6 | 申请日: | 2019-03-18 |
公开(公告)号: | CN110032734B | 公开(公告)日: | 2023-02-28 |
发明(设计)人: | 刘焱;吕中厚 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/247;G06F18/214;G06F16/36 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 近义词 扩展 生成 对抗 网络 模型 训练 方法 装置 | ||
1.一种近义词扩展方法,其特征在于,包括:
获取待处理的关键词;
利用词向量工具从生成的备选词集中查找出所述关键词的近义词;
利用预先训练得到的生成对抗网络GAN模型,分别生成所述关键词以及所述查找出的近义词的近义词,包括:针对所述关键词以及所述查找出的近义词中的每个词,分别将所述词以及噪声输入所述GAN模型,得到所述GAN模型生成的所述词的近义词;
该方法进一步包括:针对同一个词,分别向所述GAN模型输入不同的噪声,得到所述GAN模型生成的所述词的不同近义词。
2.根据权利要求1所述的方法,其特征在于,
所述利用词向量工具从生成的备选词集中查找出所述关键词的近义词包括:
将所述关键词输入给所述词向量工具,获取所述词向量工具分别计算各备选词的词向量表示与所述关键词的词向量表示之间的距离后,选出并返回的距离所述关键词最近的N个备选词,将所述返回的备选词作为所述关键词的近义词,N为正整数。
3.根据权利要求1所述的方法,其特征在于,
生成所述备选词集的方式包括:
收集用户生成内容UGC数据;
对所述UGC数据进行切词处理,将切词结果作为备选词。
4.一种生成对抗网络模型训练方法,其特征在于,包括:
获取训练样本,每个训练样本中包括:原始词以及所述原始词的近义词;
根据所述训练样本训练出生成对抗网络GAN模型,以便在进行近义词扩展时,针对待处理的关键词,在利用词向量工具从生成的备选词集中查找出所述关键词的近义词后,利用所述GAN模型分别生成所述关键词以及所述查找出的近义词的近义词。
5.根据权利要求4所述的方法,其特征在于,
所述原始词的近义词为所述原始词的变形词,包括以下之一或组合:将所述原始词中的部分内容去除、将所述原始词中的部分或全部内容进行替换;
针对所述关键词以及所述查找出的近义词中的每个词,所述GAN模型生成的所述词的近义词为所述词的变形词,包括以下之一或组合:将所述词中的部分内容去除、将所述词中的部分或全部内容进行替换。
6.根据权利要求5所述的方法,其特征在于,
所述将所述词中的部分或全部内容进行替换包括以下之一或任意组合:将所述词中的至少一个字替换为拼音、将所述词中的至少一个字替换为拼音首字母、将所述词中的至少一个字替换为发音相近的其它字。
7.一种近义词扩展装置,其特征在于,包括:第一扩展单元以及第二扩展单元;
所述第一扩展单元,用于获取待处理的关键词,并利用词向量工具从生成的备选词集中查找出所述关键词的近义词;
所述第二扩展单元,用于利用预先训练得到的生成对抗网络GAN模型,分别生成所述关键词以及所述查找出的近义词的近义词;
其中,所述第二扩展单元针对所述关键词以及所述查找出的近义词中的每个词,分别将所述词以及噪声输入所述GAN模型,得到所述GAN模型生成的所述词的近义词;
所述第二扩展单元进一步用于,针对同一个词,分别向所述GAN模型输入不同的噪声,得到所述GAN模型生成的所述词的不同近义词。
8.根据权利要求7所述的装置,其特征在于,
所述第一扩展单元将所述关键词输入给所述词向量工具,获取所述词向量工具分别计算各备选词的词向量表示与所述关键词的词向量表示之间的距离后,选出并返回的距离所述关键词最近的N个备选词,将所述返回的备选词作为所述关键词的近义词,N为正整数。
9.根据权利要求7所述的装置,其特征在于,
所述第一扩展单元进一步用于,收集用户生成内容UGC数据,对所述UGC数据进行切词处理,将切词结果作为备选词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910204138.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种针对新闻长文本的谣言检测方法及系统
- 下一篇:隐含观点情感极性的分析方法