[发明专利]一种术语生成方法、装置及存储介质有效
申请号: | 202010716035.0 | 申请日: | 2020-07-23 |
公开(公告)号: | CN112100320B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 张小波 | 申请(专利权)人: | 安徽米度智能科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/284;G06N3/0464;G06N3/08 |
代理公司: | 北京同辉知识产权代理事务所(普通合伙) 11357 | 代理人: | 饶富春 |
地址: | 232000 安徽省淮南*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 术语 生成 方法 装置 存储 介质 | ||
1.一种术语生成方法,其特征在于,所述方法包括:
接收待处理文本;
获取所述待处理文本的单词信息、基因信息;
根据所述待处理文本的单词信息、基因信息,利用预先构建好的术语生成模型,生成所述待处理文本对应的目标术语;其中,所述术语生成模型基于术语、基因信息、单词信息之间的关联关系训练获得;
所述术语生成模型包括术语编码子模型和术语解码子模型,所述术语编码子模型用于根据所述待处理文本的单词信息、基因信息生成所述待处理文本的术语编码信息,所述术语解码子模型用于对所述术语编码信息进行解码获得所述待处理文本对应的目标术语;
所述术语生成模型采用下述方法构建:
采集样本数据集,所述样本数据集中包括多个样本文本以及各个样本文本对应的术语名称、基因信息、摘要信息;
根据所述样本数据集中各个样本文本的术语名称、基因信息、摘要信息构建出术语异构图;
利用卷积神经网络算法对所述术语异构图进行学习,构建出所述术语编码子模型;
根据所述术语编码子模型对所述样本数据集中各个样本文本生成的术语编码信息和所述样本数据集中各个样本文本的术语名称,训练构建所述术语解码子模型;
所述根据所述样本数据集中各个样本文本的术语名称、基因信息、摘要信息构建出术语异构图,包括:
所述术语异构图中的节点为所述样本数据集中各个样本文本的术语名称、基因信息或摘要信息,所述术语异构图中的边为单词规范化值或基因术语值,其中,所述单词规范化值表征所述样本文本中单词的规范化数值,所述基因术语值用于表征所述样本文本中的基因与术语之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述术语解码子模型采用拷贝机制对所述术语编码信息进行解码获得所述待处理文本对应的目标术语。
3.一种术语生成模型构建方法,其特征在于,包括:
构建样本数据集,所述样本数据集中包括多个样本文本以及各个样本文本对应的术语名称、基因信息、摘要信息;
根据所述样本数据集中各个样本文本中术语、基因信息、摘要信息构建出术语异构图,所述术语异构图中的节点为所述样本数据集中各个样本文本的术语名称、基因信息或摘要信息,所述术语异构图中的边为单词规范化值或基因术语值;
利用卷积神经网络算法对所述术语异构图进行学习,构建出所述术语生成模型中的术语编码子模型;
根据术语编码子模型对所述样本数据集中各个样本文本生成的术语编码信息和所述样本数据集中各个样本文本的术语名称,训练构建所述术语生成模型中的术语解码子模型。
4.一种术语生成装置,其特征在于,包括:
文本接收模块,用于接收待处理文本;
信息获取模块,用于获取所述待处理文本的单词信息、基因信息;
术语生成模块,用于根据所述待处理文本的单词信息、基因信息,利用预先构建好的术语生成模型,生成所述待处理文本对应的目标术语;其中,所述术语生成模型基于术语、基因信息、单词信息之间的关联关系训练获得;
所述术语生成模型包括术语编码子模型和术语解码子模型,所述术语编码子模型用于根据所述待处理文本的单词信息、基因信息生成所述待处理文本的术语编码信息,所述术语解码子模型用于对所述术语编码信息进行解码获得所述待处理文本对应的目标术语;
所述术语生成模型采用下述方法构建:
采集样本数据集,所述样本数据集中包括多个样本文本以及各个样本文本对应的术语名称、基因信息、摘要信息;
根据所述样本数据集中各个样本文本的术语名称、基因信息、摘要信息构建出术语异构图;
利用卷积神经网络算法对所述术语异构图进行学习,构建出所述术语编码子模型;
根据所述术语编码子模型对所述样本数据集中各个样本文本生成的术语编码信息和所述样本数据集中各个样本文本的术语名称,训练构建所述术语解码子模型;
所述根据所述样本数据集中各个样本文本的术语名称、基因信息、摘要信息构建出术语异构图,包括:
所述术语异构图中的节点为所述样本数据集中各个样本文本的术语名称、基因信息或摘要信息,所述术语异构图中的边为单词规范化值或基因术语值,其中,所述单词规范化值表征所述样本文本中单词的规范化数值,所述基因术语值用于表征所述样本文本中的基因与术语之间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽米度智能科技有限公司,未经安徽米度智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010716035.0/1.html,转载请声明来源钻瓜专利网。