[发明专利]一种术语生成方法、装置及存储介质有效
申请号: | 202010716035.0 | 申请日: | 2020-07-23 |
公开(公告)号: | CN112100320B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 张小波 | 申请(专利权)人: | 安徽米度智能科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/284;G06N3/0464;G06N3/08 |
代理公司: | 北京同辉知识产权代理事务所(普通合伙) 11357 | 代理人: | 饶富春 |
地址: | 232000 安徽省淮南*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 术语 生成 方法 装置 存储 介质 | ||
本申请公开了一种术语生成方法,所述方法包括:接收待处理文本;获取待处理文本的单词信息、基因信息;根据所述待处理文本的单词信息、基因信息,利用预先构建好的术语生成模型,生成所述待处理文本对应的目标术语;其中,所述术语生成模型基于术语、基因信息、单词信息之间的关联关系训练获得。本发明的实施可以提高术语的准确率,降低了由于人工定义术语生成的客观性,本发明对术语生成的术语更适合广泛应用和推广,推动了生物学和医学的发展。
技术领域
本申请涉及计算机领域,尤其涉及一种术语生成方法、装置及存储介质。
背景技术
有许多业务领域会有专业的团队构建出一些规范化的术语,以便本领域的人员能够统一认识,方便技术的学习和推广。例如:生物、化学领域的基因本体论通过创建可具代表性的规范化的基因和基因产物特性的术语描绘或词义解释的工作平台,方便生物化学领域的人员进行技术的学习和推广。但是,一般的术语大多由专家手工定义、组织,效率低并且耗费人力,并且不同的专家可能使用不同的表达方式来描述同一个概念,可能会导致术语命名不一致的问题。
发明内容
本说明书实施例的目的在于提供一种术语生成方法、装置及存储介质,实现了一种能够根据待处理文本自动进行术语自动生成的方法,提高了术语的准确性,带动了生物领域的推广应用。一方面、本发明提供一种术语生成方法,所述方法包括:
接收待处理文本;
获取所述待处理文本的单词信息、基因信息;
根据所述待处理文本的单词信息、基因信息,利用预先构建好的术语生成模型,生成所述待处理文本对应的目标术语;其中,所述术语生成模型基于术语、基因信息、单词信息之间的关联关系训练获得。
进一步地、所述术语生成模型包括术语编码子模型和术语解码子模型,所述术语编码子模型用于根据所述待处理文本的单词信息、基因信息生成所述待处理文本的术语编码信息,所述术语解码子模型用于对所述术语编码信息进行解码获得所述待处理文本对应的目标术语。
进一步地、所述术语生成模型采用下述方法构建:
采集样本数据集,所述样本数据集中包括多个样本文本以及各个样本文本对应的术语名称、基因信息、摘要信息;
根据所述样本数据集中各个样本文本的术语名称、基因信息、摘要信息构建出术语异构图;
利用卷积神经网络算法对所述术语异构图进行学习,构建出所述术语编码子模型;
根据所述术语编码子模型对所述样本数据集中各个样本文本的术语编码信息和所述样本数据集中各个样本文本的术语名称,训练构建所述术语解码子模型。
进一步地、所述术语解码子模型采用拷贝机制对所述术语编码信息进行解码获得所述待处理文本对应的目标术语。
进一步地、所述根据所述样本数据集中各个样本文本的术语名称、基因信息、摘要信息构建出术语异构图,包括:
所述术语异构图中的节点为所述样本数据集中各个样本文本的术语名称、基因信息或摘要信息,所述术语异构图中的边为单词规范化值或基因术语值,其中,所述单词规范化值表征所述样本文本中单词的规范化数值,所述基因术语值用于表征所述样本文本中的基因与术语之间的相似度。
另一方面、本发明提供一种术语生成模型构建方法,包括:
构建样本数据集,所述样本数据集中包括多个样本文本以及各个样本文本对应的术语名称、基因信息、摘要信息;
根据所述样本数据集中各个样本文本中术语、基因信息、单词信息构建出术语异构图;
利用卷积神经网络算法对所述术语异构图进行学习,构建出所述术语生成模型中的术语编码子模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽米度智能科技有限公司,未经安徽米度智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010716035.0/2.html,转载请声明来源钻瓜专利网。