[发明专利]一种基于义原的词语语义的预测方法及计算机设备在审
申请号: | 202110412919.1 | 申请日: | 2021-04-16 |
公开(公告)号: | CN113486142A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 李涓子;刘宝巨;侯磊;吕鑫;肖镜辉 | 申请(专利权)人: | 华为技术有限公司;清华大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/9535;G06F40/30;G06K9/62;G06N3/04 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 聂秀娜 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词语 语义 预测 方法 计算机 设备 | ||
本申请涉及人工智能领域中的自然语言处理技术,公开了一种基于义原的词语语义的预测方法及计算机设备,该方法在知网的基础上,基于义原构建词语的义原空间,并将知网中的已知词语表示在义原空间内,词语在义原空间的向量表示由两部分组成,一部分取值由类别义原决定,另一部分取值由扩展描述及扩展描述与类别义原的关联关系决定,由于义原含义明确,因此本申请用于表征词语的向量具有可解释性;在面对新增词语,可计算新增词语与已知词语间的相关性,由已知词语在义原空间的向量表示推导出新增词语的向量表示,经由该方法预测得到的新增词语具有强表征能力。本申请方法可与推荐系统结合,用于解决推荐系统的新词理解和表示问题,提升推荐质量。
技术领域
本申请涉及人工智能领域中的自然语言处理技术,尤其涉及一种基于义原的词语语义的预测方法及计算机设备。
背景技术
近几年,推荐系统已经被广泛应用在手机、电视、智能音箱、智能耳机等产品中。例如,在手机产品的应用程序(application,APP)应用市场中,推荐系统可以帮助用户匹配更合适的APP,并且可以提升应用市场本身的APP分发效率;在信息流产品中,推荐系统可以帮助用户匹配更加符合兴趣口味的信息,节省用户时间的同时,也提升了新闻整体的阅读量。然而,社会的快速发展随之带来新的词汇、概念等层出不穷,尤其在互联网上,每天都有新的词汇产生,如:蓝瘦香菇、十动然拒、新冠病毒、耗子尾汁等。对这些词语语义的快速、准确的理解和表示,是推荐系统面临的一大挑战。
目前对词语语义的表示方法普遍采用的是词语向量化表示,主要分为两种:A、一种是基于词语的独热编码(one-hot)表示,如图1所示,每个词语均表示为一个n维0-1向量,n是词表的大小,通常在几十万到上千万之间(向量长度一般为对应字典的长度),向量中的每个维度表示词表中的一个词语,并且在该n维0-1向量中,只有当前词语所在位置的值置为1,其余位置为0;B、另一种是基于词语的稠密嵌入(dense embedding)表示,如图2所示,每个词语可表示为n维实数向量,通常n在几百到一千之间,向量的每个维度用于表征词语的一些特性/属性(如,性别、动词、复数等),其不具备具体含义,通过对向量之间的计算(如,距离)来表示词语语义之间的亲疏。
上述方式A相当于是给每个词语编了个号,但词语和词语之间的关系则完全体现不出来,表示能力弱,且向量非常稀疏,存储开销大;上述方式B虽然能够通过计算来表示词语与词语之间的语义关系,不过向量中的每个维度的含义并不明确,可解释性比较差,具体在推荐系统中,这种方式的计算难以给出推荐理由。
发明内容
本申请实施例提供了一种基于义原的词语语义的预测方法及计算机设备,该方法基于义原构建词语的语义表示空间(即义原空间),并将已定义的词语(即第一词语)表示在该义原空间内,词语在义原空间的向量表示由两部分组成,一部分的取值由词语的类别义原决定,另一部分的取值由词语的扩展描述以及该扩展描述与类别义原的关联关系决定(这部分的具体取值通过模型学习得到),由于义原的含义明确,所以本申请的用于表征词语的向量具有可解释性;并且,在面对新增词语(即第二词语),可计算新增词语与已知词语之间的亲疏关系(即相关性),由已知词语在义原空间的向量表示推导出新增词语在义原空间的向量表示,经由该方法预测得到的新增词语具有强表征能力。本申请方法可与推荐系统结合,用于解决推荐系统的新词理解和表示问题,提升推荐质量。
基于此,本申请实施例提供以下技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;清华大学,未经华为技术有限公司;清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110412919.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光伏系统、直流汇流箱及接线错误检测方法
- 下一篇:触控操作方法及装置