[发明专利]一种语义识别方法、相关装置以及设备有效
申请号: | 202110649311.0 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113255345B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 刘志煌 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/237;G06F40/30 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 聂秀娜 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语义 识别 方法 相关 装置 以及 设备 | ||
1.一种语义识别方法,其特征在于,包括:
获取待识别文本,其中,所述待识别文本包括待识别多义词,所述待识别多义词包括N种语义类型,所述 N 为大于 1 的整数,所述待识别文本包括至少两个语句;
根据所述待识别文本获取主题词语,其中,所述主题词语用于表示所述待识别文本的主题类型;
根据所述待识别文本获取词语序列,其中,所述词语序列包括所述待识别多义词和目标词语,所述目标词语包括所述待识别多义词的上文词语和下文词语中的至少一项;
根据所述主题词语和所述词语序列,确定所述待识别多义词对应的语义识别特征;
根据所述语义识别特征,从所述 N 种语义类型中确定所述待识别多义词在所述待识别文本中的含义;
其中,所述根据所述主题词语和所述词语序列,确定所述待识别多义词的语义识别特征,包括:
从文本集合的主题词语集合中,确定所述主题词语对应的关联主题词语;
从所述文本集合的词语序列集合中,确定所述词语序列对应的关联词语序列;
根据所述关联主题词语和所述关联词语序列,确定所述待识别多义词的语义识别特征。
2.根据权利要求 1 所述的语义识别方法,其特征在于,在所述根据所述待识别文本获取主题词语之前,所述方法还包括:
处理待识别文本,得到至少两个词向量;
将所述至少两个词向量输入主题模型,得到主题分布向量;
确定所述至少两个词向量中每一个词向量与所述主题分布向量之间的距离;
根据所述距离,确定主题相关词向量;
所述根据所述待识别文本获取主题词语,包括:
根据所述主题相关词向量,确定主题词语特征;
根据所述主题词语特征,确定所述主题词语。
3.根据权利要求 2 所述的语义识别方法,其特征在于,所述根据所述主题相关词向量,确定所述主题词语特征,包括:
若所述主题相关词向量的数量为一个,则确定所述主题相关词向量为所述主题词语特征;
若所述主题相关词向量的数量大于一个,则处理所述主题相关词向量,得到所述主题词语特征。
4.根据权利要求 3 所述的语义识别方法,其特征在于,所述处理所述主题相关词向量,得到所述主题词语特征,包括:
对所述主题相关词向量求平均值,得到所述主题词语特征;或者,
对所述主题相关词向量进行加权求和,得到所述主题词语特征;或者,
确定所述主题相关词向量中的最大值,为所述主题词语特征。
5.根据权利要求 2 所述的语义识别方法,其特征在于,所述根据所述主题相关词向量,确定所述主题词语特征,包括:
若所述主题相关词向量的数量大于一个,则聚类所述主题相关词,得到主题标签;若所述主题标签的数量为一个,则确定所述主题标签为所述主题词语特征;
若所述主题标签的数量大于一个,则对所述主题标签求平均值,得到所述主题词语特征;或者对所述主题标签进行加权求和,得到所述主题词语特征;或者确定所述主题标签的最大值,为所述主题词语特征。
6.根据权利要求 1 至 5 中任一项所述的语义识别方法,其特征在于,所述根据所述待识别文本获取词语序列,包括:
对所述待识别文本进行分句处理,得到至少两个语句;
获取所述至少两个语句中目标语句的频繁序列,其中,所述目标语句包括所述待识别多义词所在的语句,和所述待识别多义词所在语句的前 X 个语句,和所述待识别多义词所在语句的 Y 个语句中的至少一项,X≥1,Y≥1,且 X、Y 均为整数;
确定支持度大于阈值的所述频繁序列,为目标频繁序列,所述支持度用于表示所述频繁序列在所述目标语句中的出现的频率;
根据所述目标频繁序列,确定所述词语序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110649311.0/1.html,转载请声明来源钻瓜专利网。