[发明专利]一种主体相关性识别的方法、装置、设备及存储介质在审
申请号: | 202310012070.8 | 申请日: | 2023-01-05 |
公开(公告)号: | CN115934917A | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 王兆元;龚浩;彭璿韬;李青龙 | 申请(专利权)人: | 北京智慧星光信息技术有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/295;G06N20/00 |
代理公司: | 北京细软智谷知识产权代理有限责任公司 11471 | 代理人: | 葛钟 |
地址: | 100089 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 主体 相关性 识别 方法 装置 设备 存储 介质 | ||
1.一种主体相关性识别的方法,其特征在于,包括:
获取主体与一条包含主体的文本段,文本段包括标题和正文;
抽取正文中含主体的最长预设数量的语句作为调整正文;
对主体、标题和调整正文使用预设的分词器进行分词;
将分词后的主体和标题作为ESIM模型的第一文本段,将分词后的调整正文作为ESIM模型第二文本段;
利用分词器生成词向量查找表,利用词向量查找表对分词后的主体、标题和调整正文进行词向量查找;
将词向量查找结果作为ESIM模型的嵌入层查找结果,对第一文本段和第二文本段进行向量化表示;
将向量化表示结果作为ESIM模型的输入进行模型推断,生成推断结果。
2.根据权利要求1的方法,其特征在于,抽取正文中含主体的最长预设数量的语句作为调整正文,包括:
利用断句标点对正文内容进行切分,断句标点至少包括句号、感叹号和问号;
选取切分后的语句中包含主体的语句;
若包含主体的语句的数量小于预设数量,则将全部的包含主体的语句作为调整正文;
若包含主体的语句的数量大于等于预设数量,则选取字符数最长的预设数量的语句作为调整正文。
3.根据权利要求1的方法,其特征在于,
分词器为根据主体与包含主体的文本段的具体场景与业务数据设置的。
4.根据权利要求3的方法,其特征在于,利用分词器生成词向量查找表,包括:
利用分词器对具体场景与业务数据进行分词,生成词库;
对词库进行词向量训练,生成词向量查找表。
5.根据权利要求1的方法,其特征在于,将向量化表示结果作为ESIM模型的输入进行模型推断,生成推断结果,包括:
ESIM模型对向量化表示结果进行前向传播,得到对应分值,对分值进行归一化处理,得到相关性结果分值;
若相关性结果分值大于等于0.5,则输出主体与包含主体的文本段为强相关;
若相关性结果分值小于0.5,则输出主体与包含主体的文本段为弱相关。
6.一种主体相关性识别的装置,其特征在于,包括:
文本获取模块,用于获取主体与一条包含主体的文本段,文本段包括标题和正文;
正文调整模块,用于抽取正文中含主体的最长预设数量的语句作为调整正文;
文本分词模块,用于对主体、标题和调整正文使用预设的分词器进行分词;将分词后的主体和标题作为ESIM模型的第一文本段,将分词后的调整正文作为ESIM模型第二文本段;
词向量查找模块,用于利用分词器生成词向量查找表,利用词向量查找表对分词后的主体、标题和调整正文进行词向量查找;
向量化表示模块,用于将词向量查找结果作为ESIM模型的嵌入层查找结果,对第一文本段和第二文本段进行向量化表示;
结果生成模块,用于将向量化表示结果作为ESIM模型的输入进行模型推断,生成推断结果。
7.一种主体相关性识别的设备,其特征在于,包括:
主控器,及与主控器相连的存储器;
存储器,其中存储有程序指令;
主控器用于执行存储器中存储的程序指令,执行如权利要求1~5任一项的方法。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,计算机程序被处理器执行时,实现如权利要求1~5任一项的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧星光信息技术有限公司,未经北京智慧星光信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310012070.8/1.html,转载请声明来源钻瓜专利网。