[发明专利]机器阅读理解中文的方法、装置和计算机设备在审
申请号: | 201910597621.5 | 申请日: | 2019-07-04 |
公开(公告)号: | CN110442691A | 公开(公告)日: | 2019-11-12 |
发明(设计)人: | 苏智辉;钱柏丞 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文文本 计算机设备 阅读 中文 文本 答案 分词处理 问题文本 向量化 准确率 分词 预设 申请 | ||
1.一种机器阅读理解中文的方法,其特征在于,包括:
获取第一问题中文文本,以及待理解的第一中文文本;
分别将所述第一问题中文文本和所述第一中文文本输入到预设的语言模型中进行向量化,得到所述第一问题中文文本的问题向量,以及所述第一中文文本的待理解向量,其中,所述语言模型为BERT;
将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算,得到对应所述第一问题中文文本的第一答案文本。
2.根据权利要求1所述的机器阅读理解中文的方法,其特征在于,所述分别将所述第一问题中文文本和所述第一中文文本输入到预设的语言模型中进行向量化,得到所述第一问题中文文本的问题向量,以及所述第一中文文本的待理解向量的步骤,包括:
分别对所述第一问题中文文本,以及所述第一中文文本中的每一个字符向量化,得到字符向量;以及给每一个字符标记位置向量,得到字符位置向量;
将每一个字符对应的字符向量和字符位置向量合并,得到对应对所述第一问题中文文本的问题向量,以及对应所述第一中文文本的待理解向量。
3.根据权利要求1所述的机器阅读理解中文的方法,其特征在于,所述将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算,得到对应所述第一问题中文文本的第一答案文本的步骤之后,包括:
判断所述第一答案文本中是否存在非中文词语,若有,则将非中文词语转换成对应的中文,并替换到所述第一答案文本中,得到纯中文的第一答案文本;
将所述纯中文的第一答案文本中的每一个汉字进行向量化,得到对应所述纯中文的第一答案文本中文字的第一顺序的多个第一向量,多个第一向量形成第一向量串;
将多个所述第一向量按照所述第一顺序,每指定数量的所述第一向量形成一组,得到多个第一向量组;
到预设的模板向量数据库中,各所述第一向量组查找与其相似度最高,且相似度达到预设的第一阈值的第二向量组;
若查找到所述第二向量组,则将所述第二向量组替换所述第一向量串中对应的第一向量组,得到第二向量串;
将所述第二向量串转换成中文,得到第二答案文本。
4.根据权利要求1所述的机器阅读理解中文的方法,其特征在于,所述将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算,得到对应所述第一问题中文文本的第一答案文本的步骤之后,包括:
判断所述第一答案文本中是否存在非中文词语,若有,则将非中文词语转换成对应的中文,并替换到所述第一答案文本中,得到纯中文的第一答案文本;
将所述纯中文的第一答案文本中的每一个汉字进行向量化,得到对应所述纯中文的第一答案文本中文字的第一顺序的多个第一向量,多个所述第一向量形成第一向量串(x1、x2、x3······xn),其中,x为第一向量,n为大于1的整数;
按照所述第一顺序,先以第一个所述第一向量x1为起始向量,与第二个所述第一向量x2进行组合,得到第一向量组合(x1、x2),并在预设的模板向量数据库中,查找与所述第一组合向量(x1、x2)相似度最大,且大于预设的第二阈值的预设第一组合向量(y1、y2),其中y为预设的向量;
若查找到所述预设第一组合向量(y1、y2),则以前三个所述第一向量进行组合,得到第二向量组合(x1、x2、x3),并在所述模板向量数据库中,查找与所述第二组合向量相似度最大,且大于所述第二阈值的预设第二组合向量(y1、y2、y3);以此类推,当未得到组合向量(y1、y2、y3······yn)时,则进行“在所述第一向量中,由组合向量(y1、y2、y3······yn-1)替换对应的向量组合(x1、x2、x3······xn-1),并将所述组合向量(y1、y2、y3······yn-1)固化到所述第一向量串中”的第一固化过程;
若未查找到所述第二组合向量(y1、y2),则进行“将所述第一向量组合(x1、x2)固化所述第一向量串中”的第二固化过程;同时以第三个所述第一向量为起始向量,重复所述第一固化过程和/或所述第二固化过程,直到得到全部是固化的向量的第三向量串;
将所述第三向量串转换成中文,得到第三答案文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910597621.5/1.html,转载请声明来源钻瓜专利网。