[发明专利]用于文档的结合RPA和AI的语句提取方法、装置、存储介质及电子设备在审
申请号: | 202011148016.9 | 申请日: | 2020-10-23 |
公开(公告)号: | CN112287077A | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 段沛宸;张海雷;胡一川;汪冠春 | 申请(专利权)人: | 北京来也网络科技有限公司;北京奔影网络科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/211;G06F40/258;G06F40/279 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 石茵汀 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文档 结合 rpa ai 语句 提取 方法 装置 存储 介质 电子设备 | ||
1.一种用于文档的结合RPA和AI的语句提取方法,其特征在于,所述方法包括:
对文档进行自然语言处理(Natural Language Processing,NLP),以从文档的内容中获取初始问句和初始答句,所述初始问句与所述初始答句相对应,所述初始问句,是根据所述文档的内容中的设问句所生成的;
分别对所述初始问句和所述初始答句执行目标处理,从而得到问答对并输出,以进行文本识别。
2.如权利要求1所述的用于文档的结合RPA和AI的语句提取方法,其特征在于,所述从文档的内容中获取初始问句和初始答句,包括:
从所述文档的内容中获取全部的设问句,确定各所述设问句的下一句为各所述设问句对应的答句。
3.如权利要求2所述的用于文档的结合RPA和AI的语句提取方法,其特征在于,所述从文档的内容中获取初始问句和初始答句,还包括:
对全部设问句中的连续设问句进行合并处理,将合并处理后的设问句和其它设问句作为所述初始问句,所述连续设问句和所述其它设问句共同组成所述全部设问句;
对所述连续设问句中的各设问句对应的答句进行合并处理,将合并处理后的答句和所述其它设问句对应的答句作为所述初始答句。
4.如权利要求1所述的用于文档的结合RPA和AI的语句提取方法,其特征在于,所述分别对所述初始问句和所述初始答句执行目标处理,从而得到问答对并输出,包括:
确定所述初始问句对应的第一句向量和所述初始答句对应的第二句向量;
对所述第一句向量进行聚类,得到与所述初始问句对应的问句簇,并对所述第二句向量进行聚类,得到与所述初始答句对应的答句簇;
从所述问句簇中确定所述第一问句,并从所述答句簇中确定所述第一答句;
基于所述第一问句及所述第一答句,得到所述问答对并输出。
5.如权利要求4所述的用于文档的结合RPA和AI的语句提取方法,其特征在于,所述从所述问句簇中确定所述第一问句,并从所述答句簇中确定所述第一答句,包括:
确定所述问句簇中的第一聚类中心,并确定所述答句簇的第二聚类中心;
遍历所述问句簇内所有的第一句向量,确定距离所述第一聚类中心的余弦距离最近的目标第一句向量,并将所述目标第一句向量对应的初始问句作为所述第一问句;
遍历所述答句簇内所有的第二句向量,确定距离所述第二聚类中心的余弦距离最近的目标第二句向量,并将所述目标第二句向量对应的初始答句作为所述第一答句。
6.如权利要求4所述的用于文档的结合RPA和AI的语句提取方法,其特征在于,其中,
采用hdbscan聚类算法对所述第一句向量进行聚类,以及采用所述hdbscan聚类算法对所述第二句向量进行聚类。
7.如权利要求2所述的用于文档的结合RPA和AI的语句提取方法,其特征在于,所述从所述文档的内容中获取全部的设问句,包括:
对所述文档的内容进行分句处理;
从分句处理后文档的内容中识别出全部问句;
剔除所述全部问句中的反问句,从而获得所述全部的设问句。
8.如权利要求7所述的用于文档的结合RPA和AI的语句提取方法,其特征在于,所述剔除所述全部问句中的反问句,包括:
根据反问句的关键词从各所述问句中剔除所述反问句。
9.如权利要求4所述的用于文档的结合RPA和AI的语句提取方法,其特征在于,所述基于所述第一问句及所述第一答句,得到所述问答对并输出,包括:
确定第一问句和第一答句之间的目标距离,所述第一问句与所述第一答句相对应;
根据所述目标距离,对所述第一答句进行缩写处理得到目标答句;
根据所述第一问句和所述目标答句获取问答对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京来也网络科技有限公司;北京奔影网络科技有限公司,未经北京来也网络科技有限公司;北京奔影网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011148016.9/1.html,转载请声明来源钻瓜专利网。