[发明专利]一种抽取对话语料中关键语句的方法、系统、设备及介质在审
申请号: | 202010449342.7 | 申请日: | 2020-05-25 |
公开(公告)号: | CN111881267A | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 彭德光;孙健 | 申请(专利权)人: | 重庆兆光科技股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/289 |
代理公司: | 重庆渝之知识产权代理有限公司 50249 | 代理人: | 柴社英 |
地址: | 400000 重庆市沙坪*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 抽取 对话 语料 关键 语句 方法 系统 设备 介质 | ||
本发明提供一种抽取对话语料中关键语句的方法、系统、设备及介质,包括有:获取对话语料中的询问语句和陈述语句;根据预先定义的关键要素类型集合识别出所有陈述语句中的关键要素;再将询问语句拆分为短句,确定出现所述关键要素时上一询问语句中出现某一固定短句的概率;最后根据所述概率确定该固定语句是否为关键语句。本发明保证在用户与咨询机器人的交互过程中,即使缺少关键信息的情况下,本发明也能自动抽取对话语料中的关键语句,从而可以提高抽取对话语料中关键语句的效率。
技术领域
本发明涉及自然语言技术领域,特别是涉及一种抽取对话语料中关键语句的方法、设备及介质。
背景技术
当用户与咨询机器人交互过程中,在缺失关键信息的情况下,咨询机器人将询问用户一些关于关键信息的问题,而这种问题以往通常由机器人训练师人工设定一些关于此类关键信息询问的问题集合,但这种人工设定的抽取效率低下,不能对问题中关键问题语句进行自动抽取;因此本发明提出了一种抽取对话语料中关键语句的方法。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种抽取对话语料中关键语句的方法、系统、设备及介质,用于解决现有技术中存在的问题。
为实现上述目的及其他相关目的,本发明提供一种抽取对话语料中关键语句的方法,包括以下步骤:
获取对话语料中的询问语句和陈述语句;
根据预先定义的关键要素类型集合识别出所有陈述语句中的关键要素;
将所述询问语句拆分为短句,并确定出现所述关键要素时上一询问语句中出现某一固定短句的概率;
根据所述概率确定所述某一固定语句是否为关键语句。
可选地,若上一询问语句中出现某一固定短句的概率大于预设值,则认定所述某一固定短句为询问关键要素的语句,并将所述某一固定短句确定为关键语句。
可选地,还包括:
获取对所有固定短句的判断结果;
根据所述判断结果对所有短句进行聚类,将询问同一关键要素的短句聚为一类;
获取聚类结果,删除所述聚类结果中同时询问多个关键要素的短句。
可选地,还包括根据删除同时询问多个关键要素的短句后的聚类结果构建某一关键要素的问题集合。
可选地,通过极大似然估计法估计出现关键要素时上一询问语句中出现某一固定短句的概率。
本发明还提供一种抽取对话语料中关键语句的系统,包括有:
获取对话语料中的询问语句和陈述语句;
根据预先定义的关键要素类型集合识别出所有陈述语句中的关键要素;
将所述询问语句拆分为短句,并确定出现所述关键要素时上一询问语句中出现某一固定短句的概率;
根据所述概率确定所述某一固定语句是否为关键语句。
可选地,若上一询问语句中出现某一固定短句的概率大于预设值,则认定所述某一固定短句为询问关键要素的语句,并将所述某一固定短句确定为关键语句。
可选地,还包括:
获取对所有固定短句的判断结果;
根据所述判断结果对所有短句进行聚类,将询问同一关键要素的短句聚为一类;
获取聚类结果,删除所述聚类结果中同时询问多个关键要素的短句。
本发明还提供一种设备,包括:
一个或多个处理器;和
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆兆光科技股份有限公司,未经重庆兆光科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010449342.7/2.html,转载请声明来源钻瓜专利网。