[发明专利]一种文本类型确定方法及装置有效
申请号: | 201911414826.1 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111125337B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 秦艳婷;李思雯;陈健 | 申请(专利权)人: | 慧择保险经纪有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06F40/289;G06N20/00;G10L15/26 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 常忠良 |
地址: | 518000 广东省深圳市南山区粤*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 类型 确定 方法 装置 | ||
本发明公开了一种文本类型确定方法及装置,可以获得待检测对话文本;通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本;对所述指定角色对应的所述至少一个文本中的任一个文本:获得该文本对应的词组向量,将所述词组向量输入至预先训练好的场景分类模型中,获得所述场景分类模型输出的与该文本对应的场景类型,在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型;将确定的预设文本类型确定为该文本的文本类型。本发明可以通过场景分类的技术手段确定对话文本的文本类型。
技术领域
本发明涉及文本处理领域,尤其涉及一种文本类型确定方法及装置。
背景技术
随着通信技术的发展,越来越多的人拥有了通信设备。通过通信设备,用户之间可以方便的进行对话。
用户之间的对话常携带有大量的有用信息,例如:可以对某角色的对话进行分类。当获得该角色的对话内容后,可以根据该对话内容确定该角色的对话的类型。例如:专利代理师常需要和专利委托方进行电话沟通,则可以将专利代理师的对话内容进行分类,例如:分为:沟通电学领域技术方案、沟通化学领域技术方案、沟通机械领域技术方案、沟通生物领域技术方案等。
上述对话内容类型,对于后续进行对话的统计分析十分重要,但是现在还没有确定对话的对话内容类型的方法。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的一种文本类型确定方法及装置,技术方案如下:
一种文本类型确定方法,包括:
获得待检测对话文本;
通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本;
对所述指定角色对应的所述至少一个文本中的任一个文本:获得该文本对应的词组向量,将所述词组向量输入至预先训练好的场景分类模型中,获得所述场景分类模型输出的与该文本对应的场景类型,在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型;
将确定的预设文本类型确定为该文本的文本类型。
可选的,所述获得待检测对话文本包括:
获得对话语音;
对所述对话语音进行语音识别,获得语音识别结果;
将所述语音识别结果转化为待检测对话文本。
可选的,所述获得该文本对应的词组向量,包括:
对该文本进行结巴分词处理,获得分词结果向量;
对所述分词结果向量进行停用词过滤处理,获得词组向量。
可选的,所述场景分类模型的训练过程可以包括:
获得携带有场景类别标记的训练对话文本;
对所述训练对话文本进行结巴分词处理,获得训练分词结果向量;
对所述训练分词结果向量进行停用词过滤处理,获得训练词组向量;
对所述训练词组向量进行机器学习,获得场景分类模型,其中,所述场景分类模型的输入为:文本对应的词组向量,输出为:与该文本对应的场景类型。
可选的,所述在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型,包括:
在所述场景类型对应的每种预设文本类型的词库:确定该文本是否包含该词库中的词汇,如果是,则确定该文本与该预设文本类型匹配。
可选的,所述在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧择保险经纪有限公司,未经慧择保险经纪有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911414826.1/2.html,转载请声明来源钻瓜专利网。