[发明专利]一种文本分割方法、装置、电子设备及介质有效

专利信息
申请号: 202110145811.0 申请日: 2021-02-02
公开(公告)号: CN112784574B 公开(公告)日: 2023-09-15
发明(设计)人: 黄诗磊;孙振华;张聪 申请(专利权)人: 网易(杭州)网络有限公司
主分类号: G06F40/205 分类号: G06F40/205;G06F40/30;G06N20/00
代理公司: 北京超凡宏宇知识产权代理有限公司 11463 代理人: 钟扬飞
地址: 310052 浙江省杭州*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 分割 方法 装置 电子设备 介质
【说明书】:

本申请提供了一种文本分割方法、装置、电子设备及介质,包括:根据待分割文本中的标点符号分割所述待分割文本,获得至少一个粗分割子句;根据依存句法分割每个粗分割子句,获得至少一个细分割子句;从所述至少一个细分割子句中筛选出动词超过预定数目的细分割子句;如果筛选出动词超过预定数目的细分割子句,则对筛选出的动词超过预定数目的细分割子句进行语义分析处理,基于语义分析处理的结果确定所述待分割文本的文本分割结果。本申请实施例能够准确快速地将连续文本分割成多个语义完整的子句,从而达到有效提高文本分割结果的准确性,改善人机交互系统的性能和用户体验的技术效果。

技术领域

本申请涉及文本处理领域,具体而言,涉及一种文本分割方法、装置、电子设备及介质。

背景技术

随着人工智能技术的快速发展,人机交互系统的性能已经基本满足人们的实用需求。例如,人们可以通过语音对话或者文本输入与机器进行交互。通常,人机语音接口使用自动语音识别系统将用户语音转换成文字以供下一步的处理,然而,语音识别的结果是没有任何标点符号的连续文本,这种语音识别的结果在无断句的情况下无法被分析或者转换。此外,当人机文本接口接收到句式比较复杂的文本时,基于当前自然语言处理模块的技术局限性,难以处理。

为了解决上述问题,文本分割技术应运而生,通过文本分割技术可将语音识别结果或者复杂的文本划分成多个简单句子,以供下一步处理。然而,现有的基于统计的文本分割方法仅考虑词语的共现频率,而忽略了词语或者句子的语义信息以及词语与词语之间的句法依存关系,这导致该方法分割性能受限,难以处理较为复杂的文本。此外,现有的基于文本分割模型的文本分割方法虽然分割准确率较高,但是训练文本分割模型需要大量的训练数据,难以适用于少样本的情况。

发明内容

有鉴于此,本申请的目的在于提供一种文本分割方法、装置、电子设备及介质,能够准确快速地将连续文本分割成多个语义完整的子句,从而达到有效提高文本分割结果的准确性,改善人机交互系统的性能和用户体验的技术效果。

第一方面,本申请实施例提供了一种文本分割方法,所述文本分割方法包括:

根据待分割文本中的标点符号分割所述待分割文本,获得至少一个粗分割子句;

根据依存句法分割每个粗分割子句,获得至少一个细分割子句;

从所述至少一个细分割子句中筛选出动词超过预定数目的细分割子句;

如果筛选出动词超过预定数目的细分割子句,则对筛选出的动词超过预定数目的细分割子句进行语义分析处理,基于语义分析处理的结果确定所述待分割文本的文本分割结果。

在一种可能的实施方式中,所述文本分割方法还包括:

如果未筛选出动词超过预定数目的细分割子句,则将所述至少一个细分割子句确定为所述待分割文本的文本分割结果。

在一种可能的实施方式中,所述根据所述待分割文本中的标点符号分割所述待分割文本,获得至少一个粗分割子句,包括:

确定所述待分割文本中是否存在标点符号;

如果所述待分割文本中存在标点符号,则识别所述待分割文本中的标点符号,将按照识别出的属于特定标点符号的标点符号分割而得到的子句确定为粗分割子句;

如果所述待分割文本中不存在标点符号,则将所述待分割文本确定为粗分割子句。

在一种可能的实施方式中,所述根据依存句法分割每个粗分割子句,获得至少一个细分割子句,包括:

通过依存句法对每个粗分割子句所包括的词语进行分析,获得每个粗分割子句所包括的词语之间的依存关系;

针对每个粗分割子句,确定词语之间是否存在属于动词的并列关系的依存关系;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110145811.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top