[发明专利]一种使用序列标注进行识别文本分段的方法有效

专利信息
申请号: 201811360997.6 申请日: 2018-11-15
公开(公告)号: CN111191456B 公开(公告)日: 2023-05-09
发明(设计)人: 罗立刚;刘辉;张正宽;张天泽;常涛;王玲 申请(专利权)人: 零氪科技(天津)有限公司
主分类号: G06F40/30 分类号: G06F40/30;G06F40/289;G06F16/35;G16H10/60
代理公司: 北京华夏正合知识产权代理事务所(普通合伙) 11017 代理人: 韩登营
地址: 300000 天津市滨海新区天津自贸*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 使用 序列 标注 进行 识别 文本 分段 方法
【说明书】:

发明提供一种使用序列标注进行识别文本分段的方法,包括步骤:A、分别将样本集合的不同文字段切分为子句集合,采用语义特征向量标注所述子句集合以形成语义特征向量集合;B、对所述语义特征向量集合进行聚类训练,得到聚类模型,对所述聚类模型的各对象进行簇编号以形成序列模型;C、将所述序列模型与所述不同文字段建立映射,对映射后的簇序列训练序列标注模型;D、依次套用所述序列模型和所述序列标注模型,对待分段的文本进行分段。通过样本集合为数据库范本,进行标准化建模。在后续识别文本分段时,把对待分段文本中的句式模型进行标准化,而后依据模型将标准化的语句映射到语句特征,从而可以将表示相同语义的不同表述完成识别文本分段。

技术领域

本发明涉及文字处理技术领域,特别是一种使用序列标注进行识别文本分段的方法。

背景技术

随着人工智能时代的到来,对于机器理解大段文本能力的要求越来越高。长文本因其信息量复杂,书写方式多样等,机器很难直接对其进行理解,所以可以先对长文本进行分解,拆解出其关键性信息片段,然后再逐个对片段信息进行进一步抽取和刻画,采用分治思想的方式是目前业界的一种主流做法。

在对长文本进行目标片段划分上,当前有使用多分类方式,即对子句建立多分类模型,然后基于规则或者模型在对子句进行连续性再拼接,构建成片段。但该方法缺乏上下文信息,对子句类型比较分散的情况难以应付。

还有使用深度学习问答模型方法,该方法能够做到端到端识别,但其对数据量和数据质量有比较高的要求,同时计算复杂度也很高,应用成本较高。

发明内容

本发明的主要目的在于提供一种使用序列标注进行识别文本分段的方法,包括步骤:

A、分别将样本集合的不同文字段切分为子句集合,采用语义特征向量标注所述子句集合以形成语义特征向量集合;

B、对所述语义特征向量集合进行聚类训练,得到聚类模型,对所述聚类模型的各对象进行簇编号以形成序列模型;

C、将所述序列模型与所述不同文字段建立映射,建立序列标注模型;

D、依次套用所述序列模型和所述序列标注模型,对待分段的文本进行分段。

由上,通过以样本集合为数据库范本,建立将表示相同语义的不同句式进行标准序列化的模型,以及建立序列与语句特征映射关系的模型,从而进行标准化建模。在后续对待分段的文本进行识别文本分段时,首先把对待分段文本中的各种句式依据标准序列化的模型进行标准化,而后依据序列与语句特征映射关系的模型将标准化的语句映射到语句特征,从而可以将表示相同语义的不同表述完成识别文本分段。

其中,所述步骤A包括:

对所述子句集合中的各子句进行分词处理,得出各子句中各分词的词向量;

分别对各子句中的词向量进行平均值计算,得出该各子句的语义特征向量。

由上,通过采用对组成句子的各单词词义向量的获取,进而计算出句子的语义特征向量。

其中,所述步骤D包括:

将待分段的文本切分为待分段子句集合,采用语义特征向量标注所述子句集合以形成待分段语义特征向量集合;

采用聚类模型对所述待分段语义特征向量的标注集合进行验算,以确定出各子句的簇编号;

采用序列标注模型对各子句所属的簇编号进行映射,以对所述各子句进行文字段的构建,确定出构建文本的各个片段。

由上,对待分段的文本进行识别文本分段时,首先将其采用与语义特征向量的标注集合相同的格式进行标准化,其次将标准化的各子句进行语义特征的映射,从而完成对待分段的文本的识别。

其中,所述样本集合和为历史病历;所述待分段的文本为新病历。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于零氪科技(天津)有限公司,未经零氪科技(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811360997.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top