[发明专利]一种使用序列标注进行识别文本分段的方法有效
申请号: | 201811360997.6 | 申请日: | 2018-11-15 |
公开(公告)号: | CN111191456B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 罗立刚;刘辉;张正宽;张天泽;常涛;王玲 | 申请(专利权)人: | 零氪科技(天津)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F16/35;G16H10/60 |
代理公司: | 北京华夏正合知识产权代理事务所(普通合伙) 11017 | 代理人: | 韩登营 |
地址: | 300000 天津市滨海新区天津自贸*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 使用 序列 标注 进行 识别 文本 分段 方法 | ||
本发明提供一种使用序列标注进行识别文本分段的方法,包括步骤:A、分别将样本集合的不同文字段切分为子句集合,采用语义特征向量标注所述子句集合以形成语义特征向量集合;B、对所述语义特征向量集合进行聚类训练,得到聚类模型,对所述聚类模型的各对象进行簇编号以形成序列模型;C、将所述序列模型与所述不同文字段建立映射,对映射后的簇序列训练序列标注模型;D、依次套用所述序列模型和所述序列标注模型,对待分段的文本进行分段。通过样本集合为数据库范本,进行标准化建模。在后续识别文本分段时,把对待分段文本中的句式模型进行标准化,而后依据模型将标准化的语句映射到语句特征,从而可以将表示相同语义的不同表述完成识别文本分段。
技术领域
本发明涉及文字处理技术领域,特别是一种使用序列标注进行识别文本分段的方法。
背景技术
随着人工智能时代的到来,对于机器理解大段文本能力的要求越来越高。长文本因其信息量复杂,书写方式多样等,机器很难直接对其进行理解,所以可以先对长文本进行分解,拆解出其关键性信息片段,然后再逐个对片段信息进行进一步抽取和刻画,采用分治思想的方式是目前业界的一种主流做法。
在对长文本进行目标片段划分上,当前有使用多分类方式,即对子句建立多分类模型,然后基于规则或者模型在对子句进行连续性再拼接,构建成片段。但该方法缺乏上下文信息,对子句类型比较分散的情况难以应付。
还有使用深度学习问答模型方法,该方法能够做到端到端识别,但其对数据量和数据质量有比较高的要求,同时计算复杂度也很高,应用成本较高。
发明内容
本发明的主要目的在于提供一种使用序列标注进行识别文本分段的方法,包括步骤:
A、分别将样本集合的不同文字段切分为子句集合,采用语义特征向量标注所述子句集合以形成语义特征向量集合;
B、对所述语义特征向量集合进行聚类训练,得到聚类模型,对所述聚类模型的各对象进行簇编号以形成序列模型;
C、将所述序列模型与所述不同文字段建立映射,建立序列标注模型;
D、依次套用所述序列模型和所述序列标注模型,对待分段的文本进行分段。
由上,通过以样本集合为数据库范本,建立将表示相同语义的不同句式进行标准序列化的模型,以及建立序列与语句特征映射关系的模型,从而进行标准化建模。在后续对待分段的文本进行识别文本分段时,首先把对待分段文本中的各种句式依据标准序列化的模型进行标准化,而后依据序列与语句特征映射关系的模型将标准化的语句映射到语句特征,从而可以将表示相同语义的不同表述完成识别文本分段。
其中,所述步骤A包括:
对所述子句集合中的各子句进行分词处理,得出各子句中各分词的词向量;
分别对各子句中的词向量进行平均值计算,得出该各子句的语义特征向量。
由上,通过采用对组成句子的各单词词义向量的获取,进而计算出句子的语义特征向量。
其中,所述步骤D包括:
将待分段的文本切分为待分段子句集合,采用语义特征向量标注所述子句集合以形成待分段语义特征向量集合;
采用聚类模型对所述待分段语义特征向量的标注集合进行验算,以确定出各子句的簇编号;
采用序列标注模型对各子句所属的簇编号进行映射,以对所述各子句进行文字段的构建,确定出构建文本的各个片段。
由上,对待分段的文本进行识别文本分段时,首先将其采用与语义特征向量的标注集合相同的格式进行标准化,其次将标准化的各子句进行语义特征的映射,从而完成对待分段的文本的识别。
其中,所述样本集合和为历史病历;所述待分段的文本为新病历。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于零氪科技(天津)有限公司,未经零氪科技(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811360997.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种减振结构及洗衣机
- 下一篇:一种页面创建方法、存储介质、电子设备及系统