[发明专利]一种使用序列标注进行识别文本分段的方法有效
申请号: | 201811360997.6 | 申请日: | 2018-11-15 |
公开(公告)号: | CN111191456B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 罗立刚;刘辉;张正宽;张天泽;常涛;王玲 | 申请(专利权)人: | 零氪科技(天津)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F16/35;G16H10/60 |
代理公司: | 北京华夏正合知识产权代理事务所(普通合伙) 11017 | 代理人: | 韩登营 |
地址: | 300000 天津市滨海新区天津自贸*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种使用序列标注进行识别文本分段的方法,包括步骤:A、分别将样本集合的不同文字段切分为子句集合,采用语义特征向量标注所述子句集合以形成语义特征向量集合;B、对所述语义特征向量集合进行聚类训练,得到聚类模型,对所述聚类模型的各对象进行簇编号以形成序列模型;C、将所述序列模型与所述不同文字段建立映射,对映射后的簇序列训练序列标注模型;D、依次套用所述序列模型和所述序列标注模型,对待分段的文本进行分段。通过样本集合为数据库范本,进行标准化建模。在后续识别文本分段时,把对待分段文本中的句式模型进行标准化,而后依据模型将标准化的语句映射到语句特征,从而可以将表示相同语义的不同表述完成识别文本分段。 | ||
搜索关键词: | 一种 使用 序列 标注 进行 识别 文本 分段 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于零氪科技(天津)有限公司,未经零氪科技(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811360997.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种减振结构及洗衣机
- 下一篇:一种页面创建方法、存储介质、电子设备及系统