[发明专利]一种使用序列标注进行识别文本分段的方法有效
申请号: | 201811360997.6 | 申请日: | 2018-11-15 |
公开(公告)号: | CN111191456B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 罗立刚;刘辉;张正宽;张天泽;常涛;王玲 | 申请(专利权)人: | 零氪科技(天津)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F16/35;G16H10/60 |
代理公司: | 北京华夏正合知识产权代理事务所(普通合伙) 11017 | 代理人: | 韩登营 |
地址: | 300000 天津市滨海新区天津自贸*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 使用 序列 标注 进行 识别 文本 分段 方法 | ||
1.一种使用序列标注进行识别文本分段的方法,其特征在于,包括步骤:
A、分别将样本集合S1的不同文字段Pi切分为各子句Sij,所述各子句Sij构成子句集合,子句Sij构成形容文字段Pi的标注集合S2;
采用语义特征向量标注所述子句集合以形成语义特征向量集合S3;
B、对所述语义特征向量集合S3进行聚类训练,得到聚类模型M1;
C、利用所述聚类模型M1对所述标注集合S2进行验算,以确定出各子句Sij所属的簇编号cid,将所述标注集合S2转换为簇编号序列,簇编号序列表示为Sij_cid;
D、采用序列标注模型M2对所述各子句所属的簇编号进行映射,以确定出所述各子句所在的各个片段。
2.根据权利要求1所述的方法,其特征在于,所述步骤A包括:
对所述子句集合中的各子句进行分词处理,得出各子句中各分词的词向量;
分别对各子句中的词向量进行平均值计算,得出该各子句的语义特征向量。
3.根据权利要求1~2任一所述的方法,其特征在于,所述样本集合为历史病历。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于零氪科技(天津)有限公司,未经零氪科技(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811360997.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种减振结构及洗衣机
- 下一篇:一种页面创建方法、存储介质、电子设备及系统