[发明专利]一种特征对齐中文分词方法有效

申请号：	201811185491.6	申请日：	2018-10-11
公开（公告）号：	CN109472020B	公开（公告）日：	2022-07-01
发明（设计）人：	李智星;冯开来;沈柯;任诗雅;王化明;李苑;孙柱;袁龙	申请（专利权）人：	重庆邮电大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/242;G06K9/62
代理公司：	重庆市恒信知识产权代理有限公司 50102	代理人：	刘小红;陈栋梁
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明请求保护一种特征对齐中文分词方法，包括：101从标记数据和无标记数据中抽取二元词的特征；102通过地球移动距离(Earth Mover’s Distance,以下简称EMD)方法将标记数据和无标记数据进行特征对齐；103通过分类器xgboost训练经过特征对齐后的标记数据的特征，从而预测无标记数据中二元词成词的概率；104从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练；105通过建立的模型，对无标记数据进行序列标注分词。本发明主要是通过EMD对标记数据和无标记数据进行特征对齐，并通过分类器学习来预测二元词的成词概率，然后以堆叠的方式整合了条件随机场形成新的分词器。
搜索关键词：	一种特征对齐中文分词方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种特征对齐中文分词方法，其特征在于，包括以下步骤：101、从标记数据和无标记数据中抽取二元词的特征；102、通过EMD地球移动距离方法将标记数据和无标记数据进行特征对齐；103、通过分类器xgboost训练经过特征对齐后的标记数据的特征，从而预测无标记数据中二元词成词的概率；104、从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练；105、通过条件随机场构建分词模型，对无标记数据进行序列标注分词。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811185491.6/，转载请声明来源钻瓜专利网。

上一篇：一种基于同义词典的短文本相似度匹配方法及系统
下一篇：基于深度学习的医学文献中关键句筛选方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种特征对齐中文分词方法有效

专利文献下载