[发明专利]基于无向图与单层神经网络的中文分词方法有效
申请号: | 201711218709.9 | 申请日: | 2017-11-28 |
公开(公告)号: | CN107832307B | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 夏睿;何声欢 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F16/35 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 朱显国 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于无向图与单层神经网络的中文分词方法,首先根据标注集,对给定的训练中文文本进行标注,统计其初始状态系数和状态转移系数;然后根据字典资源文件,对中文文本的每个字符依据其上下文进行特征抽取,得到文本特征;根据所有文本特征,构建特征函数集合,将文本特征转换特征向量;接着将特征向量送给单层神经网络训练分类器模型进行训练,直至模型收敛;再使用单层神经网络模型,对测试数据进行分类,根据统计的初始状态系数、状态转移系数,使用维特比算法进行最优标注序列的求解;最后将最优标注序列与测试原始文本结合,生成分词文本。本发明训练速度更快,消耗资源更少,泛化能力更强。 | ||
搜索关键词: | 基于 单层 神经网络 中文 分词 方法 | ||
【主权项】:
基于无向图与单层神经网络的中文分词方法,其特征在于,包括以下步骤:步骤1、根据标注集,对给定的训练中文文本进行标注,统计其初始状态系数和状态转移系数;步骤2、根据字典资源文件,对中文文本的每个字符依据其上下文进行特征抽取,得到文本特征;根据所有文本特征,构建特征函数集合,将文本特征转换特征向量;步骤3、将步骤2得到的特征向量送给单层神经网络训练分类器模型进行训练,直至模型收敛;步骤4、使用步骤3得到的单层神经网络模型,对测试数据进行分类,根据步骤1统计的初始状态系数、状态转移系数,使用维特比算法进行最优标注序列的求解;步骤5、将步骤4得到的最优标注序列与测试原始文本结合,生成分词文本。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711218709.9/,转载请声明来源钻瓜专利网。