[发明专利]基于无向图与单层神经网络的中文分词方法有效
申请号: | 201711218709.9 | 申请日: | 2017-11-28 |
公开(公告)号: | CN107832307B | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 夏睿;何声欢 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F16/35 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 朱显国 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 单层 神经网络 中文 分词 方法 | ||
1.基于无向图与单层神经网络的中文分词方法,其特征在于,包括以下步骤:
步骤1、根据标注集,对给定的训练中文文本进行标注,统计其初始状态系数和状态转移系数;
步骤2、根据字典资源文件,对中文文本的每个字符依据其上下文进行特征抽取,得到文本特征;根据所有文本特征,构建特征函数集合,将文本特征转换特征向量;
步骤3、将步骤2得到的特征向量送给单层神经网络训练分类器模型进行训练,直至模型收敛;
步骤4、使用步骤3得到的单层神经网络模型,对测试数据进行分类,根据步骤1统计的初始状态系数、状态转移系数,使用维特比算法进行最优标注序列的求解;
步骤5、将步骤4得到的最优标注序列与测试原始文本结合,生成分词文本;
所述步骤2具体为:
步骤2.1、根据特征工程模板文件和字典资源文件,对每个字符依据其上下文生成特定的文本特征,统计出现的特征数目,为每个特征分配唯一序号;
步骤2.2、根据每个特征的唯一序号,将字符对应的所有特征表示成一个特征向量;
使用的特征工程模板文件如下:
1)Cn(n=-2,-1,0,1,2)
2)CnCn+1(n=-2,-1,0,1)
3)C-1C1
4)MWL0,t0
5)Cnt0(n=-1,0,1)
6)T(C-1)T(C0)T(C1)
7)N(C-1)N(C0)N(C1)
8)F(C-1)F(C0)F(C1)
其中,Cn表示相对位置为n的字符;MWL0,t0分别表示字典资源文件中,当前字符所属最长词的长度及对应的标注;T(Cn)表示取得字符的类别号,N(Cn)表示取得字符的中国人名用字类别号,F(Cn)表示取得字符的外国人名用字类别号;
T(Cn)、N(Cn)和F(Cn)具体为:
A)T(Cn)所取得字符的类别号,分为6类,分别是:0.阿拉伯数字(ANum)、1.中文数字1(CNum1)、2.中文数字2(CNum2)、3.英文字母(EngLetter)、4.日期(Date)及5.其他(Others);
B)N(Cn)所取得字符的中国人名用字类别号,分为6类,分表是:0.常见姓(FrequencySurname)、1.普通姓(Common Surname)、2.人名用字(Given Name)、3.both 0+2、4.both 1+2及5.其他(Others);
C)F(Cn)所取得字符的外国人名用字类别号,分为2类,分表是:非外国人名常用字及外国人名常用字;
步骤4中采用维特比算法结合统计的初始状态系数及状态转移系数进行解码,具体为:
步骤4.1、进行单层神经网络预测,得到基于softmax归一化后的概率:
式中,P(yt=i|wt)表示位置t上被标注为类别i的概率,其中L表示标注集的大小,θi表示类别i对应的神经网络单元权值向量,wt为位置t上的字符xt表示成的特征向量,所有xt构成长度为T的中文句子s=(x1,x2,…,xT);
步骤4.2、根据得到的概率进行维特比解码,求解出最优标注序列Y=(y1,y2,…,yT)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711218709.9/1.html,转载请声明来源钻瓜专利网。