[发明专利]分词的方法及装置有效
申请号: | 201610051438.1 | 申请日: | 2016-01-26 |
公开(公告)号: | CN105718586B | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 黄金才;陈发君;刘忠;程光权;朱承;修保新;陈超;冯旸赫;孟果;易作天 | 申请(专利权)人: | 中国人民解放军国防科学技术大学;长沙市源本信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 胡伟华 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 方法 装置 | ||
1.分词的方法,其特征在于,首先使用条件随机场进行词标注模型训练,得到词标注模型后即可进入分词应用;
所述词标注模型训练包括以下步骤:
S1.采集语料库和准备语料库所属领域的领域词典;
随机选取一定时期内一技术领域内的新闻语料,并选取该领域的领域词典;
S2.对语料库进行分词并进行词性标注,得到分词列表;
S3.根据领域词典对步骤S2的分词结果采用“BIO”标记进行标注得到训练语料;
①遍历分词列表:对词进行向后取N个词进行组合,遇到标点符号则停止,每个词最多可产生N-1个词组合,得到当前词的词组合列表;
②遍历词组合列表,将词组合与领域词典进行比较,获取包含于领域词典中的最长词组合;
③若最长词组合存在,则对最长词组合中包含的第一个词标注为“B”,其他词标注为“I”;
④若当前词的最长词组合不存在,则将当前词标注为“O”;
⑤将标注结果保存成CRF工具所要求的格式;
S4.采用CRF工具对训练语料进行训练得到词标注模型;
S5.输出词标注模型,完成模型训练;
所述分词应用包括以下步骤:
a)读取文本,加载词标注模型,采用与模型训练其步骤S2中相同的方法对文本进行初始分词及词性标注,得到初始分词列表;
b)基于初始分词列表构建特征表;
特征表是一个M*3大小的二维列表T[M][3],其中M为分词列表的长度;遍历初始分词列表,对于第i个词,将该词的字符记录在T[i][1],词性记录在T[i][2],其中假设列表的索引从1开始;
c)对特征表T使用模型训练中得到的词标注模型进行标注,将标注结果保存在特征表对应位置的第三列;标注过程采用维特比解码算法;
d)根据词标注结果进行词合并;
①初始化分词结果列表r;
②遍历特征表T,假设当前位置为i,若T[i][3]为“B”标注,则继续查找邻接的最后一个“I”标注的位置j,将i到j之间的词合并为一个词,加入到分词结果列表r并更新遍历位置为j+1;
③若否则直接将当前词加入到r;
e)输出最终分词结果。
2.根据权利要求1所述的分词的方法,其特征在于,词标注模型训练方法中,步骤S2对语料库进行初始分词所采用的方法为N-最短路径分词方法、最短路径分词方法、正向最大匹配分词方法、逆向最大匹配分词方法、双向最大匹配分词方法、隐马尔科夫模型分词方法或条件随机场模型分词方法;词标注模型训练方法中,步骤S2对语料库分词结果进行词性标注所采用的方法为隐马尔科夫模型标注、最大熵模型标注或条件随机场模型标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学;长沙市源本信息科技有限公司,未经中国人民解放军国防科学技术大学;长沙市源本信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610051438.1/1.html,转载请声明来源钻瓜专利网。