[发明专利]分词的方法及装置有效
申请号: | 201610051438.1 | 申请日: | 2016-01-26 |
公开(公告)号: | CN105718586B | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 黄金才;陈发君;刘忠;程光权;朱承;修保新;陈超;冯旸赫;孟果;易作天 | 申请(专利权)人: | 中国人民解放军国防科学技术大学;长沙市源本信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 胡伟华 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种分词方法和装置,装置包括包括用于训练词标注模型的分词&标注模块和CRF训练模块,以及用于分词应用的初始分词模块、词标注模块和词合并模块。首先使用CRF训练词标注模型:训练词标注模型的方法为:采集语料库,并使用N‑最短路径分词方法对语料库进行分词,然后使用领域词典对语料库分词结果进行标注,将标注后的语料库使用CRF工具进行训练得到词标注模型;得到词标注模型后即可进入分词应用,分词应用其方法为:首先使用N‑最短路径分词方法对文本进行初始分词,对初始分词结果基于词标注模型进行序列标注,将包含特定标注的词进行合并得到最终分词结果。采用CRF进行词标注,考虑了全局上下文信息,有利于提高词合并的准确性。 | ||
搜索关键词: | 分词 方法 装置 | ||
【主权项】:
1.分词的方法,其特征在于,首先使用条件随机场进行词标注模型训练,得到词标注模型后即可进入分词应用;所述词标注模型训练包括以下步骤:S1.采集语料库和准备语料库所属领域的领域词典;随机选取一定时期内一技术领域内的新闻语料,并选取该领域的领域词典;S2.对语料库进行分词并进行词性标注,得到分词列表;S3.根据领域词典对步骤S2的分词结果采用“BIO”标记进行标注得到训练语料;①遍历分词列表:对词进行向后取N个词进行组合,遇到标点符号则停止,每个词最多可产生N‑1个词组合,得到当前词的词组合列表;②遍历词组合列表,将词组合与领域词典进行比较,获取包含于领域词典中的最长词组合;③若最长词组合存在,则对最长词组合中包含的第一个词标注为“B”,其他词标注为“I”;④若当前词的最长词组合不存在,则将当前词标注为“O”;⑤将标注结果保存成CRF工具所要求的格式;S4.采用CRF工具对训练语料进行训练得到词标注模型;S5.输出词标注模型,完成模型训练;所述分词应用包括以下步骤:a)读取文本,加载词标注模型,采用与模型训练其步骤S2中相同的方法对文本进行初始分词及词性标注,得到初始分词列表;b)基于初始分词列表构建特征表;特征表是一个M*3大小的二维列表T[M][3],其中M为分词列表的长度;遍历初始分词列表,对于第i个词,将该词的字符记录在T[i][1],词性记录在T[i][2],其中假设列表的索引从1开始;c)对特征表T使用模型训练中得到的词标注模型进行标注,将标注结果保存在特征表对应位置的第三列;标注过程采用维特比解码算法;d)根据词标注结果进行词合并;①初始化分词结果列表r;②遍历特征表T,假设当前位置为i,若T[i][3]为“B”标注,则继续查找邻接的最后一个“I”标注的位置j,将i到j之间的词合并为一个词,加入到分词结果列表r并更新遍历位置为j+1;③若否则直接将当前词加入到r;e)输出最终分词结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学;长沙市源本信息科技有限公司,未经中国人民解放军国防科学技术大学;长沙市源本信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610051438.1/,转载请声明来源钻瓜专利网。