[发明专利]一种领域专有词的挖掘方法在审
申请号: | 201511006779.9 | 申请日: | 2015-12-30 |
公开(公告)号: | CN105653519A | 公开(公告)日: | 2016-06-08 |
发明(设计)人: | 贺惠新 | 申请(专利权)人: | 贺惠新 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100073 北京市丰*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 专有 挖掘 方法 | ||
1.一种领域专有词的挖掘方法,其特征是:它由训练模型和应用模型两个阶段组成,, 其中训练阶段包括:
训练步骤一:获取模型训练阶段的依赖资源:获取已做好标记(各句子中的字符有确定 的是否被标注为专有词的标准答案)的NS个句子的集合S={S(i)}为训练语料,各句子记为S (i),其中1≤i≤NS,要求NS≥10000;领域主题词典Dz;
训练步骤二:对训练语料S的所有字符进行特征化表示,得到每个字符的抽取后的特征 表示结果,记s(i,ji)为句子S(i)的第ji个字,其中1≤ji≤句子S(i)的总字符数,则s(i, ji)对应的特征化结果为:
;
训练步骤三:在一个指定的可加入自定义词典的分词器中,加入对应的领域词典Dz中 的所有词,把这个加入分词器记为Seg,对训练语料S的各个句子用Seg做分词处理,标出各 个字符被分词处理后的结果,并对分词结果进行数字化表示,对应得到各句子S(i)的每个 序位上的字符s(i,ji)的分词类别表示结果q(i,ji);
训练步骤四:对训练语料S的各个句子用一个指定的词性标注器做词性处理,此标注器 记为Pes,标出各个字符被标注器处理后的结果,对应即得到各句子S(i)的每个序位上的字 符s(i,ji)的词性标注结果,记为p(i,ji);
训练步骤五:对训练语料S的各个句子的字符,根据是否是一个专有词的判断标记,进 行数字化表示,对应得到各句子S(i)的每个序位上的字符s(i,ji)的专有词标记表示结果g (i,ji);
训练步骤六:基于条件随机场模型,将训练语料中所有字符的表达结果{F(s(i,ji)),q (i,ji),p(i,ji)}作为高级训练特征,对应的类别表示结果g(i,ji)作为类别判定数据,进 行训练,得到训练后的专有词挖掘模型M。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贺惠新,未经贺惠新许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511006779.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据存储方法、装置和系统
- 下一篇:一种电子化作业的批改方法、装置和系统