[发明专利]一种领域专有词的挖掘方法在审
申请号: | 201511006779.9 | 申请日: | 2015-12-30 |
公开(公告)号: | CN105653519A | 公开(公告)日: | 2016-06-08 |
发明(设计)人: | 贺惠新 | 申请(专利权)人: | 贺惠新 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100073 北京市丰*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种领域专有词汇的挖掘构建的方法,属于自然语言处理的计算机技术应用领域。本发明的优点是:本发明基于语料的领域相关性,提出了结合领域主题词典和统计模型的专有词挖掘方法,算法设置了高效的特征的生成和组合方式,可充分降低计算的复杂度,并最终有效生成高准确率的专有词挖掘模型;而应用时可方便的在新的词典中有针对的加入相关的词,有效提高算法的在不同场景下的适用性。本发明有效实现了计算机自动在自然语言的广泛语料中提取出领域相关的专有词,而提取后的词汇形成的领域专有词可补充进领域专业词典中,进一步供给计算机做后续的各种分析。 | ||
搜索关键词: | 一种 领域 专有 挖掘 方法 | ||
【主权项】:
一种领域专有词的挖掘方法,其特征是:它由训练模型和应用模型两个阶段组成,,其中训练阶段包括:训练步骤一:获取模型训练阶段的依赖资源:获取已做好标记(各句子中的字符有确定的是否被标注为专有词的标准答案)的NS个句子的集合S={S(i)}为训练语料,各句子记为S(i),其中1≤i≤NS,要求NS≥10000;领域主题词典Dz;训练步骤二:对训练语料S的所有字符进行特征化表示,得到每个字符的抽取后的特征表示结果,记s(i,ji)为句子S(i)的第ji个字,其中1 ≤ji≤句子S(i)的总字符数,则s(i,ji)对应的特征化结果为:
;训练步骤三:在一个指定的可加入自定义词典的分词器中,加入对应的领域词典Dz中的所有词,把这个加入分词器记为Seg,对训练语料S的各个句子用Seg做分词处理,标出各个字符被分词处理后的结果,并对分词结果进行数字化表示,对应得到各句子S(i)的每个序位上的字符s(i,ji)的分词类别表示结果q(i,ji);
训练步骤四:对训练语料S的各个句子用一个指定的词性标注器做词性处理,此标注器记为Pes,标出各个字符被标注器处理后的结果,对应即得到各句子S(i)的每个序位上的字符s(i,ji)的词性标注结果,记为p(i,ji);训练步骤五:对训练语料S的各个句子的字符,根据是否是一个专有词的判断标记,进行数字化表示,对应得到各句子S(i)的每个序位上的字符s(i,ji)的专有词标记表示结果g(i,ji);
训练步骤六:基于条件随机场模型,将训练语料中所有字符的表达结果{ F(s(i,ji)),q(i, ji),p(i, ji)}作为高级训练特征,对应的类别表示结果g(i,ji)作为类别判定数据,进行训练,得到训练后的专有词挖掘模型M。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贺惠新,未经贺惠新许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201511006779.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种数据存储方法、装置和系统
- 下一篇:一种电子化作业的批改方法、装置和系统