[发明专利]一种基于监督模型的泛词识别方法及装置在审
申请号: | 201810900841.6 | 申请日: | 2018-08-09 |
公开(公告)号: | CN109145296A | 公开(公告)日: | 2019-01-04 |
发明(设计)人: | 王草;刘军宁 | 申请(专利权)人: | 新华智云科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/335;G06F16/35 |
代理公司: | 杭州橙知果专利代理事务所(特殊普通合伙) 33261 | 代理人: | 李品 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词识别 词语 特征组 输出识别 监督 数据库 结果输出模块 特征抽取模块 上下文信息 模型判断 | ||
本发明公开了一种基于监督模型的泛词识别方法及装置,包括输入待识别词,并从数据库中获取待识别词的词特征组;将所述词特征组输入监督模型,识别待识别词是否为泛词;输出识别结果。其中泛词识别装置包括特征抽取模块,用于接收待识别词,并从数据库中获取待识别词的词特征组;泛词识别模块,用于识别输入的待识别词是否为泛词;结果输出模块,输出识别结果。本发明能够通过监督模型判断一个词语或者一组词语是否为泛词,利用训练过的监督模型来对词语进行泛词判断,能够对单独、没有上下文信息的词语进行独立的泛词识别。
技术领域
本发明涉及计算机算法领域,具体为一种基于监督模型的泛词识别方法及装置。
背景技术
泛词是指指代比较宽泛的词语,比如“公司”、“学校”、“人类”、“大地”等等;非泛词是指代更明确与具体的,比较特指的词,能够独立地被用于搜索或订阅,比如“阿里巴巴”、“北京大学”、“范冰冰”、“杭州市西湖区”、“幼儿园虐童”等对某个或某类事物与事件有特指的词。泛词与非泛词的识别在自然语言处理的业务中或者舆情分析的需求中尤为重要。比如热点推荐、热词挖掘、关键词提取、事件主题提取、文本标签提取等业务中,都需要尽量排除掉泛词的影响,从而产出更具象,更有意义,更有代表性的词语。
现有技术中对泛词的过滤一般使用tf-idf值,但是单靠tf-idf值过滤并不完美,tf-idf值是针对一篇文本提取出该文中具有代表性的词,而不能对单独的词(没有任何上下文信息的词)进行判别,只能在文章级别的文本中提取,无法对单独的词语判别颗粒度的粗细,无法实现独立的泛词识别需求。
发明内容
本发明的目的是为了提供一种基于监督模型的泛词识别方法及装置,能够通过监督模型判断一个词语或者一组词语是否为泛词,利用训练过的监督模型来对词语进行泛词判断,能够对单独、没有上下文信息的词语进行独立的泛词识别。
为了实现上述发明目的,本发明采用了以下技术方案:一种基于监督模型的泛词识别方法,包括
输入待识别词,并从数据库中获取待识别词的词特征组;
将所述词特征组输入监督模型,识别待识别词是否为泛词;
输出识别结果。
与现有技术相比,采用了上述技术方案的基于监督模型的泛词识别方法,具有如下有益效果:采用本发明的基于监督模型的泛词识别方法,通过词特征组和监督模型对词语是否为泛词进行判断,所采用的词特征组中的特征包含有词语本身的特征以及词语在数据库中的特征,使得判断更加准确;利用训练过的监督模型来对词语进行泛词判断,能够对单独、没有上下文信息的词语进行独立的泛词识别。
优选的,在所述输入待识别词的步骤之前,还包括:
建立带有词特征组的数据库,所述数据库包括词语和每个词语对应的词特征组;在数据库中建立样本数据集,所述样本数据集包括样本词语、样本词语相应的词特征组以及泛词标注;将所述样本数据集输入分类模型中训练得到监督模型。
优选的,在所述建立带有词特征组的数据库的步骤中,包括:
获取用于构建数据库的N篇文本的标题和正文;对所述N篇文本进行分词得到分词结果;获取分词结果中每个词语的词特征组;将分词结果和分词结果中词语对应的词特征组整合,得到数据库。
优选的,在所述在数据库中建立样本数据集的步骤中,包括:
从所述N篇文本中抽取M篇文本;对所述M篇文本的标题进行分词得到分词结果;从分词结果中随机抽取m个名词性的词语,作为样本;从数据库中抽取处所述m个名词性的词语的词特征组;对m个词语是否为泛词进行标注;将m个词语、词语对应的词特征组和相应的标注整合,得到样本数据集。
优选的,在所述将所述样本数据输入分类模型中训练得到监督模型的步骤中,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华智云科技有限公司,未经新华智云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810900841.6/2.html,转载请声明来源钻瓜专利网。