[发明专利]一种半监督的领域词挖掘与分类的方法和设备有效

申请号：	201710748366.0	申请日：	2017-08-28
公开（公告）号：	CN107577739B	公开（公告）日：	2020-04-10
发明（设计）人：	高登科;姚佳	申请（专利权）人：	广东惠禾科技发展有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06K9/62
代理公司：	北京超凡志成知识产权代理事务所(普通合伙) 11371	代理人：	王宁宁
地址：	518054 广东省深圳市南山区粤海街道***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种监督领域挖掘分类方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及领域词挖掘与分类领域，特别涉及一种半监督的领域词挖掘与分类的方法和设备。

背景技术

领域词是最能代表领域特性并区别其它领域的特征，且领域词可依据在领域内的不同作用划分为不同类别标签，领域词及其类别构成了领域的基础词表数据；因此，领域词的挖掘和分类是中文信息处理的一项重要的基础性工作，在许多中文信息处理项目(例如：自动问答、自动文摘、自动分类、搜索引擎等)中都会涉及到领域词挖掘及分类问题。

而目前领域词的挖掘及分类算法都是要求有监督的学习才能获取到一个比较好的效果。但是有监督就需要大量的已标注语料，而有标注语料其实难以获取，因此实际使用的效果不佳。

发明内容

针对现有技术中的缺陷，本发明提出了一种半监督的领域词挖掘与分类的方法和设备，通过半监督的方式，无需大量标注数据，只需要基于一般的领域文本和少量种子词表即可完成领域词的挖掘与分类。

具体的，本发明提出了以下具体的实施例：

本发明实施例提出了一种半监督的领域词挖掘与分类的方法，包括：

对待处理领域的文本数据进行分词和句法分析，并基于所述分词的结果获取所述文本数据中所有词的词向量矩阵；

以所述文本数据中人工构建的一定数量的种子词为起点，基于所述种子词在所述文本数据中的词性与句法的构成模式扩展种子词，并利用词频、词性、词向量过滤种子词，获得种子词表；

针对所述种子词表，利用词向量、知识库、统计学特征等确定任意两词的总体相似度，并以此生成词语相似度矩阵；

基于所述词语相似度矩阵对所述文本数据进行候选领域词的挖掘，以及确定所述候选领域词的类别概率分布；

针对各候选领域词，基于所述候选领域词的类别概率分布，当对应类别的最大概率与第二大概率的差值大于预设阈值时，确认所述候选领域词为领域词，且所述最大概率对应的类别为所述领域词的类别。

在一个具体的实施例中，所述“基于所述分词的结果获取所述文本数据中所有词的词向量矩阵”包括：

获取对所述文本数据进行分词的结果；