[发明专利]一种半监督的领域词挖掘与分类的方法和设备有效
申请号: | 201710748366.0 | 申请日: | 2017-08-28 |
公开(公告)号: | CN107577739B | 公开(公告)日: | 2020-04-10 |
发明(设计)人: | 高登科;姚佳 | 申请(专利权)人: | 广东惠禾科技发展有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06K9/62 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 王宁宁 |
地址: | 518054 广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实例提出了一种半监督的领域词挖掘与分类的方法和设备,其中该方法包括:对领域相关语料进行预处理以及构建种子词表和词语相似度矩阵,挖掘候选领域词以及确定候选领域词的相似度分布,对筛选出的领域词进行类别的标记;以此通过半监督的方式,无需大量标注数据,只需要基于一般的领域文本和少量种子词表即可完成领域词的挖掘与分类。 | ||
搜索关键词: | 一种 监督 领域 挖掘 分类 方法 设备 | ||
【主权项】:
一种半监督的领域词挖掘与分类的方法,其特征在于,包括:对待处理领域的文本数据进行分词和句法分析,并基于所述分词的结果获取所述文本数据中所有词的词向量矩阵;以所述文本数据中人工构建的一定数量的种子词为起点,基于所述种子词在所述文本数据中的词性与句法的构成模式扩展种子词,并利用词频、词性、词向量过滤种子词,获得种子词表;针对所述种子词表,利用词向量、知识库、统计学特征等确定任意两词的总体相似度,并以此生成词语相似度矩阵;基于所述词语相似度矩阵对所述文本数据进行候选领域词的挖掘,以及确定所述候选领域词的类别概率分布;针对各候选领域词,基于所述候选领域词的类别概率分布,当对应类别的最大概率与第二大概率的差值大于预设阈值时,确认所述候选领域词为领域词,且所述最大概率对应的类别为所述领域词的类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东惠禾科技发展有限公司,未经广东惠禾科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710748366.0/,转载请声明来源钻瓜专利网。