[发明专利]一种面向领域的概念抽取方法、终端设备及存储介质在审
申请号: | 201910055910.2 | 申请日: | 2019-01-21 |
公开(公告)号: | CN109753664A | 公开(公告)日: | 2019-05-14 |
发明(设计)人: | 仇晶;田志宏;殷丽华;柴瑜晗;顾钊铨;李树栋;韩伟红;方滨兴 | 申请(专利权)人: | 广州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/332 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 颜希文;麦小婵 |
地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向领域的概念抽取方法、终端设备及存储介质,所述方法包括获取目标领域的语料,并对语料进行预处理,作为词向量训练的输入文件;采用规则和统计相结合的方法,从预处理后的语料中抽取出若干个领域术语;将所述输入文件输入Word2vec工具进行所述词向量训练,得到与若干个词语一一对应的词向量;对所述抽取的领域术语,根据所述词向量并采用余弦相似度公式计算两两领域术语之间的相似度;根据设定的相似度阈值筛选有关联的领域术语对,进行语义图的构建;根据所述语义图,采用社区发现算法进行概念抽取,得到概念集。本发明能够通过构建和分析语义图,发现大数据中各个领域术语之间的关联,从而提高概念抽取的准确率和实用性。 | ||
搜索关键词: | 领域术语 概念抽取 词向量 语义图 语料 预处理 存储介质 输入文件 终端设备 相似度 构建 关联 余弦相似度 公式计算 获取目标 社区发现 阈值筛选 大数据 准确率 算法 抽取 词语 取出 统计 分析 发现 | ||
【主权项】:
1.一种面向领域的概念抽取方法,其特征在于,包括:获取目标领域的语料,并对所述语料进行预处理,作为词向量训练的输入文件;所述预处理包括分词和去停用词;采用规则和统计相结合的方法,从预处理后的语料中抽取出若干个领域术语;将所述输入文件输入Word2vec工具进行所述词向量训练,得到与若干个词语一一对应的词向量;对所述抽取的领域术语,根据所述词向量并采用余弦相似度公式计算两两领域术语之间的相似度;根据设定的相似度阈值筛选有关联的领域术语对,进行语义图的构建;根据所述语义图,采用社区发现算法进行概念抽取,得到概念集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910055910.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种客户情绪分级方法及装置
- 下一篇:唤醒模型的更新方法及装置