[发明专利]一种智能语义分析与文本挖掘方法在审
申请号: | 201710656241.5 | 申请日: | 2017-08-03 |
公开(公告)号: | CN107391490A | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 金俏 | 申请(专利权)人: | 武汉烽火普天信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 上海精晟知识产权代理有限公司31253 | 代理人: | 冯子玲 |
地址: | 430000 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 语义 分析 文本 挖掘 方法 | ||
1.一种智能语义分析与文本挖掘方法,其特征在于,包括以下步骤:
S1:大量网站进行批量抓取:通过对不同数据源进行分类,通过简单的配置的方式在短时间内,对大量网站进行高效的数据抓取,避免了繁杂的开发量,提高了开发成本;
S2:对S1中所获取的语义文本进行预处理,且预处理包括以下步骤:
(1)、样本的选择:选择能够明确代表各类别信息的样本;
(2)、语义文本表示模型:利用(1)中的样本对非结构化的语义文本记性转化成分类算法,从而能够对语义文本进行表示方式的转换;
(3)、特征分类:对(2)转换后的语义文本根据其的特征进行分类,并利用分类模型的算法将语义文本特征映射出其的类别;
S3:对S2中处理后的文本进行分析建模:建立文档向量空间模型以后,能够利用向量相似性函数计算文档之间的相似性程度,刻画文档之间的相似度主要有以下两类函数,距离函数和相似系数,其中距离函数是通过使用文档向量空间模型;
S4:以词作为语义文本的组成,来构建文本的内积空间,通过文本内积空间的性质得到任意文本间的相似关系度量,并对与语义文本存在相似关系度的主体关键词进行提取;
S5:挖掘出主题词信息后,该主体关键词往往产生庞大的主题词信息量,然后再次输入辅助关键词,从而筛选出具备独特性的重要主题词;
S6:根据所需求的不同,对关键词重要性的需求也不同,然后关键词排序的出发点也随之变化,有对关键词的重要性定义存在差异,为满足不同角度排序的需求,进行不同的关键词排序,分别为基于关键词覆盖和关键词相似度的形式进行排序。
2.根据权利要求1所述的一种智能语义分析与文本挖掘方法,其特征在于:对全网数据所采集的语义文本进行数据分析服务,对情感分析,内容分类和聚合的关键技术进行分析,分析具体包括信息分类和聚合,多维呈现,情感计算方面。
3.根据权利要求1所述的一种智能语义分析与文本挖掘方法,其特征在于:在S4中通过语义文本内积空间的性质得到任意关键词间的相似关系度量,然后,根据关键词由概念组成的特点,推导关键词的相似关系度量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉烽火普天信息技术有限公司,未经武汉烽火普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710656241.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本分析方法及装置
- 下一篇:文字选择方法及装置