[发明专利]一种基于层次增量聚类的话题检测方法及系统在审

申请号：	201610797846.1	申请日：	2016-08-31
公开（公告）号：	CN106339495A	公开（公告）日：	2017-01-18
发明（设计）人：	李本栋;吴文杰	申请（专利权）人：	广州智索信息科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	广州三环专利代理有限公司44202	代理人：	郝传鑫
地址：	510000 广东省广州市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于层次增量聚类的话题检测方法及系统，属于自然语言处理领域，该方法首先通过分词器对文本信息进行分词，然后将分词根据切分顺序组成词序列，通过词语的词频—反转文件频率和哈希整数值构建文本词向量，然后计算文本词向量与每个类中心向量的相似度，通过比较相似度与预设的归类阀值，确定文本信息的归类，最后根据预设时间周期性的对每个类别的类中心向量进行聚类计算。本发明通过高阈值的增量聚类获得文本的共性特征，提高了话题聚类的精度，同时降低了程序的时间复杂度。
搜索关键词：	一种基于层次增量话题检测方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于层次增量聚类的话题检测方法，其特征在于，包括以下步骤：获取文本信息，并采用分词器将所述文本信息划分为至少一个词语；将每个所述词语根据切分顺序组成词序列；分别确定所述词序列中每个所述词语的词频—反转文件频率和哈希整数值；根据每个词语的所述词频—反转文件频率和哈希整数值构建文本词向量；确定是否预先存储有类别的类中心向量；在确定预先存储有类别的类中心向量时，计算所述文本词向量与每个类中心向量的相似度；将每个所述相似度与预设的归类阈值进行比较，若确定存在有大于所述归类阈值的相似度时，则将大于所述归类阈值的相似度对应的类别确定为候选类集；确定出所述候选类集中最大相似度对应的类别，并将所述文本信息归类为所述最大相似度对应的类别中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州智索信息科技有限公司，未经广州智索信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610797846.1/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于层次增量聚类的话题检测方法及系统在审

专利文献下载