[发明专利]一种基于主题信息的文本切割方法有效

专利信息
申请号: 201910339645.0 申请日: 2019-04-25
公开(公告)号: CN110110326B 公开(公告)日: 2020-10-27
发明(设计)人: 魏笔凡;李鸿轩;刘均;郑庆华;吴蓓;张铎;吴科炜;郭朝彤 申请(专利权)人: 西安交通大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30;G06K9/62
代理公司: 西安通大专利代理有限责任公司 61200 代理人: 徐文权
地址: 710049 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 主题 信息 文本 切割 方法
【说明书】:

本发明公开了一种基于主题信息的文本切割方法,具体操作如下:对输入文本以及训练集进行预处理,获得一系列单词组成的句子;然后进行特征提取,得到其特征向量;再根据其蕴含的语义信息对输入文本进行聚类操作,得到一系列句子簇,并为每个簇按顺序分配一个数字标签,得到一系列带有数字标签的单句;为每一个句子分配一个训练集中已有的主题标签,使得训练集中已有的主题标签分配至文本中的所有句子;利用数字标签标注结果和主题标签标注结果,进行修正,得到带主题标签的文本片段,将主题标签分配到切割后的文本上,使句子描述的主题都清晰可见,可以方便的根据主题定位到文本中描述该主题的位置,使得检索更为方便。

技术领域

本发明属于自然语言处理技术领域,具体涉及一种基于主题信息的文本切割方法。

背景技术

文本通常由一系列存在语义相关的片段构成。随着当今网络规模的急剧增长,网络上的文本数量也在急剧的增加。网络文本中,篇幅较长的文本占有相当一部分比例。这些文本大部分都没有经过细致的划分,仅仅是一系列存在语义相关关系的片段堆叠。这既不方便于人们的阅读,也不方便于自然语言处理和信息检索领域等的研究者进行研究。

为了解决上述问题,通常文本进行切割。对于浏览者而言,切割之后得到了与单个主题相关的片段,使得文本阅读起来更为简洁明了,并且可以更加快速直观地浏览到所需要特定主题相关的文本内容。对研究者而言,切割之后得到的单一主题的内容可以方便进行后续的研究,如在信息检索领域,当长文本被切割为单个主题的片段之后,便可以通过主题初步的对要搜寻的信息进行检索,进而加快信息检索效率。因此,研究文本的主题切割对普通浏览者与研究者而言,都具有重要的意义。

现有技术中有一种基于文本相似度的事件情感分类方法,专利申请号:CN201810642911;该专利提出了一种基于文本相似度的事件情感分析方法,首先计算出事件event情感值,获得单个文本情感分类模型,然后根据余弦相似度、文本情感倾向等判断事件情感分类,从而分析出情感的种类。具体包括:设整个待处理事件的情感值为S,设情感分界值分别为S1、S2;选取并生成单文本情感分类模型model,情感类别为正面、中立、负面;根据余弦相似度将文本聚类,聚合成不同的事件类;设置事件的分割参数limit-num,用来控制事件中的文本切割参数;针对每一个事件类event,按照声量值选择文本,然后判断分析;将事件类中所有文本向量进行均值运算,生成该类的均值向量,将均值向量输入到应用模型model中,输出均值向量情感值p_avg;事件内部存在情感倾向的文本,计算情感值;利用情感分类模型对事件情感值进行计算(综合w1,w2),其中,w1+w2=1;判断事件情感分类s=p(event),若s≥s2,则事件为正向;若s1<s<s2,则事件为中立;若s≤s1,则事件为负向。

上述文本相似度的事件情感分类方法专利技术方案中,仅仅对文本中蕴含的情绪进行了分析,并以此为基础对文本进行切割和判断。而对于描述了不同主题下内容的文本,并不能按照其描述的内容分隔开。

发明内容

本发明的目的在于提供一种基于主题信息的文本切割方法,通过kmeans聚类和SVM分类将文本切割问题转化为一个“预处理-聚类-分类-综合修正”的过程;使用WR算法将句子简便的表示为一个向量,使用主成分分析算法将句子向量表示的更为精炼,再通过传统的聚类分类方法,快速准确的对文本进行切割和分配主题标签,本发明通过结合分类的方法,可以很好的将文本按照其描述的内容分割开来。

为了实现上述目的,本发明采用的技术方案是,

一种基于主题信息的文本切割方法,包括以下步骤:

步骤1,对输入文本及训练集进行预处理,获得一系列单词组成的句子,具体包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910339645.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top