[发明专利]一种基于主题信息的文本切割方法有效

专利信息
申请号: 201910339645.0 申请日: 2019-04-25
公开(公告)号: CN110110326B 公开(公告)日: 2020-10-27
发明(设计)人: 魏笔凡;李鸿轩;刘均;郑庆华;吴蓓;张铎;吴科炜;郭朝彤 申请(专利权)人: 西安交通大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30;G06K9/62
代理公司: 西安通大专利代理有限责任公司 61200 代理人: 徐文权
地址: 710049 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于主题信息的文本切割方法,具体操作如下:对输入文本以及训练集进行预处理,获得一系列单词组成的句子;然后进行特征提取,得到其特征向量;再根据其蕴含的语义信息对输入文本进行聚类操作,得到一系列句子簇,并为每个簇按顺序分配一个数字标签,得到一系列带有数字标签的单句;为每一个句子分配一个训练集中已有的主题标签,使得训练集中已有的主题标签分配至文本中的所有句子;利用数字标签标注结果和主题标签标注结果,进行修正,得到带主题标签的文本片段,将主题标签分配到切割后的文本上,使句子描述的主题都清晰可见,可以方便的根据主题定位到文本中描述该主题的位置,使得检索更为方便。
搜索关键词: 一种 基于 主题 信息 文本 切割 方法
【主权项】:
1.一种基于主题信息的文本切割方法,其特征在于,包括以下步骤:步骤1,对输入文本以及训练集进行预处理,获得一系列单词组成的句子;步骤2,对步骤1得到的句子进行特征提取,得到每个句子的特征向量;步骤3,利用步骤2获得的输入文本的特征向量,根据其蕴含的语义信息对输入文本进行聚类操作,得到一系列句子簇,并为每个簇按顺序分配一个数字标号,得到一系列带有数字标号的单句;步骤4,利用训练集训练分类器,将步骤2得到的输入文本的特征向量使用分类器进行分类,为每一个句子分配一个训练集中已有的主题标签,使得训练集中已有的主题标签分配至文本中的所有句子,得到分配了主题标签的单句;步骤5,对步骤3得到的带有数字标号的单句和步骤4得到的已分配主体标签的单句进行综合进行修正,到带主题标签的文本片段,修正的具体操作如下:501,将步骤4中的分类结果与步骤3中的聚类结果按顺序进行一一配对,对于聚类结果中的每个数字标签,统计其对应的分类主题标签及每个主题标签的个数,并将数字标签和与其对应的出现最多次数的分类主题标签进行对应,构成一个查询字典;502,将分类主题标签按照步骤501所得查询字典进行映射,映射结果为一个标号集合,对所述标号集合与聚类结果得到的标号集合进行异或操作,得到一个0‑1向量;503,根据步骤502所得0‑1向量对分类得到的主题标签进行修正:对于异或操作得到的结果中的所有的1,对其左侧句子和右侧句子分别进行分析,如果两边的结果均为0,且标签一致,则将该位置更正为与左右句子的标签一致;如果两侧结果均为0,但标签不同,则该位置的句子单独属于一个类;如果两侧有一个1,则以0一侧的标签为准进行修正;如果两侧均为1,则不进行任何操作;循环执行503,直至结果不再发生变动,得到稳态结果;504,根据503得到的稳态结果,每一个句子都被分配了一个单独的数字标签,数字标签并对应着一个主题标签,并且每一个类标签只会在相邻的几个句子之间出现,根据句子主题标签发生改变的边界,对文本进行切割,即可得到带主题标签的文本片段。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910339645.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top