[发明专利]基于内容的大文本高阶语义张量化分类方法和系统有效

专利信息
申请号: 201710687437.0 申请日: 2017-08-11
公开(公告)号: CN107506415B 公开(公告)日: 2020-07-21
发明(设计)人: 谭培波;史晓凌;茹海燕 申请(专利权)人: 北京智通云联科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/30;G06F40/284
代理公司: 北京远大卓悦知识产权代理事务所(普通合伙) 11369 代理人: 史霞
地址: 100012 北京市朝阳*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于内容的大文本高阶语义张量化分类方法,包括:步骤一、构造类的DEC张量模型;步骤二、获取待分类的大文本中的部分文本,利用部分文本构建大文本的DEC张量,将其DEC张量和类的特征张量逻辑相乘,之后按照DEC的3个维度全部降维相加,得到大文本属于该类的强度,展示输出结果。本发明还公开了一种基于内容的大文本高阶语义张量化分类系统,包括:基础语料层,用于存储DEC张量模型要素和模型加工所需要的语料样本;DEC语义处理层,用于完成大文本的分词和DEC张量化,实现对张量模型的计算和调用;应用层,用于完成用户输入文本的接收和展示分类结果。本发明解决了计算资源不足和文本理解准确性之间矛盾。
搜索关键词: 基于 内容 文本 语义 量化 分类 方法 系统
【主权项】:
一种基于内容的大文本高阶语义张量化分类方法,其特征在于,包括如下步骤:步骤一、构造类的DEC张量模型:1.1)对多个大文本的词语进行3级领域分词,并建立每个大大文本的大文本词集合与类的对应关系;2.1)构件大文本的DEC张量:对每个类对应的每个大本文进行分词,得到代表其领域Domain的分词集合D、代表业务活动Concept的分词集合C和代表相关要素的分词集合Element分词集合E;2.2)首先得到E的独立一维向量,再从E独立一维向量张成CE张量;2.3)从CE张量张成DEC张量;2.4)从步骤2.3)到2.1)循环,完成整个类的张量构建;3.1)任意选定一个类,剩余类张量相加得到该类的反例张量;3.2)整个类的张量减去类的反例张量,得到该类的特征张量;步骤二、获取待分类的大文本中的部分文本,首先依照步骤2.1)到2.3),利用该部分文本构建该待分类大文本的DEC张量,之后加载步骤一中的类的特征张量,将该待分类大文本的DEC张量和每个类的特征张量逻辑相乘,然后再将逻辑相乘后的类张量按照DEC的3个维度全部降维相加,得到待分类的大文本属于该类的强度,最后展示输出结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智通云联科技有限公司,未经北京智通云联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710687437.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top