[发明专利]基于内容的大文本高阶语义张量化分类方法和系统有效
申请号: | 201710687437.0 | 申请日: | 2017-08-11 |
公开(公告)号: | CN107506415B | 公开(公告)日: | 2020-07-21 |
发明(设计)人: | 谭培波;史晓凌;茹海燕 | 申请(专利权)人: | 北京智通云联科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/284 |
代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙) 11369 | 代理人: | 史霞 |
地址: | 100012 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于内容的大文本高阶语义张量化分类方法,包括:步骤一、构造类的DEC张量模型;步骤二、获取待分类的大文本中的部分文本,利用部分文本构建大文本的DEC张量,将其DEC张量和类的特征张量逻辑相乘,之后按照DEC的3个维度全部降维相加,得到大文本属于该类的强度,展示输出结果。本发明还公开了一种基于内容的大文本高阶语义张量化分类系统,包括:基础语料层,用于存储DEC张量模型要素和模型加工所需要的语料样本;DEC语义处理层,用于完成大文本的分词和DEC张量化,实现对张量模型的计算和调用;应用层,用于完成用户输入文本的接收和展示分类结果。本发明解决了计算资源不足和文本理解准确性之间矛盾。 | ||
搜索关键词: | 基于 内容 文本 语义 量化 分类 方法 系统 | ||
【主权项】:
一种基于内容的大文本高阶语义张量化分类方法,其特征在于,包括如下步骤:步骤一、构造类的DEC张量模型:1.1)对多个大文本的词语进行3级领域分词,并建立每个大大文本的大文本词集合与类的对应关系;2.1)构件大文本的DEC张量:对每个类对应的每个大本文进行分词,得到代表其领域Domain的分词集合D、代表业务活动Concept的分词集合C和代表相关要素的分词集合Element分词集合E;2.2)首先得到E的独立一维向量,再从E独立一维向量张成CE张量;2.3)从CE张量张成DEC张量;2.4)从步骤2.3)到2.1)循环,完成整个类的张量构建;3.1)任意选定一个类,剩余类张量相加得到该类的反例张量;3.2)整个类的张量减去类的反例张量,得到该类的特征张量;步骤二、获取待分类的大文本中的部分文本,首先依照步骤2.1)到2.3),利用该部分文本构建该待分类大文本的DEC张量,之后加载步骤一中的类的特征张量,将该待分类大文本的DEC张量和每个类的特征张量逻辑相乘,然后再将逻辑相乘后的类张量按照DEC的3个维度全部降维相加,得到待分类的大文本属于该类的强度,最后展示输出结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智通云联科技有限公司,未经北京智通云联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710687437.0/,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法