[发明专利]一种基于文本的性格数据分析方法及系统有效
申请号: | 201710553081.1 | 申请日: | 2017-07-07 |
公开(公告)号: | CN109254993B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 李唳天 | 申请(专利权)人: | 掌沃云科技(北京)有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06Q30/02 |
代理公司: | 北京卓岚智财知识产权代理事务所(特殊普通合伙) 11624 | 代理人: | 任漱晨 |
地址: | 100027 北京市朝阳区工人*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 性格 数据 分析 方法 系统 | ||
1.一种基于文本的性格数据分析方法,其特征在于,包括:
通过源数据模块部署分布式数据存储系统,所述分布式数据存储系统中存储有源数据;
通过分词模块对所述源数据进行分词处理,并标注词性,得到未整理的元数据库;
通过维度评分模块对性格分析数据按照三个维度进行评分,得到所述三个维度的评分赋值为K1、K2和K3;
根据从所述元数据库中得出的所述性格分析数据对应主题下三个维度的加权值,以及所述性格分析数据的评分结果,通过判定模块判定所述性格分析数据对应主体的性格归属;
所述对性格分析数据按照三个维度进行评分,所述三个维度包括理性/感性维度、真实/修饰维度和激烈/平和维度;
对所述性格分析数据按照理性/感性维度进行评分,具体包括:
将一篇文章或一段言论作为性格分析数据,对所述性格分析数据进行分词后标注其词性,得到M个词;
从所述M个词中找出表达逻辑关系的助词,每有一个表达逻辑关系的助词,则计数加1;若逻辑词不完整,则计数加0.5;得到逻辑词语的赋值得分为X1;
将所述性格分析数据中的关键词与元数据库中关键词云表比对,确定所述性格分析数据的主题,并调取所述主题的核心关键词与所述性格分析数据的关键词进行比对,将所述性格分析数据关键词包含于所述主题的核心关键词的个数记为Y1;
将元数据库中所述主题下平均每M个词出现的逻辑词数量记为A1,平均每篇内容出现的关键词数量记为B1;
将X1与Y1的和与A1与B1的和的商作为所述性格分析数据的理性/感性维度评分赋值K1:若K1大于1则偏理性,K1小于1则偏感性。
2.根据权利要求1所述的方法,其特征在于,所述部署分布式数据存储系统,具体包括:
在多台计算机上部署分布式数据存储系统,所述分布式数据存储系统存储分布式数据库,对每台所述计算机设备的分布式数据库进行分段管理;
将所有计算机设备及分段管理的信息形成数据矩阵,与事件元数据信息库结合形成数据调用的索引库。
3.根据权利要求1所述的方法,其特征在于,所述对所述源数据进行分词处理,具体包括:
所述分词处理基于字符串匹配的机械分词算法进行分词,将待分的字符串与机器词典中的词条进行匹配,可采用正向最大匹配、逆向最大匹配和/或最少切分法;
所述分词处理还可以将分词与词性标注结合;
所述分词处理还可以为双向匹配法,将正向最大匹配法和逆向最大匹配法组合:根据标点对文档进行粗划分,把文档分解成若干个句子;对所述句子分别用正向最大匹配法和逆向最大匹配法进行扫描切分:如果两种分词方法得到的匹配结果相同,则分词正确;否则,按最小集处理。
4.根据权利要求1所述的方法,其特征在于,对所述性格分析数据按照真实/修饰维度进行评分,具体包括:
将一篇文章或一段言论作为分析数据,对所述分析数据进行分词后标注其词性,得到M个词;
从所述M个词中找出表达转折关系的助词,每有一个表达转折关系的助词,则计数加1,得到转折词语的赋值得分为X2;
将所述性格分析数据中的关键词与元数据库中的大数据关键词云表比对,确定所述分析数据的主题,确定所述性格分析数据在所述主题下涉猎的表达不同含义的核心关键词,将所述性格分析数据中属于所述性格分析数据的主题下不同含义的关键词个数记为Y2;
将元数据库中所述主题下平均每M个词出现的转折词数量记为A2,平均每篇内容中不同含义的关键词数量记为B2;
将X2与Y2的和与A2与B2的和的商作为所述分析数据的真实/修饰维度评分赋值K2:若K2大于1则偏修饰,K2小于1则偏真实。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌沃云科技(北京)有限公司,未经掌沃云科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710553081.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置