[发明专利]一种基于众包的人类行为文本数据集的构造以及处理方法有效
申请号: | 202110529477.9 | 申请日: | 2021-05-14 |
公开(公告)号: | CN113407716B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 古天龙;高慧;李龙;包旭光;李云辉 | 申请(专利权)人: | 桂林电子科技大学;暨南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 桂林文必达专利代理事务所(特殊普通合伙) 45134 | 代理人: | 张学平 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人类 行为 文本 数据 构造 以及 处理 方法 | ||
1.一种基于众包的人类行为文本数据集的构造以及处理方法,其特征在于,包括以下步骤:
根据对应的主题对象和要求生成任务并发布于众包平台,同时获取设定主题下所有的文本数据集;
采用聚类的方式对所述文本数据集中的同一行为的不同文本表现进行聚类;
采用关联分析技术对不同行为之间进行分析,生成对应的先后关系结构图,包括:
根据句子蔟ID对文本集进行序列化,根据聚类结果可以得到n个蔟{c1,c2,…,cn},而每个簇内包含多个句子c={s1,s2,…,sm},从中选取某一个句子作为簇头sm,并对簇头进行唯一标识ei作为情节点;即簇{c1,c2,…,cn}中每一元素对应情节点{e1,e2,…,en}中相应的元素;接着将文本数据集中的句子按照聚类后的蔟ID进行编码,得到text={[e1,e2,…,ei],[e1,e2,…,ej],…,[e1,e2,…,et]}的文本序列数据集;
遍历文本序列数据集,获得后继关系集,对文本序列数据集进行遍历,并根据情节点的先后关系生成后继关系集;
遍历后继关系集,获得任意两节点同时出现的数据信息,并计算置信度,遍历所有环状结构,并删除置信度最小的先后关系;
采用互信息技术获取行为之间的互斥关系结构,并将人类行为存在的各种关系构造成一个情节图,包括:
基于文本序列事件是否发生的标记值获取对应的标记矩阵,判断所述文本序列时间是否发生,并用0或1进行标记区分,直至文本序列数据集中的所有事件标记完成,得到对应的标记矩阵;计算单事件与双事件同时发生的概率;计算互斥关系得分,根据所学到的行为间的关系,构造情节图。
2.如权利要求1所述的基于众包的人类行为文本数据集的构造以及处理方法,其特征在于,采用聚类的方式对所述文本数据集中的同一行为的不同文本表现进行聚类,包括:
利用Python对所述文本数据集进行数据预处理,并对得到的各单词向量进行拼接,得到句子向量;
使用Sklearn工具的封装的接口对所述句子向量进行相似度计算以及K-means算法聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学;暨南大学,未经桂林电子科技大学;暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110529477.9/1.html,转载请声明来源钻瓜专利网。