[发明专利]一种机器智能辅助的扎根理论编码优化方法有效

专利信息
申请号: 202010178957.0 申请日: 2020-03-15
公开(公告)号: CN111488725B 公开(公告)日: 2023-04-07
发明(设计)人: 卢暾;蒋特;顾宁 申请(专利权)人: 复旦大学
主分类号: G06F40/126 分类号: G06F40/126;G06F40/289
代理公司: 上海正旦专利代理有限公司 31200 代理人: 陆飞;陆尤
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 机器 智能 辅助 扎根 理论 编码 优化 方法
【权利要求书】:

1. 一种机器智能辅助的扎根理论编码优化方法,其特征在于,具体步骤如下:

(1)数据预处理

在得到访谈录音数据后,利用转录软件或平台,对录音数据进行转录,并通过人工梳理的方式,得到相应的文字材料;

然后,通过分句分段工具,将访谈记录切割成一个个语句块;并通过人工核对检查的方式,将分句分段结果进行适当的调整,得到语料集,作为编码的原始材料;

(2)人工预编码

对步骤(1)得到的对语料集进行人工预编码,形成初步的编码方案;预编码算法中,通过循环编码、随机选取数据的方式,对选取的原始材料进行概念层次和主题层次的编码,并不断调整编码框架,直至达到初步的信息饱和,或当前数据集数据已全部编码;此外,在原有编码的基础上,可以继续编码新的数据,具备较高的灵活性;因此,当未达到信息饱和,或当用户认为未编码完成时,都可继续编码新的数据;

(3)编码特征提取

在预编码的编码方案基础上,进行编码特征提取,实现后续数据的自动分类编码;编码特征的提取,采用TF-IDF方法;其中,TF代表的是Term Frequency,即词频;用该词在该条语料中出现的次数word_cnt,除以该条语料中的总词数total_cnt进行计算,如公式1所示:

      公式 1

IDF,是指Inverse document frequency,即逆向文件频率,用来衡量一个词语的普遍重要性;由总文件数目total_file除以包含该词语的文件数目file_cnt,再将得到的商取以10为底的对数,即得到IDF的值,其计算式如公式2所示:

    公式 2

最后,将TF与IDF的值相乘,即得到TF-IDF的值,如公式3所示:

TF-IDF TF*IDF                  公式 3

(4)自动编码

在步骤3特征提取的基础上,对新的语料集进行编码分类,补充编码框架中的语料集;此处,仍延续步骤3中提取的特征方法,以TF-IDF方法对新的语料集进行自动编码分类;

对于中文语料集,先对文字材料进行分词;去除常用词后,将剩余的词作为该语料集的特征词;然后,通过这些词计算该段文字与相应概念和主题分类的匹配度,将其归类到匹配度最高的主题分类和编码分类下;

具体地,一条新语料t和某语料集s的相似度计算如公式4所示:

    公式 4

这里,m,n分别为新语料t和语料集s的特征词个数;score(ti,sj)代表的是语料t中第i个词汇和语料s中第j个词汇的在相似度上的得分,具体计算方式如公式5所示:

     (公式 5)

其中,dis(x,y)代表词汇x和词汇y在词向量数据集中的空间距离,threshold代表:评估两个词仍属于近义词的最大的空间距离;

计算出新语料所有主题语料集的相似度后,将该新语料分配到相似度最高的主题下;然后,再计算该语料与该主题下所有概念语料集的相似度,将该主题划分到对应的概念语料集中;

(5)特征集扩充

待每次新数据编码完成后,人为检查匹配度较低的分类项,进行调整;如出现现有的编码框架之外的新概念或新主题的情况,则对编码框架进行调整;然后,再次通过步骤(3)中的方式,提取出新语料的特征集,保留到语料库中;不断重复编码过程,直至全部数据完成编码。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010178957.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top