[发明专利]文本中词语分类方法、言语创造性评价方法和系统有效

申请号：	201810757336.0	申请日：	2018-07-11
公开（公告）号：	CN109241276B	公开（公告）日：	2022-03-08
发明（设计）人：	沈汪兵;邵美玲	申请（专利权）人：	河海大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06F40/216
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	常虹
地址：	210098***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种文本中词语分类方法、言语创造性评价方法和系统，其中文本中词语分类方法包括如下步骤；1、分行读取文本，以正则方式分割每行文本数据，获得短语和词语；2、将步骤1获得的短语和词语采用结巴分词进一步切分，获得简单词语；3、设置分类参数，根据词频得到候选主题，进行初步分类；4、选择每一类中词频最高的词语作为本类的主题；5、对每一类词语，遍历本类中所有词语，判断是否属于本类主题，如果是，则划分到所述主题下；否则划分到低频词集合中；6、对低频词集合使用word2vec.model作进一步划分；7、统计分类结果。该词语分类方法适用于词汇或词语独立或孤立出现，而不是以篇章或句子形式出现的场景。
搜索关键词：	文本词语分类方法言语创造性评价系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.文本中词语分类方法，其特征在于，包括如下步骤；(1)分行读取文本，以正则方式分割每行文本数据，过滤标点符号和数字，获得短语和词语；(2)将步骤(1)获得的短语和词语进一步切分，并过滤停用词，获得简单词语，设共获得L个简单词语；统计每个简单词语的词频；(3)设置分类参数K[k,limit]，其中k为频次参数，limit为词频限制参数；词频高于k的词语中选择词频最高的前limit个设置为候选主题；对L个简单词语依次判断属于哪个候选主题，进行初步分类，设分为M类，M≤limit；(4)对分类后的结果，选择每一类中词频最高的词语作为本类的主题；(5)对每一类词语，遍历本类中所有词语，判断是否属于本类主题，如果属于本类的主题，则划分到所述主题下；如果不属于本类主题，划分到低频词集合中；(6)对低频词集合使用word2vec.model作进一步划分；(7)统计分类结果，得到P类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学，未经河海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810757336.0/，转载请声明来源钻瓜专利网。

上一篇：一种基于自然语言处理的文本主题聚类算法
下一篇：科研知识管理方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]文本中词语分类方法、言语创造性评价方法和系统有效

专利文献下载