首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]文本特征词语的提取方法及装置、存储介质及程序产品有效

申请号：	201811020415.X	申请日：	2018-09-03
公开（公告）号：	CN109344397B	公开（公告）日：	2023-08-08
发明（设计）人：	申勇	申请（专利权）人：	东软集团股份有限公司
主分类号：	G06F40/279	分类号：	G06F40/279
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	党丽;王宝筠
地址：	110179 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本特征词语提取方法装置存储介质程序产品
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本特征词语的提取方法，其特征在于，基于文本组成的样本库进行，所述样本库包括不同类别的子样本库，所述方法包括：

对各所述子样本库中的文本进行关键词的提取，以关键词作为目标词语，以获得各所述子样本库的子目标词语库；

将各所述子目标词语库中的目标词语按照词频分别进行排序；

根据所述排序结果，从各所述子目标词语库中确定特征词语，以获得特征词库；

所述根据所述排序结果，从各所述子目标词语库确定特征词语，以获得特征词库，包括：

按照所述排序结果中词频由高至低的顺序，从各所述子目标词语库中选择预设数量的目标词语作为特征词语，以获得特征词库，所述特征词库作为机器学习时的数据集；

其中，所述特征词语的预设数量的确定方法包括：根据预设的各类别的子目标词语库对应特征词语数量的比例关系与特征词语数量的规模系数之间的乘积，确定出从各所述子目标词语库中所选择的特征词语的数量，所述规模系数根据所述机器学习时所采用的算法的准确性确定。

2.根据权利要求1所述的方法，其特征在于，在获得子目标词语库之后，将各所述子目标词语库中的目标词语按照词频分别进行排序之前，还包括：

对各所述子目标词语库进行停用词的剔除。

3.根据权利要求1或2所述的方法，其特征在于，在获得子目标词语库之后，将各所述子目标词语库中的目标词语按照词频分别进行排序之前，还包括：

将各所述子目标词语库中的同义词进行合并，而后，将所有所述子目标词语库之间共有的同义词进行删除。

4.根据权利要求1所述的方法，其特征在于，在所述对各所述子样本库中的文本进行关键词的提取步骤中，所述关键词的数量的确定方法包括：

当文本的文本长度小于第一阈值，将关键词的数量设定为第一数量值；

当文本的文本长度大于第二阈值时，将关键词的数量设定为第二数量值，所述第二阈值大于所述第一阈值；

当文本的文本长度在所述第一阈值和所述第二阈值之间时，关键词的数量与所述文本长度成正比。

5.一种文本特征词语的提取装置，其特征在于，所述装置包括：

子目标词语库获取单元，用于对样本库中不同类别的各子样本库中的文本进行关键词的提取，以关键词作为目标词语，以获得各所述子样本库的子目标词语库；

排序单元，用于将各所述子目标词语库中的目标词语按照词频分别进行排序；

特征词库获取单元，用于按照所述排序结果中词频由高至低的顺序，从各所述子目标词语库中选择预设数量的目标词语作为特征词语，以获得特征词库，所述特征词库作为机器学习时的数据集；

其中，所述特征词语的预设数量的确定过程包括：根据预设的各类别的子目标词语库对应特征词语数量的比例关系与特征词语数量的规模系数之间的乘积，确定出从各所述子目标词语库中所选择的特征词语的数量，所述规模系数根据所述机器学习时所采用的算法的准确性确定。

6.根据权利要求5所述的装置，其特征在于，还包括：

同义词处理单元，用于将各所述子目标词语库中的同义词进行合并，而后，将所有所述子目标词语库之间共有的同义词进行删除。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-4任一项所述的文本特征词语的提取方法。

8.一种计算机产品，其特征在于，所述计算机产品为计算机程序，所述计算机程序在终端设备上运行时，使得所述终端设备执行权利要求1-4任一项所述的文本特征词语的提取方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司，未经东软集团股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811020415.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种修正脉冲信号对仪器仪表检测影响的电路
下一篇：一种全自动软包蓝牙锂电池真空封装设备及封装工艺

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top