首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]网络新词发现方法、装置、电子设备及存储介质在审

申请号：	201910247632.0	申请日：	2019-03-29
公开（公告）号：	CN110110322A	公开（公告）日：	2019-08-09
发明（设计）人：	杨雪松;崔勇	申请（专利权）人：	泰康保险集团股份有限公司;泰康资产管理有限责任公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F16/33;G06F16/951
代理公司：	北京泛华伟业知识产权代理有限公司 11280	代理人：	王勇
地址：	100030 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	候选词新词发现凝固度存储介质外部电子设备固定搭配信息熵语料库准确率搭配网络概率灵活
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于网络新词发现的方法，包括：

从语料库中获取多个候选词并计算每个候选词的内部凝固度、内部自由度和外部自由度，基于每个候选词的内部凝固度、内部自由度和外部自由度来选择所述多个候选词中的一个或多个作为新词；

其中，计算每个候选词的内部自由度包括：

生成候选词的全部二分组合，每个二分组合将候选词拆分成前部分子串和后部分子串；

对于每个二分组合，计算该组合中前部分子串的右邻字信息熵和后部分子串的左邻字信息熵，取其中较小值作为该二分组合的自由度；

从全部二分组合的自由度中取最小值作为该候选词的内部自由度。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括定期通过从网络抓取新的语料来更新所述语料库。

3.根据权利要求1所述的方法，其特征在于，所述从语料库中获取多个候选词包括：

对所述语料库中的文本句子进行切词处理，获取经切词处理得到的长度属于预设长度区间的字符串；

对所述长度属于预设长度区间的字符串计算其逆文档频率，选择其逆文档频率超过预设的词频阈值的字符串作为候选词。

4.根据权利要求3所述的方法，其特征在于，所述预设长度区间为2～8个字符。

5.根据权利要求1所述的方法，其特征在于，所述基于每个候选词的内部凝固度、内部自由度和外部自由度来选择所述多个候选词中的一个或多个作为新词，包括：

基于每个候选词的内部凝固度、内部自由度和外部自由度对该候选词进行评分，以及

按评分从高到低对所述多个候选词进行排序，选取排序靠前的一个或多个候选词作为新词。

6.根据权利要求5所述的方法，其特征在于，所述选取排序靠前的一个或多个候选词作为新词，包括：

将所选取的每个候选词的内部凝固度、外部自由度和内部自由度分别与相应的设定阈值相比较，仅将其内部凝固度超过设定的内部凝固度阈值、外部自由度超过设定的外部自由度阈值、内部自由度低于设定的内部自由度阈值的候选词作为最终输出的新词。

7.根据权利要求5或6所述的方法，其特征在于，每个候选词的评分等于该候选词的内部凝固度与外部自由度之和减去内部自由度。

8.一种用于网络新词发现的装置，包括：

候选词生成模块，用于从语料库中获取多个候选词；

指标计算模块，用于计算每个候选词的内部凝固度、内部自由度和外部自由度；

新词选择模块，用于基于每个候选词的内部凝固度、内部自由度和外部自由度来选择所述多个候选词中的一个或多个作为新词；

其中指标计算模块通过下面的方式来计算每个候选词的内部自由度：

生成候选词的全部二分组合，每个二分组合将候选词拆分成前后两个子串；

对于每个二分组合，计算该组合中前部分子串的右邻字信息熵和后部分子串的左邻字信息熵，取其中较小值作为该二分组合的自由度；

从全部二分组合的自由度中取最小值作为该候选词的内部自由度。

9.一种计算机可读存储介质，其上存储有计算机程序，所述程序被执行时实现权利要求1-7所述的用于网络新词发现的方法。

10.一种电子设备，包括处理器和存储器，其中存储器用于存储可执行指令；所述处理器被配置为经由执行所述可执行指令来执行权利要求1-7所述的用于网络新词发现的方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司;泰康资产管理有限责任公司，未经泰康保险集团股份有限公司;泰康资产管理有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910247632.0/1.html，转载请声明来源钻瓜专利网。

上一篇：基于语音数据的产品推荐方法、装置、设备及存储介质
下一篇：一种文本情感分类方法和装置、计算机可读存储介质

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top