[发明专利]一种领域新词抽取的方法在审

专利信息
申请号: 201610398614.9 申请日: 2016-06-07
公开(公告)号: CN106095736A 公开(公告)日: 2016-11-09
发明(设计)人: 杨燕;马敬超;贺樑 申请(专利权)人: 华东师范大学
主分类号: G06F17/22 分类号: G06F17/22
代理公司: 上海麦其知识产权代理事务所(普通合伙) 31257 代理人: 董红曼
地址: 200062 上*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种利用word2vec与Bootstrapping迭代相结合的领域新词抽取方法,该方法首先对领域语料进行预处理,再利用n‑gram对预处理得到的领域文本进行切分,统计切分得到的字符串的词频、左右邻字个数、左右字熵以及互信息六维统计量,结合kmeans设置一组参数,进行初步评价,过滤得到第一轮结果,再由word2vec训练得到的词向量空间和一组领域种子数据,通过分别计算每个候选词与种子集合的余弦相似度之和,设定总和阈值进行再评价,从而抽取出该领域的新词。本发明适用于大规模领域语料的新词抽取,并具有良好的可移植性。本发明从根本上解决了动宾结构、叠词等非领域词的过滤难题。
搜索关键词: 一种 领域 新词 抽取 方法
【主权项】:
一种利用word2vec和Bootstrapping迭代相结合的领域新词抽取方法,其特征在于,该方法包括以下步骤:步骤一:获取若干领域内的语料,去除语料中的控制字符,获得格式整齐的领域文本;步骤二:根据标点符号对所述领域文本进行分句处理,得到领域单句集合(S);步骤三:初始化设置n‑gram模型,并对所述领域单句集合(S)切分字符串,获得字符串集合(W0);步骤四:统计所述字符串集合(W0)的词频、左邻个数、右邻个数、左字熵、右字熵以及互信息六维统计量,并设置相应的参数进行筛选过滤,经过过滤得到候选词集(W1);步骤五:将所述候选词集(W1)添加到分词的用户字典中,并使用结巴分词对所述领域单句集合(S)进行分词,获得单句分词集合(Sseg);步骤六:使用word2vec训练单句分词集合(Sseg),得到词向量空间(WE);步骤七:构建领域种子集合(Seeds),指定每个领域内的代表性词语并初始化所述领域种子集合(Seeds);步骤八:对每个领域的所述候选词集(W1)中的字符串,分别计算其与该领域的所述领域种子集合(Seeds)中的所有词语的余弦相似度的总和(Ecos);设定总和阈值,若总和(Ecos)大于总和阈值则将所述候选词集(W1)中的字符串作为领域新词添加至领域新词集合(NWs)中,判断所述领域新词集合(NWs)是否发生变化,如有则进行步骤九,如未发生变化则进行步骤十;若总和(Ecos)小于等于总和阈值,则直接过滤掉;步骤九:从所述领域新词集合(NWs)中选取热点词语替换该领域的所述领域种子集合(Seeds)中的词语,跳转步骤八进行迭代;步骤十:迭代结束,所述领域新词集合(NWs)为领域新词抽取结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610398614.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top