[发明专利]一种领域新词抽取的方法在审
申请号: | 201610398614.9 | 申请日: | 2016-06-07 |
公开(公告)号: | CN106095736A | 公开(公告)日: | 2016-11-09 |
发明(设计)人: | 杨燕;马敬超;贺樑 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 上海麦其知识产权代理事务所(普通合伙) 31257 | 代理人: | 董红曼 |
地址: | 200062 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种利用word2vec与Bootstrapping迭代相结合的领域新词抽取方法,该方法首先对领域语料进行预处理,再利用n‑gram对预处理得到的领域文本进行切分,统计切分得到的字符串的词频、左右邻字个数、左右字熵以及互信息六维统计量,结合kmeans设置一组参数,进行初步评价,过滤得到第一轮结果,再由word2vec训练得到的词向量空间和一组领域种子数据,通过分别计算每个候选词与种子集合的余弦相似度之和,设定总和阈值进行再评价,从而抽取出该领域的新词。本发明适用于大规模领域语料的新词抽取,并具有良好的可移植性。本发明从根本上解决了动宾结构、叠词等非领域词的过滤难题。 | ||
搜索关键词: | 一种 领域 新词 抽取 方法 | ||
【主权项】:
一种利用word2vec和Bootstrapping迭代相结合的领域新词抽取方法,其特征在于,该方法包括以下步骤:步骤一:获取若干领域内的语料,去除语料中的控制字符,获得格式整齐的领域文本;步骤二:根据标点符号对所述领域文本进行分句处理,得到领域单句集合(S);步骤三:初始化设置n‑gram模型,并对所述领域单句集合(S)切分字符串,获得字符串集合(W0);步骤四:统计所述字符串集合(W0)的词频、左邻个数、右邻个数、左字熵、右字熵以及互信息六维统计量,并设置相应的参数进行筛选过滤,经过过滤得到候选词集(W1);步骤五:将所述候选词集(W1)添加到分词的用户字典中,并使用结巴分词对所述领域单句集合(S)进行分词,获得单句分词集合(Sseg);步骤六:使用word2vec训练单句分词集合(Sseg),得到词向量空间(WE);步骤七:构建领域种子集合(Seeds),指定每个领域内的代表性词语并初始化所述领域种子集合(Seeds);步骤八:对每个领域的所述候选词集(W1)中的字符串,分别计算其与该领域的所述领域种子集合(Seeds)中的所有词语的余弦相似度的总和(Ecos);设定总和阈值,若总和(Ecos)大于总和阈值则将所述候选词集(W1)中的字符串作为领域新词添加至领域新词集合(NWs)中,判断所述领域新词集合(NWs)是否发生变化,如有则进行步骤九,如未发生变化则进行步骤十;若总和(Ecos)小于等于总和阈值,则直接过滤掉;步骤九:从所述领域新词集合(NWs)中选取热点词语替换该领域的所述领域种子集合(Seeds)中的词语,跳转步骤八进行迭代;步骤十:迭代结束,所述领域新词集合(NWs)为领域新词抽取结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610398614.9/,转载请声明来源钻瓜专利网。
- 上一篇:聚酯抗紫外光老化纺粘针刺土工布的制备方法
- 下一篇:一种优化的茶糕点制备方法