[发明专利]一种获取词语的方法及装置在审
申请号: | 201510886318.9 | 申请日: | 2015-12-04 |
公开(公告)号: | CN106844326A | 公开(公告)日: | 2017-06-13 |
发明(设计)人: | 钦滨杰;陈晓敏 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙)11348 | 代理人: | 王伟锋,刘铁生 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种获取词语的方法及装置,涉及计算机技术领域,主要目的在于通过词语标注领域信息来提高语料词语间整体与部分关系的提取准确率。本发明主要的技术方案为对获取的文本数据进行预处理,得到带有分词信息的独立语句;在所述独立语句中,利用结构模板筛选出具有并列结构的候选语句;利用领域词典以及所述候选语句中的分词信息,确定所述候选语句中具有并列结构的领域分词,所述领域词典是记录有相同领域分词的词典;根据所述领域分词的位置特征,输出具有整体与部分关系的领域分词集合。本发明主要用于获取文本中整体与部分关系的词语。 | ||
搜索关键词: | 一种 获取 词语 方法 装置 | ||
【主权项】:
一种获取词语的方法,其特征在于,所述方法包括:对获取的文本数据进行预处理,得到带有分词信息的独立语句;在所述独立语句中,利用结构模板筛选出具有并列结构的候选语句;利用领域词典以及所述候选语句中的分词信息,确定所述候选语句中具有并列结构的领域分词,其中,所述领域词典是记录有相同领域分词的词典;根据所述领域分词的位置特征,输出具有整体与部分关系的领域分词集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510886318.9/,转载请声明来源钻瓜专利网。
- 上一篇:便携式富氢水纳米喷雾器
- 下一篇:富氢足浴盆