[发明专利]文本中新词发现的方法和装置有效
申请号: | 201510443291.6 | 申请日: | 2015-07-24 |
公开(公告)号: | CN105095196B | 公开(公告)日: | 2017-11-14 |
发明(设计)人: | 邵佳帅;牟川;邢志峰 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 中原信达知识产权代理有限责任公司11219 | 代理人: | 姜劲,陆锦华 |
地址: | 100080 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 新词 发现 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本中新词发现的方法和装置。
背景技术
随着自然语言处理技术的近年来的不断发展,新词发现也变得越来越重要(本文中的新词发现是指将文本中词语发现出来,为后续进行的分词、标注、主体提取等操作做准备)。可以说词是我们做自然语言处理的第一步也是最重要的一步。只有当我们已经有词的时候,我们才可以对含有这些词的文本进行分词、标注、主题提取等后续操作。此外,随着网络新词激增,新词发现技术不仅要发现目前还没有的词,还要发现每天不断涌现出的新词。
近年来,新词发现已经有很多技术,例如可以通过隐马尔可夫模型、条件随机场等模型在文本中进行新词发现。
隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。隐马尔可夫模型作为一种统计分析模型,创立于20世纪70年代。80年代得到了传播和发展,成为信号处理的一个重要方向,现已成功地用于语音识别,行为识别,文字识别以及故障诊断等领域。
条件随机场(conditional random fields,简称CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。
但是,现有的隐马尔可夫模型、条件随机场等模型在文本中新词发现的过程中仍存在一定的缺陷:它们都需要通过人工的方法来发现字与字的特征,需要花费大量的时间观察大量的数据去总结。因此,现有技术中利用隐马尔可夫模型、条件随机场等模型的计算代价高,耗时长。
发明内容
有鉴于此,本发明提供一种文本中新词发现的方法和装置,能够自动发现文本中字的特征,并通过挖掘字的特征向量的相似度从文本中发现出新词,节省了现有技术中观察数据特征的时间,提高新词发现的效率。
为实现上述目的,根据本发明的一个方面,提供了一种文本中新词发现的方法。
本发明的文本中新词发现的方法包括:将文本中的每个字分隔开,利用深度神经网络算法提取每个字的特征向量;计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序;选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词,并输出所述文本新词。
可选地,所述方法还包括:在将文本中的每个字分隔开之前,将所述文本按照标点符号进行分行,使每行成为一个短文本。
可选地,所述方法还包括:在利用深度神经网络算法提取每个字的特征向量之后,对所述每个字按照字为键、特征向量为值的形式生成哈希字典进行存储。
可选地,所述方法还包括:在将计算结果排序之后,去除所述计算结果中相同两字的组合及字母和/或数字的组合。
可选地,所述方法还包括:在选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词之后,遍历所述文本新词,判断是否存在两个文本新词,其中一个文本新词的最后一个字是另一个文本新词的第一个字,若存在,则将所述两个文本新词按照顺序合并去掉中间重复字得到一个新的文本新词;判断所述新的文本新词在所述文本中是否存在,若存在,则删除合并前的两个文本新词,保留所述新的文本新词;若不存在,则保留合并前的两个文本新词。
根据本发明的另一方面,提供一种文本中新词发现的装置。
本发明的文本中新词发现的装置包括:提取模块,用于将文本中的每个字分隔开,利用深度神经网络算法提取每个字的特征向量;计算模块,用于计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序;选取模块,用于选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词,并输出所述文本新词。
可选地,所述提取模块还用于:在将文本中的每个字分隔开之前,将所述文本按照标点符号进行分行,使每行成为一个短文本。
可选地,所述提取模块还用于:在利用深度神经网络算法提取每个字的特征向量之后,对所述每个字按照字为键、特征向量为值的形式生成哈希字典进行存储。
可选地,所述计算模块还用于:在将计算结果排序之后,去除所述计算结果中相同两字的组合及字母和/或数字的组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510443291.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文件推荐方法和装置
- 下一篇:电子装置及其切换摄像模块的方法