[发明专利]一种相似文本检测装置和方法在审
申请号: | 201310537965.X | 申请日: | 2013-11-04 |
公开(公告)号: | CN103605694A | 公开(公告)日: | 2014-02-26 |
发明(设计)人: | 孙林;陈培军;秦吉胜 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 相似 文本 检测 装置 方法 | ||
1.一种相似文本检测装置,其中,该装置包括:
中文文本获取单元,适于对文本进行文本处理以获取中文文本;
拼音文本获取单元,适于将获取的中文文本中的汉字转为拼音得到拼音文本;
指纹获取单元,适于提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量;
检测单元,适于根据所述特征向量,判断待检测的文本是否与一个数据库中的记录匹配。
2.根据权利要求1所述的装置,其中,
所述检测单元,适于对所述特征向量中的每个特征,检测数据库中是否多次出现该特征;
所述检测单元,适于判断所述特征向量中的在数据库中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值,是则确定所述待检测的文本与数据库中的记录匹配,否则不匹配。
3.根据权利要求1或2所述的装置,其中,
所述检测单元,适于对所述特征向量中的每个特征,从数据库中查找是否存在该特征,如果存在,则进一步查看该特征的权值,如果该特征的权值大于或等于第二阈值,则数据库中多次出现该特征。
4.根据权利要求1-3任一项所述的装置,其中,该装置进一步包括数据库更新单元,
所述数据库更新单元,适于在确定所述待检测的文本与数据库中的记录匹配时,对于所述特征向量中的每个特征,如果检测到数据库中存在该特征,则将数据库中该特征的权值加1。
5.根据权利要求1-4任一项所述的装置,其中,
所述检测单元,适于在对于所述特征向量中的每个特征,检测数据库中是否存在该特征之前,判断所述特征向量中的特征的数目是否小于第三阈值,是则所述待检测的文本与数据库中的记录不匹配并结束判断操作,否则对于所述特征向量中的每个特征,检测数据库中是否多次出现该特征。
6.一种相似文本检测方法,其中,该方法包括如下步骤:
对待检测的文本进行文本处理以获取中文文本;
将获取的中文文本中的汉字转为拼音得到拼音文本;
提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量;
根据所述特征向量,判断待检测的文本是否与一个数据库中的记录匹配。
7.根据权利要求6所述的方法,其中,所述判断待检测的文本是否与数据库中的记录匹配包括:
对所述特征向量中的每个特征,检测数据库中是否多次出现该特征;
判断所述特征向量中的在数据库中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值,是则确定所述待检测的文本与数据库中的记录匹配,否则不匹配。
8.根据权利要求6或7所述的方法,其中,所述检测数据库中是否多次出现该特征包括:
从数据库中查找是否存在该特征,如果存在,则进一步查看该特征的权值,如果该特征的权值大于或等于第二阈值,则数据库中多次出现该特征。
9.根据权利要求6-8任一项所述的方法,其中,在确定所述待检测的文本与数据库中的记录匹配时,该方法进一步包括:
对于所述特征向量中的每个特征,如果检测到数据库中存在该特征,则该将数据库中该特征的权值加1。
10.根据权利要求6-9任一项所述的方法,其中,
在对于所述特征向量中的每个特征,检测数据库中是否存在该特征之前,所述判断待检测的文本是否与数据库中的记录匹配进一步包括:
判断所述特征向量中的特征的数目是否小于第三阈值,是则所述待检测的文本与数据库中的记录不匹配并结束判断操作,否则对于所述特征向量中的每个特征,检测数据库中是否多次出现该特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310537965.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可塑形自体骨泥及其制备方法
- 下一篇:信息取得系统及携带型终端