[发明专利]文本选取方法及装置有效

申请号：	201510030778.1	申请日：	2015-01-21
公开（公告）号：	CN104615681B	公开（公告）日：	2019-04-02
发明（设计）人：	王炜;田旭;李媛媛	申请（专利权）人：	广州神马移动信息科技有限公司
主分类号：	G06F16/9535	分类号：	G06F16/9535
代理公司：	北京展翼知识产权代理事务所(特殊普通合伙) 11452	代理人：	屠长存
地址：	510627 广东省广州市天河区黄埔大***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本选取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种文本选取方法及装置，该方法包括：计算每个候选文本中选定质量特征的错误率，并根据每个候选文本中选定质量特征的错误率计算每个候选文本中对应选定质量特征的容忍度；根据每个候选文本中选定质量特征的容忍度确定对应候选文本的文本质量；选取文本质量最高的候选文本提供给用户。该方案中，不是按照抓取的先后顺序对候选文本进行排序后反馈给用户，而是首先计算候选文本的文本质量，然后将文本质量最高的候选文本提供给用户，用户无需浏览多个候选文本，可以直接获取到最佳的候选文本，从而提升用户体验。

技术领域

本发明涉及网络技术领域，尤其涉及一种文本选取方法及装置。

背景技术

随着互联网技术的飞速发展，互联网提供的文本越来越丰富，例如小说、论文、电影评论等等，用户需要搜索文本时，可以在客户端的搜索引擎中输入关键字(query)，由于通常会有多个网站提供用户需要的文本，服务器接收到该关键字后，从各个网站抓取该关键字对应的文本作为候选文本，然后按照抓取的先后顺序对候选文本进行排序后反馈给搜索引擎，以供用户进行选择。

上述方法中，由于按照抓取的先后顺序对候选文本进行排序，然后反馈给用户，并没有考虑候选文本的质量，可能导致反馈给用户的候选文本质量较差的排在前面、质量较好的排在后面，用户需要浏览多个候选文件，才能找到最佳的候选文本。可见，上述方法无法选取文本质量最高的候选文本提供给用户，严重影响用户体验。

发明内容

本发明实施例提供一种文本选取方法及装置，用以解决现有技术中存在的无法选取文本质量最高的候选文本提供给用户，严重影响用户体验的问题。

根据本发明实施例，提供一种文本选取方法，包括：

计算每个候选文本中选定质量特征的错误率，并根据每个候选文本中选定质量特征的错误率计算每个候选文本中对应选定质量特征的容忍度；

根据每个候选文本中选定质量特征的容忍度确定对应候选文本的文本质量；

计算每个候选文本的哈希值；

将所有候选文本两两组合，得到候选文本对；

计算每个候选文本对的哈希值的海明距离；

选取海明距离最小的候选文本对中的两个候选文本作为参考文本；

选取与所述参考文本的海明距离小于设定阈值的候选文本和所述参考文本加入所述优势组；以及

从所述优势组中选取文本质量最高的候选文本提供给用户。