[发明专利]用于逐字文本挖掘的系统以及方法有效
申请号: | 201880031762.4 | 申请日: | 2018-01-12 |
公开(公告)号: | CN110678860B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | P·张 | 申请(专利权)人: | 里德爱思唯尔股份有限公司雷克萨斯尼克萨斯分公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 周全;张鑫 |
地址: | 美国俄*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 用于逐字文本挖掘的系统和方法包括:将文本语料库的文档分析为多个单独句子;为多个单独句子中的一个或多个单独句子指派句子标识符;生成包括来自单独句子中的单词的多个n‑Gram的多个n‑Gram串;将反向索引应用至n‑Gram串;当一个n‑Gram串的索引数据结构与另一n‑Gram串的索引数据结构共享预先确定的百分比的句子标识符时,将该一个n‑Gram串的索引数据结构与该另一个n‑Gram串的索引数据结构组合以形成合并索引数据结构;将群组标识符指派至一个或多个合并索引数据结构中的合并索引数据结构;以及创建包括句子标识符、群组标识符以及相关联的n‑Gram串的数据集。 | ||
搜索关键词: | 用于 逐字 文本 挖掘 系统 以及 方法 | ||
【主权项】:
1.一种逐字文本挖掘方法,包括:/n将文本语料库的文档分析为多个单独句子;/n将句子标识符指派至所述多个单独句子中的一个或多个单独句子;/n为所述多个单独句子中的单独句子生成多个n-Gram串,包括来自所述单独句子内单词的多个n-Gram,其中:/n所述多个n-Gram中的单个n-Gram包括不多于所述多个单词中的单词的预先确定数量的字符;并且/n至少基于多个指南生成所述多个n-Gram串中的n-Gram串,其中所述多个指南包括所述n-Gram串中n-Gram的最大数量、以及所述n-Gram串中n-Gram的最小数量;/n将反向索引应用至所述n-Gram串,其中索引数据结构与所述n-Gram串相关联,并且所述索引数据结构包括包含所述n-Gram串的所述单独句子的一个或多个句子标识符;/n当一个n-Gram串的索引数据结构与另一n-Gram串的索引数据结构共享预先确定的百分比的句子标识符时,将一个n-Gram串的索引数据结构与另一n-Gram串的索引数据结构组合以形成合并索引数据结构;/n将群组标识符指派至一个或多个合并索引数据结构中的所述合并索引数据结构;以及/n创建数据集,所述数据集包括所述n-Gram串的所述句子标识符、所述合并索引数据结构的所述群组标识符以及所述一个或多个合并索引数据结构的所述n-Gram串。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于里德爱思唯尔股份有限公司雷克萨斯尼克萨斯分公司,未经里德爱思唯尔股份有限公司雷克萨斯尼克萨斯分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201880031762.4/,转载请声明来源钻瓜专利网。