[发明专利]一种基于领域特征词法组合的文本模板生成方法有效
申请号: | 201910658510.0 | 申请日: | 2019-07-19 |
公开(公告)号: | CN110362803B | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 徐雅静;孙忆南;李思;高升 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/242;G06F40/253;G06F16/903 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于领域特征词法组合的文本模板生成方法,属于自然语言处理领域。该方法的基本思想是通过无监督方法构造领域特征词典进行文本标注,再基于标注进行模板生成。该方法的步骤包括:对原始文本进行分词、词性标注等预处理,建立领域特征词典;结合特征词典和正则表达式集合,对任意一条文本生成基于领域特征的标记序列;使用基于标记序列的无监督模板生成算法自动生成文本的模板。利用本发明实施例,能够将人工从底层面向大量重复的样本进行规律提取提升到了高层,程序直接进行无监督的特征提取再由人工对提取的特征进行去噪,无需逐条样本分析再进行特征抽象和制定规则库。同时使程序具有良好的可迁移性,具有很大的实用价值。 | ||
搜索关键词: | 一种 基于 领域 特征 词法 组合 文本 模板 生成 方法 | ||
【主权项】:
1.一种基于领域特征词法组合的文本模板生成方法,其特征在于,包括以下步骤:步骤1:对大规模待处理原始文本进行预处理,建立领域业务词典,业务操作词典和操作状态词典;步骤2:使用通用数值正则表达式集合,结合步骤1得到的词典,对任意一条文本生成基于领域特征的标记序列,再根据标记序列使用无监督模板生成算法自动生成相应的文本模板;步骤3:将步骤2得到的新的文本模板与已有模板进行模板去重,得到最终的文本模板集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910658510.0/,转载请声明来源钻瓜专利网。