[发明专利]一种基于领域特征词法组合的文本模板生成方法有效
申请号: | 201910658510.0 | 申请日: | 2019-07-19 |
公开(公告)号: | CN110362803B | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 徐雅静;孙忆南;李思;高升 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/242;G06F40/253;G06F16/903 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 领域 特征 词法 组合 文本 模板 生成 方法 | ||
1.一种基于领域特征词法组合的文本模板生成方法,其特征在于,包括以下步骤:
步骤1:对大规模待处理原始文本进行预处理,建立领域业务词典,业务操作词典和操作状态词典;
步骤2:使用通用数值正则表达式集合,结合步骤1得到的领域业务词典,业务操作词典和操作状态词典,对任意一条文本生成基于领域特征的标记序列,再根据标记序列使用无监督模板生成算法自动生成相应的文本模板;
步骤3:将步骤2得到的新的文本模板与已有模板进行模板去重,得到最终的文本模板集合。
2.如权利要求1所述的一种基于领域特征词法组合的文本模板生成方法,其特征在于,所述步骤2具体包括:
(2.1)使用步骤1得到的领域业务词典,业务操作词典和操作状态词典,对文本进行匹配和标注,得到初始标注序列;
(2.2)根据领域特征,将初始标注序列进行组合和替换,生成最终标记序列;
(2.3)基于标记序列的无监督模板生成算法,即结合最终标记序列对文本进行替换,生成文本的模板。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910658510.0/1.html,转载请声明来源钻瓜专利网。