汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10...
TRANSCRIPT
![Page 1: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/1.jpg)
1
汉王文字识别技术研发与产业化
刘昌平
汉王科技股份有限公司
![Page 2: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/2.jpg)
2
内容
引言
汉王文字识别技术
市场推广情况
展望
![Page 3: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/3.jpg)
3
引言
国家“七五攻关”计划、863计划、国家自然科学基金的大力支持
多达五届的863汉字识别测试评比极大地促进了汉字识别技术的竞争和发展。
![Page 4: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/4.jpg)
4
引言: 2001年报告的展望联机手写汉字识别:
GBK和GB18030标准的支持行书、草书的识别
全屏自动分割识别(Tablet PC)用于文本识别的语言模型
![Page 5: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/5.jpg)
5
引言: 2001年报告的展望脱机手写汉字识别:
重视样本收集工作,现有样本库字形太规整,应注意收集书写较潦草的样本。
重视脱机手写汉字识别在行业中的应用,如专用表格识别、银行票据识别、古籍整理等
![Page 6: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/6.jpg)
6
引言: 2001年报告的展望印刷体汉字识别
公式识别
复杂背景上的文字识别问题
视频图像OCR身份证识别
图书数字化解决方案
档案数字化解决方案
![Page 7: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/7.jpg)
7
汉王文字识别技术研发
联机手写识别
脱机手写识别
印刷体识别
![Page 8: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/8.jpg)
8
联机手写汉字识别
联机手写体汉字识别系统实现难点
手写体因人而异、千变万化
汉字种类多、相似字多、字符集大
资源占用必须足够小大
![Page 9: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/9.jpg)
9
![Page 10: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/10.jpg)
10
联机手写汉字识别
基础工作
600万字大样本库的建立,特别是行书、草书样本的收集;
识别算法的改进,各识别核心的方法探索、比较与优化;
人机友好界面的研究与设计;
高性能、低成本的手写笔和手写板等输入设备的研制;
![Page 11: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/11.jpg)
11
联机手写汉字识别-主要创新
基于二维空间的识别方法,把联机手写轨迹变换为二维图像,用脱机的方法进行聚类和分类,解决笔顺不限的识别问题
基于时间序列的识别方法,对形变连笔字进行非线性局部矫正,用隐马尔可夫模型和动态规划方法进行匹配,解决连笔书写的识别问题
![Page 12: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/12.jpg)
12
联机手写汉字识别-主要创新
用数学变换方法对特征进行选择、压缩、优化,达到缩小识别字典的效果,克服空间占用和运算速度的难题,解决手写技术向掌上电脑的移植问题
多识别核心的智能综合集成,根据连笔程度动态选择特定分类器的集成策略,解决识别方法的优势互补问题
![Page 13: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/13.jpg)
13
多语种大字符集的联机手写字符识别
已经研制的各个版本的联机手写识别引擎,覆盖下列字符集合中文(GB18030) 日文汉字\日文假名韩文汉字拉丁文( Latin )的各个国家的字符( 英\法\德\意\西\葡……).西里尔文(Cyrillic)各个国家的字符( 俄\乌克兰…..)希腊文字符(Greek)泰文字符 (Thai)阿拉伯文字符( Arabic )数字、标点、符号
![Page 14: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/14.jpg)
14
联机手写数学公式识别
![Page 15: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/15.jpg)
15
联机手写数学公式识别
公式层次语法模型库
输入笔迹 符号分割
单字符识别模块
结构分析
![Page 16: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/16.jpg)
16
联机手写数学公式识别-系统框架
符号分割 空间结构关系
![Page 17: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/17.jpg)
17
联机手写数学公式识别-结构分析
基线结构树方法
单行公式的基线确定
控制字符控制区域分析
建立公式分析结构树
控制字符控制区域图示
![Page 18: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/18.jpg)
18
联机手写数学公式识别-符号集
英文字母数字
希腊字母
标点
运算符号∑, ∏, ∫, ±, ×, ∂, ∇等二元关系符 ≤ , ≥ , ∈ , ≮ 等
常用函数名 sin, lim, sup, inf等帽子修饰符 abcd a~ a a&&
![Page 19: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/19.jpg)
19
联机手写数学公式识别-公式类型
分式根式积分几何运算N-Array表达式极限逻辑运算矩阵多行表达式
![Page 20: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/20.jpg)
20
联机手写数学公式识别-输出方式
Latex
MathType5.0
微软公式编辑器
![Page 21: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/21.jpg)
21
联机英文手写识别
研究内容:
笔迹的归一化
多特征融合
多分类器集成
高效的解码算法
基于语言模型的字符串识别
英文与数字串混合识别
![Page 22: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/22.jpg)
22
联机英文手写识别
待识别样本笔迹
寻找块笔迹中可能的字符分割点
单词块分割 粗分类产生粗分类候选
对粗分候选用Viterbi算法选优
字符的统计特征库
字符粗分类统特库
提取结构统计特征
提取几种几何特征
输出识别候选
![Page 23: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/23.jpg)
23
联机英文手写识别
主要技术指标
识别字符集:
ASCII, ¥, £ , 版权符号©,注册符号®书写风格限制:
常见的英文字母书写方式
识别串的种类:
常用的9万单词、任意的字符串识别率:
对于系统中的单词,识别率大于93%字符串的识别率大于85%
![Page 24: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/24.jpg)
24
联机英文手写识别
英文单词识别预处理去除噪声与删除冗余数据
倾角(水平与垂直)校正
参考线估计
延迟笔划的提取 (如i,j中的点,t,f的横,x的第二划)
重采样
![Page 25: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/25.jpg)
25
联机英文手写识别
去除噪声与删除冗余数据 单词垂直偏角估计
单词参考线估计
![Page 26: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/26.jpg)
26
联机英文手写识别-粗分类
粗分类采用方法有三种
根据具体运行环境减少词条数目
将词典中相近词条聚;
利用输入笔迹特征
利用细分类特征,使用简化模型;
利用局部特征,如与主笔段有关特征,进行单词识别粗分类。
![Page 27: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/27.jpg)
27
联机英文手写识别-特征提取
提取的特征
垂直位置切线方向
局部曲率
与上下轨迹的交点数目
邻近段距离特征
环特征
![Page 28: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/28.jpg)
28
联机英文手写识别-基于HMM识别
建模单元
书写笔段
字母
单词
单词模型的计算复杂度优化
粗分类
降低HMM的状态数利用主笔段来限制字母中匹配宽度
![Page 29: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/29.jpg)
29
联机英文手写识别-性能对比
识别系统 Uni_v7数据库 汉王数据库
汉王系统 77.6% 92.9%
Transcriber 70.3% 82.1%
![Page 30: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/30.jpg)
30
脱机手写识别
研究内容
手写汉字识别
手写数字识别
粘连手写切分问题
脱机手写识别应用
银行票据
邮政地址识别
![Page 31: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/31.jpg)
31
脱机手写识别
手写汉字识别
多特征融合
分层聚类
基于Bayes概率子空间的混淆字区分
![Page 32: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/32.jpg)
32
邮政地址识别-难点
背景去除
快速倾斜校正
利用邮编框信息
邮编提取与识别
粘连手写地址分割
动态规划方法
后处理校验
![Page 33: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/33.jpg)
33
邮政地址识别
![Page 34: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/34.jpg)
34
邮政地址识别-快速倾斜校正
![Page 35: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/35.jpg)
35
邮政地址识别-版面分析
![Page 36: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/36.jpg)
36
邮政地址识别-邮编提取
邮政编码框的定位
邮编数字单字图像
![Page 37: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/37.jpg)
37
邮政地址识别-粘连分割识别
基于动态规划的分割方案
识别距离映射为相似度
引入字符间空间关系概率
利用地址库语言模型
![Page 38: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/38.jpg)
38
邮政地址识别-后处理邮政编码与地址库校验
![Page 39: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/39.jpg)
39
印刷体识别
电子排版系统的普及
中文字体多
字符集大
版面复杂
字体混排
图文混合
不规则排版
版面噪声
![Page 40: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/40.jpg)
40
印刷体识别
多字体大字符集识别
中英文混排
自动二值化
版面分析
版面恢复
表格识别
![Page 41: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/41.jpg)
41
多字体大字符集识别
粗分类和细分类的串行分类方式
多种特征融合梯度方向、轮廓差分、方向线素
层次扫描替代网格划分统计方法
按字体交叠聚类
非参数化降维
LVQ4优化
自适应多分类器集成
![Page 42: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/42.jpg)
42
多字体大字符集识别
按字体交叠聚类充分融合各种风格的特征
将两种聚类结果对应类中心最近的类合并将重叠度最大的类合并不同的字体分别聚类
非参数化降维利用最短路径方法估算测地路径
利用测地路径替换特征欧式距离
}))())(((
))())((({1
1 1
)()()()(),(
1 1
)()()()(),(
1
∑ ∑
∑∑∑
∈= =
∈= ==
−−+
−−−
=
m
jj
n
k
Tikj
ik
ikj
ik
jik
m
jj
n
k
Tikj
ik
ikj
ik
jik
c
i
ib
near
i
far
i
xMxxMx
xMxxMxcpS
ω
ω
λ
λ
![Page 43: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/43.jpg)
43
多字体大符集识别训练样本集
方向线素特征
粗分类
器训练
粗分类字典
细分类训练样本集
训练样本选择
梯度方向特征 方向线素特征 轮廓差分特征
按字体交叠聚类
非参数化降维 非参数化降维 非参数化降维
分类器1 分类器2 分类器3
分类器集成参数
细分类字典
细分类
器训练
LVQ4 LVQ4 LVQ4
![Page 44: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/44.jpg)
44
多识别内核集成方法
轮廓差分特征方向线素特征梯度方向特征
分类器集成
ω: 0.41
渝 0.85 黑
谕 0.79 宋
喻 0.74 黑
ω: 0.35
喻 0.91 黑
榆 0.84 宋
渝 0.82 宋
ω: 0.24
渝 0.79 宋
喻 0.75 黑
愉 0.73 黑
渝 0.83 宋
喻 0.80 黑
谕 0.36 宋
![Page 45: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/45.jpg)
45
中英文混排
中英文混排识别的关键
常见方法基于识别的二次切分方法
过分依赖识别核心
SVM的语言分类器提取词的几何特征与纹理特征
SVM两类分类
![Page 46: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/46.jpg)
46
自动二值化
基于图像质量的二值化方法
建立二值化方法库
对图像质量建模
判断图像质量
根据图像质量采取不同的二值化方法
![Page 47: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/47.jpg)
47
版面分析
自底向上与自顶向下相结合
连通域的几何特征
图形、图像、表格及直线剥离
小块进行聚类
得到行距、行数,段落字号值及可信度
基于遗传算法的分布式训练工具训练参数
![Page 48: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/48.jpg)
48
版面恢复
统计信息、局部信息和经验规则相结合
版面分析信息和高可信度字符信息
拓扑结构和相关的前后文字语义分析
线性结合准确性代价和美观性代价
![Page 49: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/49.jpg)
49
表格识别
模型驱动和数据驱动结合构建常见表格类型的模型知识库
提取线段拓扑信息与先验规则组成
建立决策树分类器
增量更新模型库
模糊直线拟合提取低质量的线段(倾斜线段、断裂线段
![Page 50: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/50.jpg)
50
表格识别
表格定位与提取
基于模型驱动的表格“粗”分析
基于数据驱动的表格“细”分析
文档图像
具有逻辑意义的表格结构
表格模型知识库
表格单元拓扑逻辑关系和规则知识库
![Page 51: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/51.jpg)
51
嵌入式识别
多字体混合学习解决方案各种字体训练样本混合忽略字体信息
单特征单模板策略
两层分类策略先训练细分类模板,再训练粗分类模板
基于曲线拟合的归一化
基于MCE的优化同时优化降维矩阵,粗分类模板与细分类模板
![Page 52: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/52.jpg)
52
印刷体公式识别
![Page 53: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/53.jpg)
53
公式识别
多候选的符号分割方案
3次动态规划的符号分割拒识模型优化符号识别核心可信度
符号间的空间关系模型
基于Bayes的函数名和并
![Page 54: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/54.jpg)
54
公式识别
多候选的结构分析方案
基于多候选的矩阵分析
多候选的子表达式分析
基于图搜索的角标分析
上下文无关文法的建立及解析
错误检测机制和错误处理模型
![Page 55: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/55.jpg)
55
公式识别-符号分割
![Page 56: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/56.jpg)
56
公式识别-矩阵分析
![Page 57: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/57.jpg)
57
公式识别-子表达式分析
![Page 58: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/58.jpg)
58
公式识别-识别结果
![Page 59: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/59.jpg)
59
公式识别-实验数据
3268个测试公式
1选 5选
符号分割识别 95.6% 97.2%
结构分析正确率 92.1% 93.4%
公式识别完全正确率 78.2% 82.5%
公式定位Demo公式识别Demo
![Page 60: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/60.jpg)
60
汉王文字识别产业化
1.聚焦核心,突破关键技术。
2.以软件为主导,软硬结合。
3.通用市场核心产品做示范,行业应用重
点突破,技术授权广泛开展。
4.以战养战,长期投入、持续攻关。
![Page 61: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/61.jpg)
61
汉王笔零售产品
汉王笔系列
超能大将军 无线大将军 小金刚
![Page 62: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/62.jpg)
62
汉王笔零售产品
砚鼠-手写鼠标 手写电脑
![Page 63: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/63.jpg)
63
汉王笔OEM产品
![Page 64: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/64.jpg)
64
汉王笔PDA授权
![Page 65: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/65.jpg)
65
汉王笔手机授权
![Page 66: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/66.jpg)
66
汉王OCR扫描仪授权扫描仪捆绑版“汉王OCR”累计销售套数已经
超过300万套。
![Page 67: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/67.jpg)
67
汉王OCR零售产品—文本王一键进WORD 文字录入,多字体大字符集简繁混排识别、版面精确还原、表格识别技术。
![Page 68: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/68.jpg)
68
汉王OCR零售产品—名片通
把握人脉把握人脉
独领风骚独领风骚高速输入 准确识别
快速查询 轻松随意
导入PDA 方便快捷
![Page 69: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/69.jpg)
69
汉王OCR零售产品—汉王随身抄
以汉王嵌入式OCR技术为核心,集合了扫描、识别、翻译、发声、屏幕识别等功能的新一代智能资料笔,可以存储上百万字。
![Page 70: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/70.jpg)
70
汉王OCR行业应用—增值税发票识别认证系统
金税工程瓶颈--全国增值税发票抵扣联票面信息自动、高速、准确采集问题;
中标国家税务局金税工程,每年识别税票张数以亿计;
用于企业的版本的销量已超过10万套。
![Page 71: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/71.jpg)
71
汉王OCR行业应用—银行票据识别系统
在工商、建设、交通等银行得到应用,促进了银行数据的电子化工作。
![Page 72: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/72.jpg)
72
汉王OCR行业应用—汉王OCR录入工厂系统软件
■ 国家专利局:所有纸质专利文献的录入
■ 国图数字化中心:图书
■ 中科院文献情报中心:科技图书
■ 万方数据:科技期刊
![Page 73: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/73.jpg)
73
汉王OCR技术授权—嵌入式OCR利用手机摄像头,对文字和名片信息进行识别。
![Page 74: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/74.jpg)
74
展望-联机手写识别
联机手写识别覆盖30多个欧洲语种泰文,Tamil文等亚洲语种多语种混合识别
全屏分割识别
有线表格,无线表格识别
矢量图识别
流程图识别
手写五线谱识别
![Page 75: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/75.jpg)
75
展望-印刷体识别
Video OCR检测,跟踪,识别,检索
低分辨率识别传真识别
多语种混合识别面向国际市场
图形图像识别流程图,矢量图化学表达式识别
文档管理
![Page 76: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/76.jpg)
76
展望-脱机手写识别
脱机手写汉字识别
特征提取与分类器的研究
粘连书写的分割优化
脱机手写英文单词识别
脱机手写中英文混合识别
拓展面向应用的研究
![Page 77: 汉王文字识别技术研发与产业化bj.bcebos.com/cips-upload/liuchangping.pdf10 联机手写汉字识别 基础工作 600万字大样本库的建立,特别是行书、草](https://reader030.vdocuments.mx/reader030/viewer/2022041101/5ed9e20cf448a14711114344/html5/thumbnails/77.jpg)
77
结束
谢 谢