【摘要】:当前OCR技术主要包括图像预处理、文字特征抽取、数据库对比识别、字词后处理等。二值化能够将待处理图片区分为前景和背景,从而更好更快地识别文字;而针对扫描、发票等文档图片上的墨点和印章,去噪可以减少对OCR的干扰。(三)数据库对比识别对图片文字字符特征统计完成后,OCR产生一组数据或者向量匹配数据库,数据库的字集与待匹配文字由一样的特征抽取方法所得。
基于OCR识别系统的目标是把图片信息内容转换为计算机可以处理的字符,不仅减少了存储空间,方便查询和提升检索速度,而且减少了人力手动输入的时间,降低了出错率。当前OCR技术主要包括图像预处理、文字特征抽取、数据库对比识别、字词后处理等。
(一)图像预处理
图像预处理包括图片二值化、去噪、倾斜校正处理等方面。二值化能够将待处理图片区分为前景和背景,从而更好更快地识别文字;而针对扫描、发票等文档图片上的墨点和印章,去噪可以减少对OCR的干扰。
(二)文字特征抽取
文字特征抽取属于传统的特征提取方法,主要包括基于结构形态的特征提取和基于几何分布的特征提取。前者提取方法主要包括边界特征法、傅里叶特征算子法、形状不变矩阵法等;后者提取方法可分为二维直方图投影法、区域网格统计法。(https://www.xing528.com)
(三)数据库对比识别
对图片文字字符特征统计完成后,OCR产生一组数据或者向量匹配数据库,数据库的字集与待匹配文字由一样的特征抽取方法所得。匹配距离算法方法主要有松弛计算匹配方法、欧式距离空间匹配方法、动态规划匹配法等。
(四)字词后处理
从数据库匹配得来的文字,通常由一系列的相似候选字组产生。字词后处理通过联想词改错和纠正功能,依据前后的识别文字,通过贝叶斯统计概率算法找出合乎逻辑的词,然后改正识别错的字,从而提高匹配的正确性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
