试论OCR文字识别技术

(整期优先)网络出版时间:2023-01-09
/ 2

试论OCR文字识别技术

耿贞伟   ,赵晓平

云南电网有限责任公司信息中心,云南省,昆明市,650217

    摘要:OCR文字识别技术是图像文字、视频文字识别中常用的一种光学字符识别技术,这项技术主要将光学技术与现代计算机技术相结合,根据每个字符的光学特点来确定具体形状,而后翻译成文字。在网络化技术水平持续发展阶段,文字识别技术也得到了更新与完善,智能化和数字化水平有所提升,在基于OCR识别技术中的获奖证书、知识产权证明文件等关键信息提取上做了部分实践应用,为能够提高该技术的应用效果,还应掌握相关技术要点,实现对文字的高精度识别,提高文字识别水平。

    关键词:OCR文字识别技术;图像预处理;字符识别;后处理

    OCR技术在网络技术和信息技术的支持下,识别功能更加强大,不但可以识别地理位置信息,也能够识别生僻字,在日常生活中比较常见的就是收寄快递时的地址识别,百度网页拍照识别文字和百度AI输入法中文字识别等,整个过程效率比较高,在各行各业生产生活中发挥着重要作用,具有省时省力的特点,要想提高该技术的识别水平,可根据实际需要采取不同模式,从而提高识别精确度。

    1.OCR文字识别技术流程

    OCR文字识别技术主要利用摄像功能比较强的设备拍摄存在较多字符的图片,根据实际情况对比文字区域与图像背景的光学特征和像素特征,从而对字符的形状进行确定,完成文字识别与翻译,而且能够将图像中的文字信息转化为计算机文档格式,便于后续使用。OCR技术流程如图1所示。

 

图1  OCR技术流程

    关键阶段主要涉及到以下方面:①预处理。主要是对拍摄的图片信息进行降噪处理,而后进行灰度化和二值化处理,再进行倾斜校正,消除多种因素对信息文字的干扰,以此确定文字区域的位置,便于文字提取。②图像分割。利用多种方法对图像中的字符进行分割,应充分考虑到字符信息之间的相互影响,做好文字聚类分割工作,便于单个文字或者单词的提取。③特征分类识别。对字符特征进行提取,并使用专门的技术软件根据单字符的特征进行分类。④后优化处理。根据分类处理结果,借助词典资料和编码方式对文字信息进行深入分析与识别,而后完成文字翻译,这是后优化处理的主要内容。

    2.OCR文字识别技术研究

    2.1OCR预处理

    OCR预处理作为技术应用期间的基础内容,通过对图片的前期处理便于后续文字信息的准确识别,实际进行原始图像处理时,要将识别文字中的各方面干扰因素去除,主要运用灰度化和二值化的方式,为图像切割奠定基础。利用最大类方差对图像中的信息数据进行二值化处理,这种方法的自适应性比较强,分析图像的灰度特性,基于统一阈值进行图像分割,以此实现背景和文字信息的有效分割。若图像处理过程中全局只有一个统一阈值,则不能保证渐变图像的有效处理,这就需要根据区域特征提取算法设置不同阈值进行图像分割处理,可提升图片预处理效果。若拍摄的图像弯曲变形,可通过建立U-Net模型进行扭曲图像转化,使其成为平整图像,方便识别与翻译。对于分辨率比较低的图像,可利用SR技术来提高原图片的分辨率,需要借助软件算法进行计算分析,实现超分辨率图像重建,保证图像信息清晰。

    2.2文字区域检测

    文字区域检测在文字识别中起到了重要作用,在实际运用OCR文字识别技术时需要加强对这方面的深入研究。一般会运用基于卷积神经网络的目标识别方法,SSD算法属于单阶段目标检测方法,整体的检测速度比较快,而且该算法中的特征图参和尺度结构比较多,能够保证最终检测结果的准确性与可靠性。将这种方法实际应用到文字区域识别中时,Anchor的尺度和长宽比无法进行灵活调节,不能将文字的位置特征清晰体现出来。这就需要在基于SSD算法的基础上进行更新,建立专门的算法模型应用到文本识别中,可以将不同算法结合在一起实现对不同文本信息的检测。

    2.3图像分割

    图像分割效果与文字识别和翻译质量密切相关,应加强对该步骤的重视,并在实际操作期间全面了解以往OCR技术应用中存在的问题,对相邻域信息和容易受到的干扰、经常出现的缺陷等进行明确,做好图像分割步骤规划工作,采用合理的方法进行图像分割,确保可以快速获取单个字符和单词。一般会通过建立FCM              聚类算法的方式对图像中的数据量进行减少与管理,而后将图像信息引入到图像空间信息,在专门的条件下进行处理,以此降低各方面因素对图像分割结果造成的影响,可显著提升整个操作期间的抗干扰能力,降低缺陷问题的发生率。

    2.4汉字识别

    前面的OCR预处理和图像分割处理都是为文字的识别奠定基础,在提取出图像中的相关字符之后,要想将单个文字从图像中提取出来,还需要发挥OCR技术的优势,可利用百度中的OCR识别技术对通用文字进行识别。要想提高汉字的识别和提取能力,可建立高精度字符识别模块,构建专门的文本识别框架,自动完成图像中的文字识别工作,应保证模型中数据信息的全面性与完善性,确保能够为文字识别提供有效参考。

    2.5后优化处理

    在掌握单个字符或者单词的特征后,为减少失误问题的产生,还需要结合图像中文字信息的上下文,对识别的信息整理与纠正。结合置信度数值的高低,对不同类型字符进行分类,并利用词典进行单词查找,找到的单个字符或者单词为正确的识别结果。要想提高识别精度和翻译的准确性,不光要保证单词的准确性,还需要对句子进行识别。对于识别的单词或者语序不正确的词组,通过分析上下文的方式对句子内容进行进一步识别,确保可以正确处理不同单词之间的关系,保证翻译内容的完整性。若需要识别的句子比较长,则需要衡量句子首个单词是否进行了待处理标记,通过字符的匹配分析对识别的整篇文章进行翻译,根据反馈结果做好优化处理工作,实现对错误字符的反复识别,降低出错率。

    结语:OCR文字识别技术是计算机视觉技术研究中的重要内容与方向,在信息化技术得到大规模推广与运用的过程中,OCR在多场景中也得到了广泛应用,为工作开展提供了便利。但是OCR文字识别技术在应用期间还存在一定缺陷,为能够进一步提高该技术应用的有效性,则应注重对OCR文字识别技术的持续优化与完善,保证文字信息的识别精度和翻译的准确性,为其在不同领域的广泛应用提供保障。

参考文献:

[1]邱治涵,王嘉豪,李文炜,王东灿.基于OCR文字识别技术应用软件的设计与实现[J].电脑知识与技术,2021,17(26):47-49.

[2]葛馨远,王德辉,肖青.基于OCR技术的电网设备台账标签采集功能设计与实现[J].科学技术创新,2018(03):97-98.