《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 设计应用 > 基于模板匹配OCR的报告自动归档系统研究
基于模板匹配OCR的报告自动归档系统研究
信息技术与网络安全
张 辰1,陈 阳2
(1.广东省建设工程质量安全检测总站有限公司,广东 广州510500; 2.广东省建筑科学研究院集团股份有限公司,广东 广州510500)
摘要: 针对建筑检测行业中检测报告多、人工归档效率低下的问题,利用模板匹配算法与LeNet框架建立了一套强鲁棒性用于报告文件数字符号的OCR识别系统。针对报告中感兴趣区域(ROI)位置和大小不固定的问题,采用了机器视觉领域中的模板匹配定位算法来定位报告文件的ROI区域。结合LeNet网络与模板匹配定位算法,实现了传统机器视觉方法与人工智能方法的结合,构建了一套检测报告自动归档系统。所构建的自动归档系统的正确归档率达到了95.8%,有效节约了人工成本与时间成本。
關(guān)鍵詞: 模板匹配 OCR识别 自动归档
中圖分類號: TP274
文獻(xiàn)標(biāo)識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.08.014
引用格式: 張辰,陳陽. 基于模板匹配OCR的報告自動歸檔系統(tǒng)研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(8):84-89.
Research on automatic filing system of detection report based on template matching and OCR recognition
Zhang Chen1,Chen Yang2
(1.Guangdong Construction Engineering Quality and Safety Inspection Station Co.,Ltd.,Guangzhou 510500,China; 2.Guangdong Building Research Institute Group Co.,Ltd.,Guangzhou 510500,China)
Abstract: In view of the problems of many detection reports and low efficiency of manual filing in the construction inspection industry, a strong robust OCR identification system for digital symbols of report files is established by using template matching algorithm and LeNet framework. Aiming at the problem that the location and size of ROI in the report are not fixed, a template matching location algorithm in the field of machine vision is used to locate the ROI region of the report file. Combined with the matching and positioning algorithm of LeNet network and template, the combination of traditional machine vision method and artificial intelligence method is realized, and a set of automatic filing system of detection report is constructed. The correct filing rate of the automatic archive system is 95.8%, which effectively saves labor cost and time cost.
Key words : template matching;OCR identification;automatic filing

0 引言

光學(xué)字符識別(Optical Character Recognition,OCR)是指對文本資料的圖像文件進(jìn)行分析識別處理,獲取文字及版面信息的過程。亦即將圖像中的文字進(jìn)行識別,并以文本的形式返回。其在文檔歸檔應(yīng)用背景下具有廣闊的市場前景。OCR字符識別技術(shù)經(jīng)過多年發(fā)展,已有LeNet[1]、RRPN[2]、DMPNet[3]、CTPN[4]等OCR網(wǎng)絡(luò)結(jié)構(gòu)被提出。其中,CTPN是目前應(yīng)用最廣的文本檢測模型之一。其基本假設(shè)是單個字符相較于異質(zhì)化程度更高的文本行更容易被檢測,因此先對單個字符進(jìn)行類似R-CNN的檢測,并在檢測網(wǎng)絡(luò)中加入雙向LSTM[5],使檢測結(jié)果形成序列提供了文本的上下文特征,便可以將多個字符進(jìn)行合并得到文本行。LeNet網(wǎng)絡(luò)提出時間較早,在銀行票據(jù)手寫體字符識別方面有著長期的應(yīng)用。上述網(wǎng)絡(luò)結(jié)構(gòu)可以在通用背景下有效識別場景中的字符,對于非垂直文本也能進(jìn)行檢測。對于大多數(shù)OCR的應(yīng)用場景,并不需要對圖片中的所有字符進(jìn)行識別,往往只需要對部分ROI區(qū)域的字符進(jìn)行檢測,但OCR技術(shù)對ROI區(qū)域的位移與旋轉(zhuǎn)適應(yīng)性較差,需要訓(xùn)練單獨的網(wǎng)絡(luò)來對ROI區(qū)域進(jìn)行定位。機(jī)器視覺技術(shù)在制造業(yè)領(lǐng)域有著廣泛的應(yīng)用,特別是在工件定位、視覺測量等方面有大量成熟的算法,其中,模板匹配算法則針對工業(yè)定位[6-7]的應(yīng)用背景,提出了基于灰度[8]、邊緣[9]、變換域[10]的模板匹配算法,能適應(yīng)各種工業(yè)定位需求[11-15]。



本文詳細(xì)內(nèi)容請下載:http://m.ihrv.cn/resource/share/2000003731



作者信息:

張  辰1,陳  陽2

(1.廣東省建設(shè)工程質(zhì)量安全檢測總站有限公司,廣東 廣州510500;

2.廣東省建筑科學(xué)研究院集團(tuán)股份有限公司,廣東 廣州510500)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。