《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 设计应用 > 基于颜色分割的发票识别与自校正系统研究
基于颜色分割的发票识别与自校正系统研究
信息技术与网络安全
王 涛
(同济大学浙江学院 电子与信息工程系,浙江 嘉兴314000)
摘要: 传统基于二值图像的框线特征提取信息的票据识别技术,其结果存在一定的差错率,针对此问题,提出了基于颜色分割的发票识别与验证系统。通过颜色分割和版式分析,将文字区域、二维码及图章等不同区域进行分割,分区域进行识别处理后,对发票关键信息进行比对验证。与传统的票据识别技术相比,该系统不仅可以完成发票自动识别,还可以结合二维码信息进行自我验证,提高了发票识别信息的准确性和完整性。
中圖分類號(hào): TP311
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.05.014
引用格式: 王濤. 基于顏色分割的發(fā)票識(shí)別與自校正系統(tǒng)研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(5):80-85.
Research on invoice recognition and self correction system based on color segmentation
Wang Tao
(Department of Electronics and Information Engineering,Tongji Zhejiang College,Jiaxing 314000,China)
Abstract: Aiming at the problem of a certain error rate in the result of the traditional bill recognition technology based on the frame line feature extraction information of the binary image, an invoice recognition and verification system based on color segmentation is proposed. Through color segmentation and layout analysis, the text area, two-dimensional code, and stamps are divided into different areas, and the key information of the invoice is compared and verified after the area is identified. Compared with the traditional bill recognition technologies, this system can not only complete automatic invoice recognition, but also self-verify in combination with two-dimensional code information, which improves the accuracy and completeness of invoice recognition information.
Key words : color segmentation;invoice;two-dimensional code;auto recognition;OCR

0 引言

發(fā)票是企業(yè)經(jīng)營(yíng)或人們?nèi)粘OM(fèi)生活中不可或缺的一部分。面對(duì)日益增長(zhǎng)的發(fā)票管理需求,無論是紙質(zhì)發(fā)票還是電子發(fā)票,企業(yè)或個(gè)人都需要在發(fā)票信息的錄入、存儲(chǔ)及后續(xù)管理上花費(fèi)很多時(shí)間。因此,應(yīng)用現(xiàn)代技術(shù)對(duì)發(fā)票內(nèi)容信息進(jìn)行自動(dòng)掃描識(shí)別并提取成為財(cái)務(wù)會(huì)計(jì)、計(jì)算機(jī)和軟件應(yīng)用等多個(gè)領(lǐng)域共同希望解決的課題。何文琦[1]在分析了高校財(cái)務(wù)報(bào)銷難題后,提出了直接采用OCR技術(shù)對(duì)票據(jù)圖片進(jìn)行識(shí)別,提取發(fā)票中的關(guān)鍵信息,減少網(wǎng)上報(bào)銷過程中的手工錄入環(huán)節(jié)。王林水[2]等提出了一個(gè)自動(dòng)票據(jù)識(shí)別系統(tǒng),采用圖像預(yù)處理技術(shù)將圖像進(jìn)行二值化,通過版面分析后進(jìn)行字符識(shí)別。王貴新[3]等人建立了利用隱態(tài)馬爾可夫模型(HMMs)的銀行票據(jù)識(shí)別系統(tǒng),系統(tǒng)首先通過光電掃描設(shè)備將用戶填寫的票據(jù)掃描成灰度圖像,然后去掉票據(jù)的底色,使之變?yōu)楹诎讏D像,對(duì)黑白圖像進(jìn)行去噪處理后,再進(jìn)行文字的分割。

縱觀上述文獻(xiàn),現(xiàn)有的研究都是將采集的發(fā)票圖像進(jìn)行二值化處理,忽略掉圖片本身的顏色信息,其次不區(qū)分二維碼、印章等圖片組成,直接采用版式分析的方法或者OCR的方法對(duì)圖片中的文字進(jìn)行識(shí)別,這必然帶來識(shí)別準(zhǔn)確率的降低。而且上述方法都是對(duì)票面信息進(jìn)行提取,并不進(jìn)行驗(yàn)證,這導(dǎo)致存在最終結(jié)果上的差錯(cuò)率,在實(shí)際使用過程中還需要輔助人工驗(yàn)證。鑒于此,本文提出通過顏色分割方法對(duì)發(fā)票圖片進(jìn)行信息分層,得到二維碼、印章區(qū)域和文字區(qū)域,針對(duì)文字區(qū)域按照預(yù)設(shè)的格式進(jìn)行文字識(shí)別,獲得發(fā)票上所記載的發(fā)票代碼、發(fā)票號(hào)碼、開票日期、購方稅號(hào)、銷方稅號(hào)、金額和稅額等信息;針對(duì)二維碼圖片進(jìn)行自動(dòng)掃描從互聯(lián)網(wǎng)服務(wù)器獲取發(fā)票代碼、發(fā)票號(hào)碼、開票日期、購方稅號(hào)、銷方稅號(hào)、金額和稅額等信息。然后將兩部分信息進(jìn)行比對(duì)驗(yàn)證發(fā)票的真?zhèn)?。?yàn)證為正確的發(fā)票分別將原始圖片和信息數(shù)據(jù)存入數(shù)據(jù)庫,對(duì)用戶的發(fā)票憑證進(jìn)行統(tǒng)一的信息管理。驗(yàn)證為錯(cuò)誤的信息以二維碼獲取得信息為準(zhǔn)存入數(shù)據(jù)庫,并在數(shù)據(jù)中進(jìn)行標(biāo)記以備后續(xù)查詢。



本文詳細(xì)內(nèi)容請(qǐng)下載:http://m.ihrv.cn/resource/share/2000003556




作者信息:

王  濤

(同濟(jì)大學(xué)浙江學(xué)院 電子與信息工程系,浙江 嘉興314000)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容