近日在蘇州舉行的中國圖象圖形大會(CCIG 2023),亮點之一是技術(shù)論壇《文檔圖像智能分析與處理》。在該論壇上,合合信息智能技術(shù)平臺事業(yè)部副總經(jīng)理、高級工程師丁凱博士,與中科院、北大、中科大、華為的專家,探討文檔圖像處理領(lǐng)域的未來進階方向。
近期火爆的ChatGPT,讓“大模型”技術(shù)進入了公眾的視野。中國科學院自動化研究所副所長劉成林認為,大模型與光學字符識別(OCR)技術(shù)的結(jié)合,能夠?qū)A繑?shù)據(jù)進行理解、處理。北京大學鄒月嫻教授認為,在與文檔圖像處理技術(shù)密切相關(guān)的OCR領(lǐng)域中,專業(yè)化大規(guī)模的預訓練模型是可行的。
(丁凱就《智能文檔處理技術(shù)在工業(yè)界的應(yīng)用與挑戰(zhàn)》研究課題進行分享)
人工智能大模型的快速發(fā)展為文檔分析與識別帶來了一些機遇,除了解決識別層次的遺留問題,在性能提升、應(yīng)用拓展上大有可為。合合信息通過ROI提取、干擾去除、形變矯正、圖像恢復以及圖像增強,將文檔圖像的彎曲矯正、摩爾紋去除,圖像質(zhì)量大幅提升;針對手寫板圖片中出現(xiàn)的反光問題,通過算法模型對反光進行“擦除”;通過智能文字識別、智能圖像處理等核心技術(shù),確定文檔中的文字位置、字體、大小和排版方式等信息,實現(xiàn)版面的分析和還原。
利用人工智能的合成技術(shù),偽造的多媒體信息在網(wǎng)絡(luò)上泛濫。中科大教授謝洪濤指出,隨著基于深度學習的偽造與取證技術(shù)的出現(xiàn),目前文本圖像的真?zhèn)舞b定問題進入了攻防博弈階段。
合合信息在文檔圖像內(nèi)容安全領(lǐng)域也進行了深入的部署。據(jù)丁凱介紹,合合信息研發(fā)了基于深度學習的圖像篡改檢測技術(shù)及相關(guān)系統(tǒng),可以智能捕捉圖像在篡改過程中留下的細微痕跡,檢測出復制粘貼、拼接、擦除等多種篡改形式,進行針對性的處理。合合信息圖像篡改檢測技術(shù)已被銀行、保險、制造業(yè)等多個行業(yè)引入。
作為人工智能企業(yè),合合信息依托智能文檔處理技術(shù),對復雜場景下的多版式、多語種文字內(nèi)容進行精準提取,打造的合同機器人、財報機器人及行業(yè)解決方案,已在金融、政務(wù)、制造、物流等30個行業(yè)落地,服務(wù)的世界500強公司超過80家。未來,合合信息將持續(xù)為全球C端用戶和多元行業(yè)B端客戶提供數(shù)字化、智能化的產(chǎn)品及服務(wù),促進AI技術(shù)在文檔處理領(lǐng)域的應(yīng)用落地與信息安全保障。(企業(yè)供圖)