近期,合合信息聯(lián)合琶洲實驗室、華南理工大學、中山大學等,共同承辦了“垂直領(lǐng)域大模型論壇”,匯聚高校及辦公、醫(yī)療、工業(yè)等多個行業(yè)代表性企業(yè)的技術(shù)專家,共同分享前沿技術(shù)成果與實戰(zhàn)思路,為大模型在垂直領(lǐng)域中的應(yīng)用,尋找新的落腳點。
文檔處理是垂直領(lǐng)域大模型的重要研究方向。受制于圖像質(zhì)量低下,版式豐富,文字字體、顏色多樣等因素的影響,文檔圖像智能分析與理解能力的大幅度提升面臨著挑戰(zhàn)。
合合信息智能技術(shù)平臺事業(yè)部副總經(jīng)理、高級工程師丁凱博士,在此次論壇上分享,“在智能文檔處理領(lǐng)域,大模型支持識別和理解的文檔元素類型,遠超傳統(tǒng)算法,大幅度拓展了AI技術(shù)在文檔分析與識別領(lǐng)域的能力邊界,端到端實現(xiàn)了文檔從識別到理解的全過程。不足在于,目前大模型的OCR精度,距離領(lǐng)域最佳模型,有較大差距,長文檔依賴外部的文檔解析引擎?!倍P認為,技術(shù)公司可以把“感知”層面的事情做好,讓大模型更好地去做“認知”,這種融合研究范式,在智能文檔處理領(lǐng)域中,具有積極的意義。
目前,合合信息-華南理工大學文檔圖像分析識別與理解聯(lián)合實驗室,針對大模型文檔處理中的像素級OCR統(tǒng)一模型、OCR大一統(tǒng)模型等重點技術(shù)方向,進行了深入研究,相關(guān)工作成果在文本去除、文本分割和篡改文本檢測任務(wù)上,得到了廣泛驗證。此外,實驗室還通過創(chuàng)新的文檔識別分析與LLM(自然語言模型)應(yīng)用設(shè)計,充分利用序列預測的優(yōu)勢,更好地解決文檔圖像處理中的多樣化任務(wù)需求,并且通過與LLM的結(jié)合,實現(xiàn)了更高層次的文檔理解和分析,為文檔圖像處理領(lǐng)域帶來了更多可能性。