近期,合合信息聯(lián)合上海大學、華南理工大學,發(fā)布業(yè)內(nèi)首個古彝文基礎(chǔ)編碼數(shù)據(jù)庫,以智能圖像處理、智能文字識別等AI技術(shù),開展統(tǒng)一編碼,古彝文在數(shù)字社會中有了“身份證號碼”。
以往,古文字主要通過人工識別、校正和進行文獻編撰,工作量繁多且效率低下。近年來,人工智能,特別是深度學習技術(shù)的發(fā)展,為古文字識別提供了高效的工具。據(jù)悉,古彝文數(shù)字化方面的成果相對較少,一方面,古彝文字符集龐大,且缺乏成熟的手寫樣本庫。另一方面,在彝文的發(fā)展過程中,由于種種因素,導致異體字、變體字豐富,字符和釋義“一對多、多對一”是常態(tài)。
基于上述情況,合合信息與華南理工大學共同成立的文檔圖像分析識別與理解聯(lián)合實驗室,聯(lián)合上海大學社會學院組建研究團隊,共同解決數(shù)據(jù)庫建設(shè)中的學術(shù)性、技術(shù)性難點。
在對7萬6千字符的樣本進行訓練后,團隊成功建立了包含上千個古彝文基礎(chǔ)編碼的數(shù)據(jù)庫。通過API數(shù)據(jù)接口等形式,該數(shù)據(jù)庫有望幫助高校研究人員、文化工作者、興趣愛好者等人群,快速找到古彝文在字典中的讀音、漢語釋義、用法,如同“大字典”一般,幫助人們降低古彝文書籍、文獻閱讀的門檻。
合合信息在智能文字識別領(lǐng)域已有17年深耕經(jīng)驗。此前,在AI識別甲骨文、西周鐘鼎文(金文)領(lǐng)域,公司已進行了領(lǐng)先的探索和研究,為古彝文識別積累了經(jīng)驗,奠定了良好的技術(shù)基礎(chǔ)。