科大訊飛ICDAR 2023收獲四項冠軍,圖文識別理解能力持續(xù)進階

作為文檔圖像分析識別領(lǐng)域最重要的國際會議之一,國際文檔分析與識別會議ICDAR 2023(International Conference on Document Analysis and Recognition)近期傳來好消息:

科大訊飛研究院與中科大語音及語言信息處理國家工程研究中心(以下簡稱研究中心)在多行公式識別、文檔信息定位與提取、結(jié)構(gòu)化文本信息抽取三項比賽中獲得四個冠軍。

MLHME之冠:聚焦“多行書寫”,復雜度上再突破

MLHME(多行公式識別比賽)考查輸入包含手寫數(shù)學公式的圖像后,算法輸出對應LaTex字符串正確率。值得一提的是,相比此前數(shù)學公式識別賽事,此次比賽業(yè)內(nèi)首次將“多行書寫”設(shè)為主要挑戰(zhàn)對象,且不同于之前識別掃描、在線手寫的公式,本次以識別拍照的手寫多行公式為主。

最終,科大訊飛研究院圖文識別團隊以67.9%的成績拿下冠軍,并在主要評價指標——公式召回率(Expression Recall,即統(tǒng)計識別正確的樣本數(shù)占總測試樣本數(shù)的比例)上大幅超越其他參賽團隊。

公式召回率與榜單中Submit Results相對應

多行公式相比單行結(jié)構(gòu)復雜度更高,同一個字符在公式里多次出現(xiàn)時尺寸大小也會有變化;同時,比賽使用的數(shù)據(jù)集來自真實場景,拍照的手寫公式圖片更是存在質(zhì)量低下、背景干擾、文字干擾、涂抹和批注干擾等問題。這些因素讓比賽難度陡增。

多行公式結(jié)構(gòu)復雜

圖片質(zhì)量不高、批改干擾

針對多行公式結(jié)構(gòu)復雜問題,團隊使用大卷積核的Conv2former作為編碼器結(jié)構(gòu),擴大了模型的視野,更好地捕捉多行公式的結(jié)構(gòu)特征;創(chuàng)新性提出基于transformer的結(jié)構(gòu)化序列解碼器SSD,顯式對多行公式內(nèi)部的層次關(guān)系做了精細化建模,極大提升了復雜結(jié)構(gòu)的泛化性,更好地建模了結(jié)構(gòu)化語義。

針對圖片質(zhì)量問題所引起的字符歧義問題,團隊創(chuàng)新性提出了語義增強的解碼器訓練算法,通過語義和視覺的聯(lián)合訓練,讓解碼器具備內(nèi)在的領(lǐng)域知識。當字符難以辨認時,模型能夠自適應利用領(lǐng)域知識做出推理,給出最合理的識別結(jié)果。

針對字符尺寸變化大的問題,團隊提出了一種自適應字符尺度估計算法和多尺度融合解碼策略,極大提升了模型對字符大小變化的魯棒性。

DocILE之冠:“行里挑一”,文檔信息定位與提取比賽雙賽道登頂榜首

DocILE(文檔信息定位與提取比賽)評估機器學習方法在半結(jié)構(gòu)化的商業(yè)文檔中,對關(guān)鍵信息定位、提取和行項識別的性能。

該賽事分為KILE和LIR兩個賽道任務,KILE任務需要定位文檔中預定義類別的關(guān)鍵信息位置,LIR任務需要在前者基礎(chǔ)上,進一步將每個關(guān)鍵信息分組為不同的行項條目(Line Item),比如表格中某一行單個對象(數(shù)量、價格)等。訊飛與研究中心最終收獲雙賽道冠軍。

KILE賽道榜單

LIR賽道榜單

左為KILE賽道說明,右為LIR賽道說明

從賽事官方給出的任務圖示可以看出,文檔中待抽取的信息種類非常繁雜。其中,KILE任務不僅需要提取預定義類別的關(guān)鍵信息,還要得到關(guān)鍵信息的具體位置;LIR任務中,一個行項在單個表格中可能有多行文本。加上此次賽事數(shù)據(jù)集中信息種類多、文檔版式復雜多樣,大大增加了挑戰(zhàn)性。

聯(lián)合團隊在算法層面提出了兩項技術(shù)創(chuàng)新方案:

預訓練階段設(shè)計了基于OCR質(zhì)量的文檔過濾器,從主辦方提供的無標注文檔中提取出274萬頁的文檔圖像,隨后通過預訓練語言模型獲取文檔中各文本行的語義表征,并采用掩碼語句表征恢復任務進行不同Top-K(GraphDoc模型中關(guān)于文檔的注意力范圍的一個超參數(shù))配置下的預訓練。

在數(shù)據(jù)集微調(diào)階段,團隊使用了預訓練后的GraphDoc提取文本框的多模態(tài)表征,并進行分類操作。在分類結(jié)果的基礎(chǔ)上,將多模態(tài)表征送入低層注意力融合模塊進行實例的聚合,在實例聚集的基礎(chǔ)上,使用高層注意力融合模塊實現(xiàn)行項實例的聚集,所提出的注意力融合模塊結(jié)構(gòu)相同、但彼此不共享參數(shù),可以同時用于KILE和LIR任務且具有很好的效果。

SVRD之冠:零樣本票證結(jié)構(gòu)化信息抽取任務第一,預訓練模型大考驗

SVRD(結(jié)構(gòu)化文本信息抽取)比賽分為4個賽道子任務,訊飛與研究中心在難度頗高的零樣本結(jié)構(gòu)化信息抽取子賽道(Task3:E2E Zero-shot Structured Text Extraction)獲得第一。

榜單排名

在官方指定不同類型發(fā)票需要提取的關(guān)鍵要素背景下,該賽道要求參賽團隊利用模型輸出這些關(guān)鍵要素在圖片中的對應內(nèi)容,“零樣本”則代表訓練集和測試集的發(fā)票類型并無交集;賽道考查模型端到端預測準確率,取score1、score2加權(quán)平均值作為最終評價指標。

零樣本對預訓練模型能力提出了更高要求。同時,比賽使用的發(fā)票版式多樣,乘車站點、發(fā)車時間等要素在不同版式中的名稱各不相同,發(fā)票照片還存在背景干擾、反光、文字重疊等問題,進一步提升了識別和抽取難度。

不同版式的發(fā)票

條紋背景干擾的發(fā)票

團隊首先對要素抽取模型采用復制-生成雙分支解碼策略,在前端OCR結(jié)果置信度較高的情況下直接復制OCR結(jié)果,在OCR結(jié)果置信度較低的情況下生成新的預測結(jié)果,以此緩解前端OCR模型引入的識別錯誤。

此外,團隊還基于OCR結(jié)果提取句子級的graphdoc特征作為要素抽取模型輸入,該特征融合了圖像、文本、位置、版面多模態(tài)特征,相比于單模態(tài)的純文本輸入具有更強的特征表示。

在此基礎(chǔ)上,團隊還結(jié)合了UniLM、LiLT、DocPrompt多個要素抽取模型在不同場景、不同語種上的性能優(yōu)勢進一步提升了最終的要素抽取效果。

教育、金融、醫(yī)療等已落地應用,助力大模型提升多模態(tài)能力

此次選擇ICDAR 2023的相關(guān)賽事進行挑戰(zhàn),來源于科大訊飛在實際業(yè)務中的真實場景需求;賽事相關(guān)的技術(shù)也已經(jīng)深入教育、金融、醫(yī)療、司法、智能硬件等領(lǐng)域,賦能多項業(yè)務與產(chǎn)品。

在教育領(lǐng)域,手寫公式識別的技術(shù)能力被高頻使用,機器能給予精準的識別、判斷和批改。例如訊飛AI學習機中的個性化精準學、AI診斷;老師上課所使用的“訊飛智慧窗”教學大屏、學生的個性化學習手冊等,都已發(fā)揮了很大成效;

不久前科大訊飛全球1024開發(fā)者節(jié)主論壇上發(fā)布的星火科研助手,三大核心功能之一的論文研讀可實現(xiàn)智能解讀論文,快速回答相關(guān)問題。后續(xù)在高精度公式識別基礎(chǔ)上進階有機化學結(jié)構(gòu)式、圖形、圖標、流程圖、表格等結(jié)構(gòu)化場景識別的效果,這項功能也會更好助力科研工作者提升效率;

文檔信息定位與抽取技術(shù)則在金融領(lǐng)域得到了廣泛運用,例如合同要素抽取與審核、銀行票據(jù)要素抽取、營銷內(nèi)容消保審查等場景,可以實現(xiàn)文檔或文件的數(shù)據(jù)解析、信息抽取和比對審核等功能,從而輔助業(yè)務數(shù)據(jù)的快速錄入、抽取、比對,實現(xiàn)審核過程的降本增效;

同樣在此次1024主論壇上發(fā)布的個人AI健康助手——訊飛曉醫(yī),不僅能掃描檢查單、化驗單識別后給出分析和建議,還可以掃描藥盒后進一步主動詢問、給出輔助用藥建議。對于體檢報告,拍照上傳后訊飛曉醫(yī)可以識別全維度關(guān)鍵信息,聯(lián)合異常指標綜合解讀,主動詢問發(fā)現(xiàn)更多問題給予幫助。當然,背后也是文檔信息定位與抽取技術(shù)的支持。

從單字識別、文本行識別,到難度更高的二維復雜結(jié)構(gòu)識別、篇章級識別,科大訊飛的圖文識別相關(guān)技術(shù)在算法上持續(xù)迭代突破,更強的圖文識別技術(shù)還能使多模態(tài)大模型在圖像描述、圖像問答、識圖創(chuàng)作、文檔理解與處理上展現(xiàn)出更好的效果和潛力;

與此同時,圖文識別技術(shù)也結(jié)合語音識別、語音合成、機器翻譯等技術(shù)形成系統(tǒng)性創(chuàng)新,賦能產(chǎn)品應用后展現(xiàn)出更強大的功能與更明顯的價值優(yōu)勢,相關(guān)項目也獲得了2022年度吳文俊人工智能科技進步獎一等獎。新一程里,在ICDAR 2023數(shù)個比賽中“多點開花”,既是科大訊飛在圖文識別理解技術(shù)深度上持續(xù)進步的回饋,也是廣度上不斷鋪開的肯定。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )