在A股市場迎來中報(bào)季的背景下,上市公司的財(cái)報(bào)披露成為投資者和市場分析師關(guān)注的焦點(diǎn)。特別是在巨額募資活動(dòng)的背景下,財(cái)報(bào)的準(zhǔn)確性和透明度對(duì)于投資者決策具有至關(guān)重要的影響。合合信息的文檔解析技術(shù)通過輔助大模型深度解讀財(cái)報(bào),為金融行業(yè)從業(yè)者提供了強(qiáng)有力的工具,以應(yīng)對(duì)海量財(cái)報(bào)文件的分析需求。
隨著人工智能技術(shù)的深入發(fā)展,部分企業(yè)和個(gè)人開始嘗試用大模型進(jìn)行財(cái)務(wù)報(bào)表分析。針對(duì)大模型“理解力”薄弱,數(shù)據(jù)讀取錯(cuò)誤等問題,合合信息大模型“加速器”方案優(yōu)化升級(jí)了PDF文檔解析技術(shù),將非結(jié)構(gòu)化的PDF內(nèi)容轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),提高大模型圖表類數(shù)據(jù)提取準(zhǔn)確性和版面理解能力,助力大模型實(shí)現(xiàn)從“泛讀”到“精讀”的能力跨越。
在巨額募資活動(dòng)中,投資者需要對(duì)公司的財(cái)務(wù)狀況、資金使用計(jì)劃和未來盈利能力有清晰地了解。合合信息的PDF文檔解析技術(shù)能夠準(zhǔn)確識(shí)別和解析財(cái)報(bào)中的各類復(fù)雜表格、圖表和文本,確保關(guān)鍵信息不被丟失或誤解,為投資者提供了更為精準(zhǔn)的數(shù)據(jù)分析和決策支持。
文檔解析技術(shù)是大模型理解和處理文檔的前提,相關(guān)能力的缺失,會(huì)導(dǎo)致大模型在理解版面不同區(qū)域的內(nèi)容排列順序、要點(diǎn)時(shí)遇到障礙,影響大模型的“理解力”,財(cái)務(wù)報(bào)表中的關(guān)鍵信息可能會(huì)丟失或被誤解,使得模型生成的答案不夠精準(zhǔn),無法正確回答用戶的查詢。
圖 1:合合信息PDF文檔解析技術(shù)在大模型表格解析中的效果
據(jù)了解,合合信息PDF文檔解析技術(shù)具備多文檔元素識(shí)別、版面分析能力,可以識(shí)別文檔中的段落、公式、頁眉、頁腳等多種元素,并進(jìn)行對(duì)應(yīng)的處理。在應(yīng)對(duì)財(cái)報(bào)中常見的無線表、合并單元格、不規(guī)則行距、跨段、跨頁等障礙時(shí),該技術(shù)也能做到準(zhǔn)確還原各類表格結(jié)構(gòu)。
為了讓大模型像專業(yè)人士一樣閱讀文本,PDF文檔解析技術(shù)可對(duì)各類學(xué)術(shù)文獻(xiàn)進(jìn)行版面元素的識(shí)別及閱讀順序的判定。該技術(shù)不僅能夠準(zhǔn)確定位文檔中的關(guān)鍵信息段落,還能根據(jù)PDF文檔的布局和格式,推斷出人類閱讀時(shí)的順序,而非機(jī)械地判定為從左至右排序,避免把完整的段落文字“攔腰斬?cái)唷?#xff0c;真正做到了“所見即所得”。
圖 2:合合信息PDF文檔解析技術(shù)對(duì)雙欄論文的解析效果
合合信息技術(shù)團(tuán)隊(duì)成員表示,上市公司年報(bào)頁數(shù)大多集中在200至300頁的范圍內(nèi),一個(gè)熟練的分析師可能在幾天到一周的時(shí)間內(nèi)完成對(duì)年報(bào)的基本分析,PDF文檔解析工具最快能在1.5秒完成百頁文檔的解析,按8小時(shí)為一天工作時(shí)間計(jì)算,解析工具可幫助大模型在一日內(nèi)對(duì)數(shù)千家企業(yè)的年報(bào)數(shù)據(jù)進(jìn)行精準(zhǔn)分析。
相關(guān)稿件