IPO財(cái)報(bào)季，合合信息文檔解析技術(shù)助力大模型精準(zhǔn)分析: 2024-08-27 20:31 來源：中國企業(yè)網(wǎng) 次閱讀; 分享：

IPO財(cái)報(bào)季，合合信息文檔解析技術(shù)助力大模型精準(zhǔn)分析

財(cái)務(wù)報(bào)告是公眾和投資者了解企業(yè)經(jīng)營狀況的主要信源之一。步入8月中下旬，上市公司進(jìn)入了中報(bào)披露高峰期。據(jù)東方財(cái)富Choice數(shù)據(jù)統(tǒng)計(jì)，截至8月中旬，A股有超過1700只個股公布了2024年半年度業(yè)績預(yù)告，海量的財(cái)報(bào)文件的解讀對于金融行業(yè)從業(yè)者而言，產(chǎn)生了巨大的工作量。

隨著人工智能技術(shù)的深入發(fā)展，部分企業(yè)和個人開始嘗試用大模型進(jìn)行財(cái)務(wù)報(bào)表分析。針對大模型“理解力”薄弱，數(shù)據(jù)讀取錯誤等問題，合合信息大模型“加速器”方案優(yōu)化升級了PDF文檔解析技術(shù)，將非結(jié)構(gòu)化的PDF內(nèi)容轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)，提高大模型圖表類數(shù)據(jù)提取準(zhǔn)確性和版面理解能力，助力大模型實(shí)現(xiàn)從“泛讀”到“精讀”的能力跨越。

PDF是主流的電子文件格式之一。文檔解析技術(shù)可將PDF、圖片等多種格式的文件解析為 Markdown 或 JSON 格式的文檔，并以一種對大模型友好的方式呈現(xiàn)。

文檔解析技術(shù)是大模型理解和處理文檔的前提，相關(guān)能力的缺失，會導(dǎo)致大模型在理解版面不同區(qū)域的內(nèi)容排列順序、要點(diǎn)時(shí)遇到障礙，影響大模型的“理解力”，財(cái)務(wù)報(bào)表中的關(guān)鍵信息可能會丟失或被誤解，使得模型生成的答案不夠精準(zhǔn)，無法正確回答用戶的查詢。

“人類閱讀文章時(shí)可以自然地判斷版面元素的作用，但機(jī)器要經(jīng)歷層層拆解的過程才能‘讀懂’文章。”據(jù)合合信息技術(shù)團(tuán)隊(duì)成員介紹，財(cái)報(bào)、年報(bào)文件多以PDF格式為主，其中包含著各類復(fù)雜表格、圖表、證照等元素。大模型現(xiàn)階段存在的文檔解析能力缺陷主要體現(xiàn)如下方面：文檔識別失敗率高，面對復(fù)雜版面，無法正確解析，獲取標(biāo)題、分塊文本、圖表等。在這種情況下，大模型常表現(xiàn)為細(xì)節(jié)信息提供答案失敗或回答錯誤；邏輯結(jié)構(gòu)解析不完整也是核心問題之一，段落語義劃分錯誤，會導(dǎo)致大模型回答不全面或出現(xiàn)總結(jié)性偏差的狀況。、

圖 1：合合信息PDF文檔解析技術(shù)在大模型表格解析中的效果

據(jù)了解，合合信息PDF文檔解析技術(shù)具備多文檔元素識別、版面分析能力，可以識別文檔中的段落、公式、頁眉、頁腳等多種元素，并進(jìn)行對應(yīng)的處理。在應(yīng)對財(cái)報(bào)中常見的無線表、合并單元格、不規(guī)則行距、跨段、跨頁等障礙時(shí)，該技術(shù)也能做到準(zhǔn)確還原各類表格結(jié)構(gòu)。

為了讓大模型像專業(yè)人士一樣閱讀文本，PDF文檔解析技術(shù)可對各類學(xué)術(shù)文獻(xiàn)進(jìn)行版面元素的識別及閱讀順序的判定。該技術(shù)不僅能夠準(zhǔn)確定位文檔中的關(guān)鍵信息段落，還能根據(jù)PDF文檔的布局和格式，推斷出人類閱讀時(shí)的順序，而非機(jī)械地判定為從左至右排序，避免把完整的段落文字“攔腰斬?cái)唷?#xff0c;真正做到了“所見即所得”。

圖 2：合合信息PDF文檔解析技術(shù)對雙欄論文的解析效果

合合信息技術(shù)團(tuán)隊(duì)成員表示，上市公司年報(bào)頁數(shù)大多集中在200至300頁的范圍內(nèi)，一個熟練的分析師可能在幾天到一周的時(shí)間內(nèi)完成對年報(bào)的基本分析，PDF文檔解析工具最快能在1.5秒完成百頁文檔的解析，按8小時(shí)為一天工作時(shí)間計(jì)算，解析工具可幫助大模型在一日內(nèi)對數(shù)千家企業(yè)的年報(bào)數(shù)據(jù)進(jìn)行精準(zhǔn)分析。隨著無紙化辦公、數(shù)字化趨勢發(fā)展，PDF文檔解析技術(shù)有望被應(yīng)用于更廣泛的場景。

點(diǎn)贊()

上一條：從實(shí)驗(yàn)室到田野：以嶺藥業(yè)的科研成果轉(zhuǎn)化之路2024-08-27

下一條：魚躍醫(yī)療上半年新品近200款加速布局居家養(yǎng)老醫(yī)械賽道2024-08-27

相關(guān)稿件: 如何提升智能文檔處理識別精度？合合信息“版面分析”實(shí)現(xiàn)新突破 2023-04-13; 合合信息亮相CCIG2023：多位大咖共話智能文檔未來，文檔圖像內(nèi)容安全還面臨哪些技術(shù)難題？ 2023-05-17; 合合信息旗下掃描全能王：離婚案件與短劇創(chuàng)作中的創(chuàng)新助力 2024-07-23; 清華“博士團(tuán)”齊聚合合信息，共話人工智能技術(shù)應(yīng)用未來 2023-04-04; 北京信息軟件業(yè)加快“擁抱”大模型 2024-04-25

国产裸体裸拍在线观看,欧美色色一级有声色色色,美日韩国产av一级片,在线观看黄片www,一级做a爱片久久毛片,国产91影院,亚洲福利免费精品视频

IPO財(cái)報(bào)季，合合信息文檔解析技術(shù)助力大模型精準(zhǔn)分析

IPO財(cái)報(bào)季，合合信息文檔解析技術(shù)助力大模型精準(zhǔn)分析