【1.0時(shí)代? ?終端+Excel】
1.0時(shí)代,我們獲取數(shù)據(jù)的方式是在終端點(diǎn)開(kāi)瀏覽器,把數(shù)據(jù)通過(guò) Excel 下載到本地中使用。Excel 中各種透視表與插件組合滿足了絕大多數(shù)小批量數(shù)據(jù)使用的場(chǎng)景。Excel+終端瀏覽器,基本解決了小批量數(shù)據(jù)使用的問(wèn)題。
【2.0時(shí)代? ?SQL+單一數(shù)據(jù)來(lái)源】
隨著研究的深入、數(shù)據(jù)維度的拓展、數(shù)據(jù)規(guī)范的清晰,結(jié)構(gòu)化數(shù)據(jù)開(kāi)始成為標(biāo)配。相比于過(guò)去的數(shù)據(jù)瀏覽器提取方式,SQL 通過(guò)一個(gè)或幾個(gè)語(yǔ)句就能實(shí)現(xiàn)全部數(shù)據(jù)的提取,讓用戶倍感輕松。信息化帶來(lái)的效率提升,仿佛經(jīng)歷了“工業(yè)革命”般的體驗(yàn)。
【2.0時(shí)代后期? ?更高的算力需求】
逐漸地,SQL 也開(kāi)始暴露一些無(wú)法滿足研究需求的問(wèn)題。假如研究的重心放在組合管理、因子挖掘、風(fēng)險(xiǎn)控制領(lǐng)域,SQL 似乎既不能滿足計(jì)算要求、也無(wú)法滿足數(shù)據(jù)處理的時(shí)效性要求,這意味著,用戶需要花費(fèi)大量的精力提高一點(diǎn)點(diǎn)效率。
于是,DolphinDB 與聚源也開(kāi)始給
近日,書(shū)香門地集團(tuán)檢測(cè)中心參加2023年林產(chǎn)品檢驗(yàn)檢測(cè)能力驗(yàn)證活動(dòng)中人造板甲醛釋放量、吸水厚度膨脹率和密度3個(gè)檢測(cè)項(xiàng)目,均取得滿意結(jié)果,這已是書(shū)香門地集團(tuán)檢測(cè)中心連續(xù)4年取得該榮譽(yù)。
該活動(dòng)由國(guó)家林業(yè)和草原局林產(chǎn)品質(zhì)量和標(biāo)準(zhǔn)化研究中心組織、國(guó)家人造板與木竹制品質(zhì)量檢驗(yàn)中心等承辦,是一份給承擔(dān)林產(chǎn)品質(zhì)量監(jiān)測(cè)任務(wù)的各級(jí)檢驗(yàn)檢測(cè)機(jī)構(gòu)和自愿參與的實(shí)驗(yàn)室的年度盲樣考卷,是評(píng)價(jià)檢驗(yàn)檢測(cè)實(shí)驗(yàn)室檢測(cè)能力的有效手段。
書(shū)香門地集團(tuán)檢測(cè)中心連續(xù)4年取得國(guó)家林業(yè)和草原局林產(chǎn)品質(zhì)量和標(biāo)準(zhǔn)化研究中心結(jié)果滿意的考核,充分說(shuō)明書(shū)香門地集團(tuán)檢測(cè)能力持續(xù)保證結(jié)果的準(zhǔn)確性。年考并不是終點(diǎn),而是一個(gè)新的開(kāi)始。在中國(guó)林科院木工所的培訓(xùn)和指導(dǎo)下,書(shū)香門地集團(tuán)充分利用通知結(jié)果改進(jìn)檢測(cè)中心檢測(cè)水平,確保檢驗(yàn)檢測(cè)能力持續(xù)滿足要求并不斷提升。
未來(lái),書(shū)香門地集團(tuán)檢測(cè)中心將不斷提高質(zhì)量控制與運(yùn)行管理水平,持續(xù)加強(qiáng)檢驗(yàn)檢測(cè)能力建設(shè),擴(kuò)展更多檢測(cè)項(xiàng)目,為原物料和產(chǎn)品在采購(gòu)、研發(fā)和生產(chǎn)等各個(gè)環(huán)節(jié)提供數(shù)據(jù)支撐,為書(shū)香門地高質(zhì)量發(fā)展保駕護(hù)航,為消費(fèi)者甄選優(yōu)質(zhì)健康家居產(chǎn)品。
合作探索一種全新的業(yè)務(wù)模式。
【3.0時(shí)代? ?探索高質(zhì)量+高性能】
高質(zhì)量數(shù)據(jù)與高性能數(shù)據(jù)庫(kù)的融合是市場(chǎng)對(duì)3.0時(shí)代新業(yè)務(wù)場(chǎng)景的期待,但目前來(lái)看仍存在一些難題待解。以MySQL為例,在海量的時(shí)序數(shù)據(jù)場(chǎng)景下存在一些問(wèn)題:
·存儲(chǔ)成本大:對(duì)于時(shí)序數(shù)據(jù)壓縮不佳,需占用大量機(jī)器資源。
·維護(hù)成本高:單機(jī)系統(tǒng),需要在上層人工的分庫(kù)分表,維護(hù)成本高。
·寫(xiě)入吞吐低:單機(jī)寫(xiě)入吞吐低,很難滿足時(shí)序數(shù)據(jù)千萬(wàn)級(jí)的寫(xiě)入壓力(針對(duì)tick級(jí)數(shù)據(jù)場(chǎng)景)。
·查詢性能差:海量數(shù)據(jù)的聚合分析性能差。
在3.0時(shí)代的探索過(guò)程中,DolphinDB 與聚源數(shù)據(jù)達(dá)成合作,我們?yōu)闃?gòu)建一站式行情數(shù)據(jù)庫(kù)服務(wù)模式共同努力。
全新的業(yè)務(wù)場(chǎng)景下,用戶可以通過(guò) DolphinDB 訪問(wèn)和調(diào)用聚源數(shù)據(jù)庫(kù)的各類數(shù)據(jù),快速實(shí)現(xiàn)高頻數(shù)據(jù)對(duì)接、存儲(chǔ)、查詢、指標(biāo)計(jì)算、因子研究等,助力實(shí)現(xiàn)更便捷、更高效的投研。海量數(shù)據(jù)意味著數(shù)據(jù)質(zhì)量高、歷史可追溯時(shí)間長(zhǎng)、維度多,因此全量數(shù)據(jù)供應(yīng)商顯得尤為重要,而數(shù)據(jù)質(zhì)量是一切的基礎(chǔ)。
從數(shù)據(jù)質(zhì)量的角度:
聚源數(shù)據(jù)庫(kù)以金融證券為核心,服務(wù)內(nèi)容涵蓋投研數(shù)據(jù)、財(cái)富數(shù)據(jù)、固收數(shù)據(jù)、風(fēng)險(xiǎn)數(shù)據(jù)、ESG 數(shù)據(jù)等,廣泛應(yīng)用于金融資訊展示、金融投研、大數(shù)據(jù)分析、風(fēng)控、量化回測(cè)、金融監(jiān)管等多個(gè)領(lǐng)域,經(jīng)過(guò)二十余年的發(fā)展,公司與國(guó)內(nèi)券商、基金、保險(xiǎn)、信托、銀行、期貨、資產(chǎn)管理公司等機(jī)構(gòu)建立了廣泛的業(yè)務(wù)合作,確立了在中國(guó)金融數(shù)據(jù)服務(wù)領(lǐng)域的領(lǐng)先地位,是中國(guó)最優(yōu)秀的金融資訊服務(wù)供應(yīng)商之一。
從數(shù)據(jù)庫(kù)性能的角度:
SQL 或者單一 Python 的處理方法,無(wú)論便攜性還是成本都不算友好。比如計(jì)算一個(gè)投資組合的協(xié)方差矩陣,無(wú)法在 SQL 中完成,需要借助額外的 Python 反推回?cái)?shù)據(jù)庫(kù)。高性能時(shí)序數(shù)據(jù)庫(kù) DolphinDB 有出色的內(nèi)置函數(shù)、多范式的腳本語(yǔ)言、靈活的自定義計(jì)算,無(wú)論是在數(shù)據(jù)存儲(chǔ)端,還是在復(fù)雜分析端,都是比 SQL 和 Python 更優(yōu)的選擇。以下圖為例:
高質(zhì)量數(shù)據(jù)、高性能數(shù)據(jù)庫(kù)二者怎么融合?從最傳統(tǒng)的量化場(chǎng)景出發(fā),以聚源提供的因子庫(kù)為例。
DolphinDB 支持直接加工底層數(shù)據(jù)結(jié)果并且及時(shí)反饋結(jié)果到使用者手中,量化場(chǎng)景下的基礎(chǔ)因子、特色因子、回測(cè)框架都可以直接依托其后的數(shù)據(jù)基準(zhǔn)進(jìn)行融合。這些步驟的融合幫助用戶解決數(shù)據(jù)儲(chǔ)存量極大、讀取緩慢的通病。也就意味著,當(dāng)擁有了捆綁好的高質(zhì)量基礎(chǔ)數(shù)據(jù)與高性能平臺(tái)的時(shí)候,用戶便有了所有想要的內(nèi)容。同時(shí),因?yàn)?DolphinDB 自定義的優(yōu)勢(shì)加上聚源數(shù)據(jù)除常規(guī)的披露數(shù)據(jù)外,還有包括但不限于其它主流另類數(shù)據(jù)(司法,工商,輿情,預(yù)期、宏觀行業(yè)等)等,極大方便機(jī)構(gòu)客戶做特色因子挖掘和回測(cè)的工作流程,將原本離散化的工作任務(wù)集成式布置在 DolphinDB 上,真正發(fā)揮出1+1融合但是產(chǎn)出遠(yuǎn)大于2的效果。
數(shù)據(jù)質(zhì)量與數(shù)據(jù)庫(kù)性能的優(yōu)勢(shì)相互結(jié)合,機(jī)構(gòu)可以直接享受到聚源高質(zhì)量數(shù)據(jù)加 DolphinDB 高性能數(shù)據(jù)庫(kù)的一站式服務(wù)。
除此之外,分布式高性能的數(shù)據(jù)存儲(chǔ),必然對(duì)高頻率的數(shù)據(jù)量處理有著顯著優(yōu)勢(shì),對(duì)于聚源在金融全場(chǎng)景下涵蓋的各更新頻率不一的數(shù)據(jù),科學(xué)合理的插值方法,是提高數(shù)據(jù)頻率的有效手段;因子算法部署在更為高頻的數(shù)據(jù)空間(如 Alpha191 算法由日K,調(diào)整為 1分鐘K),也是挖掘非線性因子的,進(jìn)入市場(chǎng)顆?;潭雀铑I(lǐng)域的主要路徑。數(shù)據(jù)升頻與 DolphinDB 的高性能協(xié)作,勢(shì)必會(huì)開(kāi)辟量化數(shù)據(jù)場(chǎng)景的新賽道。
這也意味著,3.0時(shí)代將迎來(lái)數(shù)據(jù)庫(kù)與編程語(yǔ)言的融合。
在傳統(tǒng)的數(shù)據(jù)庫(kù)時(shí)代,我們更看重?cái)?shù)據(jù)的寫(xiě)入,所以我們強(qiáng)調(diào)數(shù)據(jù)庫(kù)的一致性、原子性、持久性等,而用于分析的 SQL 語(yǔ)句功能則相對(duì)簡(jiǎn)單,復(fù)雜的分析和計(jì)算通常由更高級(jí)的編程語(yǔ)言(如 C++, Python 等)來(lái)完成。在海量數(shù)據(jù)時(shí)代,我們更看重?cái)?shù)據(jù)的讀取,也就是通過(guò)對(duì)海量數(shù)據(jù)的分析,發(fā)掘數(shù)據(jù)背后的價(jià)值,數(shù)據(jù)分析的時(shí)效性則對(duì)企業(yè)的競(jìng)爭(zhēng)能力至關(guān)重要。未來(lái) SQL 語(yǔ)句和更高級(jí)的編程語(yǔ)言也將走向融合,高質(zhì)量的數(shù)據(jù)+高性能的數(shù)據(jù)庫(kù)將解決數(shù)據(jù)來(lái)源廣、時(shí)效性差、成本開(kāi)銷大等一系列長(zhǎng)期困擾市場(chǎng)的難題。
基于此,DolphinDB 與聚源,在路上。
相關(guān)稿件