在信息碎片化的時(shí)代,如何做到短、平、快成為當(dāng)下眾多新媒體需要掌握的重要本領(lǐng)之一。新聞創(chuàng)作者往往需要高頻、精準(zhǔn)的進(jìn)行信息收集、撰寫和發(fā)布,特別是隨著元宇宙概念的興起,虛擬場景中熱點(diǎn)事件的報(bào)道更是增加了新聞創(chuàng)作者的工作量。
為幫助新聞創(chuàng)作者更快、更準(zhǔn)捕捉到新聞信息,馬上消費(fèi)金融股份有限公司(下稱“馬上消費(fèi)”)舉辦的2022屆“天馬杯”全國高??萍紕?chuàng)新大賽,聚焦NLP賽道,開設(shè)了“數(shù)字人播報(bào)資訊內(nèi)容生成”賽題,以實(shí)現(xiàn)資訊內(nèi)容自動(dòng)生成。
據(jù)悉,資訊內(nèi)容自動(dòng)生成屬于深度學(xué)習(xí)領(lǐng)域的端到端生成式任務(wù),在給定新聞主題、新聞時(shí)間、新聞人物等要素的前提下自動(dòng)生成一篇完整的新聞。不同于機(jī)器翻譯和文本摘要(給定1篇長文輸出摘要信息)任務(wù),資訊內(nèi)容自動(dòng)生成需要在給定信息的前提下進(jìn)行內(nèi)容擴(kuò)寫,這需要智能機(jī)器人有一定的知識儲備,并能夠在特定的環(huán)境和場景中使用合適的語言進(jìn)行陳述。
目前市場上的撰稿機(jī)器人多數(shù)是基于模板的方式進(jìn)行新聞創(chuàng)作,或是對已發(fā)布新聞重組和改寫。雖然內(nèi)容流暢、可讀性高,但并不是原創(chuàng),而且如果嚴(yán)格按照模板來引導(dǎo)模型還會(huì)導(dǎo)致生成內(nèi)容單調(diào)、多樣性差的問題,與人工撰稿有著很大差距。
馬上消費(fèi)設(shè)置“數(shù)字人播報(bào)資訊內(nèi)容生成”賽題的目的就是為了解決以上問題,同時(shí)不斷挖掘和探討如何將撰稿人的行文邏輯、文風(fēng)等引入模型的生成風(fēng)格當(dāng)中。也就是說,“天馬杯”大賽的參賽者需要掌握深度學(xué)習(xí)算法、機(jī)器學(xué)習(xí)算法,且對NLP中的文本生成任務(wù)(seq2seq)、預(yù)訓(xùn)練模型(Bert、GPT、BART等)有一定的了解。
隨著核心技術(shù)愈加成熟,元宇宙也逐漸從概念走向臺前?!丁笆奈濉睌?shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》也強(qiáng)調(diào),我國將“深化虛擬現(xiàn)實(shí)、人工智能、8K高清視頻等技術(shù)的融合,拓展社交、購物、娛樂及展覽等領(lǐng)域的應(yīng)用,支持實(shí)體消費(fèi)場所建設(shè)數(shù)字化消費(fèi)新場景,推廣虛實(shí)交互體驗(yàn)等應(yīng)用”。
作為一家科技驅(qū)動(dòng)型金融機(jī)構(gòu),馬上消費(fèi)早在2017年就專門成立了人工智能研究院,在資訊內(nèi)容生成方面也做出了很多探索性的工作,包括基于模板的資訊內(nèi)容生成,如何根據(jù)歷史新聞數(shù)據(jù)實(shí)現(xiàn)模板的自動(dòng)化歸納;基于模型的生成式新聞,如何根據(jù)提示信息來控制新聞生成的主題方向、內(nèi)容質(zhì)量;通過模板與模型相結(jié)合的方式進(jìn)行優(yōu)勢互補(bǔ)等,經(jīng)多次實(shí)驗(yàn),已初步形成了一套自動(dòng)撰稿的流程方案。
且根據(jù)實(shí)驗(yàn)發(fā)現(xiàn),從模型訓(xùn)練到新聞的生成與發(fā)布都體現(xiàn)了歷史新聞的重要性,天馬杯“數(shù)字人播報(bào)資訊內(nèi)容生成”將為新聞的生成規(guī)律、陳述方式、寫作模板、寫作文風(fēng)等提供更多可能。