好未來(lái)獲得2024年“錢偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)”技術(shù)發(fā)明類一等獎(jiǎng)
2024-12-06
日前,清華大學(xué)聯(lián)合好未來(lái)完成的《面向開放場(chǎng)景的自然語(yǔ)言生成關(guān)鍵技術(shù)及應(yīng)用》項(xiàng)目,獲得2024年“錢偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)”技術(shù)發(fā)明類一等獎(jiǎng)。
開放場(chǎng)景的自然語(yǔ)言生成是指針對(duì)同一輸入的生成結(jié)果具有較強(qiáng)多樣性的任務(wù),比如對(duì)話生成、故事生成等,是當(dāng)前最重要也是最具挑戰(zhàn)性的應(yīng)用場(chǎng)景之一。在開放場(chǎng)景的生成任務(wù)上,即便是現(xiàn)有最好的大模型在魯棒性、高效性、長(zhǎng)文本生成、質(zhì)量評(píng)價(jià)等方面也還存在不少核心挑戰(zhàn)。
針對(duì)這些挑戰(zhàn),本項(xiàng)目從生成理論、生成方法、評(píng)價(jià)體系三個(gè)方面系統(tǒng)性地突破關(guān)鍵技術(shù),取得了一系列成果,并應(yīng)用于智慧教育、智能助手和實(shí)時(shí)翻譯,服務(wù)了上億用戶并取得了顯著的經(jīng)濟(jì)效益。
在生成理論上,項(xiàng)目分析了生成文本和人類文本的分布偏差,提出基于全變分距離的生成模型優(yōu)化目標(biāo),使其對(duì)噪聲更魯棒,并探索非自回歸模型的學(xué)習(xí)理論,得出訓(xùn)練損失的重要性質(zhì),同時(shí)引入代理分布以構(gòu)建非自回歸模型的統(tǒng)一訓(xùn)練框架;在生成方法方面,聚焦于知識(shí)驅(qū)動(dòng)的長(zhǎng)文本自然語(yǔ)言生成方法,圍繞知識(shí)表示和知識(shí)規(guī)劃開展了系統(tǒng)性研究;在評(píng)價(jià)體系方面,從數(shù)據(jù)資源、評(píng)價(jià)方法、評(píng)價(jià)模型到應(yīng)用平臺(tái),全面地構(gòu)建了通用語(yǔ)言生成模型的生成質(zhì)量評(píng)價(jià)體系。
“錢偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)”是中文信息處理領(lǐng)域最高科學(xué)技術(shù)獎(jiǎng),該獎(jiǎng)項(xiàng)授予在技術(shù)上有重大創(chuàng)新或突破,技術(shù)難度很大,總體技術(shù)水平和主要技術(shù)經(jīng)濟(jì)指標(biāo)達(dá)到國(guó)內(nèi)領(lǐng)先水平和國(guó)際先進(jìn)水平,對(duì)推動(dòng)全國(guó)中文信息處理行業(yè)技術(shù)的進(jìn)步起到重要作用,創(chuàng)造出較大的經(jīng)濟(jì)效益或社會(huì)效益的項(xiàng)目或個(gè)人,由中國(guó)中文信息學(xué)會(huì)錢偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)評(píng)獎(jiǎng)辦公室評(píng)定、頒發(fā)獎(jiǎng)項(xiàng)。

作為國(guó)家新一代人工智能開放創(chuàng)新平臺(tái)承建單位,好未來(lái)一直重視在科技創(chuàng)新領(lǐng)域的投入,重視產(chǎn)學(xué)研合作。截止目前,好未來(lái)已與多所高校開展深入合作,獲得了一系列技術(shù)成果,并成功應(yīng)用到好未來(lái)多款產(chǎn)品中,順利完成產(chǎn)、學(xué)、研、用一體化。
未來(lái),好未來(lái)將繼續(xù)加強(qiáng)與高校、科研機(jī)構(gòu)的合作,構(gòu)建“共生”“互生”“創(chuàng)生”的智慧教育生態(tài),助力我國(guó)高質(zhì)量教育體系建設(shè),促進(jìn)我國(guó)教育信息化、智能化進(jìn)程。