商湯“日日新”AI大模型,如其名,真的做到了日日新。
這不,從發(fā)布到現(xiàn)在,時(shí)隔僅僅3個(gè)月,商湯便正式宣布:
(資料圖)
商湯日日新(SenseNova)大模型體系全面升級(jí)。
那么這個(gè)升級(jí)版本又有哪些優(yōu)化?
話不多說(shuō),直接上結(jié)果。
例如基于日日新的千億參數(shù)語(yǔ)言大模型商量2.0(SenseChat),在三個(gè)全球權(quán)威測(cè)評(píng)基準(zhǔn)中的表現(xiàn),均超越了ChatGPT:
△各大語(yǔ)言模型在MMLU、AGIEval、C-Eval三個(gè)評(píng)測(cè)基準(zhǔn)中得分情況
除此之外,基于日日新的其它各大AIGC平臺(tái),這次也一口氣也都來(lái)了個(gè)大升級(jí):
秒畫3.0(SenseMirage):參數(shù)量提升至70億量級(jí),實(shí)現(xiàn)專業(yè)攝影級(jí)圖片細(xì)節(jié)刻畫。
如影2.0(SenseAvatar):語(yǔ)音和口型流暢度提升30%以上,實(shí)現(xiàn)4K高清視頻效果。
瓊宇2.0(SenseSpace):空間重建效率提升20%,渲染性能提升50%。
格物2.0(SenseThings):渲染精度大幅提升,對(duì)物品紋理及材質(zhì)的還原達(dá)到毫米級(jí)精細(xì)度。
在現(xiàn)場(chǎng),商湯CEO徐立也拿著秒畫3.0搞起了花活:
人沒(méi)去CVPR 2023現(xiàn)場(chǎng)領(lǐng)獎(jiǎng)(商湯斬獲今年最佳論文),那就直接讓秒畫來(lái)生成。
不會(huì)彈吉他、不會(huì)畫畫,沒(méi)關(guān)系,繼續(xù)生成:
咱就是說(shuō),城會(huì)玩兒了。
那么全新升級(jí)的日日新,更多產(chǎn)品的具體表現(xiàn)如何?我們繼續(xù)往下看。
不只是超越了ChatGPT這么簡(jiǎn)單
讓老子和孔子對(duì)話
整體來(lái)看,商量的模型基礎(chǔ)能力在2.0版本有了大幅的提高,這點(diǎn)我們從上文提到的性能超越ChatGPT便可有直觀感受。
在模型的體系方面,商湯除了推出商量2.0(SenseChat XL)之外,還推出了一個(gè)商量S版(SenseChat S),也就是小模型版本。
徐立便在現(xiàn)場(chǎng)展示了用這兩個(gè)模型展示了一波“孔子對(duì)話老子”的情景:
在語(yǔ)言方面,它新增了一些地區(qū)語(yǔ)言,例如阿拉伯語(yǔ)和粵語(yǔ)等;以及支持簡(jiǎn)體中文、繁體中文、英語(yǔ)等多種語(yǔ)言交互。
同樣是這場(chǎng)“孔子對(duì)話老子”,粵語(yǔ)版本是這樣的:
同時(shí),商量2.0還突破了大語(yǔ)言模型輸入長(zhǎng)度的限制。
例如給它一個(gè)指令:將超長(zhǎng)的英文文本總結(jié)為中文概要,商量2.0便可立即執(zhí)行這樣復(fù)雜的任務(wù)。
不僅如此,用戶還可以基于此進(jìn)一步進(jìn)行多輪對(duì)話:
最后,商量2.0還發(fā)布了一個(gè)“外掛”——知識(shí)庫(kù)掛載:
無(wú)需訓(xùn)練模型,就可以快速融合知識(shí)生成;搭配企業(yè)知識(shí)庫(kù)可以快速解決相關(guān)領(lǐng)域問(wèn)題。
生成攝影級(jí)圖像,提示詞可以自動(dòng)補(bǔ)充了
在文生圖方面,商湯的秒畫升級(jí)到了3.0版本,從功能升級(jí)的內(nèi)容上來(lái)看,主打的就是一個(gè)“突破想象力”。
例如在輕量級(jí)方面,現(xiàn)在每個(gè)人都能通過(guò)拖拽的動(dòng)作,在10分鐘內(nèi)微調(diào)模型,并且定制化個(gè)人專屬的生成AI。
我們?cè)谏厦嫣岬降男炝ⅰ案慊ɑ睢北闶莻€(gè)很好的例子。
在“智能化”方面,根據(jù)提示詞(prompt)來(lái)生成AI繪畫作品不會(huì)再變得很繁瑣,因?yàn)楝F(xiàn)在就連提示詞都可以自動(dòng)補(bǔ)充了。
以往我們想讓AI生成一條龍,可能就會(huì)輸入“中國(guó)龍”、“藍(lán)色擺件”、“珠寶風(fēng)格”,但往往由于提示詞過(guò)于簡(jiǎn)單,并不能達(dá)到特別精細(xì)的效果。
而現(xiàn)在,同樣是只輸入這三個(gè)短語(yǔ),秒畫3.0會(huì)自動(dòng)對(duì)提示詞做補(bǔ)充,然后生成更為驚艷的作品:
再來(lái)感受一下提示詞“陽(yáng)光下的塑料袋”,在被自動(dòng)擴(kuò)充后的效果:
最后在效果方面,秒畫3.0現(xiàn)在生成的圖像,無(wú)論是成片水準(zhǔn)還是細(xì)節(jié)與元素,都能夠達(dá)到影視級(jí)的效果。
除了單打獨(dú)斗的能力之外,當(dāng)商量2.0和秒畫3.0結(jié)合之后的多模態(tài)大模型,也衍生出了一種新玩法——熱點(diǎn)事件理解。
在對(duì)話過(guò)程中“喂”它一張圖片或視頻,便可以看圖說(shuō)話,更加深入且精準(zhǔn)的描述素材中的內(nèi)容。
延參法師也“來(lái)現(xiàn)場(chǎng)”了
數(shù)字人方面的如影2.0也是本次商湯產(chǎn)品大升級(jí)的重點(diǎn)。
這不,在現(xiàn)場(chǎng)商湯便展示了延參法師等知名人物的數(shù)字人效果,無(wú)論是聲音(口音)亦或是神情,真的可以說(shuō)是栩栩如生。
,時(shí)長(zhǎng)01:05
還有包括主持人張泉靈、經(jīng)濟(jì)學(xué)家任澤平、上交大教授季衛(wèi)東等等,堪稱上演了一出“百變大咖秀”。
在語(yǔ)言方面,如影2.0打造的數(shù)字人在英語(yǔ)、日語(yǔ)、西班牙、阿拉伯語(yǔ)等多語(yǔ)種的精準(zhǔn)度提升30%以上,而且口型和語(yǔ)音匹配得更加自然。
在生成效果方面,如影2.0支持實(shí)現(xiàn)影級(jí)4K高清視頻的輸出,可以讓成片更加精良。
如影的升級(jí)也同樣帶來(lái)了一種新玩法——
現(xiàn)在,用戶可以通過(guò)輸入提示詞自動(dòng)生成與描述匹配的專屬數(shù)字人形象了!
而且還是可以實(shí)現(xiàn)數(shù)字人歌唱功能的那種。
,時(shí)長(zhǎng)01:29
這便極大地降低了虛擬網(wǎng)紅、數(shù)字人短片等內(nèi)容生成的門檻。
無(wú)論1萬(wàn)平米還是1毫米都能hold住的3D重建
最后在3D重建、數(shù)字孿生領(lǐng)域,商湯同樣帶來(lái)了大升級(jí)——瓊宇2.0和格物2.0。
先來(lái)看下這樣一個(gè)恢弘的場(chǎng)景:
如果不說(shuō)這是瓊宇2.0 3D重建的結(jié)果,或許很多小伙伴都會(huì)以為是航拍的視頻了。
據(jù)了解,瓊宇2.0目前已經(jīng)實(shí)現(xiàn)了厘米級(jí)三維重建精度,室外每1萬(wàn)平米精度達(dá)5厘米,室內(nèi)每1000平米精度達(dá)1厘米。
同時(shí),重建效率提升20%,渲染性能提升50%,100平方公里場(chǎng)景的建圖時(shí)間僅需38小時(shí)即可完成(1200 TFLOPS/秒算力支持)。
除了這種宏觀場(chǎng)景的3D重建之外,在微觀層面上的3D重建能力,隨著格物迭代到2.0版本也有了大幅提升——
對(duì)物品紋理及材質(zhì)的還原達(dá)到毫米級(jí)精細(xì)度,能夠帶來(lái)更清晰、更真實(shí)的產(chǎn)品細(xì)節(jié)體驗(yàn)。
更重要的是,格物2.0還突破了高反光和鏡面物體采集這種老大難的問(wèn)題,是無(wú)需貼紙或標(biāo)簽,即可精確還原商品的外觀和特征的那種。
不難看出,日日新大模型在步入2.0時(shí)代之后,各項(xiàng)AIGC平臺(tái)的能力都有了顯著的提升。
那么接下來(lái)的一個(gè)問(wèn)題便是:
如何在3個(gè)月內(nèi)做到的大升級(jí)?
早在三個(gè)月前,商湯站在AGC新時(shí)代下,圍繞數(shù)據(jù)、算法和算力三要素給出了一個(gè)新公式:
計(jì)算量(GPU數(shù)量 x 運(yùn)行時(shí)間 x 并行效率 )=模型參數(shù)量x處理數(shù)據(jù)量。
我們先來(lái)看下等式右邊的兩個(gè)因素:
模型參數(shù)量要足夠多,才能實(shí)現(xiàn)AI智慧的涌現(xiàn),而這也帶來(lái)了對(duì)算力的劇增,需要更高的并行效率,才能有效支持大參數(shù)模型訓(xùn)練。
數(shù)據(jù)方面,高質(zhì)量自然語(yǔ)言數(shù)據(jù)逐漸稀缺,而視覺(jué)數(shù)據(jù)相較自然語(yǔ)言在數(shù)量、質(zhì)量、容納信息等方面有多種優(yōu)勢(shì),能夠使得AI更好地理解世界。
二者的深度結(jié)合,便有了等式左邊的計(jì)算量;而之于這兩者,商湯有自己的一套“打法”——
大模型+大裝置。
首先便是大模型方面,日日新雖然是商湯于數(shù)月前發(fā)布,但它并非是這一波AIGC熱潮中一蹴而就的產(chǎn)物。
因?yàn)樵缬?年前,商湯便已經(jīng)著手于此,而且在2019年便使用上千張GPU進(jìn)行單任務(wù)訓(xùn)練,推出了10億參數(shù)規(guī)模的視覺(jué)模型,算法效果達(dá)到了當(dāng)時(shí)業(yè)界最佳。
在后來(lái)的2021年至2022年期間,商湯還訓(xùn)練并開源了30億參數(shù)的多模態(tài)大模型“書生”。
因此,商湯能夠迅速推出千億參數(shù)大模型并實(shí)現(xiàn)版本迭代,可以視為是長(zhǎng)期以來(lái)各種“小作業(yè)”的匯總而成的“大作業(yè)”。
其次是在大裝置方面,也就是商湯在大算力中的“打法”,它與自身大模型的發(fā)展也有異曲同工之妙——同樣也是早有布局。
在2022年1月,商湯交付使用了首付高達(dá)56億元的人工智能計(jì)算中心(AIDC),而且是“出道”即成為亞洲最大的AI超算中心之一。
一年前它的算力就已經(jīng)高達(dá)了3740 Petaflops,可以輕松應(yīng)對(duì)萬(wàn)億參數(shù)的大模型;而時(shí)隔僅1年,這個(gè)數(shù)值便翻了一小番,達(dá)到了5000 Petaflops。
這又是什么概念呢?
舉個(gè)例子,在如此大裝置的加持之下,它可以以最大4000卡規(guī)模集群進(jìn)行單任務(wù)訓(xùn)練,并可做到七天以上不間斷的穩(wěn)定訓(xùn)練。
……
總而言之,有大數(shù)據(jù)、有大算力、有大模型,所以商湯能讓日日新在3個(gè)月內(nèi)完成版本迭代也就不難理解了。
但有一說(shuō)一,這還是“商湯速度”的一隅而已。
大模型的落地也在提速
“商湯速度”的另一面,正是體現(xiàn)在了落地應(yīng)用上。
如果你認(rèn)為日日新的全面升級(jí)只是一個(gè)“提出”和“宣布”的動(dòng)作,那就大錯(cuò)特錯(cuò)了,因?yàn)樗呀?jīng)是“上崗”了的那種。
例如結(jié)合商量2.0和秒畫3.0的能力,商湯在移動(dòng)端給客戶帶來(lái)了多種交互方面的“解法”。
針對(duì)信息獲取的問(wèn)答交互、生活場(chǎng)景的知識(shí)交互、語(yǔ)言和圖像生成的內(nèi)容交互等等,正因?yàn)樯虦拇竽P蛽碛休p量化版本,所以可以輕松在移動(dòng)端上部署。
再如瓊宇2.0為濟(jì)南馬山鎮(zhèn)區(qū)域開發(fā)、合肥中國(guó)視界園區(qū)、上海瑞金醫(yī)院等真實(shí)線下場(chǎng)景,打造了相對(duì)應(yīng)的數(shù)字孿生,使得運(yùn)營(yíng)效率得到了大幅提升。
商湯還通過(guò)大模型能力為電網(wǎng)巡檢帶來(lái)長(zhǎng)尾故障識(shí)別、復(fù)雜缺陷判斷等智能解決方案。
而且商湯產(chǎn)品的升級(jí),并非是單打獨(dú)斗的那種,而是強(qiáng)強(qiáng)聯(lián)手出奇跡。
例如我們剛才提到的“熱點(diǎn)事件理解”便是其中之一,除此之外,商湯在智能汽車領(lǐng)域的絕影,更是融合了多個(gè)“看家本領(lǐng)”。
例如多模態(tài)大模型(多模態(tài)感知)、語(yǔ)言大模型(車艙大腦)、知識(shí)融合(專屬記憶模塊)和AIGC大模型(定制數(shù)字人)等等。
也正如徐立在現(xiàn)場(chǎng)所述:
大模型的突破掀起了人工智能的新一輪技術(shù)革命,隨之而來(lái)的是產(chǎn)業(yè)需求呈現(xiàn)爆炸式增長(zhǎng),全新的應(yīng)用場(chǎng)景和應(yīng)用模式正迅速涌現(xiàn)。
商湯希望通過(guò)‘大模型+大裝置’持續(xù)推動(dòng)AI基礎(chǔ)設(shè)施能力的躍進(jìn)提升,不僅打造通用能力更加強(qiáng)大的基礎(chǔ)模型,也進(jìn)一步高效融合不同垂直領(lǐng)域的專業(yè)知識(shí),構(gòu)建更懂行業(yè)、更具專長(zhǎng)的專業(yè)大模型,從根本上降低大模型的下游應(yīng)用成本和門檻,讓大模型的產(chǎn)業(yè)價(jià)值在千行百業(yè)中綻放。
總而言之,現(xiàn)在的大模型之戰(zhàn),不僅是拼技術(shù)迭代的速度,更是拼應(yīng)用和落地的速度。?
文章轉(zhuǎn)載自量子位
【免責(zé)聲明】本文僅代表第三方觀點(diǎn),不代表和訊網(wǎng)立場(chǎng)。投資者據(jù)此操作,風(fēng)險(xiǎn)請(qǐng)自擔(dān)。
關(guān)鍵詞: