丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給林軍
發(fā)送

0

比 Sora DiT 架構(gòu)早兩個(gè)月的 U-ViT,由這家中國(guó) AIGC 公司提出

本文作者: 林軍 2024-03-13 15:10
導(dǎo)語(yǔ):CVPR2023 曾拒稿 OpeanAI 的 DiT,收錄生數(shù)科技的 U-ViT。


「Sora 出來(lái)之后,團(tuán)隊(duì)就開(kāi)始連軸轉(zhuǎn),沒(méi)休息過(guò)?!惯@是 AI 科技評(píng)論了解到的,目前國(guó)內(nèi)諸多 AIGC 創(chuàng)業(yè)公司的現(xiàn)狀。

Sora 的確讓世界范圍內(nèi)的創(chuàng)業(yè)公司措手不及。隨之而來(lái)的,有一種悲觀論調(diào)和懷疑態(tài)度:創(chuàng)業(yè)公司和 OpenAI 拼術(shù)是否有意義?是否有必要做同樣的事情?有多大的生存空間?

誠(chéng)然,要彌合和 OpenAI 的差距并非易事,基于算力、投資等前提條件, OpenAI 的效果自然不是短期內(nèi)可以達(dá)到,但是也不見(jiàn)得到了技術(shù)層的創(chuàng)業(yè)公司無(wú)路可走的地步。

清華系創(chuàng)業(yè)團(tuán)隊(duì)生數(shù)科技提出的技術(shù)路線,和 Sora 在架構(gòu)路線上完全一致,均是提出了將Transformer 與擴(kuò)散模型融合的思路,在具體的實(shí)驗(yàn)路徑上也一致。并且,生數(shù)科技的 U-ViT 比 OpenAI 的 DiT 早了兩個(gè)月。

甚至,彼時(shí)的 CVPR2023 選擇收錄了U-ViT,而將 DiT 拒稿。

目前,生數(shù)科技的多模態(tài)大模型全鏈路均自主訓(xùn)練、自主研發(fā),是全球首個(gè)將Transformer架構(gòu)引入擴(kuò)散模型的骨干網(wǎng)絡(luò)。在文生圖、文生視頻、文生3D、圖生3D等多項(xiàng)任務(wù)中已經(jīng)初見(jiàn)成效。

近來(lái),也完成了由啟明創(chuàng)投領(lǐng)投,達(dá)泰資本、鴻福厚德、智譜AI、老股東BV百度風(fēng)投和卓源亞洲跟投的數(shù)億元融資,是目前國(guó)內(nèi)多模態(tài)大模型賽道的最高融資額。

生數(shù)科技 CEO 唐家渝表示,面對(duì)國(guó)內(nèi)多模態(tài)大模型的競(jìng)爭(zhēng),生數(shù)科技會(huì)承擔(dān)引領(lǐng)國(guó)內(nèi)底層技術(shù)創(chuàng)新的角色。

即使在 Sora 的籠罩下,國(guó)內(nèi)的多模態(tài)大模型也不無(wú)機(jī)會(huì)。


全棧自研的 MaaS

2023年3月,團(tuán)隊(duì)開(kāi)源了全球首個(gè)基于Diffusion Transformer架構(gòu)(U-ViT)的多模態(tài)擴(kuò)散大模型 UniDiffuser,在參數(shù)量和訓(xùn)練數(shù)據(jù)規(guī)模上,與Stable Diffusion直接對(duì)齊。在架構(gòu)上,UniDiffuser 比最近才采用 DiT 架構(gòu)的 Stable Diffsion 3 領(lǐng)先了一年。

除了單向的文生圖以外,Unidiffuser支持更通用的圖文任務(wù),能夠?qū)崿F(xiàn)圖生文、圖文聯(lián)合生成、圖文改寫等多種功能。

在統(tǒng)一化架構(gòu)的思路下,生數(shù)科技持續(xù) Scale up。在圖文模型的訓(xùn)練中,參數(shù)量從最早開(kāi)源版的1B不斷擴(kuò)展至3B、7B、10B及以上。同時(shí)在此基礎(chǔ)上,通過(guò)拓展空間維度和時(shí)間維度,逐步實(shí)現(xiàn) 3D 生成與視頻生成。同時(shí)面向應(yīng)用層推出了視覺(jué)創(chuàng)意設(shè)計(jì)平臺(tái)PixWeaver與3D 資產(chǎn)創(chuàng)建工具 VoxCraft。

PixWeaver是一款自動(dòng)化的視覺(jué)創(chuàng)作工具,支持AI生圖、AI生視頻功能,中英文輸入、秒級(jí)生成,融合多元風(fēng)格,具備出色的語(yǔ)義理解和豐富的畫面表現(xiàn)。(體驗(yàn)地址:https://pw.shengshu-ai.com/,目前AI視頻功能由于新版本迭代暫關(guān)閉試用)

在圖像生成方面,支持高質(zhì)量的文生圖,在畫面聯(lián)想豐富度、美觀性等方面優(yōu)于業(yè)內(nèi)同類模型。


比 Sora DiT 架構(gòu)早兩個(gè)月的 U-ViT,由這家中國(guó) AIGC 公司提出

并且,其語(yǔ)義理解能力尤其突出。

比 Sora DiT 架構(gòu)早兩個(gè)月的 U-ViT,由這家中國(guó) AIGC 公司提出

(描述詞:公園里的竹林里掛著紅色燈籠,旁邊盛開(kāi)著粉紅色的梅花,遠(yuǎn)處是一座亭臺(tái)樓閣,夕陽(yáng)灑在蜿蜒的公園小路呈現(xiàn)出溫暖的感覺(jué),寶麗來(lái)照片風(fēng)格,真實(shí)攝影)

比 Sora DiT 架構(gòu)早兩個(gè)月的 U-ViT,由這家中國(guó) AIGC 公司提出

在3D 生成方面,VoxCraft可實(shí)現(xiàn)高精度與最快10秒級(jí)的模型生成。

比 Sora DiT 架構(gòu)早兩個(gè)月的 U-ViT,由這家中國(guó) AIGC 公司提出

并推出全球首個(gè)4D動(dòng)畫生成,基于視頻和描述詞,輸出逐幀的運(yùn)動(dòng)3D動(dòng)畫,自動(dòng)綁定骨骼動(dòng)作,支持360°全景視角。

此外,該模型還可以通過(guò)文本對(duì)話或手動(dòng)調(diào)參的方式靈活編輯3D場(chǎng)景,包括添加物體、刪除物體等,可實(shí)時(shí)查看變化。

VoxCraft 相較于同類型的3D資產(chǎn)創(chuàng)建的自動(dòng)化工具,核心優(yōu)勢(shì)在于:

精度高:貼圖分辨率可達(dá)到2048*2048,幾何結(jié)構(gòu)的規(guī)整度高,色彩與材質(zhì)質(zhì)感真實(shí)度高;

速度快:在單卡設(shè)備上,單個(gè)3D模型生成最快可在數(shù)分鐘內(nèi)生成;

可用性強(qiáng):支持Mesh的同步生成,支持高模、低模的定制,可直接對(duì)接工業(yè)管線;

豐富度高:覆蓋資產(chǎn)類型多,通用性強(qiáng),支持文本或圖像引導(dǎo)。


最接近 Sora 技術(shù)架構(gòu)的中國(guó)團(tuán)隊(duì)

從技術(shù)架構(gòu)來(lái)看,生數(shù)科技是最接近于 Sora 的中國(guó)團(tuán)隊(duì)。

OpenAI推出的Sora模型,其核心技術(shù)點(diǎn)之一,是將視覺(jué)數(shù)據(jù)轉(zhuǎn)化為Patch的統(tǒng)一表示形式,并通過(guò)Transformer和擴(kuò)散模型結(jié)合,展現(xiàn)了卓越的scale特性。無(wú)獨(dú)有偶,最近發(fā)布的Stable Diffusion 3采用了同樣的架構(gòu)。

Transformer架構(gòu)被熟知應(yīng)用于大語(yǔ)言模型,該架構(gòu)的優(yōu)勢(shì)在于scale特性,參數(shù)量越大,效果越好;而在傳統(tǒng)視覺(jué)任務(wù)(圖像和視頻生成)中,業(yè)內(nèi)普遍采用常規(guī)的卷積路線的擴(kuò)散模型(基于SD開(kāi)源的思路),該路線能實(shí)現(xiàn)一定的效果,但擴(kuò)展性不好。DiT將Transformer架構(gòu)與擴(kuò)散模型融合,把大語(yǔ)言模型的擴(kuò)展性、涌現(xiàn)性復(fù)制到了視覺(jué)任務(wù)上。

其實(shí)早在2022年9月,生數(shù)科技團(tuán)隊(duì)早期成員就提交了一篇名為《All are Worth Words: A ViT Backbone for Diffusion Model》的論文,這篇論文提出了基于transformer的網(wǎng)絡(luò)架構(gòu)U-ViT。

對(duì)比來(lái)看,兩項(xiàng)工作采用了相同的patch embedding、patch size,都得出了同樣的結(jié)論patch size為2*2是最理想的,在模型參數(shù)量上兩者都在50M-500M左右的參數(shù)量上做了實(shí)驗(yàn),最終都證實(shí)了scale特性。

不過(guò)DiT僅在ImageNet上做了實(shí)驗(yàn),U-ViT在小數(shù)據(jù)集(CIFAR10、CelebA)、ImageNet、圖文數(shù)據(jù)集MSCOCO均做了實(shí)驗(yàn)。此外,相比傳統(tǒng)的 Transformer,U-ViT提出了一項(xiàng)“長(zhǎng)連接”的技術(shù),大大提升了訓(xùn)練收斂速度。

但U-ViT同樣展示了在視覺(jué)任務(wù)下的優(yōu)異能力,與當(dāng)時(shí)同階段的SD1.5 比較,Unidiffuser效果是基本持平的。更重要是,Unidifuser擴(kuò)展性更強(qiáng),能基于一個(gè)底層模型完成圖文之間的任意生成。

生數(shù)團(tuán)隊(duì)的幾位核心成員近幾年于ICML、NeurIPS、ICLR 等人工智能頂會(huì)發(fā)表相關(guān)論文近30篇,是現(xiàn)階段在該領(lǐng)域發(fā)表論文成果數(shù)最多的國(guó)內(nèi)團(tuán)隊(duì)。

抱持著底層算法原始創(chuàng)新、從零開(kāi)始自主訓(xùn)練的態(tài)度,生數(shù)科技團(tuán)隊(duì)也形成了多項(xiàng)能與其他公司拉開(kāi)差距的技術(shù)成果。

無(wú)訓(xùn)練推理框架Analytic-DPM

擴(kuò)散模型的一大局限是計(jì)算速度緩慢,研究加速算法是提升擴(kuò)散模型應(yīng)用效果的難點(diǎn)。

2022年,團(tuán)隊(duì)核心成員提出了一種無(wú)訓(xùn)練推理框架:Analytic-DPM,使用蒙特卡洛方法和預(yù)訓(xùn)練的基于得分模型來(lái)估計(jì)方差和 KL 散度的分析形式。該方法可以在無(wú)需額外訓(xùn)練的情況下,直接估計(jì)得到最優(yōu)方差,該成果在理論貢獻(xiàn)方面具有重要意義。

另外從應(yīng)用效果看,免訓(xùn)練推理框架的提出大大加速了模型的采樣效率,經(jīng)對(duì)比,Analytic-DPM經(jīng)過(guò) 50 步采樣的效果優(yōu)于 DDPM 采樣 1000 步的效果,加速了近 20 倍。

該論文被評(píng)選為ICLR2022杰出論文,也是該會(huì)議首篇由中國(guó)大陸單位獨(dú)立完成的獲獎(jiǎng)?wù)撐?,此外該成果也被OpenAI 應(yīng)用于 DALL·E2 模型處理方差的策略中。

多模態(tài)基礎(chǔ)大模型 UniDiffuser

2023年3月,團(tuán)隊(duì)開(kāi)源國(guó)內(nèi)首個(gè)基于Transformer的多模態(tài)擴(kuò)散大模型UniDiffuser,采用了基于transformer的網(wǎng)絡(luò)架構(gòu)U-ViT,在開(kāi)源的大規(guī)模圖文數(shù)據(jù)集LAION-5B上訓(xùn)練了一個(gè)十億參數(shù)量的模型,實(shí)現(xiàn)基于一個(gè)底層模型能夠高質(zhì)量地完成多種生成任務(wù)。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)雷峰網(wǎng)

除了單向的文生圖,還能實(shí)現(xiàn)圖生文、圖文聯(lián)合生成、無(wú)條件圖文生成、圖文改寫等多種功能,能夠?qū)崿F(xiàn)任意模態(tài)之間的轉(zhuǎn)化,大幅提升文圖內(nèi)容的生產(chǎn)效率,也進(jìn)一步提升了生成式模型的應(yīng)用想象力。

更值得一提的是,從技術(shù)路線看,生數(shù)科技是國(guó)內(nèi)唯一的原生多模態(tài)大模型廠商,原生多模態(tài)是基于通用的融合架構(gòu)對(duì)文本、圖像、視頻等多模態(tài)數(shù)據(jù)進(jìn)行統(tǒng)一范式的訓(xùn)練,簡(jiǎn)單類比就是基于一個(gè)底層架構(gòu)實(shí)現(xiàn)“GPT4+DALLE3+GPT4V”的統(tǒng)一,而不是通過(guò)接口調(diào)用不同的模型。生數(shù)科技堅(jiān)持融合架構(gòu)的原生路線,致力于提升對(duì)開(kāi)放域下復(fù)雜交互場(chǎng)景的信息生成能力。

本文作者長(zhǎng)期關(guān)注 AIGC 落地應(yīng)用、大模型和數(shù)字人領(lǐng)域,歡迎添加微信:s1060788086,交流認(rèn)知,互通有無(wú)。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

比 Sora DiT 架構(gòu)早兩個(gè)月的 U-ViT,由這家中國(guó) AIGC 公司提出

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)