丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給王悅
發(fā)送

0

聯(lián)匯科技趙天成:從 CMU 天才少年,到多模態(tài)創(chuàng)業(yè)先行者

本文作者: 王悅 2024-05-29 10:36
導(dǎo)語(yǔ):中國(guó)多模態(tài)創(chuàng)業(yè),變現(xiàn)和卷參數(shù)可以解耦。


CMU LTI (卡內(nèi)基梅隆大學(xué)語(yǔ)言技術(shù)研究所)每年在全球范圍內(nèi)只有十個(gè)左右的博士錄取名額,其中的華人學(xué)者鳳毛麟角。本次以 OpenAI 發(fā)布 ChatGPT 為標(biāo)志掀起的人工智能浪潮,CMU 也在各大主流 AI 公司中扮演了技術(shù)核心。

這群 CMU 中的華人學(xué)者,在中西爭(zhēng)奪人工智能高地的競(jìng)爭(zhēng)中,歸國(guó)人才顯得尤其彌足珍貴。楊植麟是其中之一,在國(guó)內(nèi)創(chuàng)辦月之暗面,迅速上升為中國(guó)估值最高的大模型公司之一。而比楊植麟大一屆的趙天成,也是從 CMU 畢業(yè)回國(guó)的青年創(chuàng)業(yè)者。

趙天成可以稱得上「AI 名門(mén)正派」,本科就讀于 UCLA(加利福尼亞大學(xué)洛杉磯分校),以全院第一的成績(jī)獲 2014 級(jí)工程學(xué)院杰出畢業(yè)生。隨后在 CMU LTI 碩博連讀,主導(dǎo)師為 Maxine Eskenazi ,并和 Alan Black、 LP Morency 、 William W Cohen 多次合作。四年期間,趙天成主要研究用生成式模型做對(duì)話的核心問(wèn)題,累計(jì)發(fā)表了 20 余篇頂會(huì)論文,僅僅用了 4 年半就完成了通常需要 6-7 年完成的博士學(xué)業(yè)。

作為一名創(chuàng)二代,趙天成選擇在硅谷短暫工作后回國(guó),接手其父親趙凡創(chuàng)辦的聯(lián)匯科技。在這家擁有 20 年 2B 經(jīng)驗(yàn)的企業(yè)中,通過(guò)多模態(tài)大模型賦能已有的、新開(kāi)拓的 B 端大客戶,從一開(kāi)始在商業(yè)路徑上就無(wú)比清晰。而目前很多AI公司在商業(yè)路徑、變現(xiàn)上仍然缺乏戰(zhàn)略形成鮮明對(duì)比。

相較國(guó)內(nèi)很多大模型公司,趙天成從回國(guó)的第一天起就堅(jiān)定的走多模態(tài)大模型方向,多模態(tài)能力的重要性在近期OpenAI 發(fā)布的 GPT-4O 上得以驗(yàn)證。這意味著,要真正實(shí)現(xiàn)大模型落地應(yīng)用,不能只有文本語(yǔ)言,加入多模態(tài)能力是大模型競(jìng)爭(zhēng)的大勢(shì)所趨,也是距離 AGI 更近的一步。

但其實(shí),在 2023 年 11 月 6 日 GPT-4V 發(fā)布之前,業(yè)內(nèi)更多地將目光放在大語(yǔ)言模型之上,多模態(tài)模型創(chuàng)業(yè)是少有人走的路。但聯(lián)匯科技在 2021 年前后即開(kāi)始推進(jìn)多模態(tài)的研發(fā)工作,以模型的理解能力而非生成能力為切入口,可以說(shuō)是國(guó)內(nèi)多模態(tài)模型創(chuàng)業(yè)公司中的先行者。

「科技賽道投資要追求非共識(shí)的正確判斷,這需要極高的行業(yè)認(rèn)知和判斷?!雇顿Y聯(lián)匯科技的前海母基金高級(jí)行業(yè)研究員馬駿對(duì) AI 科技評(píng)論說(shuō)道。做理解方向的多模態(tài)模型,這在市場(chǎng)上是比較稀缺的,聯(lián)匯科技在投資人眼中也就成為了反共識(shí)。

依托于過(guò)去老業(yè)務(wù)的基礎(chǔ),聯(lián)匯科技的 AI 業(yè)務(wù)增長(zhǎng)有著明顯的優(yōu)勢(shì)。雖然在大眾的認(rèn)知和傳播度上不及Pika、Sora 等生成方向的多模態(tài)模型,但是聯(lián)匯科技已經(jīng)和廣電媒體、運(yùn)營(yíng)商、國(guó)家電網(wǎng)等涉及民生的大 B 企業(yè)合作,用「B2B2C」的方式更好地做商業(yè)化,營(yíng)收已經(jīng)跑贏大多數(shù)大模型公司。

談到如何能在當(dāng)下的環(huán)境中把多模態(tài)模型的 2B 商業(yè)化做到這么多營(yíng)收,趙天成將其歸結(jié)為是一個(gè)「在約束條件下最大化商業(yè)化成果」的優(yōu)化問(wèn)題?!傅讓蛹夹g(shù)要領(lǐng)先市場(chǎng)一步甚至兩、三步,商業(yè)化產(chǎn)品,基本上會(huì)保持領(lǐng)先 0.5 步的方式去做?!?/p>

以下是 AI 科技評(píng)論與聯(lián)匯科技 CEO & 首席科學(xué)家趙天成、前海母基金高級(jí)行業(yè)研究員馬駿的對(duì)話實(shí)錄:

一、多模態(tài)創(chuàng)業(yè)的先行者

AI 科技評(píng)論:你本科畢業(yè)于 UCLA,之后在 CMU  LTI 碩博連讀,這期間主要做了哪些研究?

趙天成:我是 2010 年到 2014 年讀本科,期間跟隨 UCLA 語(yǔ)音實(shí)驗(yàn)室創(chuàng)始人 Abeer Alwan 教授學(xué)習(xí)語(yǔ)音處理相關(guān)研究。畢業(yè)的時(shí)候申請(qǐng)學(xué)校,她強(qiáng)烈推薦我去 CMU,因?yàn)?CMU 的人工智能和自然語(yǔ)言處理方面幾乎是最強(qiáng)的。

在 CMU 我的研究方向就是基于預(yù)訓(xùn)練的端到端的生成式模型,并且應(yīng)用于人機(jī)對(duì)話系統(tǒng),本質(zhì)就是現(xiàn)在的  ChatGPT 的前身。我主要的研究?jī)?nèi)容也基本上覆蓋了生成式對(duì)話系統(tǒng)的幾大方向:

第一個(gè)方向是模型架構(gòu),整個(gè)生成式模型的模型架構(gòu)的研究最早是通過(guò)RNN,之后引入隱變量學(xué)習(xí),然后在此基礎(chǔ)架構(gòu)升級(jí)為T(mén)ransformer;

第二個(gè)方向是機(jī)器學(xué)習(xí)的機(jī)制,從變分模型到強(qiáng)化學(xué)習(xí)到多模態(tài)融合;

第三個(gè)方向是關(guān)于怎么實(shí)現(xiàn)小樣本遷移,讓模型學(xué)會(huì)任務(wù)級(jí)別的零樣本泛化。

2016 年,我發(fā)布了業(yè)界最早的一篇基于端到端生成式模型的任務(wù)型對(duì)話機(jī)器人的論文《Towards End-to-End Learning for Dialog State Tracking and Management using Deep Reinforcement Learning》。通過(guò)一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)合并代替了過(guò)往需要多個(gè)專業(yè)模塊串聯(lián)而成的復(fù)雜專家系統(tǒng)。

論文鏈接:https://arxiv.longhoe.net/abs/1606.02560

2017年,又發(fā)布了另一篇《Generative Encoder-Decoder Models for Task-Oriented Spoken Dialog Systems with Chatting Capability》是最早的混合閑聊和任務(wù)型對(duì)話的生成式模型。

論文鏈接:https://arxiv.longhoe.net/abs/1706.08476

除此之外,每年大約有 5 篇頂會(huì)的論文發(fā)布,四年發(fā)了20多篇。

AI 科技評(píng)論:當(dāng)時(shí)的生成式對(duì)話與現(xiàn)在的 ChatGPT 相比,有什么區(qū)別?

趙天成:其實(shí)核心原理都差不多,都是自回歸模型預(yù)訓(xùn)練。最主要的區(qū)別在于 scale(量級(jí))上。比如,以前還沒(méi)有百億級(jí)的Transformer,那時(shí)用的是億級(jí)的 RNN;以前的訓(xùn)練數(shù)據(jù)可能是幾千萬(wàn)個(gè) Token,現(xiàn)在變成了幾萬(wàn)億個(gè)Token;以前的卡差不多是 8 塊 3090,現(xiàn)在是千塊 A100。

AI 科技評(píng)論:在學(xué)習(xí)的過(guò)程中,哪個(gè)重要的節(jié)點(diǎn)讓你的研究產(chǎn)生變化或者有很大的突破?

趙天成:AlphaGo 是很重要的一個(gè)節(jié)點(diǎn)。

剛到 CMU 的時(shí)候,導(dǎo)師 Maxine Eskenazi 和 Alan Black 他們做了當(dāng)時(shí)全球最早的實(shí)用化對(duì)話系統(tǒng)「Let‘s Go」,能夠?qū)崿F(xiàn)打電話詢問(wèn)公交車信息和訂票的功能,上世紀(jì) 90 年代到 21 世紀(jì)之初,大部分的對(duì)話類研究都是基于這個(gè)系統(tǒng)做的,但這個(gè)系統(tǒng)全部是靠專家規(guī)則拼出來(lái)的,是一群CMU 博士花了幾年時(shí)間才做出來(lái),而且和真正的應(yīng)用相比還有很大的距離,并且我們意識(shí)到這個(gè)系統(tǒng)智能上限很低。

2017 年,AlphaGo 出來(lái),我們認(rèn)為端到端學(xué)習(xí)肯定可以改變以前專家系統(tǒng)拼湊的方式,可以通過(guò)一套完整的學(xué)習(xí)機(jī)制去實(shí)現(xiàn)真正的智能體,于是就把整個(gè) Let’s Go 系統(tǒng)整體轉(zhuǎn)成了純生成式的,把專家系統(tǒng)用生成式模型做了替換。做這件事的初衷是覺(jué)得生成式模型的上限更高,想要做一些未來(lái)五年之后才能爆發(fā)的技術(shù),而不是去做成熟的技術(shù)。

AI 科技評(píng)論:楊植麟也是 CMU 畢業(yè)的,讀書(shū)期間你們是否有合作?

趙天成:會(huì)有合作交流,楊植麟比我小一屆,我跟楊植麟的導(dǎo)師 William W Cohen合作得也比較多。

AI 科技評(píng)論:你在 CMU 的導(dǎo)師是誰(shuí)?

趙天成:Maxine Eskenazi 是我的主導(dǎo)師,在對(duì)話和人機(jī)交互方向很有經(jīng)驗(yàn),特別是在如何做 research 方面對(duì)我的影響非常大,教會(huì)我如何去做具有引領(lǐng)性工作的 research。在碩士期間, Alan Black 是 co-advisor,但之后他的研究方向更偏語(yǔ)音合成,而我會(huì)偏深度學(xué)習(xí)NLP 更多。

除此之外,我博士期間的另一位合作導(dǎo)師 LP Morency。他在多模態(tài)領(lǐng)域是全球 TOP3,本身就是最早做多模態(tài)的頂級(jí)專家。他教會(huì)了我什么是多模態(tài)模型,特別是在視覺(jué)與語(yǔ)言融合這一塊給了我很多指導(dǎo)。讀博期間,甚至現(xiàn)在在聯(lián)匯的工作基本上都還是在當(dāng)時(shí)研究的大框架上去做延展。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)雷峰網(wǎng)

還有 William W Cohen(楊植麟的博士導(dǎo)師),他是谷歌的首席科學(xué)家,我做對(duì)話系統(tǒng)以及現(xiàn)在的多模態(tài)模型,很關(guān)鍵的一個(gè)問(wèn)題是怎么樣更好地把 knowledge base(知識(shí)庫(kù))構(gòu)建起來(lái),這部分他給我很多指導(dǎo)。

AI 科技評(píng)論:除了研究履歷外,還有哪些因素促使你在回國(guó)之時(shí)選擇多模態(tài)模型的方向創(chuàng)業(yè)?

趙天成:當(dāng)然。這也跟我們本身的商業(yè)基礎(chǔ)有關(guān)。聯(lián)匯科技是從媒體技術(shù)與服務(wù)起家的科技企業(yè),很大的一塊業(yè)務(wù)是服務(wù)于中央臺(tái)、浙廣集團(tuán)這樣的廣電媒體,并做到了行業(yè)第一,行業(yè)天然存在很多的多媒體數(shù)據(jù)。這些業(yè)務(wù)對(duì)我們初期做 PMF 有著很大的幫助。

另外一個(gè)因素是在客戶接受度層面,這些中央地方的廣電媒體對(duì)故障零容忍,對(duì)新鮮事物,比如AI技術(shù)的接受需要一個(gè)過(guò)程,而聯(lián)匯科技憑借過(guò)往過(guò)硬的技術(shù)實(shí)力,充分得到了這些“要求苛刻”的客戶的信任,得以使公司的多模態(tài)大模型能夠迅速商業(yè)化。

AI 科技評(píng)論:做好這個(gè)決定之后,在一個(gè) 20 年 2B 經(jīng)驗(yàn)的老公司推 AI 新業(yè)務(wù)的打法是什么樣的?

趙天成:首先把公司目標(biāo)進(jìn)行了重新的定義。從過(guò)去的「讓信息傳播推動(dòng)創(chuàng)新」改變成了「以智能去推動(dòng)創(chuàng)新」,大家以 all in AI 的態(tài)度去做整體的升級(jí)改造。

從整個(gè)步調(diào)來(lái)看,一開(kāi)始是從做理論研究到早期的基礎(chǔ)設(shè)施建設(shè),慢慢地一步一步到應(yīng)用產(chǎn)品。另一方面,幾年的時(shí)間下來(lái),團(tuán)隊(duì)也進(jìn)行了大升級(jí),更新成了更加年輕化的團(tuán)隊(duì)。構(gòu)建了以 AI 為核心,在幾個(gè)應(yīng)用點(diǎn)去落地產(chǎn)品這樣一個(gè)兩層的布局。

從產(chǎn)品化、商業(yè)化來(lái)看,還是要穩(wěn)扎穩(wěn)打的。(我們)重點(diǎn)投資了大模型基礎(chǔ)設(shè)施建設(shè),完善了大模型落地的工具平臺(tái),然后到后面一步一步去做應(yīng)用層的開(kāi)發(fā)。

商業(yè)化的過(guò)程也是先以存量市場(chǎng)應(yīng)用升級(jí)為第一步,然后慢慢去打造 AI 原生應(yīng)用作為第二步,實(shí)現(xiàn)“兩步走”的策略。

AI 科技評(píng)論:馬博士,從投資機(jī)構(gòu)的角度,如何看待聯(lián)匯在那個(gè)時(shí)間節(jié)點(diǎn)選擇走的偏理解的多模態(tài)模型之路?

馬駿:我認(rèn)為這是一種反共識(shí)做法。2022 年,GPT4V 還沒(méi)有發(fā)布,并沒(méi)有很多人做多模態(tài)創(chuàng)業(yè),市面上更多是在關(guān)注大語(yǔ)言模型,看到聯(lián)匯的時(shí)候會(huì)感受到差異化和眼前一亮。

從商業(yè)化的角度去考慮,生成式模型逃不開(kāi)的制約因素就是幻覺(jué)問(wèn)題。傳統(tǒng)的生成式模型的準(zhǔn)確性偏差是一些商業(yè)化場(chǎng)景所不能容忍的,那么這個(gè)時(shí)候如果能不過(guò)分強(qiáng)調(diào)生成,而是強(qiáng)調(diào)理解,就可以很巧妙地避開(kāi)幻覺(jué)問(wèn)題,算是揚(yáng)長(zhǎng)避短吧。

AI 科技評(píng)論:聯(lián)匯科技的趙凡總有著 20 年 2B 業(yè)務(wù)的經(jīng)驗(yàn),趙天成博士又有頂尖科研經(jīng)歷,你怎么看待這種「互聯(lián)網(wǎng)老兵+天才少年」的創(chuàng)業(yè)組合?

馬駿:第一就是在整個(gè)產(chǎn)品和研發(fā)的路徑上,趙凡總對(duì)產(chǎn)品的把控都是很貼近客戶需求的,真的是能在場(chǎng)景里面能解決問(wèn)題的,所以能保證技術(shù)、場(chǎng)景、產(chǎn)品三者達(dá)到很好的匹配,這也就意味著整體的試錯(cuò)成本會(huì)比較低,這是我們非??粗氐囊稽c(diǎn)。

第二,聯(lián)匯科技作為一家大模型公司,工具鏈做得非常齊全??梢钥吹?,其實(shí)大模型想要在場(chǎng)景上落地,它不單單只是模型,還包括如何去做推理的加速,或者和硬件綁定所需的智能體的工具鏈。這一點(diǎn)在最早接觸的時(shí)候,市面上沒(méi)有太多公司意識(shí)到如何去做一家全面的、端到端落地的公司。

所以這種老少搭配,第一在場(chǎng)景上不會(huì)出問(wèn)題,第二就是他們明白如何做一家全面的公司,而不是單純的技術(shù)團(tuán)隊(duì),只在單點(diǎn)上做突破。因?yàn)槲覀兝斫庾鰡吸c(diǎn)突破,在現(xiàn)在的市場(chǎng)環(huán)境上是遠(yuǎn)遠(yuǎn)不夠的,你的壁壘或者護(hù)城河是無(wú)法靠單點(diǎn)來(lái)維持的,開(kāi)源模型天天在卷,僅靠模型來(lái)做一個(gè)壁壘是不夠的。

AI 科技評(píng)論:聯(lián)匯科技有哪些特點(diǎn)是吸引你的?

馬駿:聯(lián)匯的商業(yè)化做得很穩(wěn)。現(xiàn)在做業(yè)務(wù)側(cè)的 AI 公司大致有兩類:

一類是大模型公司直接去做業(yè)務(wù),他們的問(wèn)題就是場(chǎng)景還不聚焦,他們更希望用標(biāo)準(zhǔn)化的產(chǎn)品服務(wù)各種場(chǎng)景,而對(duì)于業(yè)務(wù)理解的深度不夠,可能導(dǎo)致客戶不滿意;

第二類是集成商,他們拿著開(kāi)源模型改一改,倒是可以交付,但無(wú)法深入,也不是長(zhǎng)久之計(jì)。

我們可以看到各個(gè)行業(yè)的企業(yè)數(shù)字化進(jìn)程是不可逆的,這個(gè)時(shí)候陪伴客戶成長(zhǎng)反而是更重要的,拋開(kāi)技術(shù)的壁壘,聯(lián)匯科技一直在陪伴客戶成長(zhǎng),這方面他們很有經(jīng)驗(yàn)。


二、在約束條件下最大化商業(yè)成果

AI 科技評(píng)論:聯(lián)匯在技術(shù)上有哪些突破?

趙天成:從模型層面,歐姆大模型是國(guó)內(nèi)最早發(fā)布的多模態(tài)模型系統(tǒng),最大的突破在于對(duì)視頻的理解能力增強(qiáng)。過(guò)去的 CV 更多的是單圖理解,但聯(lián)匯顛覆了傳統(tǒng)單圖理解的局限。

從智能體的角度來(lái)看,目前聯(lián)匯推出的智能體,都是以自研框架實(shí)現(xiàn)的,并且在解決智能體端到端優(yōu)化的問(wèn)題上,開(kāi)發(fā)了獨(dú)特的算法。

除了技術(shù)迭代之外,聯(lián)匯今年有多個(gè)智能體應(yīng)用在運(yùn)營(yíng)商、電力、媒體等行業(yè),實(shí)現(xiàn)了規(guī)?;纳虡I(yè)落地應(yīng)用。后續(xù)我們也將根據(jù)實(shí)際用戶反饋去進(jìn)一步優(yōu)化系統(tǒng),這有著非常大的價(jià)值,使雙方能迅速形成“數(shù)據(jù)飛輪”。

AI 科技評(píng)論:吳恩達(dá)在最近的演講中呼吁大家多關(guān)注智能體技術(shù),你怎么看待智能體技術(shù)的發(fā)展方向?

趙天成:我非常認(rèn)同吳恩達(dá)所提到的幾個(gè)點(diǎn),智能體未來(lái)有四個(gè)比較有價(jià)值的方向:

第一,怎么做智能體的反思;

第二,如何讓智能體像人一樣學(xué)會(huì)用工具去完成任務(wù);

第三,智能體的規(guī)劃能力,它不再局限于單輪的決策,而可以自己把整個(gè)行動(dòng)路線設(shè)想出來(lái);

第四,多智能體的協(xié)同,即面對(duì)復(fù)雜任務(wù)時(shí),讓多個(gè)角色的智能體協(xié)同起來(lái)完成任務(wù)。

綜合來(lái)講,我認(rèn)為大模型越來(lái)越像底層的一個(gè)算子,就像一個(gè) CPU 一樣,但真正顛覆我們?nèi)粘I畹氖?Windows 這一操作系統(tǒng)。一個(gè)好的智能體框架可以讓 GPT-3.5 的效果大幅度超過(guò) GPT-4。把智能體用好之后,可以讓一個(gè)相對(duì)來(lái)說(shuō)沒(méi)那么強(qiáng)的模型反而能夠超過(guò)目前最強(qiáng)的模型。同樣的技術(shù)用在 GPT 4 上的話,那它可能就變得更強(qiáng)了。

AI 科技評(píng)論:半年多的時(shí)間以來(lái),很多大模型公司都在說(shuō)做 Agent,目前 Agent 發(fā)展處于什么階段?

趙天成:非常初期的階段。現(xiàn)在很多比較熱的智能體技術(shù),或者所謂的框架,其實(shí)很多時(shí)候都是換湯不換藥的。

10 年前,我們叫任務(wù)驅(qū)動(dòng)對(duì)話系統(tǒng),或者再往后走,他們可能叫 Conversational AI,他們本質(zhì)來(lái)說(shuō)完全是一個(gè)東西,只是換了一個(gè)名字而已。包括現(xiàn)在比較火的 RAG,在 2017 年左右就有很多人在做類似的東西。他們都是僅僅把大模型和外部知識(shí)庫(kù)做了連接,然后去做應(yīng)用,后續(xù) agent 技術(shù)還有很大的發(fā)展空間。。

AI 科技評(píng)論:馬博士,2024 年或者之后,你會(huì)著重去看智能體相關(guān)的項(xiàng)目嗎?

馬駿:是的,從智能體出發(fā),看一些AI公司的發(fā)展歷程,引起了我們的一個(gè)反思:比如像 AI 四小龍這樣的公司,前期的時(shí)候在模型能力、技術(shù)上可能會(huì)比較領(lǐng)先,但是經(jīng)過(guò)七年左右的變化,等到新的底層技術(shù)出現(xiàn)的時(shí)候反過(guò)來(lái)再看,會(huì)發(fā)現(xiàn)他們前幾年在模型算法上的壁壘可能就沒(méi)有那么深了。也就是說(shuō)單純靠模型算法無(wú)法為企業(yè)構(gòu)筑足夠高的壁壘。

那么,企業(yè)怎么才能持續(xù)把自己的壁壘搭建得堅(jiān)實(shí)起來(lái)?設(shè)想在五年之后,行業(yè)內(nèi)又出現(xiàn)了一個(gè)全新的模型架構(gòu),那現(xiàn)在這一波企業(yè)應(yīng)該怎么辦?企業(yè)該如何保持自己的壁壘?又該如何轉(zhuǎn)型?

基于這一點(diǎn)的考慮,我覺(jué)得智能體比較重要,它更多是偏向于對(duì)業(yè)務(wù)場(chǎng)景中一個(gè)系統(tǒng)的搭建,而不是一個(gè)單點(diǎn)模型的突破。因?yàn)榈讓拥哪P涂梢缘?,但是框架部分是比較確定的。所以我們認(rèn)為,像這種框架式的智能體,反而在未來(lái)是可以活得比較長(zhǎng)的。而且在企業(yè)真正到了面臨轉(zhuǎn)型期的時(shí)候,擁有這方面的壁壘反而比單純只是做模型的壁壘要更深。

AI 科技評(píng)論:多模態(tài)模型的商業(yè)化機(jī)會(huì)在哪?

趙天成:一方面我們可以把人類不想做的一系列繁瑣的任務(wù)實(shí)現(xiàn)自動(dòng)化,實(shí)現(xiàn)從 copilot 到 autopilot ,去重構(gòu)之前信息化時(shí)代的系統(tǒng),諸如 Office 或 ERP 。在 AI 時(shí)代,我覺(jué)得 AI 原生應(yīng)用很可能會(huì)顛覆這些傳統(tǒng)的服務(wù)和模式。

另一個(gè)方面,過(guò)去大量的行業(yè)知識(shí),都是存儲(chǔ)在個(gè)人的大腦里面,但目前有可能通過(guò) AI 把所有知識(shí)以行業(yè)為單位進(jìn)行沉淀,比如在電力領(lǐng)域或者媒體領(lǐng)域,把很多的老師傅的知識(shí)吸收進(jìn)一個(gè)模型中,打造一個(gè)不斷進(jìn)化的 AI 行業(yè)專家。

AI 科技評(píng)論:趙博士,聯(lián)匯為什么選擇做 2B ?

趙天成: 2B 還是做 2C,是分階段的,我們的戰(zhàn)略是先 2B 夯實(shí)公司底座,再 2C 拓展公司上升空間。

具體來(lái)說(shuō), 2C 業(yè)務(wù)對(duì)成本比較敏感,而當(dāng)前階段,大模型的推理成本還比較高,而且這一狀況目前很難改變,除非再過(guò)幾年算力資源價(jià)格發(fā)生了變化,可能會(huì)降低成本;同時(shí) 2C 商業(yè)化變現(xiàn)路徑還不清晰;再次,2C 行業(yè)競(jìng)爭(zhēng)是扁平化、白熱化的。

我們認(rèn)為要打好公司的 2B 底座,修煉好內(nèi)功,積攢好經(jīng)驗(yàn)、人才、必要的資金,以一個(gè)更加良性的模式去參與 2C 的競(jìng)爭(zhēng),有可能初期是通過(guò)爆款細(xì)分領(lǐng)域的硬件+多模態(tài)大模型的形式切入。所以現(xiàn)在我們是以 2B 為主,大 B 相對(duì)來(lái)說(shuō)有能力去承擔(dān)數(shù)字化升級(jí)的算力成本。

在目前階段雖然還沒(méi)有辦法做大規(guī)模 2C 業(yè)務(wù) ,但是我們通過(guò)跟運(yùn)營(yíng)商合作,用「B2B2C」的方式做 2C 業(yè)務(wù),培養(yǎng) 2C 的商業(yè)sense,為將來(lái)正式切入 2C 市場(chǎng)積累經(jīng)驗(yàn)、人才。比如跟中國(guó)移動(dòng)合作,通過(guò)寬帶+AI套餐的方式去服務(wù)廣大的 C 端客戶,這樣更適合當(dāng)下的現(xiàn)狀。

馬駿:目前看到的2B 業(yè)務(wù)有兩類,第一類就是來(lái)什么客戶去接什么客戶,是一種高度定制化業(yè)務(wù),另一類就是有很強(qiáng)的行業(yè)屬性,摸清一個(gè)行業(yè)客戶的共性需求,然后用標(biāo)準(zhǔn)固化的產(chǎn)品去服務(wù)這個(gè)行業(yè)的客戶,換個(gè)詞可能叫 2P(Platform)更合適。

聯(lián)匯更加傾向于后者。只有扎根于某個(gè)行業(yè),然后這個(gè)把這個(gè)行業(yè)做透,才能形成比較好的標(biāo)準(zhǔn)化,而不是刻意為了前期做收入,就什么客戶都接。這里有一個(gè)很好的印證就是,聯(lián)匯科技的毛利率水平很高,這也就反映出來(lái)它輸出的更多還是標(biāo)準(zhǔn)化產(chǎn)品。

AI 科技評(píng)論:聯(lián)匯科技是如何在當(dāng)下其他家連 PMF 都沒(méi)做好的情況下就能做到很高的商業(yè)化營(yíng)收?

趙天成:理解用戶需求、理解行業(yè)痛點(diǎn),這是非常重要的前提。

更重要的是,要把整體的節(jié)奏把握好。一方面我們要對(duì)今后的重點(diǎn)技術(shù)方向進(jìn)行提前投入,保證在底層技術(shù)領(lǐng)域領(lǐng)先市場(chǎng)一步甚至兩、三步,但是對(duì)于商業(yè)化產(chǎn)品,我們基本上會(huì)保持領(lǐng)先 0.5 步,而不會(huì)把步子邁得太大。因?yàn)樵谑袌?chǎng)還沒(méi)有成熟的時(shí)候,去硬推一個(gè)可能兩三年之后才會(huì)成熟的產(chǎn)品,很可能會(huì)成為市場(chǎng)驗(yàn)證的犧牲品。因此,我們基本上是按照技術(shù)領(lǐng)先又產(chǎn)品落地的方式去做。

AI 科技評(píng)論:馬博士,從投資人的角度,你會(huì)更加看好 2B 還是 2C 的商業(yè)路線?

馬駿:這個(gè)可能要分時(shí)間維度,短期會(huì)青睞 2B,長(zhǎng)期對(duì)于 2C 還是看好的,一個(gè) 2C 產(chǎn)品首先還是要有極致的產(chǎn)品力,其次成本也很重要,如果短期內(nèi)沒(méi)有達(dá)到成本拐點(diǎn)的話很難讓用戶為 2C 產(chǎn)品付錢,會(huì)叫好不叫賣。

假設(shè)說(shuō),現(xiàn)在要從一個(gè)沒(méi)什么差異化的 2C 的聊天機(jī)器人上收費(fèi),那很有可能有些人會(huì)選擇直接用 OpenAI ,因?yàn)樗阅芨鼜?qiáng),而且價(jià)格也不算太貴。除非 2C 產(chǎn)品有非常差異化的產(chǎn)品力,讓用戶覺(jué)得好用,要不然的話就是成本足夠低,付很低的費(fèi)用甚至是不收費(fèi)。


三、Sora 向左,Gemini 向右

AI 科技評(píng)論:目前國(guó)內(nèi)外多模態(tài)模型發(fā)展的格局大致是什么樣的?

趙天成:我理解目前國(guó)內(nèi)做多模態(tài)有兩條路:

一條路像 Gemini,以語(yǔ)言為核心,在此基礎(chǔ)上把感知層面的音頻、視頻、圖像接進(jìn)去;

另一條路是 Sora 的路線,以視頻生成和渲染為主,目的在于能夠生成出主體一致、畫(huà)面高清逼真的視頻。

這兩條路技術(shù)架構(gòu)完全不一樣,Gemini 是以多模態(tài) Transformer 為主,但 Sora 是以 DIT 的路線為主。

按照這樣的方式來(lái)劃分,國(guó)外的 Pika、Runway,國(guó)內(nèi)的生數(shù)科技、Hidream、愛(ài)詩(shī)科技等都是走的類似 Sora 的多模態(tài)生成路線。聯(lián)匯科技會(huì)更接近于 Gemini ,因?yàn)槲覀兊哪抗膺€是更多放在智能體上,更關(guān)注模型的推理思考和 planning 能力,這種能力的重點(diǎn)和目的并非把一幅畫(huà)逼真地畫(huà)出來(lái)。

AI 科技評(píng)論:目前生成式多模態(tài)模型的商業(yè)化現(xiàn)狀是什么樣的?

馬駿:Sora 為代表的視頻生成公司,目前我還沒(méi)有看到特別好的商業(yè)化案例。

AI 生成的視頻是否有商業(yè)價(jià)值,這個(gè)暫時(shí)不好判斷。以影視業(yè)為例,多模態(tài)生成模型服務(wù)于B端客戶,需要能不能把生成的內(nèi)容植入到原有的業(yè)務(wù)流程里,或者植入到他原來(lái)的工作軟件里。我個(gè)人覺(jué)得,這可能是短期內(nèi)比較有價(jià)值的事情。

我們也看到, 生成視頻相關(guān)的C 端產(chǎn)品具有很強(qiáng)的傳播力,我個(gè)人覺(jué)得它還是會(huì)兌現(xiàn)出很大的價(jià)值,就能很快做出一些爆款。

AI 科技評(píng)論:聯(lián)匯這樣做技術(shù)和商業(yè)化的方式,對(duì)標(biāo)的是哪家公司?

趙天成:聯(lián)匯科技會(huì)比較接近硅谷的一家公司叫 Cohere。Cohere 在做的事情是給歐美的大型企業(yè)提供完整的大模型底座和以它為基礎(chǔ)的、降本增效的智能體應(yīng)用。

在做多模態(tài)模型創(chuàng)業(yè)的過(guò)程中,我們會(huì)比較關(guān)注整個(gè)商業(yè)化 ROI 的情況是什么樣的?可能 OpenAI 做 AGI,會(huì)不計(jì)任何成本的、每年燒幾千個(gè)億去做 ,而國(guó)內(nèi)不行。我們需要做的是在目前的限定條件下,最大化大模型技術(shù)的商業(yè)化 ROI,那限定條件可能包括客戶場(chǎng)景、當(dāng)前國(guó)內(nèi)硬件條件等,而從公司已經(jīng)商業(yè)化落地的項(xiàng)目看,這一限定條件下的最大化大模型技術(shù)路線收到了客戶的一致好評(píng)。

AI 科技評(píng)論:Scaling Law 可能是實(shí)現(xiàn) AGI 的路徑之一。當(dāng) OpenAI 在去追求 10 萬(wàn)億或者更大參數(shù)模型的時(shí)候,其他大模型公司的競(jìng)爭(zhēng)力在哪?

趙天成:雖然把參數(shù)堆上去沒(méi)問(wèn)題,數(shù)值堆得越高效果越好。但其實(shí)在 B 端場(chǎng)景下面,即便真的推出一個(gè) 10 萬(wàn)億的模型,也不會(huì)有任何一個(gè) B 端客戶會(huì)愿意為它買單,因?yàn)闆](méi)有客戶能夠承擔(dān)它的算力成本。

在創(chuàng)業(yè)過(guò)程中,除了以純粹以研究者的想法追求模型性能外,我們也會(huì)把整個(gè)公司的運(yùn)營(yíng)當(dāng)成一個(gè)「在約束條件下最大化商業(yè)成果」的一個(gè)優(yōu)化問(wèn)題。在當(dāng)前商業(yè)化過(guò)程中,我們把產(chǎn)品的競(jìng)爭(zhēng)力和服務(wù)做到最好,把模型的效率做到最高,并隨著未來(lái)硬件環(huán)境的提升逐步進(jìn)步,每個(gè)階段我們都可以提供性價(jià)比最高的大模型和智能體產(chǎn)品,我覺(jué)得這反而是更具競(jìng)爭(zhēng)力的。

AI 科技評(píng)論:如何做到「在約束條件下最大化商業(yè)成果」?

趙天成:這需要我們不斷追求高效,而聯(lián)匯的高效體現(xiàn)在三個(gè)方面:

第一是數(shù)據(jù)高效,我們自己提出了一種高密度的數(shù)據(jù)訓(xùn)練方式,可以將更多的知識(shí)濃縮在相對(duì)更少的數(shù)據(jù)上面,用高效的算力去達(dá)到更好的效果。

第二是功能高效,以多模態(tài)原生訓(xùn)練作為核心,如果某個(gè)場(chǎng)景只需要有視頻的能力,那我們適配的多模態(tài)模型會(huì)原生地把它預(yù)訓(xùn)練在模型里面,給客戶提供他們想要的功能,而不會(huì)把算力資源浪費(fèi)在客戶并不關(guān)心的功能上面。

第三是推理高效,推理效率和成本是客戶使用的過(guò)程中最關(guān)心的。推理加速、模型量化、以更小的參數(shù)量獲得更大參數(shù)量才能達(dá)到的效果,這些都是我們研發(fā)的重點(diǎn)。

AI 科技評(píng)論:你怎么看待行業(yè)中卷參數(shù)量來(lái)大力出奇跡的現(xiàn)象?

馬駿:變現(xiàn)和卷參數(shù)是可以解耦的。從追求天花板的角度來(lái)說(shuō)的話,卷參數(shù)的意義是對(duì)標(biāo)到 OpenAI,這是很有想象力的事情的。但是從實(shí)際運(yùn)營(yíng)角度,成本也是必須考慮的重要因素,為什么大家都開(kāi)始做 MoE,就是考慮成本和落地。

AI 科技評(píng)論:過(guò)去的二十年,移動(dòng)互聯(lián)網(wǎng)是最大的一波紅利,現(xiàn)在大家也認(rèn)為這波人工智能浪潮和移動(dòng)互聯(lián)網(wǎng)有著一樣巨大的機(jī)會(huì),你怎么看?

趙天成:是的,隨著大模型的出現(xiàn),人工智能進(jìn)入了一個(gè)新的階段,可以說(shuō)跨過(guò)了一個(gè)拐點(diǎn),能夠真正實(shí)現(xiàn)普及應(yīng)用了,不管是日常生活還是生產(chǎn)制造領(lǐng)域都可以用AI來(lái)賦能。

而且,現(xiàn)在不管是中國(guó)還是美國(guó)都有明顯的生產(chǎn)制造行業(yè)的回流趨勢(shì),大家對(duì)制造業(yè)越來(lái)越重視,所以,怎么樣讓大模型或者 AI 技術(shù)更好地賦能傳統(tǒng)行業(yè),很可能是個(gè)很大的機(jī)會(huì)。無(wú)論是能源、制造、生產(chǎn),還是基礎(chǔ)科學(xué)研究, AI 有可能真正催生一些不一樣的東西。

AI 科技評(píng)論:也就是說(shuō)這一波 AI 更有機(jī)會(huì)作用于一些制造業(yè)或技術(shù)行業(yè)?

趙天成:現(xiàn)在大家都在問(wèn),AI 到底能干嗎?如果說(shuō)移動(dòng)互聯(lián)網(wǎng)最賺錢的是推廣告,那么在這一波 AI 又會(huì)有哪些新的爆發(fā)點(diǎn)?我認(rèn)為這次的大模型最大的特點(diǎn)是讓機(jī)器真正具有了邏輯思考能力,譬如它可能實(shí)現(xiàn)專業(yè)設(shè)備的自動(dòng)化運(yùn)維,甚至是發(fā)現(xiàn)更好的能源傳輸模式等,真正做到無(wú)人化、智能化,在這些方面可能會(huì)產(chǎn)生一些以前想不到的東西,這樣的話,這一波 AI 會(huì)對(duì)制造業(yè)和技術(shù)行業(yè)帶來(lái)重大變革,因此也有人說(shuō),這次AI浪潮是第四次工業(yè)革命。

AI 科技評(píng)論:當(dāng)下的環(huán)境對(duì)創(chuàng)業(yè)者并不友好,有什么可改進(jìn)的方式,怎么給創(chuàng)業(yè)者創(chuàng)造一個(gè)好的投資環(huán)境?

馬駿: AI 的 2C 應(yīng)用肯定是最大的機(jī)會(huì),它是離用戶最近的。但是這種應(yīng)用有多方面原因吧,第一上市的可能性可能不大,第二它的生命周期可能會(huì)變短,大家會(huì)迅速發(fā)現(xiàn)這個(gè)方向賺錢,然后一堆人擠進(jìn)來(lái)了,然后開(kāi)始內(nèi)卷了。為了應(yīng)對(duì)這一情況,可能需要更靈活地投資的方式。

因?yàn)槎?jí)市場(chǎng)的退出周期還是太長(zhǎng)了。那有沒(méi)有可能直接用類似于分紅的形式去投資?回歸到做生意的邏輯,比如有人做 AI 應(yīng)用,那么你需要多少錢我就投你多少錢,你賺到錢后,我們大家按比例分,這樣退出周期也快,并且可投的 AI 類型的公司也多。

在北美,因?yàn)橛幸粋€(gè)比較好的并購(gòu)渠道,(所以投資風(fēng)險(xiǎn)沒(méi)那么高)但是在國(guó)內(nèi)你沒(méi)有這么好的渠道,所以我個(gè)人覺(jué)得,目前怎么去退出是很大的問(wèn)題。從投資方式的反共識(shí)角度來(lái)講,也會(huì)誕生一些全新的機(jī)會(huì),或者全新的投資模式,也希望資本界和這個(gè)產(chǎn)業(yè)界去共同做一些創(chuàng)新性的突破。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

聯(lián)匯科技趙天成:從 CMU 天才少年,到多模態(tài)創(chuàng)業(yè)先行者

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)