0
本文作者: 陳淑瑜 | 2025-05-30 15:44 |
作者丨王悅
編輯丨陳彩嫻
上個月,字節(jié)跳動旗下 Agent「扣子空間」上線之初,曾經(jīng)一度被擠爆服務(wù)器,全網(wǎng)分享內(nèi)測碼。
經(jīng)過一個月時間的沉淀,AI 科技評論發(fā)現(xiàn)了扣子空間最新上線了一個新玩法—— 一鍵生成播客。
相比于主打任務(wù)規(guī)劃與執(zhí)行的通用 Agent,AI 播客 Agent 需要的能力確實更豐富,內(nèi)容理解、多模態(tài)融合、語音合成、情感表達(dá)、多角色模擬、對話邏輯等能力都不可或缺,這對多模態(tài)性能有很大挑戰(zhàn)。
市面上具備一鍵生成播客能力的 AI 產(chǎn)品并不多。谷歌 NotebookLM 的音頻功能也可以將用戶上傳的文檔、筆記、網(wǎng)頁等內(nèi)容轉(zhuǎn)換為一段類似播客的音頻對話,但目前在中文語音合成的自然度和情感表達(dá)上尚有不足,相比之下,扣子空間在中文語境中更有優(yōu)勢。
接下來一起實測一下扣子空間。
1、Agent 一鍵生成播客,比真人還絲滑
以 AI 科技評論發(fā)布的一篇對 Trans-N.ai 聯(lián)創(chuàng)孫又晗的專訪《前小馬智行孫又晗創(chuàng)立 Trans-N.ai,出海日本獲最大種子輪融資》為例,如果想把文字版的內(nèi)容對應(yīng)地轉(zhuǎn)化成兼具聲音、文字、圖片的完整的播客形式,則需要經(jīng)歷完整的生產(chǎn)流程。
在內(nèi)容上,需要創(chuàng)作者花費時間尋找創(chuàng)意和構(gòu)思腳本;在音頻制作上,則涉及硬件設(shè)備、剪輯軟件、實際錄制、手動剪輯、降噪處理等多個環(huán)節(jié),整個過程需要投入大量的時間和精力。
而如果用扣子空間打開這期播客,只需直接在對話框中輸入你的需求:請根據(jù)這篇文章生成一期播客,無需其他操作,即可一鍵獲得完整的播客內(nèi)容。
扣子空間生成的結(jié)果是:
首先必須要說的是,這段播客語音幾乎100%尊重原文文字,沒有出現(xiàn)胡編亂造的情況。其次,對話的 AI 主播語氣生動自然,對長句的拆分準(zhǔn)確,在轉(zhuǎn)折之處還能聽到情緒的變化。并且雙方問答的形式很自然,有對話感。
原鏈接:
https://space.coze.cn/web?uri=7509674506227892287%2F
面對幾千字的文字專訪,扣子空間能理解和生成效果生動自然的播客,大家也可以自己嘗試一下效果!如果上升一個難度,發(fā)送一個幾萬字的長文檔,并且語言相對學(xué)術(shù)、艱深,扣子空間又該如何應(yīng)對?
喂給扣子空間如下一篇論文,主題為《晚清天文學(xué)譯詞考察——以五種天文學(xué)譯著為中心》,共17頁PDF的篇幅,其中包含大量天文學(xué)專業(yè)術(shù)語:
論文鏈接:
https://wap.cnki.net/touch/web/Journal/Article/YWZS202404003.html
將這篇論文生成一期播客,扣子給出的答案是:
整段播客對話可以說是專業(yè)電臺主播的即視感。從內(nèi)容理解和表達(dá)方面,口語化表達(dá)平衡了學(xué)術(shù)內(nèi)容的嚴(yán)肅感,且邏輯清晰,循序漸進(jìn)地探討了譯詞的特點、來源、演變及研究意義,信息密度高。AI 男女主播問答配合自然,語氣輕松。
原鏈接:https://space.coze.cn/s/gVBbqAmdDNI/
跳出專業(yè)性強(qiáng)的內(nèi)容,如果是生活化、輕松的通用話題,扣子空間能否準(zhǔn)確get到五花八門的prompt要求,并生成富有表現(xiàn)力的內(nèi)容。
喂給扣子空間如下一篇小紅書筆記,要求根據(jù)這篇筆記生成一個“彩虹屁“播客。
扣子空間生成了如下播客:
拌面天才的故事,AI科技評論,1分鐘
這段音頻中,不僅尊重了字?jǐn)?shù)有限的小紅書文案,還能自動合理化生成一些非原文的內(nèi)容,如男主播調(diào)侃“這話題聽著就餓”,更加貼合人類語境。而且,音頻對話節(jié)奏明快,符合播客的娛樂屬性,營造了人類主播的氛圍感。
原鏈接:
https://space.coze.cn/task/7509671279084535819
再上升一個難度,讓扣子空間圍繞“2025端午節(jié)龍舟賽”這樣的實時熱點話題,生成一期新聞熱點的時評播客:
從實時熱點的內(nèi)容捕捉上來看,扣子空間能捕捉到南昌國際賽、深圳福田邀請賽等賽事,信息豐富且數(shù)據(jù)翔實。并且,AI主播在講解時的表現(xiàn)富有感染力,語氣詞的增加也跟自然擬真。
原鏈接:
https://space.coze.cn/task/7509769633264795699
2、不止「一鍵生成播客」
經(jīng)過數(shù)十個案例的測評,AI 科技評論發(fā)現(xiàn),扣子空間的能力并不局限于一鍵生成播客,它更像是一個,精通各項技能的「通用實習(xí)生」,并且這個「實習(xí)生」背后有各行各業(yè)的專家作為支持,無論是在生活、學(xué)習(xí)還是工作場景,扣子空間都能專業(yè)、及時地響應(yīng)你的個性化需求。
Agent 搜圖
AI 圖像處理技術(shù)雖然在現(xiàn)階段已被大量使用,但在特定場景下生成的圖片仍存在「AI味兒」過重、與文字搭配不自然、與真實場景差距大、無法滿足嚴(yán)肅創(chuàng)作需求的問題。最終,不得不手工使用搜索引擎,一張一張地去尋找與需求相關(guān)的圖片
扣子空間的 Agent 搜圖能力則更全面、準(zhǔn)確。輸入prompt:寫一篇詳細(xì)的烏蘭察布的旅游指南,重點介紹值得一去的景點和當(dāng)?shù)氐奶厣朗?,要求圖文并茂。得到的答案是:
在這份攻略中,美食、美景圖片能夠和文字準(zhǔn)確對應(yīng)??圩涌臻g不僅能夠在海量的圖片資源中搜到高質(zhì)量的真實圖片,還具備強(qiáng)大的視覺理解能力,準(zhǔn)確地理解每張圖片所包含的內(nèi)容。
再拿云南毒蘑菇宣傳科普文為例,要將毒蘑菇圖片和文字介紹準(zhǔn)確對應(yīng),扣子空間給出的結(jié)果是:
點擊查看完整內(nèi)容:
https://space.coze.cn/task/7509763333772394535
不僅圖片和文字對應(yīng)正確,扣子空間生成的內(nèi)容更全面,共給出了39種蘑菇圖片和介紹。
深度分析、多種形式呈現(xiàn)能力
工作或?qū)W習(xí)過程中,針對某一話題展開調(diào)研是常見需求,通常需要快速針對某一事件進(jìn)行調(diào)研、收集海量信息,再條理清晰地呈現(xiàn)出來。
例如,電商運營場景中,將特定產(chǎn)品在某電商平臺的1000條用戶評論給到扣子空間,要求進(jìn)行深度分析,用可視化的方式呈現(xiàn),得到的結(jié)果是:
再拋給扣子空間一個數(shù)十頁 PDF 的智能眼鏡訪談記錄文檔:
提出的需求僅為“幫我總結(jié)訪談記錄”,無需進(jìn)行更多的交互,扣子空間就能輸出如下結(jié)果:
完整結(jié)果可查看:
https://space.coze.cn/share/7494547494739640339?share_id=7494545764463558696&secret=DCttdruU&from=landingpage
在這兩個案例中,扣子空間既能快速地處理海量文檔,同時也能用多種圖表的多種方式進(jìn)行呈現(xiàn),起碼完成 80% 的任務(wù)。
無門檻寫代碼、開發(fā)工具
扣子空間能幫助小白用戶寫程序、代碼,隨心所欲打造生活場景中的小工具。
以開發(fā)一個健康營養(yǎng)計算器為例,在扣子空間中輸入prompt:幫我寫一個程序,讓用戶輸入身高體重年齡性別,這些值最好是讓用戶自己輸入,不要給默認(rèn)值,然后計算出基礎(chǔ)代謝,最好這個值計算之后可以人為去修改。
在這一過程中,開發(fā)者在扣子空間進(jìn)行了多輪調(diào)優(yōu),完整交互過程:https://space.coze.cn/share-coding-expert/7504570762884956199
扣子空間呈現(xiàn)的是:
最終效果可點擊鏈接進(jìn)行體驗:
https://space.coze.cn/coding-expert-runtime/23316497154
在這一過程中,扣子空間能夠自主規(guī)劃開發(fā)任務(wù)、智能生成優(yōu)質(zhì)代碼、自動進(jìn)行完整測試,還能根據(jù)開發(fā)者需求精準(zhǔn)修改代碼。
多種實用網(wǎng)站開發(fā)
扣子空間也能幫助非技術(shù)人員,自行開發(fā)出高質(zhì)量的多種類型網(wǎng)站,如游戲網(wǎng)站、機(jī)構(gòu)官方網(wǎng)站、教學(xué)互動網(wǎng)站。
以游戲網(wǎng)站為例,prompt 的要求是:幫我做一個治愈島·心靈小憩小網(wǎng)站,具體圖片使用給定鏈接,整體風(fēng)格偏治愈系和可愛。旨在放松身心,鼓舞人心,每一個畫面的大小請自動調(diào)節(jié)到適應(yīng)不同設(shè)備。
完整交互過程可參考:
https://space.coze.cn/share-coding-expert/7505408659062112292
可點擊鏈接進(jìn)行體驗:
https://space.coze.cn/coding-expert-runtime/50873856770
工作場景中制作小而美的交互性網(wǎng)站,扣子空間也能輕松拿捏。
輸入prompt:請根據(jù)高中物理必修2的拋物線運動,總結(jié)不同題型,設(shè)計一個html語言的教學(xué)演示。必要的結(jié)果需包括:手動設(shè)置初速度、角度、重力加速度、風(fēng)力,演示過程中要留下拋物線痕跡(虛線)。請你再分析不同情況,完善需求,制作 html。得到的結(jié)果是:
、
完整效果可查看:
https://space.coze.cn/coding-expert-runtime/213626924546
3、結(jié)語
縱觀市面上的 Agent 操作系統(tǒng),一類是通用型 AI 智能體,主打任務(wù)規(guī)劃與執(zhí)行、信息收集與處理、自主操作能力;另一類是低代碼或無代碼開發(fā)平臺型 Agent,主打降低開發(fā)門檻,讓普通用戶也能快速構(gòu)建定制化智能體。字節(jié)的扣子空間則兼具了通用能力和低代碼、易開發(fā)的特點。
扣子空間生產(chǎn)力的進(jìn)一步提升,加之專家Agent生態(tài)的加持、集成MCP后的能力邊界拓展,都讓其更加成為工作、學(xué)習(xí)、生活的最佳AI拍檔。
而一個強(qiáng)大的Agent背后,是多模態(tài)能力和推理能力在支撐。
扣子空間「一鍵生成播客」能力的表現(xiàn),既凸顯了字節(jié)在多模態(tài)方面的強(qiáng)勢,也展現(xiàn)了字節(jié)在 Agent 這一賽道的產(chǎn)品化、工程化實力。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。