0
| 本文作者: 鄭佳美 | 2025-11-21 11:46 |
在人工智能競爭全面升溫的當(dāng)下,Gemini 3 的登場無疑再次把 Google 推上了聚光燈的中心。
這一代模型上線后也是迅速引發(fā)技術(shù)圈熱議,無論是推理、多模態(tài)處理,還是工具調(diào)用的穩(wěn)定性,都展現(xiàn)出顯著的提升,被許多人視為 Google 近年最穩(wěn)健、最成熟的一次升級。
在熱度持續(xù)攀升的同時,Google DeepMind CEO 德米斯·哈薩比斯接受了一場訪談,系統(tǒng)談起了 Gemini 3 背后的研發(fā)過程,并談到團隊正在推進的能力、內(nèi)部仍處于原型階段的方向,以及 Google 心中下一代智能體的樣貌。
隨著訪談逐步展開,話題從模型能力的強化延伸到更具前瞻性的主題,包括記憶與個性化系統(tǒng)、工具級代理的應(yīng)用方式、Antigravity 在開發(fā)生態(tài)中的定位、內(nèi)部高成本模型的試驗現(xiàn)狀,以及多模態(tài)在醫(yī)學(xué)與科研領(lǐng)域的潛在價值等,細(xì)節(jié)中透露著 Google 內(nèi)部對模型演進的真實判斷。
對此,AI 科技評論將訪談內(nèi)容做了不改變原意的編譯:

播客地址:https://podcasts.apple.com/us/podcast/the-state-of-ai-with-rowan-cheung/id1689006106
主持人:Dennis,非常感謝你在百忙之中抽出時間來和我們對談。今天我們想把焦點放在 Gemini 3,也就是 Google 目前最先進的旗艦?zāi)P蜕?。如果只能用一句話概括,你認(rèn)為這次發(fā)布的意義究竟體現(xiàn)在哪里?
哈薩比斯:如果只能說一句話,我會認(rèn)為它的重要性在于,它延續(xù)并進一步強化了過去幾年 Gemini 一直堅持的技術(shù)發(fā)展方向。這一代模型在整體表現(xiàn)上的進步讓我們非常振奮。
我相信用戶在實際使用時也會相當(dāng)意外,因為從各種基準(zhǔn)測試到不同類別的任務(wù),我們幾乎在每一方面都看到全面提升,包括推理能力、工具使用的穩(wěn)定性與可靠性、語言表達(dá)的準(zhǔn)確度與創(chuàng)造力等,每個維度的加強都十分顯著。
主持人:假如我們把時間撥回到 Gemini 2.5 發(fā)布的那一刻,再和現(xiàn)在的 Gemini 3 相比,這段時間里出現(xiàn)了什么關(guān)鍵突破,使得模型在基準(zhǔn)測試中達(dá)到了如今的水平?
哈薩比斯:我們在許多層面投入了巨大的努力。2.5 作為前一代模型已經(jīng)非常成熟,不論是在開發(fā)者生態(tài),還是在各類 Gemini 應(yīng)用中的表現(xiàn)都相當(dāng)令人滿意。不過我們并不滿足于此,在許多核心能力上仍希望繼續(xù)前進。
例如工具調(diào)用的準(zhǔn)確度、使用過程的一致性與穩(wěn)健性,這些都是用戶極為依賴的部分。對編程和技術(shù)工作者而言,這類能力直接決定體驗質(zhì)量,同時對一般推理任務(wù)和日常用戶的使用也有極強的影響。
除此之外,我們也花了很多時間去優(yōu)化模型的風(fēng)格、表達(dá)方式以及人格特質(zhì)。我們希望它的對話風(fēng)格能更加直接、更加清晰,也更專注于用戶真正的需求,同時又能讓人感到自然可信。
根據(jù)內(nèi)部的廣泛測試,新版本的模型在交流體驗上比以往更輕松愉快,許多測試者表示愿意與它保持更長時間的互動,因為新的表達(dá)方式更貼近真人交流。
主持人:在編程和推理方面的提升確實很突出。但對那些并非開發(fā)者的普通用戶來說,他們已經(jīng)習(xí)慣了以往的 Gemini,用了新的版本后他們會突然發(fā)現(xiàn)哪些今天還無法做到的事情呢?
哈薩比斯:這要看每位用戶的具體使用方式,不過在我們覆蓋不同領(lǐng)域的測試中,幾乎所有類型的體驗都出現(xiàn)質(zhì)的躍升。舉例來說,如果你用它進行頭腦風(fēng)暴,它會提供更加多樣、更加精準(zhǔn),也更符合語境的建議。
在編寫代碼時,它能更迅速掌握你的意圖,也能更可靠地處理復(fù)雜邏輯,從而減少來回溝通。在創(chuàng)意寫作、文本潤色、材料總結(jié)和日常輔助等常見任務(wù)里,新的模型不僅在準(zhǔn)確度上明顯提高,語言的自然度和流暢度也大幅增強,整體給人一種智慧水平明顯上升的感覺。
在交流風(fēng)格上,新的模型更加自然,回應(yīng)的節(jié)奏更像人與人之間的真實對話。在工具使用方面,你會感覺它在后臺處理的步驟更多也更細(xì)致,對于搜索等工具的運用更加恰到好處,而隨著工具調(diào)用的穩(wěn)定度與可靠性顯著提升,呈現(xiàn)給用戶的最終內(nèi)容也更加準(zhǔn)確可信。
總的來說,如果你是一般的 Gemini 用戶,你會很直觀地感受到它在各個方面都變得更強、更聰明、更好用,也會更愿意讓人持續(xù)與它保持對話,因為它帶來的整體體驗更順暢,也更令人信賴。
主持人:我注意到這次的發(fā)布信息中并沒有特別提到記憶功能,這一點讓我格外好奇。Google 在跨產(chǎn)品生態(tài)上的優(yōu)勢非常明顯,從 Gmail 到 YouTube,再到地圖和其他服務(wù),你們擁有海量用戶數(shù)據(jù)和極大潛力的整合空間。
坦白說,如果要找一個最能吸引我持續(xù)使用 ChatGPT 的理由,那就是它近期加入的小型記憶功能,這對我個人體驗的提升非常顯著。那在 Gemini 的長期規(guī)劃里,你們對于類似能力的推進是如何思考的?
哈薩比斯:我們目前在個性化、記憶能力以及長期上下文理解這幾個方向上都投入得非常深入。我認(rèn)為這會是我們進入 Gemini 3 時代之后的核心主題之一,換句話說,我們正集中力量強化這些能力,并會在接下來逐步展示更多實際進展。隨著 Gemini 3 系列進一步完善,你會看到我們在這些領(lǐng)域展開更多討論與揭示。
當(dāng)然,現(xiàn)在亮相的還只是模型家族的一部分,未來還會繼續(xù)擴展。我們已經(jīng)在模型內(nèi)部預(yù)置了許多能力與潛在結(jié)構(gòu),會在之后逐步向用戶和開發(fā)者開放,讓他們能夠在實際產(chǎn)品和開發(fā)接口中真正用到這些增強功能。
這些方向的推進將包括更深入的個性化體驗,使模型能夠逐漸理解用戶的長期偏好與習(xí)慣。同時,它也會更緊密地連接到 Google 的各項服務(wù),例如 Gmail、日歷等。事實上,你現(xiàn)在已經(jīng)可以看到一些初步的整合效果,不過那只是整體規(guī)劃中極小的一部分,未來的藍(lán)圖要比現(xiàn)階段呈現(xiàn)的豐富得多。
Gemini 3 的能力基礎(chǔ)已經(jīng)足以承擔(dān)這一系列大規(guī)模推進的任務(wù),而模型在工具調(diào)用與工具使用方面的穩(wěn)定性和可靠度,也將成為它能夠安全連接外部服務(wù)的根本條件。
主持人:從基準(zhǔn)測試和整體表現(xiàn)來看,它顯然實力非常強。我只是覺得它似乎來得有些晚。我本身是 ChatGPT 的重度使用者,而 Gemini 在不少基準(zhǔn)中領(lǐng)先,又擁有 Google 的龐大生態(tài)作為支撐。我理解你無法給出精確的時間表,但能不能給一個大致的范圍,關(guān)于真正意義上的記憶能力什么時候會在 3.0 系列中開始推出?
哈薩比斯:我們目前在內(nèi)部不斷測試各種設(shè)計與方案,并且在不同方向上反復(fù)迭代。當(dāng)這些能力經(jīng)過充分打磨,我們對它們的穩(wěn)定度與可靠性都感到足夠放心時,我們會盡快對外公布。我們非常清楚用戶對此的期待,也知道記憶能力對用戶體驗有多重要。
與此同時,我們也在推進更高效的模型版本,包括體量更輕但性能仍然保持在高水準(zhǔn)的版本。這樣才能在全球范圍內(nèi)以更低的成本提供大規(guī)模服務(wù),也讓更多用戶能夠受益?,F(xiàn)在我們正在進行的各類原型實驗非常令人振奮,而你很快就會看到這些努力逐漸轉(zhuǎn)化為實際成果。
另外還有一點,我必須特別強調(diào),那就是這次的新模型在多模態(tài)方面的表現(xiàn)給我留下了極深的印象。你知道,Gemini 一直在多模態(tài)領(lǐng)域處于領(lǐng)先地位,無論是跨模態(tài)推理、跨模態(tài)理解,還是圖像與文本的聯(lián)合生成,都一直保持著頂尖水準(zhǔn)。像圖像分析、視頻理解、復(fù)雜結(jié)構(gòu)識別等任務(wù),上一代的表現(xiàn)就已經(jīng)非常優(yōu)秀,而這一次我們又進一步把這方面的能力整體提升到全新的高度。
我相信普通用戶在日常使用中會明顯感受到這些多模態(tài)能力帶來的直接提升。隨著時間推進,我們也會把這些能力更深入地整合到更多產(chǎn)品和場景中,例如 YouTube、AI Studio 以及其他類型的應(yīng)用。未來你會看到它們逐步落地并真正發(fā)揮作用,而這些新的多模態(tài)能力會讓用戶體驗到許多過去無法實現(xiàn)的交互方式,我對此充滿期待。
主持人:我也非常期待能夠全面測試它,并看看全球的開發(fā)者與用戶會用這些模型創(chuàng)造出什么樣的成果。同時,除了 3.0 這一代的新模型,你們這次還推出了 Antigravity,一個全新的智能代理開發(fā)平臺。
從介紹來看,它的定位幾乎像是讓每位開發(fā)者都擁有一位專屬的 AI 同事,能夠同時在編輯器、終端以及瀏覽器環(huán)境里協(xié)助完成任務(wù)。但在你看來,相較于目前市場上那些已經(jīng)頗為成熟的智能編碼工具,Antigravity 最大的差異和價值體現(xiàn)在哪里?
哈薩比斯:我認(rèn)為 Antigravity 會在未來持續(xù)快速演進,不過我們的核心理念自始至終都非常明確,那就是從智能代理的角度重新想象整個開發(fā)體驗。
我們在問自己一個根本性的問題,如果讓智能代理成為開發(fā)的中心角色,那么一個真正理想的 IDE 應(yīng)該呈現(xiàn)出怎樣的形態(tài)。我們對于 Gemini 的長期發(fā)展方向有非常清晰的路線圖,而 Antigravity 正是其中不可或缺的關(guān)鍵結(jié)構(gòu)。
同時需要強調(diào)的是,在 Antigravity 的體系中,你完全可以使用不同的模型,它并不依賴于單一的選擇。我們真正想實現(xiàn)的,是從底層重新構(gòu)建一個圍繞代理能力運作的開發(fā)環(huán)境,讓所有功能與交互都能夠自然圍繞智能代理而展開。
負(fù)責(zé)這個方向的團隊中有許多來自過去構(gòu)建復(fù)雜編輯器工具的專家,例如原 Windsurf 團隊的成員,他們在相關(guān)領(lǐng)域的經(jīng)驗與專業(yè)程度極具深度,這為我們重新設(shè)計開發(fā)工具提供了強大的基礎(chǔ)。
我們對這一方向真的相當(dāng)興奮,目前在 Google 內(nèi)部已經(jīng)有很多團隊在實際使用 Antigravity,而這是我們推動任何開發(fā)工具時最重要的第一步。內(nèi)部工程師普遍反饋,使用它的體驗十分順暢,效率提升非常顯著,這讓我們更加確信我們正在朝著正確的方向前進。
不過我認(rèn)為,我們現(xiàn)在所看到的仍然只是整個旅程的開端。隨著模型能力不斷增強并變得更可靠,我們也必須重新思考專業(yè)開發(fā)者真正需要的完整開發(fā)體驗究竟是什么。這不再僅僅是為了輕量的工具愛好者,而是面向?qū)I(yè)工程師的深度開發(fā)生態(tài)。
專業(yè)開發(fā)者在他們的環(huán)境中真正需要什么樣的協(xié)作支持、自動化流程、代碼洞察與問題診斷?Antigravity 是我們第一次嚴(yán)肅地試圖回答這些問題,并據(jù)此構(gòu)建一套完整的路線圖。
與此同時,我們還有 AI Studio,這對于個體開發(fā)者、興趣創(chuàng)作者以及一般用戶來說可能是更合適的入口。未來我們會根據(jù)用戶的專業(yè)背景、團隊規(guī)模、使用場景以及協(xié)作復(fù)雜度,提供不同方向的產(chǎn)品界面與工具組合。我相信 Antigravity 會成為其中非常關(guān)鍵的一部分,也會讓專業(yè)開發(fā)者感到真正的興奮。
主持人:所以整體來說,Antigravity 的定位確實更加貼近專業(yè)開發(fā)者,而不是那種偏向體驗性質(zhì)的輕量化編碼方式?
哈薩比斯:目前的確如此,我們最主要的目標(biāo)群體是專業(yè)開發(fā)者。不過我們同樣希望未來能夠讓不同層級的開發(fā)者都能從中受益,無論是剛?cè)腴T的初學(xué)者、興趣驅(qū)動的業(yè)余開發(fā)者,還是經(jīng)驗豐富的資深工程師,都能夠在這個體系里找到適合自己的方式。
主持人:說到你們內(nèi)部大規(guī)模使用 AI 工具,我有一個長期以來的疑問。我聽說 Google 內(nèi)部已經(jīng)在大量場景中依靠 AI 生成代碼。
那么我很好奇,你們是否擁有一些外界無法使用、只對內(nèi)部開放的模型或工具,讓你們能在正式發(fā)布前提前受益。你們在推出新功能之前,通常如何在內(nèi)部測試這些工具?是否會有一些功能為了保持領(lǐng)先優(yōu)勢而暫時只在內(nèi)部使用?
哈薩比斯:我們內(nèi)部確實一直運行著許多額外的實驗?zāi)P秃凸ぞ?,同時也有一些因為技術(shù)難度或成本問題還無法立即面向大眾開放。
舉一個比較典型的例子,像 Genie 就屬于目前暫時無法大規(guī)模公開的能力。我們當(dāng)然很希望能讓所有用戶都順暢使用它,但現(xiàn)階段它的推理與服務(wù)成本仍舊非常高,不太適合在全球范圍內(nèi)同時運行。我們正在研發(fā)更高效的版本,希望能逐漸把成本壓低到可以面向更廣泛用戶開放的程度。
還有一些深度推理類的模型,目前也只能在 Ultra 等高端層級中使用,原因同樣是它們的資源消耗極其昂貴。我們正在不斷優(yōu)化它們的執(zhí)行效率,目標(biāo)是把它們的成本降低到能夠為更多用戶提供服務(wù)的水平。
所以整體來說,這并不是我們刻意保留某些能力,而是受到算力、硬件以及物理資源的限制。只要我們能夠在合理成本下部署某項功能,我們通常都會盡快把它開放給所有用戶。限制我們的不是策略,而是現(xiàn)實條件。
當(dāng)然,在研究層面,我們內(nèi)部始終進行著大量探索。這是一個頂尖前沿研究實驗室的日常狀態(tài)。我們的研究范圍既廣且深,可以說在全球范圍內(nèi)都非常領(lǐng)先。
我們不斷尋找下一個重大突破,例如類似 AlphaGo 或 Transformers 那樣的根本性技術(shù)躍遷。世界模型就是其中一個面向未來的重要方向,我們在這方面持續(xù)進行大量實驗。當(dāng)它們足夠成熟,具備穩(wěn)定可靠的表現(xiàn)時,我們就會把這些能力帶給用戶。而在此之前,它們會以內(nèi)部原型的形式不斷迭代和完善。
除此之外,我們在硬件與軟件交互方面也保持著積極探索,例如眼鏡助手等未來型產(chǎn)品。這類產(chǎn)品都會在內(nèi)部經(jīng)歷很長時間的測試和打磨。只有當(dāng)我們覺得它們真正準(zhǔn)備充分,才會正式呈現(xiàn)給全球用戶。
主持人:我注意到你們的發(fā)布節(jié)奏似乎越來越快了。3.0 一上線就直接進入搜索,這在以前從未發(fā)生過。我很好奇,你們現(xiàn)在如何看待發(fā)布速度這件事?
哈薩比斯:你的觀察非常準(zhǔn)確,這確實是我們正在大力推進的一項核心目標(biāo)。我認(rèn)為 2.5 是一個特別關(guān)鍵的節(jié)點,那是我們第一次把世界模型快速深度整合進 Google 的核心產(chǎn)品體系。
你在開發(fā)者大會上看到的那些展示,當(dāng)時很多人都對整合速度感到震驚。而到了 Gemini 3,我們再次把節(jié)奏提升到更高水準(zhǔn),一開始就直接在搜索和 AI 模式中上線。這是我們過去幾個月非常集中精力在優(yōu)化的方向。
如果你把 Google DeepMind 看作 Google 的技術(shù)發(fā)動機,那么我們的職責(zé)就是確保所有主力產(chǎn)品都能被這些模型加速、增強和重塑。Google 擁有一個龐大、深入日常生活的產(chǎn)品生態(tài),從地圖到 YouTube,再到搜索與 Workspace,這些產(chǎn)品每天都觸達(dá)數(shù)十億用戶。
我們的目標(biāo)就是把 Gemini 及其背后的各項能力持續(xù)注入這些產(chǎn)品中,讓用戶能夠在生活和工作中直接感受到模型帶來的升級?,F(xiàn)在這種正向循環(huán)已經(jīng)開始出現(xiàn)。我認(rèn)為我們大概走到這段路程的中部,前面還有許多令人期待的發(fā)展空間,而且我們完全有信心繼續(xù)提升整合速度。
搜索是一個很典型的示范,它展現(xiàn)出我們理想中的技術(shù)整合方式。而接下來,我們要讓整個產(chǎn)品體系都朝這個方向持續(xù)推進。
主持人:說到真正具有規(guī)模影響力的產(chǎn)品,Gemini 應(yīng)用的月活躍用戶最近已經(jīng)達(dá)到六億五千萬了,先恭喜你們?nèi)〉眠@樣的成績。
哈薩比斯:謝謝,我們對這個數(shù)字確實感到非常自豪,這代表著有越來越多的人在日常生活里真正使用并依賴這些能力。
主持人:在這樣的用戶規(guī)模下,我很好奇,除了大家已經(jīng)很熟悉的編碼場景之外,你們有沒有觀察到哪些使用方式特別突出,已經(jīng)在普通用戶當(dāng)中被大范圍采用了?
哈薩比斯:其實我們在數(shù)據(jù)和反饋里看到了非常多有趣的趨勢。我個人認(rèn)為,多模態(tài)能力是 Gemini 應(yīng)用最核心、也最具差異化的優(yōu)勢之一。比如說 Nana Banana 這個功能上線之后,就明顯帶動了一大波用戶增長。
用戶用它做的事情非常多樣,從替家人策劃一場驚喜生日派對,到為某些國家或地區(qū)設(shè)計具有在地特色的小雕塑,再到創(chuàng)作連續(xù)分鏡的漫畫故事,各種創(chuàng)意層出不窮。
這些都依賴于多模態(tài)能力把圖像、文字甚至視頻結(jié)合起來,打開了很多過去根本無法想象的應(yīng)用空間。Gemini 在視覺理解、圖像生成、視頻分析等跨模態(tài)任務(wù)上的表現(xiàn)非常突出,而這些特性也讓它在實際使用中呈現(xiàn)出越來越多新穎的玩法。
我們還注意到,在健康和教育相關(guān)的需求上,用戶的熱情和頻率都非常高。因此我們正在這些方向上大力投入,希望能夠真正做到行業(yè)的一流水準(zhǔn)。我相信,在這些領(lǐng)域里,Gemini 3 會成為一個非常重要的基礎(chǔ)平臺。
就我個人的日常習(xí)慣來說,我非常喜歡用 Gemini 來做頭腦風(fēng)暴。不論是給一個新項目取名,還是請它幫忙檢查某個想法是否站得住腳,它都能以很高的效率給出有價值的反饋。Gemini 應(yīng)用在這一類創(chuàng)意和思考輔助上表現(xiàn)得格外出色。
主持人:你剛才提到的一個點讓我特別感興趣,就是你認(rèn)為 Gemini 有機會成為健康領(lǐng)域的基礎(chǔ)平臺。能不能多談一點這部分的設(shè)想。畢竟你的背景里在醫(yī)療和生命科學(xué)方面有很多經(jīng)驗。
哈薩比斯:當(dāng)然可以。其實在這個方向上,我們已經(jīng)有不少具體項目在推進,例如 Co Scientist 這一類幫助科研和實驗流程的工具。我們還有一個名為 Amy 的醫(yī)學(xué)診斷系統(tǒng),由更偏研究導(dǎo)向的團隊負(fù)責(zé)開發(fā)。我們的目標(biāo)是,未來能夠把這些分散的能力逐步整合進完整的 Gemini 架構(gòu)中。
我希望科學(xué)家和研究人員今后可以把 Gemini 用作一個真正的思維伙伴,幫助他們激發(fā)新點子、組織研究流程以及分析復(fù)雜問題。在我看來,Gemini 3 已經(jīng)提供了一塊足夠堅實的基礎(chǔ),可以支撐這一類嚴(yán)肅的應(yīng)用場景。
接下來你會陸續(xù)看到,這些能力會在不同版本的 Gemini 3 中逐步釋出,包括更加面向深度研究和深度推理的系統(tǒng),它們都是在 Gemini 3 的整體結(jié)構(gòu)之上繼續(xù)延伸出來的。
由于 Gemini 3 在推理和工具調(diào)用方面的可靠性大幅提高,它在引用資料、理解學(xué)術(shù)論文以及梳理專業(yè)知識結(jié)構(gòu)時的表現(xiàn)也會隨之提升。多模態(tài)能力恰好又是醫(yī)學(xué)和教育領(lǐng)域非常關(guān)鍵的要素。舉例來說,用戶可以上傳一張診斷相關(guān)的圖像,詢問它可能代表什么含義;或者給它一篇學(xué)術(shù)論文,要求解釋文中的圖表和文字之間的對應(yīng)關(guān)系與邏輯結(jié)構(gòu)。
在教育場景下,學(xué)生可能需要為一門課程設(shè)計一張海報,可以先輸出文字內(nèi)容,再讓模型根據(jù)主題生成合適的視覺元素和排版建議。這類任務(wù)充分體現(xiàn)了多模態(tài)的價值。
我非常期待人們在這些場景中用 Gemini 3 做出更多前所未有的嘗試。而在整個過程中,Gemini 應(yīng)用自然會成為最主要、也最直觀的入口。
主持人:對于這些方向我也感到非常興奮,尤其是醫(yī)療和教育領(lǐng)域。再往更遠(yuǎn)的未來看一個問題,你們是否會考慮讓 AI 在主動性的預(yù)防醫(yī)療方面發(fā)揮作用?
哈薩比斯:在我們的科學(xué)團隊和健康團隊內(nèi)部,這確實已經(jīng)是正在研究的方向,也就是構(gòu)建一個真正意義上的醫(yī)療級系統(tǒng)。這樣的系統(tǒng)通常需要嚴(yán)格的監(jiān)管審查和非常高的安全標(biāo)準(zhǔn),必須保證極高的可靠性才能投入實際使用。
顯然,Gemini 應(yīng)用本身并不是醫(yī)療級工具,它更適合作為用戶的日常輔助。遇到健康問題,用戶仍然需要向?qū)I(yè)醫(yī)生咨詢。但它確實有潛力在許多資源匱乏的地區(qū)發(fā)揮巨大作用,尤其是在缺乏基礎(chǔ)醫(yī)療或教育服務(wù)的區(qū)域。憑借 Google 的全球覆蓋能力與安卓生態(tài)體系,它們在這些地區(qū)已經(jīng)承擔(dān)著關(guān)鍵的數(shù)字基礎(chǔ)設(shè)施角色。我相信 Gemini 能夠提供最基本層面的知識與輔助,對當(dāng)?shù)厝水a(chǎn)生實實在在的幫助。
與此同時,我們也會持續(xù)探索醫(yī)學(xué)助手或研究助手等更高層級的應(yīng)用場景。但是這些用途都要求模型達(dá)到更高的可靠性門檻。Gemini 3 已經(jīng)為此邁出了扎實的一步,但距離滿足醫(yī)療等高風(fēng)險場景仍有很多工作要做。
醫(yī)學(xué)和科學(xué)研究是我個人非常關(guān)注的方向,我們希望 Gemini 能成為這些能力的核心底層,從而推動整個體系不斷向外擴展。我對 Gemini 3 的進步感到滿意,但這只是整個旅程的開端。如果我們希望模型真正能夠承擔(dān)醫(yī)療級角色,就必須進一步構(gòu)建多層級的安全性與可靠性,而我們正在投入大量研究,以讓這一切成為可能。雷峰網(wǎng)
主持人:明白了。這確實會影響到數(shù)十億人的生活,我對此非常期待。接下來我們換一個角度,談?wù)?Gemini 在現(xiàn)實世界中的實際使用場景,也就是用戶目前已經(jīng)能夠做到的事情。
這次發(fā)布讓我特別注意的一項能力,是 Gemini 應(yīng)用里新增的代理系統(tǒng)。這項功能允許你連接 Gmail 等服務(wù)。雖然過去 Gemini 也能訪問 Gmail,但如今的體驗完全不一樣。它不僅能為你列出步驟,更能直接替你執(zhí)行任務(wù),例如在 Gemini 中就能完成郵件發(fā)送。
隨著我們逐漸邁向一個更完整的人工智能時代,Gemini 看起來越來越像一個真正意義上的生活助理,幾乎嵌入到用戶的數(shù)字生活里。我很好奇,在你的設(shè)想里,這個數(shù)字同事的終極形態(tài)是什么。你會希望 Gemini 成為像 Slack 一樣每天必須打開、始終伴隨的獨立平臺?還是更希望它作為眾多工具中的一個?
哈薩比斯:我當(dāng)然希望它能夠成長為那樣的存在。我們內(nèi)部一直在構(gòu)思一種通用助理,這也可以被視為未來形態(tài)的 Gemini,它能夠在用戶日常生活的每一個階段都發(fā)揮作用。
它不僅是你處理工作中復(fù)雜任務(wù)的最佳助手,也可以陪伴你在休閑、娛樂或探索興趣的時間里,為你提供建議、提出靈感,并與您展開自然、輕松、富有啟發(fā)性的交流。
同時,它不應(yīng)該局限在單一設(shè)備上,而應(yīng)以多種形態(tài)伴隨你出現(xiàn)。你可以在電腦上使用它,也可以在瀏覽器中調(diào)用它;你可以在工作中依賴它,也能在家中輕松與它互動。它會出現(xiàn)在你的手機里,并且未來很可能還會以下一代智能設(shè)備的形態(tài)存在,例如智能眼鏡。我非常確信這會是未來的方向之一。
要實現(xiàn)這樣的目標(biāo),最重要的基礎(chǔ)是一個真正強大的多模態(tài)模型。Gemini 的意義正在于,它能夠理解用戶所處的真實世界、實時情境,并具備調(diào)用外部工具的能力。起步階段我們會圍繞 Google 自家的應(yīng)用展開,例如地圖、Workspace、電子郵件等,但最終它必須能夠連接任意工具,成為真正通用的智能體。
當(dāng)這些能力成熟之后,我們將邁入一個全新的時代。那時,用戶會擁有一個像現(xiàn)實中最優(yōu)秀私人助理那樣的數(shù)字伙伴。我們的愿景是讓這種幫助能夠普惠,讓每個人都擁有這樣的智能支持,而不是只有少數(shù)人可以享受。
這將深刻改善人們管理事務(wù)的方式,讓我們重新奪回時間與注意力,把更多精力投入在真正重要、有價值的事情上,而不是費時費力的重復(fù)性流程。這是我特別重視的目標(biāo),我相信 Gemini 正在為這個未來奠定深厚基礎(chǔ)。雷峰網(wǎng)(公眾號:雷峰網(wǎng))
主持人:非常期待看到這一切的到來。謝謝你今天的分享。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。