☰

谷歌回擊OpenAI：發佈AI全家桶，搜索大變身，Project Astra劍指GPT-4o

出品｜本站科技《態度》欄目

作者｜丁廣勝

想要蓋過谷歌風頭，OpenAI的GPT-4o有沒有如願，我們找找答案。

谷歌和Alphabet首席執行官桑達爾·皮查伊公佈，有超過150萬開發人員在使用 Gemini 模型，有20億用戶在使用Gemini，在短短三個月內，已有超過100萬人註冊試用。

他振臂高呼，我們正處於雙子座（Gemini）時代，人工智能爲先的戰略正在開花結果，然後花了長達兩個多小時，手把手教開發者使用Gemini。

谷歌說我們使命是讓AI對每個人都有幫助，基於這個目標，再圍繞Gemini，剛剛過去的這個凌晨，從搜索到照片應用、智能體、Android，他們逐一展開。

一｜谷歌的雙子座（Gemini）時代

一年前，谷歌首次發佈Gemini，定義爲原生多模態模型，可以跨文本、圖像、視頻、代碼等進行推理。這次終於正式開放訂閱Gemini 1.5 Pro，且帶來全新升級。

此前的Gemini 1.5版本上下文長度爲100萬token，新版本長度刷新，達到200萬token，基於此，發佈上新的輕量化模型Gemini 1.5 flash這是一個針對端側的模型，同樣有100萬和200萬token的版本，速度更快、成本低至0.35美元每百萬tokens。

與此同時，通過數據和算法改進，Gemini 1.5 Pro增強了模型的代碼生成、邏輯推理和規劃、多輪對話以及音頻和圖像理解能力。

升級後的Gemini 1.5 Pro在MMMU、AI2D、MathVista、ChartQA、DocVQA、InfographicVQA和EgoSchema等多項公共基準測試中取得了顯著改進，在多項圖像和視頻理解基準測試中也實現了最先進性能。

換句話說，“我們已經妥妥吊打GPT4了。”

現在，用戶可以通過 Gemini Advanced 訂閱服務體驗最新的Gemini 1.5 Pro，目前支持超過150個國家的35種語言。

谷歌還預告，即將推出下一代 Gemma 型號 Gemma 2。Gemma 2適用於廣泛的 AI 開發人員，並採用全新的架構，旨在實現突破性的性能和效率。

二｜AI助手的未來谷歌“智能體”Project Astra

基於谷歌對於智能體的理解，Google DeepMind開發了Project Astra ，類似GPT-4o的語音交互，Project Astra是主動的、可教的和個性化的，用戶可以自然地與它交談，沒有滯後或延遲。

在演示中，Project Astra 所見即所得，迴應一切，沒有任何延遲，它可以識別物體，進行分析並且給出自己的反應，對此，有網友評論：對於盲人和低視力用戶來說，這將是天賜之物！

不僅如此，大家的關注點還在於，谷歌眼鏡項目是不是要復活了？什麼時候發佈？這纔是Project Astra絕佳的應用場景。

三｜搜索引擎，依舊是谷歌AI的戰略要塞

搜索一直是谷歌的命門，而搜索這個“古老”的動作似乎正在悄然發生變化。

在OpenAI GPT-4o發佈之前，就有大量呼聲說會不會有OpenAI 搜索的到來，不過有驚無險，谷歌在自己的主陣地，依舊高歌猛進。

桑達爾·皮查伊表示，在過去的一年裡，作爲搜索生成體驗的一部分，已經回答了數十億個查詢。人們正在使用它以全新的方式搜索，並提出新的問題類型——更長和更復雜的查詢，甚至使用照片進行搜索。

從今天開始，美國用戶將體驗到重大搜索交互界面的更新，搜索框下方會顯示AI生成的概覽，谷歌方面表示：“我們一直在實驗室之外測試這種體驗。令我們欣慰的是，不僅搜索使用量有所增加，用戶滿意度也有所提高。”

四｜谷歌版Sora，視頻生成模型 Veo 和 Imagen 3

今天，谷歌還帶來最新、最先進的視頻生成模型 Veo 和迄今爲止質量最高的文本到圖像模型 Imagen 3。

Veo能夠生成超過一分鐘的高質量1080p視頻，涵蓋多種電影和視覺風格。據谷歌介紹，Veo具備高級的自然語言和視覺語義理解能力，能準確呈現細節並捕捉情感基調。

本着“打不過就加入”的原則，很多藝術家已經加入嘗試了這個項目。

現在，谷歌展示了與電影製片人唐納德·格洛弗（Donald Glover）及其創意工作室吉爾加（Gilga）的一些合作，以及藝術家Wyclef Jean，Marc Rebillet和詞曲作者Justin Tranter在音樂AI沙盒的幫助下發布的新演示錄音。

從今天開始，Veo可以通過加入候補名單在 VideoFX 的個人預覽版中使用，未來，谷歌計劃把Veo的一些功能引入 YouTube Shorts 和其他產品。

與之相結合的是Imagen 3，Google最高質量的文本到圖像生成模型，Imagen 3可以更好地理解自然語言、提示背後的意圖，並結合較長提示中的小細節。

從今天開始，Imagen 3可供 ImageFX 中的個人預覽版和加入谷歌候補名單的創作者使用，

與此同時，Imagen 3宣佈即將登陸 Vertex AI——Vertex AI 是 Google Cloud 的完全託管的統一開發平臺，用於大規模利用模型，提供150多種第一方、開放和第三方基礎模型，用於使用企業級調優、接地、監控和部署功能自定義模型，以及構建 AI 代理。

五｜Google相冊“詢問照片”再也不怕照片難翻找

Google相冊是谷歌首批以AI爲中心的產品之一，現在，谷歌正在通過功能最強大的 AI 模型 Gemini 對 Google 相冊進行重大升級。

一直以來，大家使用相冊有這樣的痛點，我們希望以自然交互的方式找到自己的照片，但是隨着人們照片數量的累積，找到需要的東西可能會需要滾動瀏覽照片和視頻頁面，耗時巨大。

谷歌透露，每天有超過60億張照片上傳到 Google 相冊，現在，通過“詢問照片”，你可以以一種自然的方式詢問你要找的東西，比如：“給我看我去過的每個國家公園的最佳照片。

谷歌還談及對用戶隱私的保護，承諾 Google 相冊中的個人數據絕不會用於廣告，也不會在“問答”中查看用戶的對話和數據，而且，谷歌不會使用這些個人數據訓練 Google 相冊以外的任何生成式 AI 產品，包括其他 Gemini 型號和產品。

六｜重構交互體驗 Android進入Gemini 時代

谷歌表示，隨着 Google AI 成爲 Android 操作系統的核心，數十億使用 Android 的人現在可以以全新的方式與他們的設備進行交互。

比如，從今天開始，Circle to Search可以幫助學生完成家庭作業，當學生圈出他們的提示時，他們會得到分步說明，以解決一系列物理和數學問題、單詞問題，而無需離開他們的數字信息表或教學大綱。

與此同時，Circle to Search在稍後的更新中，將能夠幫助解決涉及符號公式、圖表、圖形等的更復雜的問題。谷歌披露，Circle to Search 已經在超過1億臺設備上可用。

另外，谷歌在Android上發佈 Gemini 新型助手，它使用生成式 AI 來幫助用戶提高創造力和生產力。這種體驗已集成到 Android 中，在理解屏幕上的內容和用戶正在使用的應用程序的上下文方面變得越來越好。

不僅如此，Android基於AI帶來一系列更新，Gemini Nano的多模態功能將登陸 TalkBack，幫助失明或視力低下的人更豐富、更清晰地描述圖像中發生的事情。

從今年晚些時候的 Pixel 開始，谷歌還推出最新型號 Gemini Nano with Multimodality，這意味着手機不僅能夠處理文本輸入，還可以在視覺、聲音和口語等上下文中理解更多信息。

七｜第六代TPU Trillium 迄今爲止性能最高的TPU

十多年來，谷歌一直在開發定製的AI專用硬件、張量處理單元（TPU），以推動規模和效率的前沿發展。

今天，迄今爲止性能最高、能效最優的第六代TPU Trillium正式發佈，該硬件支持今天在 Google I/O大會上宣佈的包括 Gemini 1.5 Flash、Imagen 3和 Gemma 2等新型號。所有這些型號的模型都經過了TPU的訓練，並使用TPU提供服務。

與 TPU v5e 相比，Trillium TPU 的每芯片峰值計算性能提高了4.7倍。與 TPU v5e 相比，Trillium TPU將高帶寬存儲器（HBM）容量和帶寬提高了一倍，並將芯片間互連（ICI）帶寬提高了一倍。

此外，Trillium 還配備了第三代 SparseCore，這是一種專用加速器，用於處理高級排名和推薦工作負載中常見的超大型嵌入。與此同時，rillium 可以在單個高帶寬、低延遲的 pod 中擴展到256個 TPU。

作爲硬件產品，谷歌還介紹了客戶案例，谷歌表示，Trillium TPU 將爲下一波 AI 模型和代理提供動力，期待通過這些先進功能幫助我們的客戶。例如，自動駕駛汽車公司 Nuro 致力於通過機器人技術創造更美好的日常生活，方法是使用 Cloud TPU 訓練他們的模型。

谷歌宣佈，作爲十年結晶，第六代TPU Trillium將於今年晚些時候上市。

谷歌回擊OpenAI：發佈AI全家桶，搜索大變身，Project Astra劍指GPT-4o

相關資訊