谷歌升級Gemini 1.5 Pro,對用戶開放,AI可以聽音頻了

4月10日消息,谷歌升級了大語言模型Gemini 1.5 Pro,爲其配備了“耳朵”,使其能夠監聽並分析上傳的音頻文件,從財報電話會議或視頻音頻中提取關鍵信息,無需轉爲書面材料。

在美國時間週二舉辦的Google Next大會上,谷歌宣佈,通過其人工智能應用開發平臺Vertex AI,將Gemini 1.5 Pro首次對外開放。該模型最初於今年2月亮相。

Gemini 1.5 Pro被視爲Gemini家族中的“中量級”(middle-weight)模型,其性能已經超越了最大規模、最強大的Gemini Ultra。谷歌表示,Gemini 1.5 Pro能夠理解複雜指令,而且使用時無需對模型進行特別調整。

需要指出的是,不通過Vertex AI的用戶無法體驗到Gemini 1.5 Pro的全部功能。目前,大衆主要通過Gemini聊天機器人與Gemini大語言模型互動。儘管GeminiUltra爲Gemini Advanced聊天機器人提供了強大支持,能理解較長的指令,但在反應速度上不及Gemini 1.5 Pro。

除了Gemini 1.5 Pro的更新,谷歌還對其它大型人工智能模型進行了升級。特別是作爲文本轉圖像生成模型的Imagen 2,它增強了Gemini的圖像生成能力。通過引入圖像外延(Outpainting)和內填(Inpainting)功能,用戶現在能更靈活地對圖像的元素進行添加或刪除。

爲確保Imagen模型生成的圖片版權和來源可追溯,谷歌爲所有生成圖片加入了SynthID數字水印技術。這種創新技術通過幾乎不可見的水印明確標識圖片來源,可以通過專用工具進行檢測。

Imagen模型的許多新特性,如圖像外延和內填技術,已被其他文本轉圖像模型採用,例如Stability AI的Stable Cascade和Getty的Generative AI by iStock。此外,這些技術也被廣泛應用於消費電子產品中,如三星Galaxy手機。

除圖像生成的創新外,谷歌還公開展示了一種結合人工智能生成回答和谷歌搜索結果的方法,旨在爲用戶提供更實時、更準確的信息。然而,大語言模型生成的回答並非總是精準無誤,有時可能會誤導用戶。因此,谷歌對Gemini模型設置了一些限制,比如禁止回答與2024年美國大選相關的問題。

此前,Gemini模型因在生成歷史人物描述時出現不準確而受到批評。(小小)