返回 EgentHub 觀點列表
9 分鐘閱讀智慧方案股份有限公司

Gemini Omni Flash 全解析:一句話就能生成影片的多模態新世代

分享這篇

Gemini Omni Flash

目錄


繼去年 Nano Banana 讓 Gemini 學會修圖、設計、把草圖變成成品之後,Google 在 I/O 2026 又丟出了一顆更大的石頭。2026 年 5 月 19 日,Google DeepMind 正式發表 Gemini Omni,並同步推出家族中的第一位成員:Gemini Omni Flash。

這次更新,是 Google 第一次把「推理」和「創作」捏在同一個模型裡的產物,主打從任何輸入創造任何輸出(Anything to Anything),並以影片作為起跑點。從 EgentHub 協助企業導入 AI Agent 的前線觀察來看,這顯示 Google 正在整合自家各種模態的模型,讓 AI 的理解更貼近真實世界的物理感知。

話不多說,以下是 EgentHub 為各位讀者整理的 Gemini Omni Flash 懶人包。


重點整理 Takeaway

  • 對話式影片剪輯:用自然語言下指令就能改場景、換鏡位、加角色,而且每次修改都會記得前一輪的內容,角色不會跑掉、物理也不會崩壞。
  • 多模態輸入全收:圖片、文字、影片、聲音都能當成參考素材,一次丟進去產出一支連貫的影片。
  • 接得住世界知識:物理規則、歷史脈絡、科學知識、文化背景,全都納入生成的依據。
  • YouTube Shorts 免費用:訂閱 Google AI 的用戶可在 Gemini app 與 Google Flow 使用,YouTube Shorts 與 YouTube Create App 用戶則完全免費。
  • 內建 SynthID 浮水印:所有生成影片都附上不可見的數位浮水印,可在 Gemini app、Chrome、Google Search 中驗證。
  • 企業 API 即將開放:未來幾週將陸續對開發者與企業客戶釋出。

從修圖到拍片:Omni 是 Gemini 的下一步

過去的多模態模型,大多停留在「文字生成圖片」「圖片轉文字」這類點對點轉換,Gemini Omni Flash 則把影片也放進了關鍵位置。

從設計理念上,它一開始就讓圖片、聲音、影片、文字四種輸入可以混在一起,最後生成一支由 Gemini 世界知識撐起來的影片。

對企業內容團隊來說,這代表影像產製的門檻又被往下拉了一層。過去要剪一支宣傳片,得有腳本、攝影、後製、配樂;現在只要把資料、參考圖、語音樣本丟進去,剩下的工作就能交給一位 24 小時不關機的數位導演。


對話式剪輯:出一張嘴就能改影片

你是否曾經為了改一個鏡位、換一個背景,就得把整支影片重拍一次?

Gemini Omni Flash 支援多輪對話編輯,每一個新指令都會建立在前一輪的基礎上:角色保持一致、物理邏輯不崩、場景會記得上一個版本長什麼樣子。

官方公布的示範相當直白:

  • 「把這座雕像變成由泡泡組成的。」
  • 「人碰到鏡子時,讓鏡子像液體一樣漣漪散開,手臂變成鏡面材質。」
  • 「把小提琴家傳送到另一張圖的環境裡。」
  • 「再把小提琴變成隱形的。」
  • 「把鏡頭切到小提琴家的肩膀後方。」

每一句話都只負責修一個東西,但前面所有的修改都會被保留下來。在過去的傳統剪輯軟體裡,光是「保持角色一致」就是一個讓後製哀號的關卡,Omni 把它縮短成一句話的距離。

也因為技術門檻降低了,人的創意、以及對場景與畫面鋪排的理解,反而變得更重要。


讓影片裡發生的事變得「合理」

Omni 最有意思的地方,在於它會推理「接下來該發生什麼」。它不會做出「水杯往下丟,球卻往上飛」這種違反物理的影片——Omni 把對重力、動能、流體力學的直覺,跟 Gemini 對歷史、科學、文化的知識結合在一起。

換句話說,它的生成不是隨機的視覺拼貼,而是一段「物理上會這樣動、邏輯上說得通」的影片。

官方舉的幾個例子,讓人印象相當深刻:

  • 物理推理:一顆彈珠在連鎖反應的軌道上滾動,整段一鏡到底,運動軌跡符合真實重力與動能。
  • 知識融合:用 26 個字母對應 26 個不尋常的物件做開箱影片(C 用 Capybara、D 用 Disco Globe、L 用 Lava Lamp),每個項目自動配上手寫風格的下標。
  • 複雜概念視覺化:用黏土動畫風格解釋蛋白質折疊,停格動畫風格、沒有人手出現,整段動作完整。

這種「世界知識 + 物理規則」的組合,讓影片從模仿進化為真實推演。對教育、行銷、產品說明影片來說,這是把抽象內容變成畫面的最短路徑。


多模態輸入:個人風格、品牌調性一次到位

如前面所說,Gemini Omni 想做的是 Anything to Anything 的全模態模型,因此 Omni Flash 的另一個賣點,是任何形式的素材都能拿來當參考。

具體來說,使用者可以同時丟入:

  1. 一張角色設計圖
  2. 一段風格參考影片
  3. 一段背景音樂
  4. 一句自然語言描述

Omni 會把這些東西整合成一支連貫的影片。例如:以一張人物圖配上一段運鏡誇張的影片,產出一段同樣運鏡風格、卻換成新人物的走路鏡頭,而且能在走路過程中即時切換風格,與背景音樂的節拍對齊。

對企業而言,這代表品牌調性、代言人聲線、產品畫風都能變成「可重用的素材」,不必每次重新訓練模型,就能維持一致的視覺與聽覺識別。


SynthID 成為配套

Google 這次同步推出 Avatars 功能,使用者可以建立一個會說自己聲音、長得像自己的數位分身,再用這個分身去產出影片。

為了避免數位分身淪為偽造工具,Google 把內建的 SynthID 不可見浮水印列為 Omni 系列的標配,所有生成影片都會留下這個浮水印,可在 Gemini app、Gemini in Chrome、Google Search 中驗證。

至於影片中的音訊與語音編輯能力,Google 表示仍在測試,會以「負責任」為前提逐步放行——這在 Google 的企業導入考量裡算是少見的克制,也反映出在 Agent 時代,內容真實性與信任成本正變得越來越高。


上線範圍:訂閱戶用 Gemini app,Shorts 用戶免費玩

Gemini Omni Flash 的開放節奏走得相當積極:

  • Google AI Plus/Pro/Ultra 訂閱戶:今日起在 Gemini app 與 Google Flow 全球開放。
  • YouTube Shorts 與 YouTube Create App 用戶:本週起免費使用。
  • 開發者與企業客戶:未來幾週透過 API 開放。
  • 後續模態:圖片與聲音的「輸出」也會在 Omni 家族中陸續登場。

從 EgentHub 對企業 AI Agent 的觀察來看,這個分發節奏其實透露了 Google 的策略:把短影音平台直接接上模型,讓內容創作的技術門檻降低;對品牌、自媒體、行銷團隊而言,誰先把這套生成流程跑通,誰就能搶下下一波短影音紅利。


EgentHub 觀察

過去幾年,我們看慣了 LLM 之間的競賽——誰的推理強、誰的 Token 便宜、誰的 Context 長。Gemini Omni Flash 提醒大家:模型競賽的下一站,不在文字裡,而在影像、聲音與物理世界之間。

對企業而言,這代表三件事:

  1. 影像產製成本被重新定義:過去找外部團隊拍一支宣傳影片,動輒一週、十萬起跳;現在從腳本到成片,可能由內部一人加上 Omni 就能完成,還能維持穩定品質。當影片的技術品質差距縮小,內容品質的差異反而會被放大。
  2. 多模型佈局比過去更重要:文字生成有 OpenAI、Anthropic、Google;影像生成有 Nano Banana、Midjourney;影片生成現在又多了 Omni Flash。在局勢未明時,能在多場景下彈性配置模型仍然關鍵。
  3. 內容真實性將成為信任資產:SynthID 這類驗證機制,不是政府要求才做,而是企業未來不得不主動採用的標配。

EgentHub 作為企業導入 AI Agent 的首選平台,從一開始就走多模型彈性架構:你可以同時接 Gemini、OpenAI、Claude、Grok,並透過細緻的 RBAC 權限管理,把不同模型分派給不同部門、不同任務。當 Gemini Omni 這類影片生成模型可以透過 API 串入時,企業不需要從零開始,而是在原本的 AI SOP 上,直接加上一塊新的拼圖。

覺得這篇有用?分享給朋友

打造企業專屬 Agent