在 Media Tech 活動中,cacaFly 聖洋科技 雲端智能中心 技術副總 CH Wu 以「用魔法駕馭魔法:解鎖廣告素材新生機」為題,分享生成式 AI 應用於創意內容製作的實務經驗與觀察。他指出,從靜態圖像到動態影音,AI 生圖與生影所面對的最大挑戰,正是「如何讓 AI 理解我們的語言」,而這背後牽動著指令設計、模型選擇、運算資源乃至商業應用效率的根本問題。
提示詞難題:從 30 次試錯到降低創作門檻
用戶在使用生成式 AI 下 Prompt 時 ,經常發現實際操作遠比想像中複雜。根據統計,一般使用者平均需要輸入 15 至 30 次提示詞(prompt)才能獲得接近預期的圖像,專業創作者也需嘗試 5 至 10 次。尤其在圖像與影片等多媒體生成任務上,試錯成本比文字生成高出三倍,意味著更高的時間、精力與算力消耗。因此,Prompt 工程的重要性不容忽視。

一個指令,各自表述:生成式 AI 與人類想像的落差
CH Wu 指出在下指令給 AI 生成圖像時發現,人類多以直覺與大方向思考,而 AI 則依賴提示詞中的細節進行運算,對未被明確描述的部分會自行補全。這種「認知落差」導致使用者與 AI 難以對焦,甚至同一組提示詞在不同模型中輸出結果截然不同,即便是同一模型反覆輸入,也難以獲得完全一致的成果,造成創作收斂困難。
這樣的困境在實務應用中也屢見不鮮。cacaFly 團隊透過問卷收集使用者回饋,常見痛點包括生成結果「不符預期」、「四不像」、「難以激發新創意」以及「圖片用途是否合規」等問題。即使市面上已有提示詞撰寫指南,實務操作仍仰賴大量試誤與經驗累積,顯示目前使用門檻仍偏高,影響商用推廣的效率與信心。
Autoprompt 助攻:讓人用人類語言與 AI 溝通
為降低操作門檻並提升輸出品質,cacaFly Cloud AI+ Center 自主研發 Alchemy 導入 Autoprompt 技術,透過 AI 主動感測使用者輸入的 prompt 與模型理解之間的語意落差,進而優化提示詞品質。
使用者僅需以接近自然語言的方式表達需求,系統便能自動轉換為 AI 模型能精準理解的語法與參數。透過這項語意橋接技術,實現人類與 AI 之間更直覺的溝通,顯著簡化創作流程並提升效率。
商業應用進階:固定風格與人物不再高門檻
過往在商業應用中,若需針對指定人物或商品進行特定風格的圖像生成,通常需要透過 LoRA(Low-Rank Adaptation)技術。LoRA 類似一種「微調插件」,能讓大型模型(如 Stable Diffusion)在固定模型權重的情況下,僅透過插入小型模組來達成風格微調。然而,這樣的方式仍需要額外的模型訓練與調校,技術門檻與成本對一般使用者而言依然偏高。
隨著 AI 影像生成技術持續演進,未來有機會不需要依賴 LoRA 或額外訓練,只需將欲指定的人臉或產品圖作為參考素材輸入,實現圖像風格的變化與客製化。此方法結合大型語言模型(LLM)的語意理解能力,讓創作流程更直覺、更簡單,不僅大幅降低技術門檻,更有效縮短製作週期、提升創作效率。

動態影音生成:多模態 AI 強化腳本與運鏡邏輯
在動態影片生成領域,挑戰更勝靜態圖像。除物件辨識外,還需描述時間軸上的動作、鏡頭運動與場景轉換,對於缺乏剪輯經驗的一般使用者而言,操作門檻更高。
CH 指出,現今透過多模態 AI 模型,已可對影片腳本進行語意解析與鏡頭邏輯分析,進而自動生成具有一定水準的影片內容。在實務操作中,通常會先產出靜態畫面,再以提示詞進一步延伸為動態影片;若初步生成效果不自然,則可持續輸入更多參考素材進行優化。此項技術已實際應用於廣告產業,有效提升創意產出的速度與品質。
與我們聯繫,加速 AI 旅程
生成式 AI 的潛力無庸置疑,但若無法縮短人類語言與 AI 理解之間的鴻溝,將難以大規模應用於真實商業場景。從提示詞優化、自動語意轉換,到風格與對象鎖定、多模態腳本解析,這些技術進展都在朝著「讓 AI 更懂人」的方向前進。
未來,隨著人機語言重疊區域逐步擴大,AI 將能更精準地回應人類想像,也將為創意產業與內容生產帶來前所未有的加速與變革。
立即與我們聯繫!開啟視覺溝通的新時代。