阿牛機器

人工智能可學習人的思想，並循他的思路、模仿他的聲音、甚至以他的樣貌和表情應答。這樣人死後以更像真的方式繼續存在於數位空間，已完全可行。

Apr 20, 2025

最近朋友間發生了幾件有關人工智能應用的趣事，觸發了我一輪思考。

聲音模仿

薯伯伯在他的一期通訊中，以人工智能模仿自己的聲音讀出自己的文章，感覺就像真的由他親自讀出似的。高重建在給 Liker+ 會員的通訊中也玩了相同的遊戲，以他自己的聲音讀出〈財富自由主義〉八點原則。其實自從家駒AI 發佈多段模仿黃家駒的聲音所唱出的 MV 後，我已確信 AI 能 90% 複製一個人的聲線指紋，然而當時還覺得那是某些專業工程師的範疇，一般人很難應用；現在回看，自己有夠遲頓的，想像力實在太貧乏。

薯伯伯和高重建示範了不諳技術的普通人如何用坊間唾手可得的工具，以普通大眾能負擔的價錢，以 AI 打造自己（或任何人）的「聲音分身」。距離「家駒AI」的應用才只有一年，技術已進入尋常百姓家。

操作有多簡單？我用了幾段在網上擷取的影片，僅用 30 秒不到的時間，透過 Minimax 訓練出一把 AI 聲音，請他幫我讀出以下的句子：

超級反駁機械人！呢個機械人可以按指定嘅詞彙，對任何問題作出冇腦反駁，無論乜嘢問題都難唔到佢㗎。

請大家聽一下以下這段聲音，是否覺得很熟識呢？

0:00

-0:09

思想模仿

另一件有趣的事，是董啟章以 ChatGPT 續寫了他一部未能完成的小說：《物種源始．貝貝重生（下）：消失的可能世界》的結局。他把三十一萬字的稿件交給人工智能分析，並請它按著文字的思路續寫，竟真的寫出了一個像樣的結局來。董啟章這樣評價人工智能的表現：

當中可以見到它強大的綜合和分析能力，以及基於上述設定擬定新章節的能力。前者令人覺得它真的「讀懂」了原文，對原文有深刻的「理解」，以至有「知音人」的感覺。後者則令人覺得它具有自主的創意，既忠於和延續原文，但又有自己的主張和關注，例如非常執著於「沉默與聲音」的主題。

續寫小說是小說家的領域，似乎與尋常人無關？然而既然人工智能可以理解如此長的文本，從中推敲作者的心意，甚至延伸思考並作出回應，那麼 AI 模仿一個人的思考方式進行對話，豈不是已被證實可行？在董啟章的實驗以前，其實已有很多例子證明 AI 可以模仿某些作者的風格和語氣，例如可以請他模仿莎士比亞的風格寫一首詩。

那麼，若有人把自己多年的日記或創作餵給 AI，建立出一個模仿自己思考方式的 AI 模型，不也已經能實現了嗎？

樣貌與表情模仿

幾星期前，ChatGPT-4o 的繪畫功能牽起了熱潮，一時間社交網絡被大量 AI 製圖洗版，更引起大眾有關如「吉卜力之亂」等的版權爭議。這一版本最為引人注目的應用，也是建基於模仿圖片的風格及圖片主體的面貌，進行二創。

然而，若配合另一些 AI 工具，把靜態的圖片轉成動態的影片，模仿的深度便又再提升一個層次了。我在 Hedra 這線上工具的幫助下，製作了以下這段動畫影片：

影片的製作過程如下：

先以 ChatGPT 按同事的肖像並我最喜愛的餐廳背景生成少女風的圖
連同錄製好的旁述（這部份可以用 AI 代理生成，不用錄音），丟到 Hedra 生成動畫
以影片編輯工具把書的封面及其他配圖剪接起來

以深偽（Deepfake）技術模仿一個人的樣貌和聲線，製作以假亂真影片的話題，已談了好幾年。然而跟聲音模仿的技術相似，最近這深偽的技術也「入屋」了，連我這半桶水技術的人都能以幾塊美金製作出這種水平的動畫，要以真人的照片為模版製作出模仿自己或某個人說話的影片，相信很快也會成為大眾均能輕易做到的事。

購買《愛虛構》季刊

阿牛的 AI 傳人

聲音模仿、思想模仿、及樣貌與表情模仿三項技術結合，便能在數位世界中「複製」出一個栩栩如生的真實人物。假設那個 AI 是複製阿牛的「阿牛機器」，想像一下以下的溝通流程：

你對阿牛機器說話。他的「耳朵」（即咪高峯）接收到你的說話，並轉化為文字輸入。
阿牛機器的 LLM 模型詮釋接收到的文字輸入，並輸出回應的文字
阿牛機器以阿牛的聲線和表情，說出回應的文字

AI 若要有效模仿某個人，最基本的條件是擁有相關的數據。照片、聲音的數據相對較容易獲取，智能手機的普及早已為個人的樣貌的數據提供了海量的照片，錄製一些自己聲音的檔案，操作也簡單得很。

對一般人比較難的，是讓 AI 模仿自己的思想，因為一般人的思想未經數位化，無法提供給 AI 學習。然而以上說法並非全然正確，因為當我們使用各種社交媒體及網絡工具時，我們的思考和行為模式早已被平台學習了。目前平台的學習目的主要為了尋找商機，但誰保證日後不會被用作其他異想天開的用途呢？我完全相信若 Facebook 或微信等公司願意，可以根據某個帳號的數據訓練出某個真人的「思想模型」出來。對企業的監管愈少、對人權愈不尊重的社會，愈容易出現這種濫用個人資料的情況。

但對我這習慣文字創作的人來說，董啟章的寫作實驗才是最具啟發性的，因為他的實驗結果顯示：我持續創作的文字，可直接成為 AI 複製人的養料，在數位世界中將我部分思想複製並延續下去。在我死後，以我的文字、聲音、照片和影片所訓練出來的「阿牛機器」，可以我的形像和語氣、基於我的價值觀和思考模式，跟後世對話 - 譬如我的曾孫能與現實中從未謀面的「AI 曾祖父」交流。這件事一方面令人興奮，另一方面卻令人毛骨悚然。

我持續寫作的動機，本來確也是把代表我的一部份以某種方式流傳下去。然而換了個如此像真的形式，究竟是好是壞？我覺得那是一個需要高度自覺才能跨過的心理關口，有如古代人無法理解影像作為一種文化傳承的方式一般。二千年前的耶穌會覺得自己復活的故事以卡通的形式在教堂內播放，是不道德的嗎？

人們對這種複製智能的技術其中一種最大的不安，是難以掌握資訊的「真實性」。例如，「有圖有真相」這說法已愈來愈站不住腳，法庭上呈上錄音片段作為證據，也不知是否可靠了。這令我想到在 AI 大行其道的時代，發展「資訊真確性」的技術的重要性 - 那不正是區塊鏈技術的關注範疇嗎？例如一段影片若能確認是某個錢包所「簽發」的，便能證實確是某人授權的資訊，而非冒名杜撰。

有關「我的 AI 模型還是我嗎」這種哲學討論，留待日後有機會再談吧。

黃牛山人筆友

Discussion about this post