對談 Fisher Yu教授:ChatGPT等生成式AI發展

Fisher Yu,瑞士蘇黎世聯邦理工學院(ETH Zürich)助理教授,ETH AI Center以及 ETH Center for Robotics 核心教授成員。

問題:ChatGPT 效果如此“炸裂”,AI 從業者們事先是否預見到了?
Fisher教授: 這個問題有兩個方面:一方面大家對炸裂效果是有希冀的;另一方面大家驚訝於效果怎麼可以突然變得這麼好。過去幾年中語言處理的技術發展非常快,尤其是 Transformer 出現之後,讓我們研究超大規模語言模型(Large Language Models,LLM) 成為可能。
雖說 ChatGPT 效果非常出色,但 AI 領域研究和從業者也不是完全沒有預期過這樣的結果。在過去幾年, GPT 本身發展了好幾個版本,Facebook 和 Google 也不斷地在更新反覆運算本身的 LLM 。
這個過程中大家發現了非常有意思的特性。比如說去年 Google 發佈的 PaLM (Pathways Language Model),可以支援非常多的任務,甚至可以去解釋笑話。當參數量足夠大,LLM 會產生湧現特性(Emerging Properties),讓人感覺語言模型已經真正理解了語言本身或者邏輯本身,即使嚴格意義上而言模型並沒有真正理解。
每年都會有層出不窮的新技術,使得 LLM 快速反覆運算。但同時另外一方面,ChatGPT 的出現確實也算是過去幾年技術不斷跳躍基礎上飛躍的一步,因為在 ChatGPT 的基礎上,我們不僅可以得到大量有用的資訊,同時人實現了和語言模型的無縫溝通。人們開玩笑說之後不再需要程式師了,只需要 Prompt Engineer 從 LLM 獲取資訊和生成結果。
ChatGPT 的出現讓大家認識到哪怕只是自然語言對話,你依然可以從模型中得到非常有意義的資訊,不僅對經過專業訓練的工程師幫助很大,普通人也可以感受到它的能力和用處,ChatGPT 完成了產品上的跨越。

問題:ChatGPT 是否能理解語言邏輯本身?
Fisher教授: 這是在業界高爭議的話題。雖然有很多人認為它在功能上對語言有了一定的理解能力, 但是現在沒人會百分之百認為 ChatGPT 真能理解語言本身。因為真正要學習語言和邏輯,還需要對語言的含義和推理規則有深刻理解。
最近在語言學界,關於這個問題的討論也非常多。著名語言學家 Noam Chomsky 最近在 New York Times 上明確表示,從嚴格意義來講 ChatGPT 並不能理解語言本身。
Noam 的這個論調遭到了 NLP(Natural Language Processing 自然語言處理)學者的反對,你說它完全沒有理解,也不對。
不過,大家都公認的一點是,從原理上來講不能保證 ChatGPT 像人一樣理解了語言的邏輯,但是它可以執行對語言邏輯的理解功能。

問題:開源圈和雲計算巨頭是如何看待 ChatGPT的?
Fisher教授: 我來聊聊 ChatGPT 對整個科技領域的影響。非常有影響力的一點就是現在 OpenAI 通過和微軟緊密合作,把 ChatGPT 做到了微軟的產品當中去。同時OpenAI 也在和很多小公司或者服務型公司合作,試圖將他們的技術應用到不同的領域中去。
正因如此,OpenAI 雖然沒有開源模型本身,但截至目前在整個產品環境,它還是持非常開放的態度。ChatGPT 的 API 已經用非常便宜的價格開放,任何開發者都有能力去接入他們自己的產品,讓其產品擁有類似 ChatGPT 的功能。這點正是對AI 的商業環境影響巨大的地方。相當於每一個開發者,都可以去參考或者使用這樣的技術。其他幾家的雲計算巨頭也在非常快速地跟上,Google 在過去一周也發表了基於 Google Cloud 的 LLM 的 API,使這個市場裡不僅只有大公司可以獨享這些先進的 LLM 技術,小公司也可以擁抱技術作為其產品的一部分。這也正是相關產品反覆運算非常快的原因之一。

問題:ChatGPT 正在對哪些工作崗位造成影響?
Fisher教授: GPT-4 對於很多工作都產生了影響,每個人在各自工作中都能或多或少用到一些,尤其是對於需要製作大量內容的工作崗位,比如說客戶服務。之前的客服 AI 聊天機器人只能解決最基礎的用戶引導或者任務分派,可以預見,如果隨著 ChatGPT 在各個垂直領域的成熟,對人工客服的需求就可以減少;又比如廣告文案、社交媒體的資訊,在被 ChatGPT 賦能之後,創作過程必然會加速;還有 Data Scientist,以前需要大量人員去挖掘大規模資料,現在可以用 AI 直接去萃取資料資訊並予以呈現。其他崗位譬如 HR,現在已經有 AI 篩選簡歷和安排面試。
不過要指出的是,雖然 ChatGPT 或者 GPT-4 會對這些工作會造成非常深遠的影響,但是至少目前來看對人工並不是替代作用,而是增強作用,可以增強不同領域專業人士的工作效率,幫助大家解決基礎問題,但真正涉及到專業本身的問題,還是需要人去解決的。
最直觀的一個例子就是,GPT-4 可以在律師專業考試中超過 90% 的考生。雖然分數很高,但裡面最大的問題是,如果你沒有很深的專業知識,就很難瞭解 GPT-4 生成的回答中錯誤的是哪個部分。這就是目前 ChatGPT 或者 GPT-4 真正取代從業者的最大阻礙之一。就好像,一個律師可以讓 ChatGPT 起草一些文案,但是ChatGPT 不能真正幫人去打官司。它缺乏很強的自我認知能力,並且無法保證百分之百的事實正確。

問題:您提到 ChatGPT 對人工效率的增強作用,但我們使用 ChatGPT 的過程中,卻感到因為無法對生成內容做出真實性判斷,需要更多時間去檢查核實,反而降低了效率?
Fisher教授: 這不只是 ChatGPT 的問題,而是整個做 AI 的主要障礙。現在 AI 無論是語言還是視覺模型,都可以達到相當高的準確率,但是最大的問題還是在於錯誤的 10% 需要人再去看。最典型的就是自動駕駛,現在的自動駕駛可以解決 99% 的問題,但是自駕公司最糾結的就是 99.9%,99.99% 的情況,雖然不常見,但是卻對工作的替代造成了巨大阻礙,這也是為什麼很多智慧駕駛公司在向輔助駕駛轉型。
目前在 AI 領域面臨的非常嚴峻的一個問題就是,我們如何能知道這個基於學習和資料統計上的模型可以和傳統語言邏輯的準則相結合,使得模型既可以知道自己輸出的內容是對是錯,同時也瞭解自己有哪些東西是不知道的,並且可以明確展現出來。

問題:ChatGPT 廣泛使用後,人的認知能力會下降嗎?
Fisher教授: 這是個非常有意思的問題,也存在很多爭議,ChatGPT 剛出來的時候,高中生甚至本科生就用它來寫作業,使得很多老師、教授深受打擊。他們會發現雖然學生沒有抄襲別人的作業,但是機器的寫作並沒有鍛煉到學生本身的能力,教師還要浪費時間去批改機器生成的內容。於是學校不得不出臺政策禁止使用類似的技術。
我認為對於整個社會, ChatGPT 出現所造成的影響是一個需要慢慢吸收的過程。就像計算器一樣,在不同的教育領域,至今還是存在不同的看法。有的學校認為計算器可以帶去考場,沒有必要讓學生手動解決計算問題,這樣可以讓考題變得更深入;當計算本身不是瓶頸,問題的本身就會變成重點,比如物理、化學、應用數學考試中,你是否真正理解原理才是最重要的,計算本身反而是次要的。我們現在社會上,隨處都可以用到計算器,但在最基礎的小學的教育裡面,對於學生基本運算能力的培養還是必要的。同理,即使有 ChatGPT 的存在,在教育的初期還是需要讓學生掌握文章寫作和內容創作的基礎能力。
ChatGPT 本身可以作為輔助工具來提高人的工作和學習效率,我認為對人的認知能力反而會有一定提升。因為之前人在認知或者學習的過程中,瓶頸在於基礎任務和表達,如果這部分內容可以由 ChatGPT 代勞,人們不再受基礎問題限制,就有時間對問題本身去進行深度思考和進一步研究。所以我覺得可能之後甚至可能會有課程專門來教大家如何使用 ChatGPT 來提高他們本身學習和工作的效率,使得人可以進一步地提升自己的認知能力,然後提高自身的專業工作能力。

問題:ChatGPT 會導致哪些行業變化?
Fisher教授: 這個超出了我的專業範圍了(笑),但是可以預見或者我們已知的是,AI 在內容創作中的應用一定會日益普及。AI 已經滲入日常工作流程的方方面面。比如說創造 Photoshop 的 Adobe,每年都投入大量資金研究 AI 如何幫助創作者去更好地表達創意,如何更方便地去操作軟體。這樣的過程一直都在發生,只是在 ChatGPT 出現之前,Adobe 進行的研究和展現的變化沒有讓普羅大眾所認知。ChatGPT 和 GPT-4 會讓這個過程加速,甚至產生階梯性的跳躍,在某個時間點某個工具會突然出現,讓我們重新思考整個工作流程。
還有比如翻譯服務,在歐洲特別明顯,歐洲語種多、語言差異大,像 Google 翻譯這種隨身的語言服務在實際生活中的説明是很大的,我覺得語言模型對行業的説明可能會更多體現在這種方面。
之前大家在做內容創作的時候,比如一篇演講稿,行業中的頂級管理者可能會有自己的專業團隊來做文案起草。但是現在有 AI 的幫助,每個普通人都可以有一支“自己的團隊”來完成表達和創作,這對於個人的工作效率和幸福感一定會有所提升,也會促成新的行業。拿自媒體來說,人們不僅可以自由表達,還可以有機會像大 V 一樣進行高品質的表達。

問題:LLM 對您的專業領域而言有什麼影響?
Fisher教授: 應該說對整個 AI 領域研究都影響巨大,尤其對自然語言處理,大家甚至出現生存危機感,這個專業的 AI 學生十分緊張,不知道自己的研究在 LLM 下是否還有存在價值。電腦視覺領域也有同樣的危機感,因為 GPT-4 可以很好地解決視覺問題,可以隨意地基於不同圖片生成豐富的描述,可以通過識別來和人進行有效的對話,這點是令我所在的視覺領域非常讚歎的。
從我的專業角度講,我們也在不斷思考如何可以用強語言能力增強對圖片的識別,畢竟圖片就是電腦視覺研究的問題,不僅只是基於圖文對話,我們還需要對於視覺資訊本身進行深入分析。比如說不僅是對整個圖片,甚至是對物體層面,甚至物體在整個視頻序列中的動態資訊進行深入分析。另外一點就是對於視覺的理解,它的要求不僅僅是語義分析,也需要在形狀、幾何和交互性上進行理解。這個場景本身我們稱之為 Affordence(可供性,指環境提供給個體的東西,強調環境與動態物體的互補性)—— 就是你看到一把椅子,你需要知道椅子是可以坐的,然後你可以坐在椅子上。相當於和語言的理解是交叉的,整個視覺資訊的理解還有很多其他的方面目前沒能很好地解決。
另外一點,LLM 對語言和視覺的結合會有很大促進作用。我們實驗室主攻的一個方向,就是如何可以讓機器人有視覺識別的能力,使得它可以通過觀察和人交流的場景,自動生成對整個機器人的控制信號。這點在視覺本身還有下游應用都有巨大幫助。不過目前這些維度在語義上是無法完全去控制的。
問題:在 LLM 方面,歐洲學術圈和企業相比其他國家的變化有什麼特點?

Fisher教授: 歐洲和美國方面在技術的感知程度上差不多。在學術圈差別也不大,能接觸的資源也都一樣,大家思考的都是 GPT-4 或者 ChatGPT 的技術之後,我們本身的研究應該向哪個方向發展?
但在工業界的話,受整體工業氛圍的影響,矽谷的公司,尤其是小的公司會募得快一點,很多美國公司都快速接入 API,進行產品反覆運算。歐洲確實慢一點,因為一般歐洲工業相對傳統,在新技術的反覆運算,尤其在軟體層面,會比矽谷慢一步。
問題:歐洲整個資料隱私保護 GDPR 相對來說是全世界最嚴格的之一了,會不會對 LLM 推廣造成阻礙?
Fisher教授: 更多的是對人的隱私資訊保護。如果對 LLM 中的個人資訊不加以明確保護的話,很有可能我們每個人資訊就會出現在 LLM 中,這是很可怕的。在有明確的資料保護後,公司在開發 LLM 技術時就會十分謹慎,而不會抱著僥倖心理去觸碰個人隱私和個人利益。

問題:您覺得廣泛意義上 AGI 還有多遠?
Fisher教授: 這個非常難預測,嚴格意義的 AGI 而言,10 年內很難。當然 10 年前如果我們說未來 10 年要實現 AGI,大家都會覺得是天方夜譚;如今我們再談,就已經有可能的思路 AGI 會在哪些點上出現。很難講它是基於模式識別而進行學習的技術,但它確實在大量資料和大量參數下產生了湧現特性,讓人覺得它初步具備了一些智慧。
這對於我們做 AGI 是切入點。但是說何時實現,就好比對其他人工智慧技術的預測一樣,它始終是會變得越來越近,但總會有一種觸不可及的感覺。
比如說自動駕駛領域,福特在 50 年代的時候就說我們在 20 年之後就會實現全自動駕駛,但回頭來看,這個目標肯定沒有實現。但是至少在過去這幾年,雖然我們現在依然沒有實現完全的自動駕駛,但是大家對自動駕駛的預期一直在縮短,從 20 年到 10 年,從 10 年到 5 年,從 5 年到 2 年,很多團隊還說明年就能完成。馬斯克主導的無人駕駛或者輔助駕駛方案我覺得最終還是可行的,就是發展技術路線比較難預測。
從預期時間的普遍縮短上,可以看出我們的技術發展在長足進步。但同時也能發現人們對 AI 的預期和對電腦的預期完全不同。電腦的預期一直基於摩爾定律,可以按照固定的模式去預期,甚至是一個公式已經寫好了它可能會發生什麼。但是對於 AI 的發展,它是一個反摩爾定律,每次進展,為了解決那最後的 10% 、5% 甚至 1% 的時候,可能會需要比之前付出更多的努力和代價才能達到。

問題:您覺得 LLM 的能力邊界在哪裡?
Fisher教授: 回顧過去這幾年深度學習的發展,雖然深度學習有很多支持者,但其中也不乏反對的聲音。比如跟因深度學習貢獻而獲得圖靈獎的 Yann LeCun 同一個學校的學者,叫 Gary Marcus,在 2022 年 3 月份寫過一篇文章叫 ,其中的質疑包括語言模型是否真的能推理和具有常識。雖然這些質疑都是有道理的,但是深度學習一次又一次展現出驚人的能力,因此很難說能力的極限在哪裡。我在很多年前跟一個做 NLP 的學生討論,說如果我們去把所有的網頁都下載下來,然後去學基礎的事實,會發生什麼?當時發現做語言處理時,有一個非常有趣的現象,就是大家一般不會在網上寫“常識性”的內容,很難從網上獲得“常識”。比如,香蕉是黃色的,大家在網上寫文章,就不會直白地去寫香蕉是黃色的,因為這樣缺乏新聞性,只會寫今天發現了紅色的香蕉或者其他奇怪的東西。但是我們現在發現當你的資料邊界大到一定程度的時候,很多“常識性”的東西也可以被學到。
我們在和 ChatGPT 對話過程中,對於非常基礎或者顯而易見的事情,它可以說得很有條理,有理有據。具有挑戰性和深入的話題它就不知所云。大語言模型的理論邊界,一直在不斷地被挑戰和被突破,但是它會有資源和商業上的邊界。比如只用現在的技術去上規模的話,我們的資料和計算量已經在極限了。如果我們繼續上規模 ,以現在這個技術積累去發展大模型,就會遇到資源或者人力上的瓶頸。不過也很難講,隨著大家對這個問題的關注,可以投入更多的資源,就會出現新的技術來彌補不足。比如 GPT 本身的技術,以及 Google 的 Transformer,還有其他底層技術。以後大公司會更重視 LLM 的能力,做更多的投入。只要技術瓶頸一破,就很難預測邊界了。

原標題:綠洲對談 Fisher Yu 教授:AI 發展的反摩爾定律性(參贊生命力 緑洲資本 Vitalbridge)

返回頂端