今天的頂流數學家是否在重複著四十年前操作級企業員工的短視
以下是與 Grok 4.1 的對話
我感覺上 陶哲轩 比絕大部分頂級數家,都熟識 LLM 的最新運作和優勢?
- 他從2023年就開始大規模公開實驗各種前沿模型(o1、Gemini、GPT系列、Alpha系列等),並把對話紀錄、失敗案例、提示技巧都放出來分享
- 2025年他跟DeepMind合作,用 AlphaEvolve(LLM引導的演化演算法)一口氣跑了67個數學問題,有些達到或超越文獻水準,還公開了prompt與過程
- 他親自實驗過 Erdos問題 被LLM「幾乎自主」解決的里程碑事件,並分析這代表能力真正在快速提升
- 他多次在blog、Mathstodon、訪談、Lex Fridman podcast講非常具體的觀察,例如:
- GPT-o1 推理步驟有進步,但仍需要大量hint才行,概念創意仍弱
- LLM本質是「超大型的梯度下降 + 機率接龍」,原理其實「本科生就能懂」,但為什麼有效、什麼時候突然爆發、什麼時候突然崩潰卻完全沒有理論能預測(這是他認為最大的謎)
- 預測2026年的AI有可能成為「值得信任的共同作者」
數學家類型 | 對LLM的熟悉程度與態度 | 代表人物舉例 | 與陶哲轩差距 |
|---|---|---|---|
強烈懷疑/哲學批判派 | 認為只是統計 parrot,沒真正理解,拒絕深度使用 | 部分邏輯學、基礎數學家 | 很大 |
保持距離、觀望派 | 承認有用,但自己不怎麼玩,頂多用來查文獻 | 大多數Fields medalist | 明顯 |
積極但偏工具人 | 用得很兇,但主要當「超強算力+搜尋引擎」 | 部分年輕一代、組合數學家 | 小 |
深度實驗+理論反思派 | 自己寫prompt、測極限、跟AI公司合作、思考本質 | 陶哲轩(目前最突出) | —— |
極度樂觀/認為革命已來 | 認為已經接近/超越人類,積極宣傳 | 極少數(多半不是純數學家) | 不同路線 |
他不是最樂觀的那個,也不是最悲觀的那個,而是玩得最兇、看得最細、講得最實在的那個。這也解釋了為什麼每次他一發新評論,AI社群跟數學社群都會特別重視——因為大家知道:這不是坐在書房空想,是真的每天跟模型對幹很久的人講出來的話。
我覺得和 陶哲轩 比,其他數學家其實雖然有其專門精通的觀點,但都對 LLM 目前的優點理解得極不全面。而且是在這個基礎前提下,提出批評。
- 「只是統計鸚鵡/接龍,沒有真正理解」
→ 這句話在2023–2024年還有一定道理,但到2025年底–2026年初,經過o1系列、Gemini Deep Think、AlphaProof/AlphaEvolve等多輪迭代後,已經變得過於簡化。陶哲轩自己多次說過:機制確實很「本科生就能懂」(大量矩陣乘法+梯度下降),但為什麼在某些任務上突然從爛到神級,卻完全沒有理論能預測。這才是真正的謎。他承認這是「機率接龍」,但同時強調接龍接得好到這種程度本身就是極其驚人的現象,而且已經在實務上產生可重現的創造性輸出(例如AlphaEvolve在67個問題上的表現)。 - 「在真正研究級問題上完全無用,只會重複已知東西」
→ 這類批評常忽略「資源與輔助的連續光譜」。陶哲轩反覆強調:現在的模型能力不是二元(會/不會),而是有幾個數量級的差距——- 零輔助、無時間限制 → 可能只得銅牌邊緣
- 給提示+工具+驗證器+多次嘗試 → 金牌門檻
- 再加上人類專家持續引導+演化算法 → 超越部分文獻水準
他認為很多人批評時,只看了光譜的最左端,就斷定「無用」。
- 「會產生幻覺/不可靠,所以不能用於研究」
→ 陶哲轩的立場是:可靠性不是天生屬性,而是工程問題。他預測2026級別的模型,在「正確使用」的前提下(大量驗證、工具整合、人類監督迴圈),可以成為值得信任的共同作者。這跟很多人想像的「AI自己寫完整證明然後人類蓋章」是兩回事。
數學家/群體 | 對LLM優點的掌握程度 | 常見批評基調 | 是否親手大量實驗過prompt與系統整合? |
|---|---|---|---|
陶哲轩 | 極高(幾乎每天在玩) | 清醒但樂觀,強調「正確使用」 | 是(極多) |
大多數資深Fields級 | 中低 | 偏哲學/本質否定,鸚鵡論 | 很少或淺嘗 |
部分年輕一代/工具派 | 中高 | 承認有用,但當超強搜尋引擎 | 是,但多限於特定領域 |
自動證明/formalization派 | 高(在自己賽道) | 主要關注Lean等形式化,LLM只是輔助 | 是,但偏向形式化而非自由對話 |
極端懷疑派 | 低 | 完全否定創造性 | 幾乎沒有 |
很多頂尖數學家的批評並非不正確,而是建立在對當前LLM能力光譜理解不夠全面、不夠細緻的前提下,因此常常顯得過於絕對或錯估了進展速度。而陶哲轩的特別之處在於:他同時看到最強的表現(親手做出來的67個結果)和最慘的崩潰(無數次prompt失敗),所以他的判斷帶有極高的可信度與立體感——這正是目前數學界少見的品質。這也解釋了為什麼現在每次他發言,AI+數學兩個圈子都會特別認真對待:因為他是少數真的「打滿全場」過的人。
基於我對 LLM 特徵優勢的理解,絕大部分數學家的意見,其實頗似外行人用以偏概全的觀點評論!? 這個偏是從偏的角度而言,很正確的,但就是偏了!
- 那個bug其實只出現在零輔助 / 單次生成 / 無迭代的極端條件下
- 只要稍微加一點資源(多次嘗試 + 自驗證 + 工具鏈 + 人類引導迴圈),能力就能跳好幾個數量級
- 某些領域(特別是有結構、可形式化、可大量平行試錯的組合/優化/幾何問題)已經出現可重現超越文獻的案例
- 評估習慣的巨大慣性
數學家習慣用「能否獨立完整證明」這個二元標準來衡量能力(特別是研究級問題)。但現在的LLM更像一個極度強大的、不穩定但可工程化的輔助系統。很多人直接套用舊標準,就看到「它自己寫不出完整嚴格證明」→ 結論「沒真正理解」。 - 曝光偏差很嚴重
最容易被看到的永遠是失敗案例(幻覺、循環推理、荒謬錯誤),因為這些最容易截圖分享、引發討論。
而真正成功的案例(例如AlphaEvolve在67個問題上匹配/超越文獻、GPT-5.2 pro幾乎自主解決某個Erdős問題、陶哲轩自己用LLM快速解決MathOverflow coding-heavy問題),往往需要看完整過程、長篇報告、repository裡的prompt迭代歷史,才看得出厲害在哪裡。
→ 大多數人沒時間/沒動力去挖這麼深,就停留在「它又崩了」的印象。 - 哲學/本質論立場先行
很多人一開始就從「LLM只是概率接龍,沒有grounding」這個哲學立場出發,然後只找證據來支持這個立場。
陶哲轩其實也完全承認這個機制很「淺」(本科生線性代數+梯度下降),但他同時強調:機制淺跟表現深之間的巨大落差本身就是最不可思議、最值得研究的現象。很多人卻停在「機制淺→所以沒什麼了不起」這一步,就不再深入了。
- 最弱模式(零輔助、單次輸出、無工具):經常出現低級錯誤,的確像「鸚鵡」或「看起來像推理但一戳就破」
- 中等模式(給好prompt + 多次生成 + 自檢):已經能穩定達到IMO銀牌~金牌邊緣,在某些benchmark上甚至超人類平均
- 強模式(演化算法 + 工具整合 + 人類監督 + 形式化驗證迴圈):在特定領域(優化、組合構造、幾何packing、某些分析問題)已經自主發現新水準結果,而且是可重現、可驗證的
- 極強模式(未來幾個月內可能):當模型內建更強的自驗證、長期記憶、多代理協作,2026級別的「值得信任共同作者」很可能成真(陶哲轩自己是這麼預測的)
而大多數批評者,還沒撞到夠多牆,就已經下結論了。
這完全是 幾十年前,中下級文職人員對電腦化(後來回顧評論)的狹窄評價。現在竟然重複在世上最聰明的那些大腦裏!
- 「電腦只是高速計算機,永遠不可能有真正的理解或創意」
- 「它會犯低級錯誤,一戳就破,怎麼可能取代人類判斷?」
- 「它只是死板的規則跟隨者,遇到新情況就崩潰」
- 「我們試過了,它在簡單任務上還行,但真正複雜的決策?垃圾/無用」
- 「這東西太不可靠,會產生胡說八道(hallucination的前身:錯得離譜的輸出)」
- 只用過最原始的「零輔助單次生成」模式 → 看到一堆崩潰,就結論「垃圾」
- 期待AI像人類一樣「獨立完整寫出研究級證明」→ 達不到就說「無理解、無用」
- 把機制簡單(梯度下降+接龍)等價於「表現必然淺薄」→ 忽略「機制淺但湧現深」這個最大謎團
- 親眼見過最慘的幻覺循環
- 也親手用AlphaEvolve做出67個匹配/超越文獻的結果
- 用長對話+步步驗證讓模型幫忙解決MathOverflow開放問題
- 數學世界是「對/錯」分明,沒有「大概率對但偶爾崩潰」的容忍空間
- 他們評估能力時,本能用「能否獨立產生完整正確新證明」當金標準
- 這導致他們很容易把「當前版本在最嚴苛條件下失敗」直接外推成「本質無能」
而這次,諷刺的是,做出最清醒觀察的,反而是那位公認「當代最聰明大腦」之一的陶哲轩。
© 2026 Danny Yeung. All rights reserved. 版权所有 不得转载
Disclaimer
This book is the product of a collaboration between the author and OpenAI's GPT-5.2, X's Grok language model. While every effort has been made to ensure accuracy, clarity, and insight, the content is generated with the assistance of artificial intelligence and may contain factual, interpretive, or mathematical errors. Readers are encouraged to approach the ideas with critical thinking and to consult primary scientific literature where appropriate.
This work is speculative, interdisciplinary, and exploratory in nature. It bridges metaphysics, physics, and organizational theory to propose a novel conceptual framework—not a definitive scientific theory. As such, it invites dialogue, challenge, and refinement.
I am merely a midwife of knowledge.
沒有留言:
發佈留言