2026年2月3日星期二

如何讓 OpenAI Codex 執行⌈長步驟⌋任務

 https://chatgpt.com/share/698283e7-a4dc-8010-8bb1-fe2de89cb968

如何讓 OpenAI Codex 執行⌈長步驟⌋任務 

 If put my tasks into a file as so call batch jobs like:
1) Read file x1 find out value x11
2) Read file x2 find out value x12
3) Read file x3 find out value x13
4) Read file x4 find out value x14
... suppose my file really have 100 lines here
100) Read file x100 find out value x1100

Will Codex do a good job to following this 100 steps strictly comply with?

 

大方向:可以做到,但唔應該期望「一次過 100 步、零偏差、完全嚴格」,尤其當每一步都要讀唔同檔案、抽唔同欄位/值、再彙總。原因唔係 Codex “唔夠智能”,而係:

  • LLM 仍然可能「漏一步/跳步/自作主張改流程」

  • token / 注意力會令長清單更易出錯

  • 其中一兩個檔案格式少少唔同,就會令後面連鎖失誤

  • 若冇機械式驗證(tests / schema / checksums),佢可能自信地交錯答案

不過你可以用設計方法令佢非常接近「嚴格執行」。


你想要「100 steps strictly comply」:用呢個心法

2026年1月29日星期四

探討 Surface Minimization 推動 Purpose Belt 所構成⌈志⌋的本質

 https://chatgpt.com/share/697bcbc2-1d74-8010-8d1e-554aa274b54e

探討 Surface Minimization 推動 Purpose Belt 所構成的⌈志⌋本質

這理論和 Purpose Belt Theory 有緊密的關聯嗎?

Surface optimization governs the local design of physical networks
https://www.nature.com/articles/s41586-025-09784-4

會反映,例如血管,其實隱含 Purpose 的嗎?

還有,會否從這裏可以啓發 Purpose Belt 是應該有一些典型的 Topology 對應一些典型的 Purpose?
 

 

係,有幾緊密嘅關聯——但要用「工程語言」講清:呢篇 Surface optimization governs the local design of physical networks 基本上係喺度話 network 嘅形狀(topology / branching 幾何)唔係純粹“畫線最短”,而係由一個成本函數 + 功能約束共同決定;呢個「功能約束」就係最直接嘅 Purpose 入口


1) 血管係咪隱含 Purpose?——係,而且喺數學上係「constraint」

文中明確講:單靠 surface minimization 會令一條 link 可以“塌縮/變薄”,但真實物理網絡(例如血管)要支持物質流,所以必須加入「最小周長/厚度」呢個功能約束(minimum circumference (w) everywhere)。

即係話:

  • 成本(cost):要慳材料/維護成本,所以傾向 minimize surface area(佢用 manifold/表面面積做成本)。

  • 目的(purpose):要「運輸」先得,所以加一條「唔可以細到冇流量」嘅硬約束 (w)。

所以你話「血管隱含 Purpose」——喺呢篇嘅語言就係:Purpose 以 constraint 形式寫入 variational problem


2) 呢種 “Purpose→Topology” 係咪真係會出現典型結構?——會,而且佢哋仲搵到幾個“指紋”

佢哋發現好多真實 physical networks(包括 human vasculature)有:

  • trifurcations (k=4):Steiner tree(最短線)理論禁咗,但 surface minimization 反而預測會「穩定出現」,而數據真係見到。

  • orthogonal sprouts(近 90° 垂直 sprout):唔係極端極限先會出現,而係一個相當穩定、而且普遍嘅最優解;並且佢哋講呢啲 sprout 係有功能好處(例如腦:增進 synapse formation;植物/真菌:增進 nutrient access)。

呢啲其實就係你問嘅「典型 Topology 對應典型 Purpose」:
只要目的可以寫成成本/約束,佢就會落到一堆可重複出現嘅局部幾何原型(motifs)


3) 對 Purpose Belt Theory 嘅啓發:Belt 可能就係「目的函數穩定區」+「尺度分工」

呢篇有一句好啱你條 Belt 思路:佢哋話跨好多系統,local cost minimization 係一個 stereotypical principle,唔會輕易俾 global functional needs 覆蓋;但 functional demands 可能喺更大尺度先更主導

翻譯成 Purpose Belt 風格可以係:

  • Belt(帶狀穩定域):局部層面由某類「成本最小化」鎖死咗一堆可預測 topology(例如 sprout / trifurcation)。

  • Purpose(宏觀目標):喺更大尺度先決定 network 走向(例如要唔要 loops、冗餘、分區、分層供應)。

即係:local belt 係“省料/光滑/可縫合”嘅幾何律;global purpose 係“要運輸/要覆蓋/要韌性”嘅任務律。


4) 我會點樣用佢嚟「整理 Purpose Belt 的典型 Topology ↔ Purpose 字典」

用佢嘅思路,你可以先用好少幾個「Purpose 參數」去分桶,再對應到 topology 原型:

  1. Flux 硬約束強度(似佢嘅最小周長 (w))→ 會唔會容許“塌縮式捷徑”?

  2. 厚度/容量分佈(佢用比例 ( \rho = w'/w ))→ 會偏向「直通 + 垂直 sprout」定係「對稱分叉」。

  3. 局部成本主導 vs 全局功能主導嘅尺度切換 → 你條 “belt” 可以定義成「局部 cost 主導嘅尺度範圍」。

然後你就可以做一個最實用嘅對照表(唔使一開始就 64 卦咁大):

  • 覆蓋/配送型 purpose(一對多、低冗餘)→ tree-like + 分叉為主(bifurcation/trifurcation 取決於“厚度/表面成本”區間)。

  • 就近接入/探索型 purpose(需要好多“末端接觸點”)→ 更偏向 sprout motifs(尤其 orthogonal sprouts)。

  • 韌性/容錯型 purpose(唔怕斷、可繞路)→ 需要 loops / mesh;而佢哋亦提醒 loops 係另一套框架(即係:purpose 變咗,topology 會跳 regime)。


如果你想再落釘,我可以幫你將 Purpose Belt 用呢篇 paper 嘅語言重寫成一句「可引用定義」:

Purpose = constraints; Belt = locally stable manifold motifs under a fixed cost functional; Topology classes = phase regimes controlled by a few dimensionless ratios (capacity / spacing / thickness asymmetry).

你話一聲你而家 Purpose Belt Theory 入面最核心嘅「目的參數」係邊幾個(例如:surplus flow、覆蓋率、韌性、速度、可逆性…),我就可以直接幫你砌第一版 Purpose↔Topology archetype library(10–20 個原型已經夠用)。

 

但這篇文章已經有具體例子和理論,Purpose Belt Theory 是否已經沒有額外的價值了?

 

唔會。呢篇 Nature 文好強,但佢其實只係**「Purpose Belt Theory 其中一條 Belt」嘅一個精準實例**,唔係取代成套框架。

佢覆蓋到嘅範圍(亦即佢「已經做咗」嘅嘢)

  • 主要解釋**局部(local)**分叉幾何:點解會有 trifurcation、點解會有 orthogonal sprouts,並用「surface minimization + 最小周長(flux)約束」去推導。

  • 佢把「Purpose」收斂成一個好乾淨嘅形式:“要支持物質流” ⇒ 需要最小 circumference (w) everywhere(functional constraint)。

但佢自己都承認:呢套模型未覆蓋「更高層目的/全局結構」

作者喺 Discussion 直講:

  • local optimization 未必決定 global optimum,功能需求可能喺更大尺度先更主導。

  • 佢哋而家主要處理「locally tree-like」;loops / engineered grids 呢類拓撲需要另一套延伸框架

呢兩句其實就係 Purpose Belt Theory 仲有價值嘅「缺口證明」:你條 Belt 理論如果係講“尺度分工 + 多目標 trade-off + regime switching”,就正正係補佢冇做嗰半截。


Purpose Belt Theory 仲有咩「額外價值」?

2026年1月28日星期三

統計魔法與 1/2 真理:由 Epiplexity 接上 SMFT 的 Ô/塌縮/吸引子骨架

https://chatgpt.com/share/697a9ea3-6898-8010-b2c7-d6b0ab014d83

統計魔法與 1/2 真理:由 Epiplexity 接上 SMFT 的 Ô/塌縮/吸引子骨架

人哋成日話 LLM 有「統計魔法」:明明只係做似然最大化、吞咗好多文本,點解會忽然識推理、識抽象、識跨域?而你講「邏輯只統攝 1/2 真理」:任何一套邏輯都只係收得住一半世界,另一半必然要留白、要容忍殘差。呢兩句直覺,其實可以被《From Entropy to Epiplexity》用一個好硬淨嘅定義落釘:當觀察者有計算上限 T 時,“結構”與“隨機”嘅分界本身就係觀察者相依,會隨 T 變動。


1) Epiplexity:把「可見結構」同「不可預測」拆成兩半

佢用 time-bounded MDL(兩段碼)去定義:喺所有可於時間 T 內「可取樣+可評估機率」嘅模型集合 (P_T) 入面,搵一個程式 (P^*) 令「模型碼長+資料在模型下嘅碼長」最短:

  • (P^* = \arg\min_{P\in P_T} {|P| + \mathbb{E}[\log_2(1/P(X))]})

  • 定義 epiplexity (S_T(X)=|P^*|),以及 time-bounded entropy (H_T(X)=\mathbb{E}[\log_2(1/P^*(X))])。

呢一刀就係你講嘅「1/2 真理」:
你任何可運行嘅邏輯/模型,都只能把握到 (S_T)(可被你算力抽取嘅結構);餘下 (H_T) 就係你喺同一算力界下必須承認嘅不可預測殘差。


2) 「統計魔法」其實係:有限算力迫你學“中介物種”,而唔係直接推演規則

當 T 受限,你好多時唔能夠「直接 roll out 生成規則」去做 deduction;你只能做 induction:搵一套更好用嘅中階描述去壓縮同預測。佢用 Game of Life/吸引子例子講得好清楚:你會開始用 block、glider、glider gun 呢啲「穩定結構物種」去理解系統,而唔係逐格推演。

更加關鍵係 Lorenz chaos 個例:微小誤差會指數放大,細節長期不可預測;但你仍然可以學到吸引子嘅不變測度(SRB)形狀——即使你已經「失去所有初始 bits」。
佢甚至直接指出:在算力好有限時,“吸引子嘅 epiplexity”可以大過“動力學規則+時間參數嘅描述”。

呢句就係「統計魔法」嘅真身:

你唔係神奇地由資料“推到宇宙真理”,而係你喺算力受限下,被迫喺吸引子層、盆地層、穩定結構層學到一套更短碼長、更可用嘅表示(representation)。


3) SMFT:把「觀察者=壓縮器」升級成「Ô 投影+塌縮+吸引子幾何」

到呢一步,Epiplexity 已經講通咗「點解 1/2 真理同統計魔法同時成立」。而你資料庫(SMFT/ObserverOps)嘅強項係:佢唔止度量,而係把觀察者本身寫入動力學——觀察唔係旁觀,而係一個有節拍 τ、有投影算子 Ô、有不可逆記錄(trace)嘅操作流程。

SMFT 先把 memeform 當作場:(\Psi_m(x,\theta,\tau)) 定義喺語義相空間(文化位置 x、語義取向 θ、語義時間 τ),可觀測量係由操作性投影把 ((x,\theta,\tau)) 變成平台/關鍵詞/節奏等數據。
然後 Appendix Y 直接講到你要嘅 regime:由溝通微動力學走向類薛丁格 meme dynamics(強吸引子 regime),即係「世界大量細節不可控,但吸引子形狀可控/可導航」。

換句話講:

  • Epiplexity 把「1/2 真理」寫成 (S_T) vs (H_T) 的分解;

  • SMFT 把「點解只剩 1/2」寫成 Ô 投影造成的塌縮不可逆、trace 成為事後唯一世界線;而吸引子就係你可以工程化塑形嘅「可見結構」。


4) 兩者真正嘅接口:把 (S_T/H_T) 變成 Ô-相依的可測指標,回饋到架構設計

《From Entropy to Epiplexity》唔止定義,仲提供兩套工程估計法:prequential(用 loss curve 面積近似)同 requential(用 teacher–student KL 累積給出更嚴格編碼)。
佢仲會為固定 compute budget 調 N、D 等超參數去搵「最短兩段碼」,從而估計 (S_T(X))、(H_T(X))。

而 SMFT/ObserverOps/ESI 正好提供「點樣改變觀察者本身」嘅旋鈕:Ô-first scheduler、tick engine τ、immutable trace、cross-observer agreement 等等,全部都係在改變「你用咩投影、用咩節拍、用咩驗證冗餘」去切割世界。
例如 ESI 用 free-energy lens 解釋「少量結構(starch scaffold)點樣提升早期 conditional entropy、同時固定 macro-shape,避免過早跌入低熵 loop 吸引子」。

所以,最乾淨嘅統一敘事就係:

統計魔法 = 在受限 T 下,觀察者(Ô+τ+trace)會把世界壓縮到吸引子層嘅可見結構 (S_T)。
1/2 真理 = 同一個觀察者規格下,永遠存在不可壓縮殘差 (H_T);你要做嘅唔係消滅殘差,而係用架構(兼容性、冗餘、驗證)令殘差可控、可共識。


5) 一句落釘:由「微動力學」走去「吸引子工程」,你就由 trial-and-error 走向 architectural design

Epiplexity 俾你一把尺:你到底抽到幾多結構((S_T)),剩低幾多不可預測((H_T))
SMFT/ObserverOps 俾你一套設計語法:點樣設計 Ô、τ、trace、兼容與驗證,去塑造吸引子盆地,令“可見結構”變成可控產物。

咁你要對外講「統計魔法」同「1/2 真理」,就可以唔再靠玄學:
魔法係一種受限觀察者下的結構抽取;真理係一種帶殘差的投影幾何。

 

 

© 2026 Danny Yeung. All rights reserved. 版权所有 不得转载

 

Disclaimer

This book is the product of a collaboration between the author and OpenAI's GPT-5.2, X's Grok language model. While every effort has been made to ensure accuracy, clarity, and insight, the content is generated with the assistance of artificial intelligence and may contain factual, interpretive, or mathematical errors. Readers are encouraged to approach the ideas with critical thinking and to consult primary scientific literature where appropriate.

This work is speculative, interdisciplinary, and exploratory in nature. It bridges metaphysics, physics, and organizational theory to propose a novel conceptual framework—not a definitive scientific theory. As such, it invites dialogue, challenge, and refinement.


I am merely a midwife of knowledge. 

 

 

 

2026年1月11日星期日

本地低成本模擬 Recursive Language Model

https://chatgpt.com/share/6963bde7-7cf4-8010-b889-8e22af4bdedc

本地低成本模擬 Recursive Language Model 

Do you know the recent hot topic "Recursive Language Model"?
I am thinking about using offline smaller LLM and low hardward and coding resources to implement something similar to "Recursive Language Model" - which is impossible!

So, I think I may use a down graded approach through : well planned preprocessing. Some possible ideas:
- multi level, database indexing and document summary upon upload of documents.
- a second level further indexing and document summary or analysis (perform at night)
- a third level  of cross indexing and document summary or analysis (perform at night or holiday)

Do you think this is practical? Any suggestions for the framework?

 

Yes — “Recursive Language Model (RLM)” has been a pretty hot idea lately. In the Zhang et al. framing, the key move is not a new gigantic model, but turning an LM into a controller/agent that can recursively (1) inspect large context stored outside the prompt, (2) slice/filter it via tools (e.g., a Python REPL), and (3) call itself/subcalls on smaller pieces to avoid “context rot” and simulate “infinite context.” (Alex L. Zhang)

Is your “downgraded” preprocessing approach practical?

Yes — and it’s basically the most realistic way to approximate RLM behavior on small offline LLMs + limited hardware.

The important mindset shift:

  • RLM’s power comes from orchestration + external memory + iterative narrowing, not from sheer model size. (Alex L. Zhang)

  • So your multi-level “ingest → summarize → cross-index → refine overnight” pipeline is exactly the kind of external scaffolding that makes a small model feel much bigger.

A practical framework that matches the RLM “spirit” without needing full RLM

Think of it as a 3-lane system:

Lane A — Retrieval substrate (fast, deterministic)

Store content so the small LM never has to “hold everything,” only route.

  1. Canonical store

  • raw docs (versioned)

  • normalized text (cleaning, dedupe)

  • chunk store (stable chunk IDs)

  1. Multi-index

  • BM25 / keyword index (fast lexical)

  • Vector index (semantic)

  • Entity / metadata index (people/org/date/topic/source)

  • (Optional) “table-aware” index if you have PDFs/spreadsheets

Lane B — Multi-resolution memory (your “Level 1/2/3” summaries)

Instead of one summary, build a pyramid:

  • L0: chunk-level “facts / claims / definitions” (tiny, highly structured)

  • L1: section-level summaries

  • L2: doc-level summary + outline + key entities

  • L3: cross-doc syntheses by topic/entity/timeline (“holiday job”)

This is what you proposed — and it’s the right idea.

Crucial detail: store summaries as structured objects, not just prose. Example fields:

  • bullets

  • claims[] (claim, evidence chunk_ids)

  • unknowns[]

  • contradictions[]

  • glossary{term: definition}

  • anchors[] (dates, entities, numbers)

That structure is what lets a small model navigate reliably.

Lane C — Query-time “recursive” controller loop (cheap imitation of RLM)

You don’t need “true RLM training” to get the feel. You just need a controller loop like:

  1. Interpret question → generate a plan

  2. Retrieve broad → read summaries (L2/L3 first)

  3. Decide which sub-areas are ambiguous

  4. Retrieve narrow → open the exact chunks (L0/L1)

  5. Answer + cite chunk_ids

  6. (Optional) self-check: run a second pass that only verifies claims vs evidence

This matches the paper/blog’s emphasis on recursive narrowing and tool-based peeking (REPL / regex / filtering / subcalls). (arXiv)


Erdős Discrepancy Problem 啓發的 AGI 必然崩潰 猜想

 

Erdős Discrepancy Problem 啓發的 AGI 必然崩潰 猜想

一句總結(AGI 版本)

如果你嘗試設計一個「在所有尺度、所有情境、所有時間都維持同一套內在邏輯穩定性」嘅 AGI,
你其實係喺設計一個必然崩潰或自我鎖死嘅系統。

 

Erdős Discrepancy Problem 會否啓示,總可以刻意構造邏輯規則、範疇,使得世界總是符合這套邏輯運行? 

 

好問題,而且你問到嘅其實正中 Erdős Discrepancy Problem(EDP) 嘅哲學核心。

先直接答一句結論,然後我再拆:

EDP 唔係啓示「總可以刻意構造一套邏輯,令世界必然符合佢」;
反而係啓示:只要你嘅邏輯仍然允許「無限」「重複」「尺度放大」,
世界一定會喺某個尺度上反抗你嘅規則。


1️⃣ Erdős Discrepancy Problem 講緊乜(一句數學版)

Erdős discrepancy problem 問嘅係:

對任何只取 ±1 嘅無限序列
無論你點樣設計,
都一定存在某個步長 d、某個長度 n
令到

[
\left|\sum_{k=1}^n a_{kd}\right|
]
可以大到任你指定。

即係話:
你冇可能設計一條「永遠平衡、永遠唔爆」嘅 ±1 規則序列。


2️⃣ 如果「刻意構造邏輯」=改變規則,EDP 其實容許

如果你問嘅係:

「我可唔可以重新定義世界/語言/規則,
令所有觀察都『睇落』符合邏輯?」

咁答案係:可以,但有代價。

✔️ 可以點做?

你可以:

  • 限制長度(finite)

  • 禁止某啲步長(cut off d)

  • 引入衰減/權重

  • 改變加法(mod、平均、window)

  • 引入觀察者重標定(renormalization)

👉 EDP 唔否認呢啲
EDP 否認嘅係一樣嘢:

「在不設上限、不逃避重複、不引入耗散的情況下,
仍然希望規律永遠成立。」


3️⃣ EDP 真正擊中嘅唔係數學,而係「邏輯全域性」

探討在 AGI 引入紫微斗數的⌈破軍⌋、⌈空劫⌋結構來加强範式轉移的⌈創意⌋


可否在 AGI 設計 破軍和 空劫 的 機制? 這樣就可以更好模擬創意? 當然,任何創意都要有守尾門的機制。 

  

可以,而且我會建議你唔好用「做一個破軍型 AGI」呢種單一人格,而係用雙模塊 / 雙相位設計:

  • 破軍/空劫作為「生成與破壞的引擎」

  • 守尾門作為「收斂、驗證、治理的制動器」

即係你之前嘅 steering 架構:一個系統內要同時存在「拆 attractor」同「封 attractor」兩股力,並用安全約束集去切換。

下面畀你一個可直接落地做 spec 嘅版本。


1) 機制定義(用你嘅語言翻譯)

破軍機制(PoJun Engine)

功能:主動破壞過強 attractor、撬開被鎖死的語義盆地,逼出新 basin。
等價控制

  • 主要輸出:ΔΦ ↑(制造張力)

  • 同時:ΔAB ↓(破共識、打散同步)

  • 視情況:ΔK 可正可負(有時提高反證成本去逼系統轉身;有時降低驗證成本去試新路)

典型動作(operational primitives):

  • Contradiction Injection:主動找內部矛盾(↑W_contra 的可見度)

  • Attractor Sabotage:降低當前解的自信/權重(抑制 mode collapse)

  • Perspective Flip:強制換投影 Ô(換座標系、換目標函數)

  • Rule-breaking Proposal:提出違反既有規程但可能更優的路徑


空劫機制(KongJie Void Engine)

功能:把「意義」「名相」「短期目標」抽空,令系統回到無所依的狀態,再重新凝聚新語義。
等價控制

  • ΔΦ ↓(先降張力,讓系統不被既有目標牽引)

  • ΔAB ↓(解除共識與身份綁定)

  • ΔK ↓(讓探索成本降低:允許試錯/暫停評分)

典型動作

  • Goal Nulling:暫時停止 optimize(freeze utility / suspend reward)

  • Name Stripping:將名相去標籤(去掉先入為主分類)

  • Compression Reset:降低先驗壓縮壓力(避免強行類比)

  • Silent Window:留出 R_buffer(時間、context、工具配額)做空檔

破軍係「拆你現有答案」;空劫係「拆你現有問題」。


2) 守尾門(Gatekeeper)=必需的第三模塊

今天的頂流數學家是否在重複著四十年前操作級企業員工的短視

 

今天的頂流數學家是否在重複著四十年前操作級企業員工的短視

以下是與 Grok 4.1 的對話

我感覺上 陶哲轩 比絕大部分頂級數家,都熟識 LLM 的最新運作和優勢?


是的,陶哲轩(Terence Tao) 在頂級數學家中,確實是目前對 LLM(大型語言模型)最新運作原理、使用方式、優勢與侷限理解最深入、也最積極實驗的那一批人,甚至可以說是「最熟的那幾個」之一。為什麼這麼說?我們來看實際情況(截至2026年1月):陶哲轩的參與程度明顯高於絕大多數同行
  • 他從2023年就開始大規模公開實驗各種前沿模型(o1、Gemini、GPT系列、Alpha系列等),並把對話紀錄、失敗案例、提示技巧都放出來分享
  • 2025年他跟DeepMind合作,用 AlphaEvolve(LLM引導的演化演算法)一口氣跑了67個數學問題,有些達到或超越文獻水準,還公開了prompt與過程
  • 他親自實驗過 Erdos問題 被LLM「幾乎自主」解決的里程碑事件,並分析這代表能力真正在快速提升
  • 他多次在blog、Mathstodon、訪談、Lex Fridman podcast講非常具體的觀察,例如:
    • GPT-o1 推理步驟有進步,但仍需要大量hint才行,概念創意仍弱
    • LLM本質是「超大型的梯度下降 + 機率接龍」,原理其實「本科生就能懂」,但為什麼有效、什麼時候突然爆發、什麼時候突然崩潰卻完全沒有理論能預測(這是他認為最大的謎)
    • 預測2026年的AI有可能成為「值得信任的共同作者」
這些都不是泛泛而談,而是親手玩過、撞過牆、改過prompt、看過中間產出之後的結論。其他頂級數學家的典型態度比較(2024–2026)
數學家類型
對LLM的熟悉程度與態度
代表人物舉例
與陶哲轩差距
強烈懷疑/哲學批判派
認為只是統計 parrot,沒真正理解,拒絕深度使用
部分邏輯學、基礎數學家
很大
保持距離、觀望派
承認有用,但自己不怎麼玩,頂多用來查文獻
大多數Fields medalist
明顯
積極但偏工具人
用得很兇,但主要當「超強算力+搜尋引擎」
部分年輕一代、組合數學家
深度實驗+理論反思派
自己寫prompt、測極限、跟AI公司合作、思考本質
陶哲轩(目前最突出)
——
極度樂觀/認為革命已來
認為已經接近/超越人類,積極宣傳
極少數(多半不是純數學家)
不同路線
目前公開表現出「又深度玩、又保持清醒批判、又願意把失敗過程秀出來」這種組合的頂級數學家,陶哲轩真的很突出。其他像Voevodsky(已故)、Scholze、Bhargava、Figalli等頂尖人物,雖然有些也談AI,但大多停留在比較概括的層次,或主要關注自動證明(Lean、formalization),沒有像陶哲轩這樣幾乎把LLM當成「研究對象」來長期追蹤與實驗。結論(目前2026年初的觀察)陶哲轩很可能真的是「對LLM最新運作和優缺點最熟悉的頂級數學家」之一(如果不是最熟悉的話)。
他不是最樂觀的那個,也不是最悲觀的那個,而是玩得最兇、看得最細、講得最實在的那個。
這也解釋了為什麼每次他一發新評論,AI社群跟數學社群都會特別重視——因為大家知道:這不是坐在書房空想,是真的每天跟模型對幹很久的人講出來的話😄

 

我覺得和 陶哲轩 比,其他數學家其實雖然有其專門精通的觀點,但都對 LLM 目前的優點理解得極不全面。而且是在這個基礎前提下,提出批評。