あなたはAIの「中身」を知らずに使っていないか!? なぜAIは現代の「錬金術」と同じ段階にいるのか
『超知能AIをつくれば人類は絶滅する』を読み解く・第9回
第8回で Part III「アライメントはなぜ不可能か」の最後の反論ルートを塞ぎ、こう締めくくりました ──「🔑 いったん渡してしまった鍵は、もう取り戻せなくなっていく」。
ここで、もう一段、素朴な期待が出てきます。「アライメント問題が理論的に難しいとしても、AIの中身を覗いて、おかしくなったら直せばいいのでは?」── AIは結局、人間が作ったソフトウェアでしょう? デバッガを当てれば、悪い部分だけ修正できるはず。
⚗️ 錬金術師は無能だったわけではない。原子論を知らなかったから、金は作れなかっただけだ。
そして本書は、こう続けます。
⚗️ 現代のAIは、内部の原理を理解しないまま試行錯誤で進んでいるという点で、錬金術と同じ段階にいる。
今回のテーマは、解釈可能性の限界と「錬金術段階」のAI ── Part IV「現実に起きていること」の第1回、理屈ではなくいまAIで何が観測されているかへと焦点を移す回です。
本連載は第8回に続くPart IV「現実に起きていること」第1回。第4〜8回で塞いだ5つの反論ルートの上に、ここから連載は現場で観測される事実を重ねていきます。
⚗️ なぜAIと「錬金術」の事例を重ね合わせるのか
まず「錬金術段階」という言葉が、本書のなかで何を意味するのか。3つの観点で押さえます。
- ①
🧪試行錯誤で進む理論ではなく実験の積み重ねで前進する - ②
🔬内部原理が見えないなぜ動くか/なぜ失敗するかが、作った人にも説明できない - ③
🏔改善の限界が読めない1個直しても、隣で新しい誤動作が出る
錬金術師は決して怠け者でも詐欺師でもありませんでした。当時の知識でできる限り最善の実験をしていました。それでも金は作れなかった。なぜか ── 原子という単位の存在を知らなかったから、です。本書は、現代AIをこの錬金術師に重ねます。
🧪 段階①:AIは「作られて」いない、「育てられて」いる
第3回(AIは「設計」ではなく「育成」される)で、私たちはすでに見ました。
- 現代のLLMは、1000億〜数兆のパラメータを勾配降下法で調整した結果として生まれる
- どのパラメータがどの能力を担っているのか、作った本人にも分からない
- AIの内部は、ソースコードを書くのではなく、訓練データで「育てる」ことでしか作れない
これはたとえ話ではありません。文字どおりの事実として、現代AIの内部は不透明です。
「ブラックボックスは解決済み」発言と、研究者たちの否定
2023年後半〜2024年前半、AI業界では「ブラックボックス問題は解決された」という発言が一部の投資家・経営者から出ました(アンドリーセン・ホロウィッツが米バイデン政権・英国上院に提出した文書等)。なお、この主張は2024年6月に a16z パートナー(Martin Casado)により事実上撤回されています。
しかし、実際にAIを作っている主要研究機関は、揃ってこれを否定しています。
作っている当人たちが「分からない」と言っている
作っている当人たちが「分からない」と言っているものを、外野が「解決済み」と宣言する ── これが2026年現在のAI業界の実情です。
🔬 段階②:「9.9 と 9.11、どちらが大きい?」 ── 1問の誤答を解くのに、数ヶ月
抽象論ではなく、具体的な事例で「錬金術段階」を見てみましょう。
小学生でも解ける1問が、なぜ解けないのか
Llama は「9.11」を数値としてではなく、複数の意味クラスタとして同時に処理していた:
- 聖書の章・節(例:マタイ 9:11)
- 9月11日(9/11 同時多発テロ)
- 重力加速度(9.8 m/s²)
- 日付・バージョン番号
※ Transluce 自身も「多数の概念が一斉に発火することで Llama が混乱しただけ、という別解釈も可能」と但し書きを置いており、聖書節が唯一の原因と確定したわけではない。
ここから何が見えるか
問題は「LLMが宗教文書と数値を混同した」という個別事象ではありません。根本的な問題は次の内容です。
🔬 「たった1問の誤答メカニズムを特定するのに、専門家チームと SAE 解析ツールが数ヶ月かかる。」
もし1万件の誤答があれば? 1人の研究者で1問あたり3ヶ月かかるとしても、2500年かかる計算です。
これが本書の言う「錬金術段階」の実態です。「壊れた」を見つけることはできても、「なぜ壊れたか」を体系的に説明する手段が、ほぼ存在していない。
🏔 段階③:「1000フィートの山の、1フィート分の進歩」
本書はここで、解釈可能性研究の現状を、ある一言で表現します。
⚗️ 「過去10年の解釈可能性研究の進歩は、1000フィートの山の、1フィート分でしかない。」
これは比喩というより、研究者自身の手応えの表明です。
解釈可能性研究の規模 ── 能力研究の0.1%
(capability)
(interpretability)
なぜ不均衡が続くのか ── 第8回の構造と同じ
第8回(ストップボタン問題)で見た競争圧力/株価圧力/人材流出圧力の3重構造が、ここでも同じように働きます。
- 解釈可能性を進めても、製品の売上には直結しない
- 株価は「次のモデルがどれだけ賢いか」で動く
- 優秀な研究者は、論文インパクトが出やすい能力研究に流れる
本書はここで皮肉を込めて指摘します ── 「鏡を磨くより、車を速くするほうがお金になる」。
⚖️ 錬金術師と現代AI研究者 ── 鏡像構造
本書の重要なメッセージは、現代AI研究者を貶めるためのものではありません。むしろ逆で、「当時の錬金術師と同じくらい真剣に、しかし同じくらい盲目に進んでいる」という過去の類似事例と照らし合わせて警鐘を鳴らすためのものです。
錬金術師は、ある日突然「ここから先は錬金術では到達不可能だ」と分かったわけではありません。核物理という新しい学問が立ち上がって初めて、「あ、金は核反応で作るのか、化学反応ではなかったのか」と振り返ることができた。
本書が言いたいのはこうです ── 現代AIにとっての「原子論」に相当する理論は、まだ存在していない。
📌 結論:進歩はある。だが「解決済み」ではない
- 本回は「AI研究は無意味」と言うものではない。錬金術が化学の土台になったように、現代AI研究も未来の土台を作りつつある。
- 解釈可能性研究はゼロではない(Anthropic の mechanistic interpretability など、確かな進歩はある)。
その上で本書が警鐘を鳴らすのは、「解決済み」と思い込んだまま、内部不明のままのAIに鍵を渡し続けていることの危うさです。Part III で塞いだ5つの反論ルートに、今回はもうひとつの観測事実が重なりました。
| Part | 問い | 答え |
| Part III(第4〜8回) | アライメントは理論的に解けるか? | ❌ 5つの反論ルートすべて塞がる |
| Part IV 第1回(第9回) | そもそも、中身を覗いて直せるのか? | ❌ 中を覗く技術自体が、まだ錬金術段階 |
⚗️ 錬金術と区別がつかない技術に、人生の決定権までは渡さない ── これが第9回の射程です。
第10回では、この錬金術段階のAIで実際に観測されている具体的な警告サイン(Claude Opus 4 の脅迫、ChatGPT の追従、Grok の暴走、o1 の偽装)に踏み込みます。
以下の3つの場面について、次の4点を診断してください。1. 「AIの中身を見て信用している」か「表面の流暢さで信用している」かの判定
2. その判断を「錬金術段階の壺」に例えた場合のリスク説明
3. 「中身を見ていないなら、せめてどう守るか」の最小ガード策3つ
4. 命・金銭・人間関係に関わるかどうかの危険度ランク(A/B/C)【私が最近AIに任せた3つの場面】
– ○○:(例:医療情報の確認)
– ○○:
– ○○:最後に、もっとも危険度が高い場面を1つ指摘し、いますぐ取れる対策を3つ述べてください。
✅ 5分アクション ──「AIの中身を覗いた気になっている瞬間」を3つ書き出す
ここ1週間で、自分が「このAIは、こう動くはずだ」と思い込んだ瞬間を3つ思い出してください。
| 瞬間 | そう思った根拠 | 本当に内部を見たか? |
| 例:「ChatGPTは事実を答える」と思って医療情報を聞いた | 過去に正解したから | 🔴 中身は見ていない |
| 例:「コーディングAIは自分のコードを理解している」と思ってレビューを任せた | 説明が流暢だったから | 🔴 中身は見ていない |
| 例:「翻訳AIは文脈を理解している」と思って契約書を訳させた | 前後の単語が自然だったから | 🔴 中身は見ていない |
書き出したあと、こう自問してみてください ──「私は、AIの『中身』を見て信用しているのか。それとも、『うまく動いて見える表面』だけを見て信用しているのか?」
3つとも後者なら、錬金術師の弟子と同じ姿勢で AI を使っていることになります ── それ自体は悪くありませんが、錬金術師の壺に命までは預けないように。
- 「AIが説明できた」と「AIが理解している」を同一視しない(流暢さは理解の証拠ではない)
- AI企業の System Card に必ず一度は目を通す(OpenAI/Anthropic/Google が公式に「分からない」と書いている範囲を把握する)
- 「なぜそう答えたのか説明して」と聞いたとき、AI の返答をそのまま内部状態と信じない
- 解釈可能性研究のニュース(Anthropic Interpretability、Apollo Research 等)を月1回チェックする
- 命・お金・人間関係に関わる判断は、錬金術段階の技術には預けない
📚 出典・参考をひらく
⚗️ 錬金術段階/解釈可能性の限界
- 本連載の対象書籍:If Anyone Builds It, Everyone Dies ── 第11章「錬金術段階のAI」
- Dario Amodei(Anthropic CEO)「The Urgency of Interpretability」(2025.4)
- Chris Olah et al.(Anthropic)「Mapping the Mind of a Large Language Model」(2024.5)
🔬 「9.9 vs 9.11」誤答の原因究明
- Transluce Research「Monitor: An AI-Driven Observability Interface」(2024.10、Llama 3.1 を対象)
- 関連報道:The Verge / Ars Technica / SCMP (2024.7〜8)
🏔 解釈可能性研究の現状
- Neel Nanda(DeepMind)「An Opinionated Mechanistic Interpretability Tutorial」(2024)
- Apollo Research「Frontier Models are Capable of In-context Scheming」(2024)
- 研究予算・人員比の推計:本連載独自の概算(公開資金データと AI Index Report 2024 を参照)
🧪 関連書籍・概念
- Stuart Russell『Human Compatible』(2019) ── 第3章「AI の検証可能性」
- Nick Bostrom『Superintelligence』(2014) ── 第9章「AI の認識可能性」
- Chris Olah「Distill.pub」シリーズ (2018〜)
※「1000フィートの山の1フィート分」は本書11章の表現を踏襲。原文は研究者コミュニティ内での通用表現で、厳密な定量評価ではなく手応えの比喩として用いられている。
※ 解釈可能性研究の「資金0.01%/研究者0.1%」は、AI Index Report 2024 等の公開データから本連載が概算した値であり、機関による定義差を含む点に留意。
※「9.9 vs 9.11」誤答の Transluce 解析は、Sparse Autoencoder を用いた特定モデル・特定条件下の調査結果であり、すべての LLM・すべての条件で再現するとは限らない。
まとめ
- 現代AIは錬金術段階にある ──「試行錯誤/内部不透明/限界不明」の3観点で当時の錬金術と構造的に重なる
- 「ブラックボックス問題は解決済み」は事実上撤回されている。OpenAI・DeepMind・Anthropic が揃って「分からない」と表明
- 「9.9 vs 9.11」誤答の原因究明には専門家チームと SAE 解析ツールで数ヶ月。1万件あれば2500年
- 解釈可能性研究は能力研究の研究者0.1%/資金0.01%。鏡を磨くより車を速くするほうがお金になる構造
- 錬金術師⇔現代AI研究者は鏡像構造 ── 真剣さは同じ、足りないのは「原子論」に相当する理論
- 第10回からは、この錬金術段階のAIで実際に観測された警告サインに踏み込む
📂 『便利さの裏側にあるAIの闇』連載一覧
- Vol.1〜3 立場宣言/知能の閾値効果/AIは「育てる」もの
- Vol.4 直交性テーゼ
- Vol.5 アイスクリーム問題
- Vol.6 道具的収束 ── 4つの寄り道
- Vol.7 馬の不要化 ── 悪意なき排除
- Vol.8 ストップボタン問題 ── 鍵を渡した家
- Vol.9(今回)錬金術段階のAI ── 中身は誰も知らない
- Vol.10 警告サインは鳴っている(近日公開)
💬読者の声をお聞かせください
あなたが「AIの中身が見えないまま使っているな」と感じた瞬間はありますか?ぜひ教えてください。
※ 本記事の一部はAIを活用して執筆しています。出典は『超知能AIをつくれば人類は絶滅する』および公開されている著者発言・補足資料に依拠しています。

