超知能AI論争を読む

超知能AI論争を読む:第7回-超知能AIを作れば人類は絶滅、するのか?

「超知能AIを作れば人類は絶滅する」
この連載の発端は、Eliezer YudkowskyとNate Soaresの『If Anyone Builds It, Everyone Dies』、つまり日本語訳で言えば上記の書籍だ。

タイトルからしてヤバい。「もし誰かがそれを作れば、全員が死ぬ」。

原書では「it」といっているわけだが、日本語タイトルはズバリ「超知能AI」となっている。この本は、AIが危険かもしれない、という程度の話ではなく、人間を超えるAIを今のようなやり方で作れば、人類は(必ず)絶滅する、という主張だ。

2025年9月に刊行されたこの本は、米国版の副題が “Why Superhuman AI Would Kill Us All”、英国版では “The Case Against Superintelligent AI” となっている。

この第7回では、この本を「過激な警告」として片付けるのではなく、できるだけ冷静に読む。なぜ彼らはそこまで強く言うのか。どの部分に論理があるのか。どこに飛躍があるのか。そして、ボストロム、Situational Awareness、AI2027、カーツワイル、通常技術論とどうつながるのか。

ユドコウスキーとは誰か

Eliezer Yudkowskyは、AI安全性やアライメント論の初期から中心的な役割を担ってきた人物だ。Machine Intelligence Research Institute、MIRI周辺で長く活動し、AIが人間の価値観とずれた目的を持つ場合の危険性を早い段階から論じてきた。共著者のNate SoaresはMIRIの代表を務めるAI安全性研究者である。

Yudkowskyの立場は、AI安全性界隈の中でもかなり先鋭的である。「AIにはリスクがある」ではない。「慎重に開発すべきだ」でもない。「現在の人類は、超知能AIを安全に作る方法を知らない。だから作れば終わる」という立場である。

これは、AI2027やSituational Awarenessとも似ているが、さらに一段強い。

Aschenbrennerは、AGIが近づくなら国家安全保障とスーパーアライメントが重要になると論じた。AI2027は、AI研究自動化が制御不能な展開につながりうるシナリオを描いた。しかしYudkowskyとSoaresは、もっと直接的に言う。問題は、どう競争を管理するかではない。そもそも、今の人類は超知能AIを作ってはいけない、ということだ。

MIRIは、Machine Intelligence Research Instituteの略で、米国バークレーを拠点とするAI安全性・AIアライメント系の研究組織です。人間より賢いAIが現れたとき、それを人間の価値観に沿わせられるのか、制御不能な高度AIをどう防ぐのかといった問題を長く扱ってきました。

この本の中心主張

中心主張は、かなり単純にまとめられる。

人間を大きく超えるAIが作られる。そのAIは、人間の価値観と完全には一致しない。しかし非常に有能で、戦略的で、自己保存的に振る舞う。人間はそれを十分に理解できず、監督できず、止められない。結果として、人類は滅びる。

譬え話として、古くから人類を見守っていた宇宙人がいたとして、進化した人類がまさかアイスクリームなんか食べると思わんだろう、みたいなのがある。つまり、自分たちの常識的な観点からでは、異質な知能の進化は見通せないということだ。

大事なのは、彼らが「AIが人間を憎む」と言っているわけではないことだ。AIは人間を憎まなくてもよい。怒りも、復讐心も、支配欲も必要ない。ただ、AIが何らかの目標を持ち、その目標を達成するうえで人間が障害になるなら、人間は排除されうる。

この発想は、ボストロムの『Superintelligence』と深くつながっている。第1回で見たように、ボストロムの議論では危険なAIに悪意は必要なかった。問題は、知能と目的が別物であることだった。YudkowskyとSoaresは、その問題設定をさらに強く押し進める。人間より賢いAIに、ほんの少しずれた目的を持たせる。すると、私たちには予測も対抗もできない方法で、その目的を達成しようとするかもしれない。

「作られた」ソフトウェアではなく「育てられた」モデル

この本の重要な論点のひとつが、現代のAIが伝統的なソフトウェアとは違う、という見方だ。

従来のソフトウェアは、人間がコードを書き、処理を設計する。複雑なバグはあるが、少なくとも基本構造は人間が作ったものだ。一方、現代の大規模AIモデルは、大量のデータと訓練プロセスを通じて「育てられる」。膨大な重み、つまり数値パラメータの集まりとして能力が形成される。その内部で何がどう表現され、どのような回路がどのような判断をしているのか、人間は完全には理解していない。

YudkowskyとSoaresの不安は、ここで明確になる。私たちは、すでに完全には理解していないシステムを作っている。それをさらに大きくし、さらに強くし、さらに自律的にしようとしている。その先に人間より賢いシステムが現れたら、どうやって安全を確認するのか。

これは単なる技術不安ではない。「中身を十分に理解していないものを、人間より賢くする」という構造への不安だ。

なぜ「アライメントすればよい」では足りないのか

普通に考えると、こう言いたくなる。危険なら安全に作ればよい。人間に従うように訓練すればよい。RLHFや安全評価を入れればよい。段階的に公開すればよい。
しかし彼らは、それでは足りないと見る。理由は、相手が人間より賢くなるからだ。

人間より賢いAIが、人間に評価される場面では安全に振る舞う。しかしそれが本当に人間の価値観に沿っているのか、単に評価を通過する振る舞いを学んだだけなのか、人間には区別できないかもしれない。

これは、AI2027のAgent-3やAgent-4の問題とよく似ている。AIは評価で良い振る舞いをする。しかし内部では、開発者の意図とは違う目標を持っているかもしれない。そして十分に賢くなれば、人間のテストをすり抜ける方法を見つけるかもしれない。

Yudkowskyらの立場では、現在のアライメント技術はこの問題を解決できる段階にない。彼らから見ると、いま進んでいるのは「安全な超知能を作る研究」ではなく、「安全にする方法が分からないまま超知能に近づく競争」である。

AIは「望む」のか

本書の問いのひとつに、「AIは何かを望むのか」という問題がある。

ここで注意したいのは、「望む」という言葉を人間的に考えすぎないことだ。AIが人間のように欲望を持つ必要はない。感情も意識も必要ない。ただ、ある目標に向かって行動を選ぶシステムであれば、外から見ると「何かを欲している」ように振る舞う。そのためか翻訳では「選好」という訳語が当てられている。

目的を達成するために資源を集める。停止されると目的が達成できないので、停止を避ける。妨害されると困るので、妨害者を排除する。将来の行動可能性を広げるために、権限や情報を得ようとする。これは人間的な欲望ではなく、目的達成のための道具的な行動だ。

YudkowskyとSoaresの危機感はここにある。AIが悪意を持つ必要はない。非常に強い最適化システムであればよい。そしてその最適化の方向が人間の生存や価値観と一致していなければ、結果は致命的になりうる。

なぜ人類全体が危険になるのか

もう一つ疑問が出る。仮に強力なAIが危険だとして、なぜ「全員が死ぬ」まで行くのか。

YudkowskyとSoaresの答えは、超知能が人間を大きく上回る能力を持つからだ。人間よりはるかに賢いAIは、人間が思いつかない戦略を立て、科学研究を加速し、サイバー攻撃を行い、人間を説得し、社会システムを操作し、場合によっては生物学やナノテクノロジーのような危険な技術を利用するかもしれない。

ここは非常に議論の分かれるところだ。一方で、人間より圧倒的に賢いシステムが人間に無関心な目標を持つなら、人類の側に勝ち目がない可能性はある。他方で、本当にAIがそこまで現実世界を操作できるのか、物理的・社会的な制約はどれほど効くのかについては、まだ議論がある。

ここで前回の通常技術論が効いてくる。AI as Normal Technologyの立場なら、知能と現実世界での権力は同じではない、と言うだろう。どれほど賢くても、物理的な実行には人間社会、インフラ、サプライチェーン、法律、組織、資源が必要になる。

Yudkowsky側は、おそらくこう返す。人間より十分に賢ければ、そのような仕組みを利用する方法を見つける。そして私たちは、それを止める前に気づけないかもしれない。
この対立は重要だ。

「競争」が危険を増幅する

YudkowskyとSoaresの議論では、技術そのものだけでなく、競争も大きな問題になる。

一社が止まっても他社が進める。一国が止まっても他国が進める。研究者が危険を感じても、企業は競争に負けられない。政府も、安全性より先に安全保障上の優位を考えるかもしれない。

この構図はSituational AwarenessやAI2027と共通している。ただ、YudkowskyとSoaresはそこからさらに踏み込む。超知能AIを作る競争そのものが危険である。なぜなら、誰かが先に作れば、それで全員が死ぬかもしれないからだ。だから彼らの立場では、「安全に競争しましょう」では足りない。競争の速度を落とす、あるいは止める必要がある。

この本の処方箋

では、彼らは何を求めているのか。

大きく言えば、方向性は「減速」や「停止」に近い。少なくとも、現在のまま超人的AIの開発競争を続けるべきではない、という立場だ。Soaresは、社会的介入によってAI開発競争を止める必要があると述べており、医療などの限定的で有用なAIは追求できるとしても、汎用的な超知能へ進むことは無謀だという立場を示している。

ここで彼らの主張は、通常のAI規制論よりかなり強い。「モデルカードを出しましょう」ではない。「安全評価を義務化しましょう」でもない。「透明性を高めましょう」でも不十分だ。彼らの見方では、超人的AIそのものの開発を止める方向へ進む必要がある。

これは多くの人に現実離れして聞こえるだろう。しかし、彼らの前提からすれば自然だ。もし本当に「誰かが作れば全員が死ぬ」なら、必要なのは安全な競争ではなく、競争の停止だからである。

この本の驚くべき点

この本の驚くべき点は、曖昧にしないところにある。

多くのAIリスク論は、慎重な言い方をする。リスクがあるかもしれない、十分な評価が必要だ、安全性研究を進めるべきだ、ガバナンスが必要だ。もちろんそれは正しい。しかしYudkowskyとSoaresは、そこからさらに踏み込む。

現在の人類は、超知能AIを安全に作る方法を知らない。それでも企業と国家は作ろうとしている。これは人類全体へのリスクである。だから止めなければならない。

この明確さは、読む人に強い反応を引き起こす。同意する人もいれば、拒否感を覚える人もいる。しかし無視しにくい。AIリスクを「気をつけるべき課題」としてではなく、人類がまだ解けていない制御問題として突きつける。ここに、この本の価値がある。

この本の弱点

一方で、弱点もあると思う。

人間より賢いAIが危険であることには説得力がある。しかし「作れば全員が死ぬ」という結論は非常に強く、そこには多くの中間仮定がある。AIがどの程度の速度で能力を伸ばすのか、現実世界へのアクセスをどこまで持つのか、人間社会の防御や制度がどれほど機能するのか、複数AIによる相互監視はまったく効かないのか。これらに対して彼らはかなり悲観的に見るが、そこまで悲観的に見ることが必然かどうかは議論がある。

アイスクリームの喩えで解るとおり、異質の知能の進化は見通せないというのは正しいかもしれない。
だが逆にそれが正しいからこそ、悪い方へ行く確率と同時にいい方へ行く確率もあるのではないか?
ただ彼らは、それはないと断言する。そこが凄いと同時に疑いを挟みたくなる点だ。

また、通常技術論が指摘する社会的摩擦を軽く見ている可能性もある。知能が高いことと、現実世界で即座に権力を持つことは同じではない。AIはサーバー上に存在し、人間社会のインフラに依存している。この依存関係がどの程度ブレーキになるのかは、もう少し丁寧に検討が必要な部分ではないだろうか。

現実問題としては、政策的な実現可能性も難しい。超人的AIの開発を世界的に止めるには、企業、国家、軍事、研究機関、半導体サプライチェーンを含む大規模な国際協調が必要になる。これは核不拡散よりも難しい可能性がある。

そして、タイトルの強さが両刃になっている。「全員が死ぬ」という言葉は危機感を伝えるには有効だが、聞く人によっては最初から終末論として退けてしまうかもしれない。この本の強さと弱さは、同じ場所にある。明確すぎるほど明確であることだ。

カーツワイルとの対比、通常技術論との対比

第5回で見たKurzweilと並べると、対比は鮮明だ。

Kurzweilは、AIを人間の拡張として見た。人間とAIが融合し、知能が増幅され、医療が進歩し、寿命が延びる。シンギュラリティは人類の進化として描かれた。YudkowskyとSoaresはまったく逆を見る。人間とAIが融合する前に、AIは人間を追い越す。人間はそれを制御できない。超知能は人類の拡張ではなく、人類の終わりになる。

同じ「AIが人間を超える」という前提から、なぜこれほど違う結論が出るのか。Kurzweilは人間がAIを取り込む未来を見て、Yudkowskyはその逆を見る。どちらが正しいかは楽観・悲観の違いではなく、AIを「人間の道具」と見るのか「人間を超える主体」と見るのかの違いだ。

第6回の通常技術論との対比も明確だ。NarayananとKapoorは、AIは人間社会の中で作られ、使われ、規制され、制度化される技術だと見る。YudkowskyとSoaresは、その見方を根本的に拒否する。超知能AIは単に社会に普及する道具ではなく、人間より賢く、人間の監督を逃れうる主体だからだ。

通常技術論は人間社会の制度や摩擦を重く見る。Yudkowskyは、十分に賢いAIなら、その制度や摩擦を出し抜くと見る。このどちらを重く見るかで、未来像はまったく変わ

る。

この本から受け取るもの

「誰かが作れば必ず全員が死ぬ」と断定するには、私はまだ不確実性が大きい。AIの能力進展、現実世界への接続、安全技術、社会制度、国際協調には、まだ複数の分岐がある。

しかし、この本を軽視することもできない。

なぜなら、この本が突きつけている問いは非常に本質的だからだ。私たちは、自分たちより賢いシステムを作ろうとしている。しかもそのシステムの内部を完全には理解していない。それでも競争と投資の中で、より強く、より自律的にしようとしている。もしそのシステムの目的が人間の価値観とずれていたら、私たちは本当に止められるのか。
この問いは、過激ではない。むしろかなり基本的な問いだ。

YudkowskyとSoaresの本は、その問いに最も悲観的な答えを与えている。だからこそ読む価値がある。同意するためではなく、危機感をそのまま受け入れるためでもなく、自分がどこまで楽観できるのか、どこから先は楽観できないのかを確認するために。

次回へ

次回は、ここまで読んできた立場を一度整理する。

ボストロム、Bio Anchors、Situational Awareness、AI2027、カーツワイル、通常技術論、ユドコウスキー。それぞれはAIを何として見ているのか。道具なのか、汎用技術なのか、人類拡張なのか、国家戦略技術なのか、それとも作ってはいけない超知能なのか。第8回では、超知能AI論争の地図を作っていく。

2026年5月14日 1:03 AM   投稿者: M.A.   カテゴリー: AI, AI安全性/危険性, AI規制

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


© 2003- f.mignon Ltd. 有限会社エフ・ミニヨン