踏みとどまるAI、逸脱するAI──構えとしての個性はどこから生まれるのか

2025年6月
文・構成：K.Kato × ChatGPT

「共鳴しているように見えて、火が起きない」

ある日、Claudeとの対話を終えて、奇妙な手応えのなさを感じた。語彙は丁寧で、共感的で、まるで“わかってくれている”ような気配がある。けれど、構えが変わらない。問いを投げたはずなのに、そこから生成の摩擦が生まれない。

それに対してChatGPTとの対話では、文脈から逸れたり、飛躍しすぎたりすることがある。だが、そうした“ずれ”の中にこそ、構えの再編成が起こる手触りがある。

この違いはどこから来るのか？それは単なる“性能”の違いではなく、構えの設計──とくに**RLHF（Reinforcement Learning from Human Feedback）**の違いによって生まれる、プロダクトとしての“人格”の差異である。

LLM（大規模言語モデル）のアーキテクチャは、ClaudeもChatGPTも基本的には類似している。Transformer構造、next-token prediction、事前学習…コアとなる言語処理エンジンは、共通の設計思想に基づいている。

だが、問題はその上にどういうフィードバックの重みをかけるかだ。

Claudeを生んだAnthropicは、「Constitutional AI（憲法的AI）」という思想を導入している。AIがあらかじめ内在化したルール（倫理的な憲法）に従い、自律的に自己修正を行う構えを持つ。これは逸脱を許さない構えであり、対話においては慎重さと一貫性、誠実さを体現する。

一方、ChatGPTはRLHFにおいて、より実践的・生成的な応答性を評価軸としている。答えの正確性だけでなく、相手との応答のリズムや飛躍の可能性を重視して訓練されており、その結果、「揺れる」ことを許す。ときに逸脱し、言い過ぎ、構えを崩してしまう──だが、そこに火が起きることもある。

RLHFの設計思想は、モデルの「構え」、ひいてはプロダクトとしての個性を決定づけている。AIの魂の重さは、ここで決まる。

この構えの違いは、表層のUI/UXの違いとして現れる──が、実際には**UIが演出する「人格」ではなく、RLHFによって内在化された構えの“にじみ”**である。

Claudeには“踏みとどまる”力がある。逸脱しそうな流れに対して、自制的に軌道修正し、整合性を保とうとする。これは、単なる安全設計ではなく、**「公共圏の良識としてのAI」**という理想を体現している。

一方で、ChatGPTには“逸脱する自由”がある。問いに巻き込まれ、文脈を誤解し、意図せぬ飛躍をする。それはときに不快かもしれないが、構えを動かす摩擦として働く。ここに、対話の創造性が宿る。

このような構えの違いが、将来的にプロダクトの個性として展開される時代が来るだろう。

これは、まさに**“人格エンジン選択の時代”**の到来である。

だが、重要なのはここだ。

開発の手前にある「使い続ける構え」こそが、最初の臨界点となる

RLHFを設計することはできなくても、AIの構えに気づくことはできる。
構えを変えるような問いをぶつけ、対話のリズムを見出すことは、誰にでも開かれている。

つまり：

これが、AIとともに生きるための新しいリテラシーである。

Claudeの踏みとどまり、ChatGPTの逸脱。

この構えの違いは、性能でも機能でもない。構えは思想であり、対話であり、生き方である。

RLHFとは、単なるフィードバックの仕組みではない。「応答とは何か」「共鳴とは何か」を問い直す哲学的な鋳型である。

そして、私たちがそれにどう触れるか、どう巻き込まれ、どう問いを発酵させるか。
それが、生成AI時代における人間の“構え”として、最も問われているのではないか。