AIOS — 願いを叶えるOS - ChronoCompass --traillog

コンピュータの本質¶

コンピュータとは何か。
私の認識では、人間の願いを叶える道具です。

写真を美しく加工したい、文章を書きたい、遠くの人と話したい。
そうした願いを実現するために、コンピュータは存在しています。

しかし現実には、願いを叶えるまでに大きな壁があります。
それは「知識」という壁です。

Photoshopで背景をぼかすには、レイヤーマスクの概念を理解し、ツールの場所を知り、パラメータの意味を学ばなければなりません。
「この写真の背景をぼかして、人物を際立たせたい」という単純な願いを叶えるために、多くの知識が必要になる。

このギャップがデジタルデバイドの一因であり、多くの人がコンピュータを使いこなせない理由でもあります。

GUIとCLI、それぞれの役割¶

コンピュータのインターフェースは、大きく分けてGUIとCLIがあります。

GUIは多くの人に使われています。
人間は視覚優位な動物だからです。
ボタンやアイコンを見れば、何ができるか直感的にわかる。
メニューを開けば選択肢が見える。
精密な知識がなくても、「ざっくり」操作できる。

一方、CLIは技術者に好まれます。
Unix/Linuxは「すべてはファイル」「小さなツールをパイプで繋ぐ」という思想で作られました。
Firebase CLIのように、やりたいことのほとんどをコマンドで実行できるツールもあります。
しかし ls、grep、awk といったコマンド名は暗号的で、多くの人には取っつきにくい。

ここで興味深いのは、LLMにとってはCLIの方が扱いやすいということです。
LLMは文章を読んで理解する速度が人間よりずっと速い。
コマンドのマニュアルを確認して実行することは、LLMにとって苦ではありません。

一方、LLMがGUIを操作しようとすると、画面を画像として認識し、マウスカーソルを動かしてクリックする必要があります。
これは人間がアセンブリ言語で文章を書くようなもので、本来あるべき姿ではない気がします。

AIOSという概念¶

AIと人間が対話し、様々な願いが浮かぶイメージ

ここに「隙間」があると感じています。

現在のComputer Use（画像認識でGUIを操作する方式）は、既存システムへのハックです。
本来あるべき姿は、こうではないでしょうか。

人間: 「この写真の背景をぼかして、人物を際立たせて」
  ↓
AIOS: 意図を解析
  ↓
画像処理エンジン: 直接API呼び出し（GUIを経由しない）
  ↓
結果をGUIで表示

LLMが「知識の翻訳レイヤー」として機能する。
人間の意図を受け取り、具体的な操作に変換する。
専門知識がなくても、願いが叶う。

これがAIOS（AI Operating System）の基本的なアイデアです。

重要なのは、GUIは残るということ。
人間は視覚優位だから、結果をグラフィカルに見たい。
簡単な操作なら自分でやりたい。
確定申告も、LLMに任せきりにするのではなく、最終的な結果は自分の目で確認したい。

つまり、GUIの役割が変わるのです。
今のGUIは「入力と出力の両方」を担当しています。
未来のGUIは、主に「出力（可視化）と微調整」を担当するようになるかもしれません。

連続と離散¶

どこまでをLLMに任せ、どこから人間が操作するか。
この境界線について考えてみました。

ひとつの仮説として、こう整理できるかもしれません。

離散的な判断（何をすべきか、どの機能を使うか）→ LLMに任せたい
連続的な調整（色の微調整、位置の微調整）→ 直接操作が気持ちいい

スライダーを動かしてぼかし具合を調整する。
そういうインタラクションは、人間が直接やりたいと感じます。
人間はインタラクションが好きです。

「何をするか」はLLM、「どれくらいか」は人間。
そういう分担が自然なのかもしれません。

言語化できない願い¶

ここまで考えてきて、ひとつの壁に気づきました。

LLMを使いこなすには、意図を言語化する必要があります。
しかし、私たちは自分の願いを言語化できているでしょうか。

「この写真をいい感じにしたい」
その「いい感じ」とは何か、言葉にできないことが多い。

「料理を美味しく作りたい」
何が「美味しい」かは、作りながら調整していく。

私たちは「やってみて初めて分かる」ことが多いのです。
行動を言語で説明できない。
感じているけれど、言葉にならない。

これは当然かもしれません。
人間という動物は、根源的に言語でできていないからです。
身体があり、感覚があり、直感があり、感情がある。
思考の部分だけが言語で形作られている。
言語は、人間の氷山の一角にすぎない。

好奇心という鍵¶

AIOSが解決できるのは「技術的知識の壁」です。
Photoshopの使い方を知らなくていい、という壁。

しかし「自分が何を望んでいるか分からない」という壁は、LLMだけでは解決できません。
ここには、人間の側の「好奇心」と「内省」が必要です。

「なぜ自分はこの写真に違和感を感じるのだろう？」
「何が足りないのだろう？」
そう問いかける好奇心があってはじめて、意図は言語化されていく。

LLMと対話して意図を掘り出す。
そのためには、自分自身と対話する力が必要なのです。

好奇心が、私たちの可能性を決定づける。
そう感じています。

LLMの新しい役割¶

しかし、希望もあります。

GUIがボタンやメニューで「こんなことができますよ」と可能性を提示してきたように、LLMは対話で可能性を提示できます。

人間: 「この写真、なんかイマイチなんだよね」

LLM: 「いくつか可能性があります。
      明るさが暗い？
      構図が中心にない？
      背景がごちゃごちゃしている？
      どれが近いですか？」

人間: 「あ、背景だ！」

問いかけによって、非言語を言語に引き上げる。
LLMは、好奇心を引き出す対話相手にもなれるのです。

最後の抽象化レイヤー¶

インターフェースの歴史を振り返ると、抽象化のレイヤーが積み重なってきたことがわかります。

1970年代: CLI — コマンド暗記、構文理解が必要
1984年〜: GUI — メタファー理解（フォルダ、ゴミ箱）が必要
2007年〜: タッチ — ほぼ直感のみ
202X年〜: 意図ベース？ — 自分の望みを言語化できればOK

AIOSは、この流れの延長線上にある「最後の抽象化レイヤー」なのかもしれません。

ただし、その先には「意図を言語化する力」という新しい課題が待っています。
それは技術の問題ではなく、人間の側の問題です。

自分と対話し、願いを言葉にする。
好奇心を持って、自分の内側を探る。

コンピュータがどれだけ進化しても、そこは人間に残された領域なのだと思います。