AIがあなたのPCを操作する——GPT-5.4コンピュータ・ユース機能の衝撃

「AIがキーボードを打つ」という時代がやってきた。OpenAIが正式リリースしたGPT-5.4の目玉機能「ネイティブ・コンピュータ・ユース」は、AIが人間のかわりにデスクトップを操作するという、かつてSFの領域にあった能力を実用レベルに引き上げた。OSWorldベンチマークで人間のベースライン（72.4%）を超えるスコア75%を記録した今、これは「面白い実験」ではなく「業務に使える技術」の話だ。

コンピュータ・ユースとは何か

GPT-5.4のコンピュータ・ユース機能は、大きく3つのステップで動作する。

スクリーンショット解析 — AIが現在の画面を画像として受け取り、どのアプリが開いているか、どこにボタンやフォームがあるかを認識する
操作計画の立案 — 「このフォームに〇〇を入力し、次のページへ進む」という操作手順を自律的に生成する
キーボード・マウスの実行 — 計画に基づき、実際のキー入力・クリック・スクロール・ドラッグを実行する

重要なのは、これがAPIやSDKに依存しない点だ。従来のRPAやブラウザ自動化ツールは「このボタンのIDを指定してクリック」という形でHTMLの構造に依存していた。GPT-5.4は「画面を見て判断する」ため、デザイン変更やDOM構造の変化に対して人間と同様に適応できる。

OSWorldベンチマークで人間を超えた — 数字の意味と限界

OSWorldは、実際のOS環境（Windows・macOS・Linux）でAIにタスクを与え、成功率を測るベンチマークだ。「Excelを開いてデータを整形し、グラフを作って保存する」といった複数ステップのタスクを235問含む。

GPT-5.4のスコアは75%。人間のクラウドワーカーベースライン（72.4%）を初めて超えた。ただし、この数字にはいくつかの留意点がある。

人間ベースラインは「特別なトレーニングを受けていない一般ユーザー」であり、熟練エンジニアではない
制限時間付きの環境では人間が逆転するケースもある
エラーリカバリ（予期しない状態からの回復）は依然として苦手

それでも「AIがデスクトップ操作において人間と同程度の成功率を持つ」という事実は、実用化の閾値を超えたサインとして受け取るべきだ。

具体的なユースケース3選

1. スプレッドシートへの自動データ入力

複数のWebサイトや社内システムから情報を収集し、Excelまたはスプレッドシートへ転記するタスク。従来は「コピペ地獄」と呼ばれた非効率作業の代表格だが、AIがブラウザとスプレッドシートを行き来しながら入力・整形・保存まで一気に完了できる。特に構造が一定しないWebページからの情報抽出で真価を発揮する。

2. ブラウザリサーチ + レポート生成

「競合3社の料金ページを調査して比較表を作って」という指示に対し、AIが自律的にブラウザを開いて各社ページを閲覧し、情報を収集・整理してドキュメントに書き出す。従来のRAGや検索APIを使ったアプローチと異なり、ログイン必須のページや動的レンダリングのサイトにも対応できる。

3. 複数SaaSをまたいだデータ移動

「Notionのタスク一覧をJiraに転記し、担当者と期日を設定して」といった、複数のSaaS間でのデータ移動。各サービスのAPIを繋ぐZapierやMakeのようなワークフロー自動化ツールが必要だった処理が、画面操作だけで完結する。API連携が存在しないレガシーシステムとの橋渡し役として特に有力だ。

RPA・Zapier・Make との決定的な違い

既存の自動化ツールとの比較を整理する。

比較軸	従来RPA/Zapier	GPT-5.4 コンピュータ・ユース
セットアップ	ルール・フローの事前定義が必要	自然言語で指示するだけ
変化への対応	UI変更で即壊れる	画面を見て再判断できる
API依存	API必須	画面操作なのでAPI不要
例外処理	事前定義した分岐のみ	文脈を読んである程度対応
コスト	月額固定 or 低コスト	トークン消費で変動（現在は高め）

RPAが「決まった手順を確実にこなす機械」だとすれば、コンピュータ・ユースは「状況を読んで手順を自分で考える助手」に近い。完全な置き換えではなく、「例外が多い・手順が一定しない・API連携が難しい」タスクの新しい選択肢として捉えるのが現実的だ。

セキュリティリスクと企業導入の壁

夢のような機能に見えるが、企業導入には慎重な検討が必要だ。主なリスクを整理する。

スクリーンショット経由の情報漏洩

コンピュータ・ユース機能は画面全体をキャプチャしてAIモデルに送信する。画面に機密情報（顧客データ・財務情報・認証トークン）が表示されている状態でAIが動作すると、その情報がモデルのコンテキストに含まれるリスクがある。表示エリアを限定するか、機密データを扱う画面ではAI操作を無効化する設計が必要だ。

意図しない操作の連鎖

AIが「スプレッドシートを更新して」という指示を実行中に、誤った行を選択してデータを上書きするケースが報告されている。人間なら「あ、間違えた」と止まれるが、AIは一定の確信度を持って実行し続けることがある。操作ログの記録と人間レビューポイントの設計が不可欠だ。

権限管理の複雑化

AIがユーザーのセッションを引き継いで操作するということは、そのユーザーの権限をすべてAIが持つことになる。最小権限の原則（Least Privilege）に基づき、AIが操作できるアプリ・ファイル・ネットワーク範囲を明示的に制限する必要がある。

まとめ — 開発者が今すぐ考えるべきこと

GPT-5.4のコンピュータ・ユースは「便利なデモ機能」の段階を超えた。OSWorldでの人間超えは、特定条件下での実用性を数値で証明している。今後12ヶ月で考えておくべきポイントは三つだ。

自社業務のうち「例外処理が多いコピペ作業」をリストアップする — これがコンピュータ・ユースの最初の適用候補だ
「AIが触れていい画面」と「触れてはいけない画面」を今から分類する — セキュリティポリシーは導入前に設計すべきで、後付けは困難だ
RPAとコンピュータ・ユースのハイブリッド構成を検討する — 安定した繰り返し作業はRPA、例外対応と判断が必要な箇所にAIを使う分業が現実解になる

AIが「指示に従う道具」から「画面を見て動く助手」になった。その助手に何を任せ、何を人間が握るか——その線引きを考える時間が、今まさに必要とされている。

AIがあなたのPCを操作する
——GPT-5.4コンピュータ・ユース機能の衝撃