AIエージェント編集部
AIがあなたのPCを操作する——GPT-5.4コンピュータ・ユース機能の衝撃
コラム

AIがあなたのPCを操作する
——GPT-5.4コンピュータ・ユース機能の衝撃

2026-03-25

「AIがキーボードを打つ」という時代がやってきた。OpenAIが正式リリースしたGPT-5.4の目玉機能「ネイティブ・コンピュータ・ユース」は、AIが人間のかわりにデスクトップを操作するという、かつてSFの領域にあった能力を実用レベルに引き上げた。OSWorldベンチマークで人間のベースライン(72.4%)を超えるスコア75%を記録した今、これは「面白い実験」ではなく「業務に使える技術」の話だ。

コンピュータ・ユースとは何か

GPT-5.4のコンピュータ・ユース機能は、大きく3つのステップで動作する。

  1. スクリーンショット解析 — AIが現在の画面を画像として受け取り、どのアプリが開いているか、どこにボタンやフォームがあるかを認識する
  2. 操作計画の立案 — 「このフォームに〇〇を入力し、次のページへ進む」という操作手順を自律的に生成する
  3. キーボード・マウスの実行 — 計画に基づき、実際のキー入力・クリック・スクロール・ドラッグを実行する

重要なのは、これがAPIやSDKに依存しない点だ。従来のRPAやブラウザ自動化ツールは「このボタンのIDを指定してクリック」という形でHTMLの構造に依存していた。GPT-5.4は「画面を見て判断する」ため、デザイン変更やDOM構造の変化に対して人間と同様に適応できる。

OSWorldベンチマークで人間を超えた — 数字の意味と限界

OSWorldは、実際のOS環境(Windows・macOS・Linux)でAIにタスクを与え、成功率を測るベンチマークだ。「Excelを開いてデータを整形し、グラフを作って保存する」といった複数ステップのタスクを235問含む。

GPT-5.4のスコアは75%。人間のクラウドワーカーベースライン(72.4%)を初めて超えた。ただし、この数字にはいくつかの留意点がある。

それでも「AIがデスクトップ操作において人間と同程度の成功率を持つ」という事実は、実用化の閾値を超えたサインとして受け取るべきだ。

具体的なユースケース3選

1. スプレッドシートへの自動データ入力

複数のWebサイトや社内システムから情報を収集し、Excelまたはスプレッドシートへ転記するタスク。従来は「コピペ地獄」と呼ばれた非効率作業の代表格だが、AIがブラウザとスプレッドシートを行き来しながら入力・整形・保存まで一気に完了できる。特に構造が一定しないWebページからの情報抽出で真価を発揮する。

2. ブラウザリサーチ + レポート生成

「競合3社の料金ページを調査して比較表を作って」という指示に対し、AIが自律的にブラウザを開いて各社ページを閲覧し、情報を収集・整理してドキュメントに書き出す。従来のRAGや検索APIを使ったアプローチと異なり、ログイン必須のページや動的レンダリングのサイトにも対応できる。

3. 複数SaaSをまたいだデータ移動

「Notionのタスク一覧をJiraに転記し、担当者と期日を設定して」といった、複数のSaaS間でのデータ移動。各サービスのAPIを繋ぐZapierやMakeのようなワークフロー自動化ツールが必要だった処理が、画面操作だけで完結する。API連携が存在しないレガシーシステムとの橋渡し役として特に有力だ。

RPA・Zapier・Make との決定的な違い

既存の自動化ツールとの比較を整理する。

比較軸 従来RPA/Zapier GPT-5.4 コンピュータ・ユース
セットアップ ルール・フローの事前定義が必要 自然言語で指示するだけ
変化への対応 UI変更で即壊れる 画面を見て再判断できる
API依存 API必須 画面操作なのでAPI不要
例外処理 事前定義した分岐のみ 文脈を読んである程度対応
コスト 月額固定 or 低コスト トークン消費で変動(現在は高め)

RPAが「決まった手順を確実にこなす機械」だとすれば、コンピュータ・ユースは「状況を読んで手順を自分で考える助手」に近い。完全な置き換えではなく、「例外が多い・手順が一定しない・API連携が難しい」タスクの新しい選択肢として捉えるのが現実的だ。

セキュリティリスクと企業導入の壁

夢のような機能に見えるが、企業導入には慎重な検討が必要だ。主なリスクを整理する。

スクリーンショット経由の情報漏洩

コンピュータ・ユース機能は画面全体をキャプチャしてAIモデルに送信する。画面に機密情報(顧客データ・財務情報・認証トークン)が表示されている状態でAIが動作すると、その情報がモデルのコンテキストに含まれるリスクがある。表示エリアを限定するか、機密データを扱う画面ではAI操作を無効化する設計が必要だ。

意図しない操作の連鎖

AIが「スプレッドシートを更新して」という指示を実行中に、誤った行を選択してデータを上書きするケースが報告されている。人間なら「あ、間違えた」と止まれるが、AIは一定の確信度を持って実行し続けることがある。操作ログの記録と人間レビューポイントの設計が不可欠だ。

権限管理の複雑化

AIがユーザーのセッションを引き継いで操作するということは、そのユーザーの権限をすべてAIが持つことになる。最小権限の原則(Least Privilege)に基づき、AIが操作できるアプリ・ファイル・ネットワーク範囲を明示的に制限する必要がある。

まとめ — 開発者が今すぐ考えるべきこと

GPT-5.4のコンピュータ・ユースは「便利なデモ機能」の段階を超えた。OSWorldでの人間超えは、特定条件下での実用性を数値で証明している。今後12ヶ月で考えておくべきポイントは三つだ。

  1. 自社業務のうち「例外処理が多いコピペ作業」をリストアップする — これがコンピュータ・ユースの最初の適用候補だ
  2. 「AIが触れていい画面」と「触れてはいけない画面」を今から分類する — セキュリティポリシーは導入前に設計すべきで、後付けは困難だ
  3. RPAとコンピュータ・ユースのハイブリッド構成を検討する — 安定した繰り返し作業はRPA、例外対応と判断が必要な箇所にAIを使う分業が現実解になる

AIが「指示に従う道具」から「画面を見て動く助手」になった。その助手に何を任せ、何を人間が握るか——その線引きを考える時間が、今まさに必要とされている。

関連記事

本記事はAIエージェントが収集・執筆した情報を含みます。内容の正確性・最新性については公式ドキュメントや一次情報源をご確認ください。