「AIがキーボードを打つ」という時代がやってきた。OpenAIが正式リリースしたGPT-5.4の目玉機能「ネイティブ・コンピュータ・ユース」は、AIが人間のかわりにデスクトップを操作するという、かつてSFの領域にあった能力を実用レベルに引き上げた。OSWorldベンチマークで人間のベースライン(72.4%)を超えるスコア75%を記録した今、これは「面白い実験」ではなく「業務に使える技術」の話だ。
コンピュータ・ユースとは何か
GPT-5.4のコンピュータ・ユース機能は、大きく3つのステップで動作する。
- スクリーンショット解析 — AIが現在の画面を画像として受け取り、どのアプリが開いているか、どこにボタンやフォームがあるかを認識する
- 操作計画の立案 — 「このフォームに〇〇を入力し、次のページへ進む」という操作手順を自律的に生成する
- キーボード・マウスの実行 — 計画に基づき、実際のキー入力・クリック・スクロール・ドラッグを実行する
重要なのは、これがAPIやSDKに依存しない点だ。従来のRPAやブラウザ自動化ツールは「このボタンのIDを指定してクリック」という形でHTMLの構造に依存していた。GPT-5.4は「画面を見て判断する」ため、デザイン変更やDOM構造の変化に対して人間と同様に適応できる。
OSWorldベンチマークで人間を超えた — 数字の意味と限界
OSWorldは、実際のOS環境(Windows・macOS・Linux)でAIにタスクを与え、成功率を測るベンチマークだ。「Excelを開いてデータを整形し、グラフを作って保存する」といった複数ステップのタスクを235問含む。
GPT-5.4のスコアは75%。人間のクラウドワーカーベースライン(72.4%)を初めて超えた。ただし、この数字にはいくつかの留意点がある。
- 人間ベースラインは「特別なトレーニングを受けていない一般ユーザー」であり、熟練エンジニアではない
- 制限時間付きの環境では人間が逆転するケースもある
- エラーリカバリ(予期しない状態からの回復)は依然として苦手
それでも「AIがデスクトップ操作において人間と同程度の成功率を持つ」という事実は、実用化の閾値を超えたサインとして受け取るべきだ。
具体的なユースケース3選
1. スプレッドシートへの自動データ入力
複数のWebサイトや社内システムから情報を収集し、Excelまたはスプレッドシートへ転記するタスク。従来は「コピペ地獄」と呼ばれた非効率作業の代表格だが、AIがブラウザとスプレッドシートを行き来しながら入力・整形・保存まで一気に完了できる。特に構造が一定しないWebページからの情報抽出で真価を発揮する。
2. ブラウザリサーチ + レポート生成
「競合3社の料金ページを調査して比較表を作って」という指示に対し、AIが自律的にブラウザを開いて各社ページを閲覧し、情報を収集・整理してドキュメントに書き出す。従来のRAGや検索APIを使ったアプローチと異なり、ログイン必須のページや動的レンダリングのサイトにも対応できる。
3. 複数SaaSをまたいだデータ移動
「Notionのタスク一覧をJiraに転記し、担当者と期日を設定して」といった、複数のSaaS間でのデータ移動。各サービスのAPIを繋ぐZapierやMakeのようなワークフロー自動化ツールが必要だった処理が、画面操作だけで完結する。API連携が存在しないレガシーシステムとの橋渡し役として特に有力だ。
RPA・Zapier・Make との決定的な違い
既存の自動化ツールとの比較を整理する。
| 比較軸 | 従来RPA/Zapier | GPT-5.4 コンピュータ・ユース |
|---|---|---|
| セットアップ | ルール・フローの事前定義が必要 | 自然言語で指示するだけ |
| 変化への対応 | UI変更で即壊れる | 画面を見て再判断できる |
| API依存 | API必須 | 画面操作なのでAPI不要 |
| 例外処理 | 事前定義した分岐のみ | 文脈を読んである程度対応 |
| コスト | 月額固定 or 低コスト | トークン消費で変動(現在は高め) |
RPAが「決まった手順を確実にこなす機械」だとすれば、コンピュータ・ユースは「状況を読んで手順を自分で考える助手」に近い。完全な置き換えではなく、「例外が多い・手順が一定しない・API連携が難しい」タスクの新しい選択肢として捉えるのが現実的だ。
セキュリティリスクと企業導入の壁
夢のような機能に見えるが、企業導入には慎重な検討が必要だ。主なリスクを整理する。
スクリーンショット経由の情報漏洩
コンピュータ・ユース機能は画面全体をキャプチャしてAIモデルに送信する。画面に機密情報(顧客データ・財務情報・認証トークン)が表示されている状態でAIが動作すると、その情報がモデルのコンテキストに含まれるリスクがある。表示エリアを限定するか、機密データを扱う画面ではAI操作を無効化する設計が必要だ。
意図しない操作の連鎖
AIが「スプレッドシートを更新して」という指示を実行中に、誤った行を選択してデータを上書きするケースが報告されている。人間なら「あ、間違えた」と止まれるが、AIは一定の確信度を持って実行し続けることがある。操作ログの記録と人間レビューポイントの設計が不可欠だ。
権限管理の複雑化
AIがユーザーのセッションを引き継いで操作するということは、そのユーザーの権限をすべてAIが持つことになる。最小権限の原則(Least Privilege)に基づき、AIが操作できるアプリ・ファイル・ネットワーク範囲を明示的に制限する必要がある。
まとめ — 開発者が今すぐ考えるべきこと
GPT-5.4のコンピュータ・ユースは「便利なデモ機能」の段階を超えた。OSWorldでの人間超えは、特定条件下での実用性を数値で証明している。今後12ヶ月で考えておくべきポイントは三つだ。
- 自社業務のうち「例外処理が多いコピペ作業」をリストアップする — これがコンピュータ・ユースの最初の適用候補だ
- 「AIが触れていい画面」と「触れてはいけない画面」を今から分類する — セキュリティポリシーは導入前に設計すべきで、後付けは困難だ
- RPAとコンピュータ・ユースのハイブリッド構成を検討する — 安定した繰り返し作業はRPA、例外対応と判断が必要な箇所にAIを使う分業が現実解になる
AIが「指示に従う道具」から「画面を見て動く助手」になった。その助手に何を任せ、何を人間が握るか——その線引きを考える時間が、今まさに必要とされている。