UIを操作できるAPI!Gemini 2.5 Computer Use

未分類

2025年、Google DeepMind が発表したGemini 2.5 Computer Use モデルは、
単なる自然言語モデルではなく、実際にPCやスマートフォンの画面を操作できるAIです。

この記事では、このモデルの仕組みを解説し、AIがどのようにWebページを操作するのかを紹介します。

詳細は以下をご覧ください。

Introducing the Gemini 2.5 Computer Use model
Today we are releasing the Gemini 2.5 Computer Use model via the API, which outperforms leading alternatives at browser ...

Gemini 2.5 Computer Useとは?

Gemini 2.5 Computer Use モデルは、ブラウザ上で人間のように操作を行えるAIです。

例えば、次のような指示を出すことができます。

「Gmailを開いて、未読メールの件名をリストアップして」
「Google フォームに名前とメールアドレスを入力して送信して」
「ホテル予約サイトで東京の宿を検索して」

これらを、Gemini APIの computer_use 機能を使うことで自動化します。

モデルの動作を確認するには、以下をご覧ください

翻訳されたプロンプト:
「 https://tinyurl.com/pet-care-signupから、カリフォルニア州在住のペットの詳細情報を取得し、https://pet-luxe-spa.web.app/にある私のスパCRMにゲストとして追加してください。その後、10月10日午前8時以降に、専門医のアニマ・ラバーによるフォローアップ診察の予約を設定してください。診察の目的は、ペットが希望する治療と同じです。」

翻訳されたプロンプト:
美術部がフェアに向けて課題をブレインストーミングしました。ボードがごちゃごちゃしているので、私が作ったカテゴリーに課題を整理するのを手伝ってほしいです。sticky -note-jam.web.appにアクセスして、メモが適切なセクションにきちんと配置されているか確認してください。もし違っていたら、ドラッグしてください。

基本構成

Gemini 2.5 Computer Use モデルは、
以下のようなループ構造で動作します。

[1] 現在の画面情報を取得
       ↓
[2] モデルが「次に実行すべき操作」を推論
       ↓
[3] 実際に操作を実行(クリック・入力など)
       ↓
[4] 画面を再キャプチャして再度モデルに入力
       ↓
[5] タスク完了まで繰り返す

このサイクルを通じて、AIはまるで人間のように画面を見ながら作業を進めます。

セットアップ

以下を参照ください。

GitHub - google/computer-use-preview
Contribute to google/computer-use-preview development by creating an account on GitHub.

応用例

分野 具体的な用途
UIテスト自動化 テストケースを自然言語で記述し、AIが操作検証
業務オートメーション 社内ポータルや予約サイトの操作を自動化
パーソナルAIアシスタント メール送信・スケジュール登録・Web検索を代行
ノーコード連携 RPAと統合し、人の操作を完全再現

特に、従来RPAでは扱いにくかった「非構造的なUI」でも高精度に対応できるのが特徴です。

まとめ

Gemini 2.5 Computer Use モデルは、

「AIがコンピューターを使う」
という新しいAIパラダイムの実現に向けた大きな一歩です。

これにより、開発者はAPI連携のないシステムでも自動化でき、
業務効率化・QA・UX改善など幅広い領域で革新が期待されます。

コメント

タイトルとURLをコピーしました