未分類

Gemini CLI 拡張機能 (extensions) を使った発展的な使い方

米Googleは現地時間の10月8日、コマンドラインツール「Gemini CLI」に拡張機能(extensions)の仕組みを導入したことを発表した。これにより、ユーザーは外部ツールを「Gemini CLI」に接続して直接利用できるようにな...
未分類

Gemini CLIを使って爆速AIコーディング

はじめにGoogleが公開した「Gemini CLI」は、ターミナルでGemini 2.5 Pro / Flashを利用できる強力なコマンドラインツールです。Git、npm、Dockerなどを使いこなすエンジニアにとって、まさに便利なAIコ...
未分類

Ollamaで超簡単にローカル環境でLLM推論(gpt-oss)

近年、ローカルで大規模言語モデル(LLM)を動かす需要が高まっています。その中でも、OpenAIが提供する「gpt-oss」は、オープンウェイトでありながら高性能なモデルで、Ollamaを使用することで、誰でも簡単に自分のPC上で推論を行う...
未分類

UIを操作できるAPI!Gemini 2.5 Computer Use

2025年、Google DeepMind が発表したGemini 2.5 Computer Use モデルは、単なる自然言語モデルではなく、実際にPCやスマートフォンの画面を操作できるAIです。この記事では、このモデルの仕組みを解説し、A...
未分類

Guardrails.aiを使ってみる

Guardrails.aiとはLLMアプリケーション用のガードレールフレームワークを提供するPython向けのパッケージです.LLMレスポンスのpydantic形式の検証を実装してます.LLMの入出力に特定のルールを適用することができます....
未分類

OpenAI Realtimeで実現!音声会話AIによるお店予約システム構築方法

OpenAIの最新技術「Realtime API」を活用することで、音声による自然な会話でお店の予約を行うシステムを構築できます。従来の「音声認識 → テキスト処理 → 音声合成」という分断されたプロセスを一体化し、よりスムーズで直感的なユ...
未分類

動画生成AI!話題のSora2を試してみたら凄かった

最近話題になっている Sora2 を実際に試してみました。結論から言うと――これは本当に革命的 です。Sora2とは?OpenAIが開発した次世代の動画生成モデル「Sora2」は、テキストから直接リアルな動画を生成できるAIです。たとえば以...
未分類

さくらのAI Engineを触ってみた(2) 音声ファイルの文字起こし編

前回のRAGの検索に続いて今回は音声ファイルの文字起こしをやってみます.さくらのAI Engineで文字起こしにつかうモデルは whisper-large-v3-turbo になります.なお、制限事項として下記のように音声ファイルの長さ、フ...
未分類

MCPサーバーをPythonで構築(2) サーバー構築

関連記事 MCPサーバーをPythonで構築(1) 基礎 MCPサーバーをPythonで構築(2) サーバー構築 ← このページ実装する仕様早速PythonでMCPサーバーを構築していきます。以下の仕様とします。・県名を受け取り、対応する観...
未分類

MCPサーバーをPythonで構築(1) 基礎

関連記事 MCPサーバーをPythonで構築(1) 基礎 ← このページ MCPサーバーをPythonで構築(2) サーバー構築MCPとは?MCP(Model Context Protocol) は、AIモデルと外部のツールやデータソースを...