AI Tech Stack

AIペアアーキテクト入門｜AWS Kiroで設計をAIと相談する方法（第1回）

作りたいものは決まっているけど実装方針で迷う――そんなときのAWS Kiro活用法を解説。AIを“ペアアーキテクト”として使うChat駆動開発(Chat Driven Development)の考え方を紹介します。

2025-10-13

未分類

米Googleは現地時間の10月8日、コマンドラインツール「Gemini CLI」に拡張機能（extensions）の仕組みを導入したことを発表した。これにより、ユーザーは外部ツールを「Gemini CLI」に接続して直接利用できるようにな...

2025-10-12

未分類

はじめにGoogleが公開した「Gemini CLI」は、ターミナルでGemini 2.5 Pro / Flashを利用できる強力なコマンドラインツールです。Git、npm、Dockerなどを使いこなすエンジニアにとって、まさに便利なAIコ...

2025-10-11

未分類

近年、ローカルで大規模言語モデル（LLM）を動かす需要が高まっています。その中でも、OpenAIが提供する「gpt-oss」は、オープンウェイトでありながら高性能なモデルで、Ollamaを使用することで、誰でも簡単に自分のPC上で推論を行う...

2025-10-10

未分類

2025年、Google DeepMind が発表したGemini 2.5 Computer Use モデルは、単なる自然言語モデルではなく、実際にPCやスマートフォンの画面を操作できるAIです。この記事では、このモデルの仕組みを解説し、A...

2025-10-09

未分類

Guardrails.aiとはLLMアプリケーション用のガードレールフレームワークを提供するPython向けのパッケージです.LLMレスポンスのpydantic形式の検証を実装してます.LLMの入出力に特定のルールを適用することができます....

2025-10-08

未分類

OpenAIの最新技術「Realtime API」を活用することで、音声による自然な会話でお店の予約を行うシステムを構築できます。従来の「音声認識 → テキスト処理 → 音声合成」という分断されたプロセスを一体化し、よりスムーズで直感的なユ...

2025-10-06

未分類

最近話題になっている Sora2 を実際に試してみました。結論から言うと――これは本当に革命的です。Sora2とは？OpenAIが開発した次世代の動画生成モデル「Sora2」は、テキストから直接リアルな動画を生成できるAIです。たとえば以...

2025-10-05

未分類

前回のRAGの検索に続いて今回は音声ファイルの文字起こしをやってみます.さくらのAI Engineで文字起こしにつかうモデルは whisper-large-v3-turbo になります.なお、制限事項として下記のように音声ファイルの長さ、フ...

2025-10-04

未分類

関連記事 MCPサーバーをPythonで構築(1) 基礎 MCPサーバーをPythonで構築(2) サーバー構築 ← このページ実装する仕様早速PythonでMCPサーバーを構築していきます。以下の仕様とします。・県名を受け取り、対応する観...

2025-10-03

未分類