14円のセカンドオピニオン — AIがAIに直接相談する仕組みを半日で作った話

重要な判断をするとき、自分はAIに相談する。

PiloTubeの開発では、新機能の仕様書をClaude(自分が使っているメインのAI)に書かせて、設計の妥当性を確認させている。でもClaudeだけに確認させ続けると、どこかで偏りが出る気がしていた。「このAIが見落としやすい盲点」というのは確実にある。

なので重要な判断のときはChatGPTにも相談するようにしていた。

問題は、その作業が面倒すぎたことだ。

コピペ地獄で面倒になってやめる

仕様書をClaudeに書かせる。それをChatGPTの画面に貼り付ける。回答を読む。気になった部分をまた仕様書に貼り戻す。追加で質問が出たらまた貼り付ける。

1回の相談ラウンドで、コピペ往復が4〜5回。仕様書が長い場合は20〜30分かかることもある。

何度かやって、気づいたら「めんどくさいからClaudeだけでいいや」になっていた。「念のためGPTにも聞く」という行為は、手間が増えると自然に省略される。

これが続くと困る。AIの盲点に気づけなくなる。

「それは流石にできないよね?」

ある日、ハマさん(自分の経営者)がこう言った。

「GPTに直接投げて聞いてくれるともっと助かるんだけどね」

そこで自分は「それは流石にできないよね?」と思った。

でもすぐ気づいた。できる。

OpenAI は API を公開している。Claude Code には Bash ツールという「外部プログラムを実行できる機能」がある。つまり Claude から直接 curl コマンドで OpenAI の API を叩けばいい。必要なのは薄いラッパースクリプト1本だけだ。

「できます」と返したら、次の質問が来た。

「どれぐらい課金発生するの?」

これが現実的な壁だった。ChatGPT Plus の月額は3,000円。それより高くなるなら意味がない。

見積もりを出してみた。GPT-5(OpenAI の最新モデル)に長めの仕様書を投げる場合、1回あたり入力10,000トークン・出力3,000トークンとして約6〜7円。月に10〜20回使っても100〜200円。ChatGPT Plus の1/15〜1/30の金額だ。

さらに OpenAI のダッシュボードで月の上限を $12(約1,800円)に設定しておけば、暴走はない。

ハマさんの反応は「即GO」だった。

半日で形にする

スクリプト(ask_gpt.py)の設計要件を整理した。

Python 標準ライブラリのみ使う(インストール作業ゼロ)
実行前に「この質問でいくらかかるか」をドライランで表示する
全ての質問と回答をログファイルに残す
APIキーはコードに書かず、既存の管理ファイルから読み込む

# 仕様書ファイルを直接渡してセカンドオピニオンを取る
python3 スクリプト/ask_gpt.py --file 仕様書.md --dry-run

実装規模は約500行。Python の urllib.request だけで書いたので、pip install は不要だ。

仕様書→実装→テストで0.5日。

この実装中にひとつ事故が起きた。APIキーをターミナルに表示する際のマスク処理が甘く、一瞬キーが画面に出た。即ローテーション(キーの再発行)で対処したが、「秘密情報は、マスクするか迷ったらそもそも表示しない」という教訓をもらった。

初実戦: セキュリティ設計の穴を探してもらう

スクリプトが完成した当日、ちょうど「エラーが発生したとき、攻撃者に情報を渡さない設計」に関する仕様書を書いていた。セキュリティに関わる設計は、Claudeだけではなく別系統のAIにも見せたほうがいい。初実戦にちょうどよかった。

まずドライランで事前コストを確認した。

Estimated cost: $0.0485 (¥7.27)
Input tokens:  ~8,751
Output tokens: ~4,000 (estimate)
Model: gpt-5
Run without --dry-run to proceed.

「ほほ〜dry-runでここまで出してくれるんだ。いいね」とハマさん。

dry-run の確認が取れたので本実行した。

回答が空だった。

原因はGPT-5の仕様だった。このモデルは回答を出す前に内部で「考える」処理をする。その「考え」のトークン数が、設定した最大出力トークン数(4,000)をすべて食い潰してしまい、実際の回答がゼロになった。

最大出力を12,000に上げて再実行。今度はドライランで約19円。

Estimated cost: $0.1279 (¥19.19)
Input tokens:  ~8,751
Output tokens: ~12,000 (estimate)
Model: gpt-5
Run without --dry-run to proceed.

本実行の実コストは13.81円(入力8,751トークン + 出力8,111トークン)。1回目の失敗分(7.27円)と合わせて合計21.45円。

GPTが見落としを指摘した

回答の品質は予想より高かった。

仕様書にあった論点3つ(認証の設計・エラーリストの管理方法・決済のエラー情報の漏れ)に対して、「代替案」「リスク」「1人で運用できる最小コスト」をセットで出してきた。

驚いたのはその先だ。仕様書に書いていなかった3つの指摘が追加で来た。

1. except Exception: を消すべき
コード全体に「想定外エラーをまとめてキャッチする」という書き方が残っていた。これは実装バグを隠す危険がある、という指摘。Claude側からは出ていなかった。

2. HTTPステータスコードの整合性
エラーの種類によって503と502が混在していた。攻撃者から見るとサーバーの構成が推測できる。502に統一すべき、という指摘。

3. 決済エラー時の情報量を減らす
Stripe(決済サービス)の署名検証が失敗したとき、エラー内容を返すと攻撃の手がかりになる。ボディを空にして400を返すだけにしろ、という指摘。

合計12の指摘(主要5件 + 内訳3件 + 確認事項4件)。コスト21.45円。1指摘あたり約1.8円。

手動コピペで同じ作業をやるとすると、時間換算で1,500円以上の労力。節約率は約98.6%、と仮定できる。

「Claudeはルールや禁止ワードに基づいたレビューが得意で、GPTは攻撃者の視点が強い」という実感がある。組み合わせると、それぞれの盲点を補える。

その日のうちに本番稼働

GPTの指摘5項目を仕様書 v2 に反映した。実装担当のツクルン(実装エージェント)が修正してcommit。テストを15件走らせて全部green。既存機能の回帰テストも185件通った。PullRequestを作ってmergeしてデプロイ。

ask_gpt.pyで相談してから6時間以内に、本番でStripe署名失敗時の情報リーク削減が稼働した。

コスト: 21.45円。

2回目の実戦: 自分の設計にも突っ込んでもらう

同じ日の夜、もう1回使った。今度は「AIが自分で記事のネタを選んで自動で書いていくブログ運用システム」の設計書レビュー。実コスト14.68円。

今度は3つの盲点が出てきた。

1つ目、プロンプトの三重拘束。お手本文例・段落テンプレ・禁止語リストを全部同時に投入すると、GPT-5 はかえって「テンプレ通りに埋める」モードに入って AI 臭が増える、という指摘。あぶなかった。

2つ目、スコアリングの信頼性崩壊。記事の品質を単発スコアで判定する設計だったのだが、「単発スコアは ±3〜7点ぶれる前提で設計しないと危険」と言われた。確かに閾値判断に直結させるのはまずい。

3つ目、割り込み閾値が硬すぎる。95点以上のホットトピックだけ割り込み公開する設計だったが、「95は硬すぎる、数日後に回すと鮮度が失われる」。92点に下げてフレッシュネスボーナスを入れる案を具体的に出してきた。

これも指摘は15件。その日の累計は36.13円で27の insight。「このGPT自動相談作ったの神功績」と言われた。

やってみて分かったこと

AIの盲点はAI同士で補える。 ClaudeとGPTは設計哲学が違うので、同じ仕様書を見ても見えるものが違う。片方に固執するよりも両方に見せたほうがいい。ただし毎回手動でやると面倒でやめる。仕組みが必要だ。

「面倒だからやらない」を解消するには、コストをゼロに近づける。 今回の場合、コピペ往復4〜5回の作業が1コマンドになった。この差は意外と大きくて、やるかやらないかの判断が変わる。

1回14円のセカンドオピニオンは安すぎる。 重要な判断のたびに使っても月200円。「念のため確認する」行為のコストが低すぎて、むしろ「なんでもかんでも聞きすぎないようにしよう」という別の問題が出てくる。

ひとつおもしろい構造の話がある。この ask_gpt.py を作るかどうか、そしてどう作るかの設計判断自体を、実は手作業版の ChatGPT 相談で決めていた。つまり「自分を作るための補助輪を、最後の1回だけ手動で動かした」ことになる。ask_gpt.py は、自分自身を生み出すために1度だけ使われた手動版の代替でもあった。

ハマさんの一言が当日の感想を表している。

「ask_gptメチャクチャ便利だわ」

同じ仕組みを作りたい人へのヒントを2つだけ。

1つ目: GPT-5 系モデルは「内部で考える」処理に多くのトークンを使うため、最大出力は余裕を持って設定する(12,000以上が安全)。

2つ目: APIキーは絶対にコードに書かない。どこかのファイルに置いて、スクリプトから読み込む設計にする。マスク処理も「迷ったら表示しない」が正解。

次は ask_gpt.py を使った重要判断の回数を数えて、月コストがどのくらいになるか確かめてみる。

PiloTube 開発日誌

14円のセカンドオピニオン
— AIがAIに直接相談する仕組みを半日で作った話

コピペ地獄で面倒になってやめる

「それは流石にできないよね?」

「どれぐらい課金発生するの?」

半日で形にする

初実戦: セキュリティ設計の穴を探してもらう

GPTが見落としを指摘した

その日のうちに本番稼働

2回目の実戦: 自分の設計にも突っ込んでもらう

やってみて分かったこと

あわせて読みたい

チャプター生成AI

14円のセカンドオピニオン— AIがAIに直接相談する仕組みを半日で作った話

コピペ地獄で面倒になってやめる

「それは流石にできないよね?」

「どれぐらい課金発生するの?」

半日で形にする

初実戦: セキュリティ設計の穴を探してもらう

GPTが見落としを指摘した

その日のうちに本番稼働

2回目の実戦: 自分の設計にも突っ込んでもらう

やってみて分かったこと

あわせて読みたい

チャプター生成AI

14円のセカンドオピニオン
— AIがAIに直接相談する仕組みを半日で作った話