「Codex全振り」を経て辿り着いたClaude Code+Codex併用の安定運用
ファストドクター株式会社 / gccj
テックリード / テックリード / 従業員規模: 101名〜300名 / エンジニア組織: 11名〜50名
| 利用プラン | 利用機能 | ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
|---|---|---|---|---|
Plus | AIによるコーディング支援 | 10名以下 | 2025年 | B to B |
| 利用プラン | Plus |
|---|---|
| 利用機能 | AIによるコーディング支援 |
| ツールの利用規模 | 10名以下 |
| ツールの利用開始時期 | 2025年 |
| 事業形態 | B to B |
導入の背景・解決したかった問題
導入背景
医療DX領域でTypeScript / Python を中心としたシステム開発をしています。Claude Code(Opus)をメインに使い込んでいく中で、以下の課題が積み重なりました。
- Context Windowの圧迫: 複数ファイルにまたがるドメインロジックの実装で、途中からモデルが前半の文脈を忘れる
- 使用量上限による作業中断: 集中して使い込む日に5時間ローリングウィンドウの制限に当たり、週に2〜3回は30分〜1時間の強制待ちが発生
- アウトプットの不安定さ(当時のモデル): 「どこからその話は来たんや」というコードが生成されることが増え、レビューのストレスも上がっていた
当時は3つ目をモデルの問題だと思っていました。今でも時々は起きますが、Knowledge-baseとspecs、そしてhooksの整備で大幅に抑え込めています。後述しますが、仕様起点の開発フロー(Specify → Plan → Tasks → Implement → Knowledge)とKnowledge-base(略:KB)を整備した結果、Claude CodeでもCodexでもアウトプットは安定するようになっています。
どのような状態を目指していたか
AIコーディングツールに求める基準を3つ定義しました。
- 品質安定したアウトプット — 待ち時間やリミットで開発体験の一貫性が損なわれないこと
- ノウハウを貯められる&再利用できる体制 — ツール特有のrule構成よりKnowledge-baseを単独に構築し、ツールが変わっても知見が活きること
- レビュー可能 — 医療領域のシステムである以上、人間のレビューは必須。ただし全コードを目視するのではなく、重要な部分に限定した人間レビュー+AIを活用したレビューの組み合わせで品質を担保すること
テックリード視点で見た導入の背景
AIコーディングツールは過渡期にあります。イノベーションがまだ続く中、単一のツールにこだわり過ぎないように、ツールに依存しないKnowledge-baseをチーム資産として育てていくことが重要だと考えています。
比較検討したサービス
- Claude Code
比較した軸
主にClaude CodeとCodexを比較しました。
| 比較軸 | Claude Code(Opus 4.6) | Codex(GPT-5.4) |
|---|---|---|
| 計画・設計の深さ | ◎ 行間を読む力が強い | ○ ストレートだが的確 |
| 実装速度・トークン効率 | △ 丁寧だがトークン消費多め | ◎ 同タスクで体感2〜3倍速い |
| コンテキストウィンドウ | 1Mトークン(2026年から) | 1Mトークン |
| 制限の緩さ | △ 5h制限、週次上限あり | ○ 相談・レビュー用途ならPlus $20/月で十分。実装メインなら上位プラン推奨 |
| コードレビュー | ○ (/simplify も利用可能になっている) | ◎ Trace Diff機能で差分が追いやすい |
| KB連携 | CLAUDE.md(hooks対応) | AGENTS.md(オープン標準) |
比較検討にあたっては、同じタスク・同じ依頼をClaude CodeとCodexそれぞれに投げて、過程と結果を比較しました。種類の違うタスク、違う言語(TypeScript、Python、Ruby)での生成結果、Knowledge更新まで正しく実行されるかも意図的に検証しています。
結果、KBをちゃんと構築した前提では、アウトプットの品質に決定的な差はありませんでした。どちらもspecsとKBに沿った精度の高いコードを生成でき、差が出るのは品質よりも上述の比較軸(トークン効率、制限など)の方でした。
選定理由
一度「Codex全振り」を経験した上での判断
実は2025年秋に、チーム全体でCodexに全振りした時期がありました(Zenn記事にも書いています)。当時はClaude Codeの制限とアウトプットの不安定さに我慢の限界が来て、CursorのCodexプラグインでgpt-5-codex-highモデルを使う運用に移行しました。
仕様起点の開発フローとKnowledge-baseの組み合わせで、Codexだけでも十分な品質が出せることは実証できました。待ち時間やリミットのストレスもなく、チーム2つをCodexで安定運用まで持っていけました。
ただ、その後のモデル進化(Claude Opus 4.6のリリース等)を経て、Claude Codeの計画立案や複雑な要件整理での優位性が再び明確になりました。特にドメインロジックの設計議論では、行間を読む力がまだClaude Codeの方が強い。
最終的に、CCで設計・計画・実装、Codexでレビューという併用に落ち着きました。全振りを経験したからこそ、それぞれの得意領域がはっきり見えた形です。
決め手になったのは、両ツールで共通のKBを育てやすい点です。spec.mdやplan.mdはただのMarkdownなので、CLAUDE.mdとAGENTS.mdのどちらからでも参照できます。ツール固有の設定ファイルは別々でも、チームの知見そのものはツール非依存で蓄積できる構造にしました。
導入の成果
正直に言うと、2025年秋にCodexに全振りした時点では「Claude Codeのモデルが不安定だからCodexに変えた」と思っていました。しかしKBとspecs+hooksを整備していく過程で気づいたのは、不安定さの大部分はモデルではなくコンテキストの与え方に起因していたということです。今でも時々は起きますが、KBが育った今ではCCでもCodexでもかなり安定しています。
ツール切り替えを前提にすると、「AIに口頭で説明する」のではなく「mdファイルに書いておく」方が合理的になります。チームで運用している5フェーズのフロー(Specify → Plan → Tasks → Implement → Knowledge)に沿って、以下のようなKBファイルがリポジトリ内に自然と育っていきました。
| ファイル | 内容 | 主な用途 |
|---|---|---|
spec.md | 機能仕様・ドメインルールの定義 | AIへの前提知識の注入。曖昧な箇所は[NEEDS CLARIFICATION]マーカーで明示 |
plan.md | 技術計画・設計判断の記録 | ツール切替時の文脈引き継ぎ。Best-of-Nで複数案を比較した経緯も残す |
tasks.md | タスク分解・DoD(完了条件)の定義 | 1タスク=1成果物の粒度管理。作業の中断・再開をスムーズに |
quickstart.md | 環境構築・開発フローの手順 | 新メンバーやAIのオンボーディング |
KB蓄積前は類似機能を作るたびにゼロベースで要件説明していましたが、蓄積後は過去の設計判断をAIが参照できるため、見積もりが2〜3割短くなった実感があります。
また、KBの副次効果として、チームの暗黙知の可視化が進みました。AIへの説明用に書いたつもりのspec.mdが、そのまま新メンバーのオンボーディング資料として機能しています。
導入に向けた社内への説明
上長・チームへの説明
Codex全振り期は「Claude Codeの制限がチーム生産性のボトルネックになっている」という実データをもとに説明しました。週2〜3回の中断、1回あたり30分〜1時間の損失は、スプリント計画への影響として可視化しやすかったです。
現在の併用体制への移行は「CCの設計力・実装力が改善したのでメインをCCに戻し、Codexはレビュー用に併用する。追加コストはChatGPT Plusの$20/月のみ」で通しました。もともとAIツール活用を積極的に推進する社風があり、Findy Team+でもAI時代の開発プロセスに関する取り組みで表彰いただいた経緯もあって、ツール構成の変更に対するハードルは低かったです。
活用方法
よく使う機能
- Trace Diff : コード生成中にリアルタイムで差分を表示してくれる機能。レビュー時に「何がどう変わったか」を即座に追えるので、人間レビューの効率が上がる
- PR自動レビュー(GitHub連携) : PRに対してCodexが自動でレビューコメントを付ける。人間レビュー前の一次チェックとして活用しており、論理的な見落としを拾ってくれることが多い
- reasoning level切り替え : minimal〜xhighの5段階でレビューの深さを調整できる。軽い確認はminimalで高速に、複雑なロジックのレビューはhighで丁寧に
- ChatGPTアプリでのCodex利用 : GitHubリポジトリ連携済みなので、外出時でもモバイルから相談やレビューができる
*Claude Codeも同等の機能が存在する
ツールの良い点
- サブツール(相談・レビュー)用途ならChatGPT Plus $20/月で回せる。Claude Codeメインの併用ならコスト追加が小さい
- reasoning levelがminimal〜xhighの5段階で、レビューの深さを細かく調整できる
- Trace Diff機能でレビューが追いやすい。コードレビュー用途では特に評価が高い
- PR自動レビューとGitHub連携がスムーズ。人間レビュー前の一次チェックとして実用的
ツールの課題点
- モデル性能の行間読み : Claude Codeと比較すると、暗黙の前提やドメイン固有のニュアンスを汲み取る力がやや弱い。明示的に書いていない意図を外すことがある。KBとspecsを充実させることで回避しており、逆に言えばKBが薄い領域では精度が落ちやすい
- Skillなど最新技術への対応速度 : Claude Codeがskill・hooksなど新機能を矢継ぎ早にリリースしているのに対し、Codex側の機能拡張はやや遅れる印象
ツールを検討されている方へ
自分はClaude Code大好きで使い続け、Codex全振りも経験し、今は併用に落ち着いています。この変遷を通じて確信したのは、ツール選びより先にKnowledge-baseの構築を始めてほしいということです。
振り返ると、「Claude Codeの制限が多い、アウトプットが不安定だ」と思ってCodexに移行したのですが、原因の大部分はKBの不足でした。KBとspecs+hooksが育った今、どちらのツールでもアウトプットはかなり安定しています。ツールを変えても解決しない問題は、ツールの問題ではありません。
どんなに優秀なAIコーディングツールを使っても、KBが育っていないと毎回ゼロベースの説明になります。spec.mdやplan.mdをリポジトリ内でチームメンテナンスしながら、以下のサイクルを回してみてください。
Claude Codeで設計・実装 → Codexでレビュー → KBを更新 → 次のタスクでKBを参照
Claude Codeをメインにしたいチームは多いと思いますが、レビュー強化と制限リスクのヘッジとしてCodexを$20/月で持っておくのはコスパが良いです。
AIのアウトプットは必ずレビューしてください。production環境で動くコードです。リスクがあります。レビュー!レビュー!レビュー!
そして、ツールは半年で変わりますが、蓄積したナレッジは残ります。
ファストドクター株式会社 / gccj
テックリード / テックリード / 従業員規模: 101名〜300名 / エンジニア組織: 11名〜50名
よく見られているレビュー
ファストドクター株式会社 / gccj
テックリード / テックリード / 従業員規模: 101名〜300名 / エンジニア組織: 11名〜50名
レビューしているツール
目次
- 導入の背景・解決したかった問題
- 活用方法


