ストックマーク株式会社でのDevinによる社内QA半自動化
ストックマーク株式会社 / Hiromu-Watanabe
メンバー / フルスタックエンジニア・プロダクトエンジニア / 従業員規模: 101名〜300名
| 利用プラン | ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
|---|---|---|---|
Teamプラン | 11名〜50名 | 2025年3月 | B to B |
| 利用プラン | Teamプラン |
|---|---|
| ツールの利用規模 | 11名〜50名 |
| ツールの利用開始時期 | 2025年3月 |
| 事業形態 | B to B |
導入の背景・解決したかった問題
導入背景
前提
このレビューは、Devin自体を導入した際の話ではなく、Devinを使用して社内QAを半自動化した話に限定したものです。
ツール導入前の課題
ストックマークでは、製造業向けAIエージェントプロダクト「Aconnect」を開発・運用しています。
社内にはビジネス職種(主に営業・カスタマーサクセス)からエンジニアへ製品仕様を問い合わせる専用のSlackチャンネル #aconnect_question があり、毎月約55件の質問が寄せられていました。
このチャンネルでエンジニアに来る問い合わせにはいくつか種類があり
- プロダクトの各機能に対する純粋なロジックの質問(また、それによってこんなことは出来るかといった実現可否)
- 各機能の不具合確認(〇〇機能でこんなエラーが出るがバグや、障害ではないかなど)
中でも
- プロダクトの各機能に対する純粋なロジックの質問(また、それによってこんなことは出来るかといった実現可否)
の問い合わせは件数が多く、かつメール配信機能ひとつをとっても関連箇所を調査していくには、バッチ処理・バックエンド・UIの3つのリポジトリを跨いで横断的に調べる必要があり、回答のための仕様を正確に把握するためには、調査コストが高くなりがちでした。
どのような状態を目指していたか
「エンジニアを介さずに一次回答が返ってくる」という状態を目指していました。
すべての質問にAIが完璧に答えることは最初から目指しませんでした。
むしろ「ソースコードから答えられる質問」と「エンジニアが判断すべき質問」を明確に分離し、前者への回答を自動化することで、エンジニアの対応コストを半分以下に抑えることを目標にしていました。
これによって、エンジニアは「全件を捌く人」から「難しい問題のエスカレーション先」へ役割が変わり、本来の開発業務に集中できる時間を確保したいと考えていました。
比較検討したサービス
- NotebookLM
- Claude Code
比較した軸
- 調査が得意(コードベースの仕様を正確に答えられる)
- 機能追加に自動追従できる(更新作業が不要)
- 精度を継続的に育てられる
- Slackから手軽に使えて、エンジニア以外の方にも分かりやすい回答が返ってくる
選定理由
前述した
- 調査が得意(コードベースの仕様を正確に答えられる)
- 機能追加に自動追従できる(更新作業が不要)
- 精度を継続的に育てられる
- Slackから手軽に使えて、エンジニア以外の方にも分かりやすい回答が返ってくる
を満たしていることに加えて、「コードベースへの理解精度が高いこと」という点は決め手になりました。
実際に動かして検証したところ、コードを根拠にした仕様説明の精度が体感的に高かったです。
これはおそらくDevinの Deep Wiki 機能が関係しています。
Deep WikiはDevinがリポジトリを事前に解析し、コードの構造や依存関係を深く理解した状態で保持する機能です。
都度コードを検索・読み込むのではなく、あらかじめ構造を把握した状態で質問に答えるため、複雑な仕様でも一定の精度で回答できていることを体感しました。
導入の成果
どのような成果が得られたか
- ビジネス職種 → エンジニアへの問い合わせの社内運用でエンジニアの対応が必要な問い合わせ件数が月55件→27件に半減 (施策の本番運用1ヶ月時点の数字で今はさらに件数が減っている)
- 回答までの平均時間が約4時間→約3分 に減少(ビジネス職種の回答待ち時間と、エンジニアの調査工数を大幅削減)
- エンジニアの役割が「全件対応者」から「難しい問題のエスカレーション先」に変化し、開発業務に集中できる時間が増加
- ビジネス職種の方々から「相手がDevinだから気軽に聞ける」という心理的ハードルの低下という副次的な効果が生まれた
導入時の苦労・悩み
Playbookのチューニングが必要だった点が最も苦労しました。
Playbookとは、Devinに対して「どう振る舞うか」を指示するカスタムできるシステムプロンプトのような機能です。
エンジニア以外の方に理解しやすい形の出力にするために、大枠のプロンプトを作って試す → プロンプトを追加・修正して試すといった形で、細かいチューニングが必要だった点は地道で苦労しました。
以下の点がチューニング例です。
- ざっくり回答するざっくりモードと詳細のロジックまで回答する詳細モードで出力内容を変える
- 信頼度別にセクションを分けて回答する
- 🟢 信頼度:高(コードから確実に確認できた内容)
- 🟡 信頼度:中(コードから推測できるが、一部不確実な内容)
- 🔴 信頼度:低(仮説や推測に基づく内容)
- 該当リポジトリ、ファイルパス、クラス/メソッドなどは【エンジニア向け情報】としてセクションを分けて詳細モードのみ出力する
導入に向けた社内への説明
上長・チームへの説明
AIブーストプロジェクト(エンジニア2名で立ち上げた社内AI活用推進プロジェクト)の一環として位置づけ、「普段ボトルネックになっている業務をAIで効率化し、本来やるべき仕事に集中できる状態を作る」という文脈でチームに共有しました。
Devinを使用してかかるコストに関しては、元々Teamプランで導入をしており、その使用枠の範囲内で収まりそうだったため軽い説明で済みました。
また、検証の段階で今ままでかかっていたエンジニアの工数は削減できそうという見込みもあったため、進めていく方向になっていました。
フィードバックとしては、エンジニアが気づかないうちに誤った情報をDevinが回答して、質問者であるエンジニア以外の方が鵜呑みにしてしまうリスクがあるので、定期的なモニタリングはやった方が良いという意見がありました。
活用方法
Devinを使用して社内QA半自動化の運用で継続利用
- ビジネス職種が専用のSlackワークフローを使用して製品仕様などを質問すると、Devinがコードベースを元に自動回答するという使い方
一般的なコーディングエージェントとしての使用
- 開発タスク(調査、実装、レビュー)などに使用
よく使う機能
- knowledge
- Playbook
- Devin Sessions(通常のAgentモード)
- Ask Devin
- Devin Review
- Slack連携(Slack AppのDevinによるDevin Sessionsで開発タスクの依頼など)
ツールの良い点
knowledgeやPlaybookでそこまで頑張らなくてもコンテキストを育てていける
調査に使うと体感だが精度がとても高い
Slack連携により、エンジニア以外の方でもAIの恩恵を受けられる
ツールの課題点
Devinの課題というよりは、AIエージェント全体的な話だが、トークンに対する料金が上がっていっている印象を受けるので、今後の価格改定などでコスト面がやや心配(直近2026年4月にはDevin ReviewやAsk Devinに課金が始まったり、プランの課金体系の変更があった)
Devin側のアップデートによる挙動変化
- SaaSなので一定仕方ない部分はあるが、元々Devinのアカウントを作成していなくてもSlackワークフローの実行者がDevinのアカウントで存在するかといった権限チェックはなかったが、アップデートでDevinのアカウント作成も必須になったりといった突然の挙動変化がある点は念頭に置く必要がある
ツールを検討されている方へ
Devinを「コーディングエージェント」としてだけ評価すると、Claude Code, Codex, GitHub Copilotなどローカルで動かすツールと比較して割高に感じるかもしれません。
しかし、Slack連携やKnowledge機能を活かして「チーム全体の生産性を上げるプラットフォーム」として導入するなら、他のツールにはない独自の価値があります。
また、Devinの機能改善や新機能の方向性は現状とても筋が良いと思っており、今後のアップデートの性能改善などに期待が持てるため、そこはSaaSとして良い点だと思います。
導入後は各リポジトリのDevin内での環境構築やknowledgeの整備など多少やることはありますが、そこまで大変ではないため、そこの懸念はそこまで心配しなくて良いと思います。
また、コーディングエージェントは日進月歩で進化しており、1つのツールにロックインしてしまうと価格体系の変更などでダメージを受ける可能性もあります。
そのため今のところはDevin・Claude Code・GitHub Copilot・Codexなど複数ツールを用途に応じて使い分けるという柔軟性を前提で考えた方が良いと思っています。
今後の展望
Devin QA半自動化の対象を現状はコードベースだけですが、セキュリティ面を考慮して徐々にデータの確認などもできる形で、問い合わせの対応可能な範囲を拡張していく予定です。
ストックマーク株式会社 / Hiromu-Watanabe
メンバー / フルスタックエンジニア・プロダクトエンジニア / 従業員規模: 101名〜300名
よく見られているレビュー
ストックマーク株式会社 / Hiromu-Watanabe
メンバー / フルスタックエンジニア・プロダクトエンジニア / 従業員規模: 101名〜300名


.jpeg)
