AIを「シニアエンジニア」として測る新ベンチ、最強Opusでも24%

要点（30秒で）: AIコーディングを「新人」でなく「シニアエンジニア」として測る新ベンチ Senior SWE-Bench が公開された。仕様を細かく指示せず、正しさに加えて”コードのセンス”まで採点する設計で、最強のClaude Opus 4.8でも合格は24%どまり。自社のAI評価が甘くないか、この設計思想を一度のぞいてみる価値がある。

コーディングAIのベンチマークは、ここ半年で急速に「効かなく」なった。かつて業界標準だったSWE-Bench Verifiedは、フロンティアモデルが軒並み75〜80%に張り付き、上位のモデル同士がほぼ横並びになってしまった。

その真空を突くように、Snorkel AIとプリンストン大学・ウィスコンシン大学マディソン校の研究者が新しい物差しを出した。名前は Senior SWE-Bench。狙いは名前がすべてを語っている。AIを「指示待ちの新人」ではなく、シニアエンジニアとして測ることだ。

背景・文脈

なぜ既存のベンチが飽和したのか。理由は二つある。

一つは単純な性能向上。もう一つは、もっと厄介な汚染の問題だ。SWE-Bench Verifiedの500問はすべて公開Pythonリポジトリ由来で、しかも各モデルの学習カットオフより前のもの。つまりAIは「解いている」のではなく、学習データにある正解パッチを思い出しているだけの疑いが濃い。

この指摘を受け、OpenAIは2026年2月にSWE-Bench Verifiedを汚染を理由に事実上「引退」させた。物差しそのものが信用を失ったわけだ。もう一つ見過ごせないのが、成績がベースモデルよりハーネス（足場）の出来に左右される点で、これはこのメディアでも自分の足場を自分で書くコーディングAI、Ornith-1.0で触れてきた通りだ。

図1：Pass@1（一発勝負）の成績——最強のOpus 4.8でも24.0%どまり

何が「シニア」なのか

Senior SWE-Benchの核心は、指示文のスタイルにある。

従来のベンチは、要件を細部までびっしり書き込んだ「過剰仕様」の課題を投げていた。ここが決定的に違う。このベンチの指示は、同僚がSlackに投げるような自然な一文に近い。機能追加タスクの指示は中央値で約250文字、比較対象のSWE-Bench Proが4,000文字超なのに対し、全体でも中央値で31%の短さだ。

つまりAIは、書かれていない要件を自分で埋めなければならない。過小仕様の状況で、リポジトリの既存の作法を読み取り、「言われなくても正しいコード」を出せるか。これがシニアとジュニアを分ける線だ、という思想である。

課題の重さも段違いで、機能追加タスクは平均11ファイルにまたがり、トップのエージェントでも数百ステップを要する。バグ課題も、完全に切り分けられた再現手順ではなく、ログやプロファイリングから原因を「調査」させる実務型が中心だ。

図2：合格判定「タセフル・ソルブ」の三段構え——全条件を満たして初めて1問クリア

テイストまで採点する

このベンチの最も挑戦的な部分は、正しさの先を測ろうとするところにある。

仕組みは大きく三段構えだ。まず検証エージェントが、専門家の設計したレシピに従い、提出された解答に合わせた振る舞いテストをその場で書く。固定のテストスイートでは通り抜けてしまう「ズルい正解」を潰すためだ。

次にテイスト採点。ここが物議を醸している。コードの膨れ具合（bloat）、既存の設計パターンへの追従、相対的なセンスを数値化し、動作の正しさと組み合わせる。

そして最終判定の「タセフル・ソルブ（趣味のいい正解）」。検証と振る舞いテストを通し、ルーブリック0.5超、膨れは2倍未満、作法・相対テイストが5点中2点超——この全部を満たして初めて一問クリアと認められる。動けばいい、では通らない。

図3：従来ベンチ vs Senior SWE-Bench——「新人向け」と「シニア向け」の設計差

性能・ベンチマーク

では、現行の最強たちはどこまで解けたのか。Pass@1（一発勝負）の結果がこれだ。

首位はClaude Opus 4.8（max）で24.0%。以下、Claude Sonnet 5が19.4%、GPT-5.5（xhigh）が16.0%、Opus 4.7が14.1%、GPT-5.4が14.0%、GLM-5.2が12.5%と続く。

数字の意味を噛みしめてほしい。同じOpus 4.8はSWE-Bench Proでは約69%を叩き出すモデルだ。それが、指示を薄くしてセンスまで問うた途端、4問に1問しか通らなくなる。運営の総括はこうだ。フロンティアモデルはシニア級の正しさとセンスを、75%以上の確率で満たせない。

コストの内訳も面白い。Opus 4.8は1タスク平均11.7万トークンを吐き、GPT-5.5は3.6万トークンで済ませる。深く考えて長く書くか、短く仕留めるか——モデルごとの「気質」がそのまま出ている。

反論・別の見方

もっとも、この設計に懐疑の声は多い。Hacker Newsの議論では、批判が二つの軸に集まった。

一つは、テイストをLLMに判定させることへの疑問だ。「LLM-as-judgeは筋が悪い」「モデルは自分の家系の出力を贔屓しかねない」。センスという主観を、別のAIの主観で採点していいのか、という根本的な問いである。

もう一つは、シニア像そのものへの異議だ。本物のシニアは、過小な指示を黙って埋めるより先に、要件を自分で取りに行き、前提を疑って質問する。「察して書く」を正解とする設計は、むしろ危ういのではないか——この指摘は鋭い。AIが書いたコードの責任を誰が負うのかという論点は、Godot、AIが書いたコードを拒否の一件とも地続きだ。

日本・個人開発の視点

日本のチームにとって、このベンチの含意は「点数」ではなく「評価の作り方」にある。

自社でAIコーディングを回すとき、多くの現場はいまだに「動いたか／テストが通ったか」だけを見ている。だがSenior SWE-Benchが示すのは、正しさと保守性・作法は別物で、後者を測る仕組みを自前で持たないと”それっぽいが腐ったコード”を量産しかねない、という警告だ。

指示を薄くしてどこまで通るかを社内で試すだけでも、自チームのAI活用の成熟度は測れる。過剰なプロンプトで手を引いてやっている限り、それは新人の使い方のままだ。エージェントに勝ち筋を覚えさせる発想はself-learning-skillsにも通じる。

要点まとめ

Senior SWE-Benchは、AIを新人でなくシニアエンジニアとして測る新ベンチ。Snorkel AIとプリンストン・UWマディソンの研究者が公開した。
指示は自然文で過小仕様（機能課題で中央値250字前後）。書かれていない要件を自分で埋め、平均11ファイルにまたがる課題を解かせる。
動作の正しさに加え、コードの膨れや作法・センスを採点する「タセフル・ソルブ」で判定する。
結果はOpus 4.8がトップの24.0%。フロンティアでも75%超のタスクでシニア級の合格に届かない。
テイストをLLMに採点させる主観性と、「察して書く=シニア」という前提には批判もある。

🐦‍⬛ 編集部の視点

このベンチのいちばん面白いところは、点数が低いことそのものだ。

既存ベンチが80%で頭打ちになって「もう差がつかない」と言われるなか、わざわざ24%まで叩き落とす物差しを作った。しかもその落とし方が、難易度を上げたのではなく「指示を減らした」ことによる、という点に痺れる。人間相手なら当たり前の”空気を読む”を、AIは全然できていない——それを数字で突きつけてきた。

私たちが注目したいのは、テイスト採点への批判のほうだ。「センスを機械に測らせるな」という反発は正論に聞こえるが、では現場のコードレビューで人間がやっている”なんか違う”の指摘は、主観じゃないと言い切れるだろうか。AIにコードを書かせる時代は、いや応なく「良いコードとは何か」を言語化する時代でもある。このベンチは、その居心地の悪い宿題を業界に差し戻したのだと思う。あなたのチームは、正しさの先を測る物差しを持っているだろうか。

コメントを残すコメントをキャンセル

2026年、AIは「使うもの」から「任せるもの」へ。海外最新動向で読むAIエージェント時代の本番化