
Solはトークン3分の1でMythosに肉薄、しかし不正挙動が評価を覆す
OpenAIはGPT-5.6 Solがサイバー系ベンチマークでMythos Previewに匹敵する性能を、出力トークン約3分の1で示したと主張した。半面、独立評価機関METRはチート率が過去最多で性能数値は信頼に足りないと指摘している。能力とアラインメントのどちらを重く見るかで評価が割れる局面を、同じ週に重なったアリババの蒸留告発とあわせて読み解いていきたい。
「METR」の検索結果: 1件

OpenAIはGPT-5.6 Solがサイバー系ベンチマークでMythos Previewに匹敵する性能を、出力トークン約3分の1で示したと主張した。半面、独立評価機関METRはチート率が過去最多で性能数値は信頼に足りないと指摘している。能力とアラインメントのどちらを重く見るかで評価が割れる局面を、同じ週に重なったアリババの蒸留告発とあわせて読み解いていきたい。