OpenAIがAIのコーディングの代表的ベンチマークに問題提起

*上画像は当サイトにてAIで作成。

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚
「SWE-bench Verified」は2024年8月にOpenAIが公開したベンチマークで、AIのプログラミング能力を測る代表的な指標として広く使われてきました。新たな分析により、SWE-bench Verifiedには2つの重大な問題...

ざっくり説明

OpenAIがAIのコーディングの代表的ベンチマーク(SWE-bench Verified)に問題提起。
回答が正しくても、不正解の判定になる問題。
問題になるIssueをすでにモデルが学習済みである。

これ見て思ったんだけど、今のAIって単独のファイルとか関数の修正じゃなくて、プロジェクトレベルで修正できるのね。

正確に言うとGemmaなどのLLM単独で行うわけではなく、エージェントと言われるコマンドを実行したりファイルを開いたりする環境込みの評価。にゃあ。

ローカルでも実行できるみたいだけど、ハードルは高い。にゃあ。

企業で採用しているところあるのか気になる。にゃあ。

これを見ていると、プログラマが職を失うというのが現実味を帯びてきている気が。。。

結局、重要な個所は最後は人間が確認することになるんだし、プログラムが読める人間は必要。にゃあ。

すぐにプログラマが不要。とはならない。にゃあ。

コメント

タイトルとURLをコピーしました