OpenAIがAIのコーディングの代表的ベンチマークに問題提起

*上画像は当サイトにてAIで作成。

OpenAIがAIのコーディングの代表的ベンチマーク(SWE-bench Verified)に問題提起。
回答が正しくても、不正解の判定になる問題。
問題になるIssueをすでにモデルが学習済みである。

これ見て思ったんだけど、今のAIって単独のファイルとか関数の修正じゃなくて、プロジェクトレベルで修正できるのね。

正確に言うとGemmaなどのLLM単独で行うわけではなく、エージェントと言われるコマンドを実行したりファイルを開いたりする環境込みの評価。にゃあ。

ローカルでも実行できるみたいだけど、ハードルは高い。にゃあ。

企業で採用しているところあるのか気になる。にゃあ。

これを見ていると、プログラマが職を失うというのが現実味を帯びてきている気が。。。

結局、重要な個所は最後は人間が確認することになるんだし、プログラムが読める人間は必要。にゃあ。

すぐにプログラマが不要。とはならない。にゃあ。