网易首页

注册免费邮箱

bench

相关内容

小红书发布 SWE-Bench Mobile：当 AI Agent 面对亿级用户 App 代码库，最高通过率仅12%？

网易号

InfoQ 2026-02-14

神秘模型“Pony Alpha”现身：确为智谱GLM-5，现已上线

科技

网易智能 2026-02-12

比肩OpenAI Simple Codex，中国团队闯入Terminal-Bench全球第二

网易号

机器之心Pro 2026-02-10

千问Qwen发布PLaw Bench：为法律AI模型提供专业测评标准

网易号

PChome电脑之家 2026-02-07

BMW Group与奥格斯堡大学联手推出CAR-bench

网易号

新浪财经 2026-02-07

BMW Group与奥格斯堡大学联手推出CAR-bench

网易号

科技行者 2026-02-07

加州大学圣地亚哥分校FIRE-BENCH：AI科学家自主研究能力评测基准

网易号

科技行者 2026-02-05

姚顺雨腾讯首研成果：构建CL-bench、提出大模型新方向

网易号

财经涂鸦 2026-02-04

百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench

网易号

派财经 2026-02-04

DeepResearch Bench揭榜千帆深度研究Agent居榜首

网易号

CNMO科技 2026-02-04

百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench

网易号

量子位 2026-02-04

姚顺雨入职腾讯50天后，发布了首篇署名论文：CL-Bench

网易号

AI进化论花生 2026-02-04

腾讯混元联合复旦发布CL-bench基准揭示语言模型Context学习能力严重不足

网易号

硅星Breaknews 2026-02-04

空间智能终极挑战MMSI-Video-Bench来了，顶级大模型全军覆没

网易号

机器之心Pro 2026-01-05

超越谷歌，全球第一！上交AI科学家王者归来，登顶OpenAI MLE-bench

网易号

新浪财经 2025-12-25

超越谷歌，全球第一！上交AI科学家王者归来，登顶OpenAI MLE-bench

网易号

新智元 2025-12-25

开源国内首个财富管理AI智能体评测集FinMCP-Bench，附主流大模型测试结果

网易号

盈米基金 2025-12-15

苹果公司发布SO-Bench：让AI真正学会看图说话的全新测试标准

网易号

至顶AI实验室 2025-12-01

新加坡国立大学发布RAGCap-Bench智能问答过程评估基准

网易号

科技行者 2025-11-27

ollama v0.13.0 发布：DeepSeek-OCR、Cogito-V2.1 全新支持，性能工具 Bench 正式上线

网易号

moonfdd 2025-11-22

AI模型突破理解与生成鸿沟：港科大推出GIR-Bench基准测试套件

网易号

科技行者 2025-11-18

美团LongCat发布AMO-Bench，打破大模型数学天花板

网易号

鞭牛士 2025-11-17

美团LongCat发布大模型评测基准UNO-Bench

网易号

鞭牛士 2025-11-06

FM Agent登顶OpenAI MLE-Bench，由百度智能云研发

网易号

i黑马 2025-10-27

上海AI实验室发布IWR-Bench 揭示AI视频转网页短板

网易号

硅星Breaknews 2025-10-21

AI能否「圣地巡礼」？多模态大模型全新评估基准VIR-Bench来了

网易号

机器之心Pro 2025-10-15

AI能否「圣地巡礼」？多模态大模型全新评估基准VIR-Bench来了

网易号

新浪财经 2025-10-15

景不动人动，OST-Bench揭示多模态大模型在线时空理解短板

网易号

机器之心Pro 2025-10-14

Scale AI推出SWE-Bench Pro测试AI编程能力

网易号

至顶AI实验室 2025-10-09

Claude Opus 4.1 上线，SWE-bench 验证率 74.5%，重构可靠性与安全性全面升级

网易号

InfoQ 2025-09-06

埃森哲团队MCP-Bench：测试AI助手复杂任务能力

网易号

科技行者 2025-09-04

GPT-5 测试被质疑作弊，故意避开难题刷高分？图表「生成」还得看 OpenAI

网易号

AppSo 2025-08-12

新加坡国立大学：IPV-BENCH首创AI视频"不可能场景"

网易号

至顶头条 2025-08-01

全球第一！朗新九功数据智能体斩获权威评测BIRD-Bench双榜冠军

网易号

证券市场周刊市场号 2025-07-26

AI编程挑战赛首轮结果出炉：最高得分仅7.5%

网易号

至顶头条 2025-07-24

超越微软，全球第一！上交AI智能体炼成「Kaggle特级大师」，登顶OpenAI MLE-bench

网易号

新智元 2025-07-02

哈工大、度小满开源EFFIVLM-BENCH基准测试框架

网易号

机器之心Pro 2025-06-16

上海交大联合StepFun推出OneIG-Bench

网易号

至顶头条 2025-06-12

世界首个超声大模型评测基准亮相——海豚智能全球领跑

网易号

环球界面 2025-06-09

EOC-Bench团队：多模态模型能预测第一视角物体吗？

网易号

至顶头条 2025-06-09

EXP-Bench 评估 AI 能否自主开展 AI 研究实验

网易号

至顶头条 2025-06-05

CVPR 2025｜73%人类认同率！Video-Bench实现视频质量精准打

网易号

学术头条 2025-06-03

Claude4大模型能连续工作7小时，创SWE-Bench得分纪录

网易号

站长之家 2025-05-23

读英文微小说，习得英语词汇 | Letters Under the Bench

网易号

英语教学 2025-04-29

读英文微小说，习得英语词汇 | The Bench Beneath the Birch Tree

网易号

英语教学 2025-04-17

豆包大模型团队开源多语言代码修复基准 Multi-SWE-bench

网易号

零壹财经 2025-04-10

字节跳动开源Multi-SWE-bench，推动大模型代码智能升级

网易号

硅星Breaknews 2025-04-10

Deepseek突破AI 训练烧钱魔咒：1/525 成本 MT-Bench 媲美 GPT-4o

网易号

IT之家 2025-04-08

Talk预告｜曼彻斯特大学曲星威：CIF-Bench - 评估大模型中文指令泛化能力的基准

网易号

将门创投 2025-04-01

《我的世界》成为AI新「考场」？高三生用游戏评测AI：DeepSeek-R1位列第三！

网易号

CSDN 2025-03-25

没有更多内容了

热点新闻

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版