网易首页
应用
网易新闻
网易公开课
网易红彩
网易严选
邮箱大师
网易云课堂
快速导航
新闻
国内
国际
王三三
体育
NBA
CBA
综合
中超
国际足球
英超
西甲
意甲
娱乐
明星
电影
电视
音乐
封面故事
财经
股票
原创
智库
汽车
购车
车型库
科技
网易智能
原创
IT
互联网
通信
时尚
艺术
旅游
手机
/
数码
惊奇科技
易评机
家电
房产
/
家居
北京房产
上海房产
广州房产
楼盘库
设计师库
案例库
教育
留学
高考
查看网易地图
登录
注册免费邮箱
注册VIP邮箱(特权邮箱,付费)
免费下载网易官方手机邮箱应用
安全退出
移动端
网易公开课
TED
中国大学视频公开课
国际名校公开课
赏课·纪录片
付费精品课程
北京大学公开课
英语课程学习
网易严选
新人特价
9.9专区
新品热卖
人气好物
居家生活
服饰鞋包
母婴亲子
美食酒水
支付
一卡通充值
一卡通购买
我的网易支付
网易跨境支付
邮箱
免费邮箱
VIP邮箱
企业邮箱
免费注册
客户端下载
bench
相关内容
小红书发布 SWE-Bench Mobile:当 AI Agent 面对亿级用户 App 代码库,最高通过率仅12%?
网易号
InfoQ 2026-02-14
神秘模型“Pony Alpha”现身:确为智谱GLM-5,现已上线
科技
网易智能 2026-02-12
比肩OpenAI Simple Codex,中国团队闯入Terminal-Bench全球第二
网易号
机器之心Pro 2026-02-10
千问Qwen发布PLaw Bench:为法律AI模型提供专业测评标准
网易号
PChome电脑之家 2026-02-07
BMW Group与奥格斯堡大学联手推出CAR-bench
网易号
新浪财经 2026-02-07
BMW Group与奥格斯堡大学联手推出CAR-bench
网易号
科技行者 2026-02-07
加州大学圣地亚哥分校FIRE-BENCH:AI科学家自主研究能力评测基准
网易号
科技行者 2026-02-05
姚顺雨腾讯首研成果:构建CL-bench、提出大模型新方向
网易号
财经涂鸦 2026-02-04
百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
网易号
派财经 2026-02-04
DeepResearch Bench揭榜 千帆深度研究Agent居榜首
网易号
CNMO科技 2026-02-04
百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
网易号
量子位 2026-02-04
姚顺雨入职腾讯50天后,发布了首篇署名论文:CL-Bench
网易号
AI进化论花生 2026-02-04
腾讯混元联合复旦发布CL-bench基准 揭示语言模型Context学习能力严重不足
网易号
硅星Breaknews 2026-02-04
空间智能终极挑战MMSI-Video-Bench来了,顶级大模型全军覆没
网易号
机器之心Pro 2026-01-05
超越谷歌,全球第一!上交AI科学家王者归来,登顶OpenAI MLE-bench
网易号
新浪财经 2025-12-25
超越谷歌,全球第一!上交AI科学家王者归来,登顶OpenAI MLE-bench
网易号
新智元 2025-12-25
开源国内首个财富管理AI智能体评测集FinMCP-Bench,附主流大模型测试结果
网易号
盈米基金 2025-12-15
苹果公司发布SO-Bench:让AI真正学会看图说话的全新测试标准
网易号
至顶AI实验室 2025-12-01
新加坡国立大学发布RAGCap-Bench智能问答过程评估基准
网易号
科技行者 2025-11-27
ollama v0.13.0 发布:DeepSeek-OCR、Cogito-V2.1 全新支持,性能工具 Bench 正式上线
网易号
moonfdd 2025-11-22
AI模型突破理解与生成鸿沟:港科大推出GIR-Bench基准测试套件
网易号
科技行者 2025-11-18
美团LongCat发布AMO-Bench,打破大模型数学天花板
网易号
鞭牛士 2025-11-17
美团LongCat发布大模型评测基准UNO-Bench
网易号
鞭牛士 2025-11-06
FM Agent登顶OpenAI MLE-Bench,由百度智能云研发
网易号
i黑马 2025-10-27
上海AI实验室发布IWR-Bench 揭示AI视频转网页短板
网易号
硅星Breaknews 2025-10-21
AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了
网易号
机器之心Pro 2025-10-15
AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了
网易号
新浪财经 2025-10-15
景不动人动,OST-Bench揭示多模态大模型在线时空理解短板
网易号
机器之心Pro 2025-10-14
Scale AI推出SWE-Bench Pro测试AI编程能力
网易号
至顶AI实验室 2025-10-09
Claude Opus 4.1 上线,SWE-bench 验证率 74.5%,重构可靠性与安全性全面升级
网易号
InfoQ 2025-09-06
埃森哲团队MCP-Bench:测试AI助手复杂任务能力
网易号
科技行者 2025-09-04
GPT-5 测试被质疑作弊,故意避开难题刷高分?图表「生成」还得看 OpenAI
网易号
AppSo 2025-08-12
新加坡国立大学:IPV-BENCH首创AI视频"不可能场景"
网易号
至顶头条 2025-08-01
全球第一!朗新九功数据智能体斩获权威评测BIRD-Bench双榜冠军
网易号
证券市场周刊市场号 2025-07-26
AI编程挑战赛首轮结果出炉:最高得分仅7.5%
网易号
至顶头条 2025-07-24
超越微软,全球第一!上交AI智能体炼成「Kaggle特级大师」,登顶OpenAI MLE-bench
网易号
新智元 2025-07-02
哈工大、度小满开源EFFIVLM-BENCH基准测试框架
网易号
机器之心Pro 2025-06-16
上海交大联合StepFun推出OneIG-Bench
网易号
至顶头条 2025-06-12
世界首个超声大模型评测基准亮相——海豚智能全球领跑
网易号
环球界面 2025-06-09
EOC-Bench团队:多模态模型能预测第一视角物体吗?
网易号
至顶头条 2025-06-09
EXP-Bench 评估 AI 能否自主开展 AI 研究实验
网易号
至顶头条 2025-06-05
CVPR 2025|73%人类认同率!Video-Bench实现视频质量精准打
网易号
学术头条 2025-06-03
Claude4大模型能连续工作7小时,创SWE-Bench得分纪录
网易号
站长之家 2025-05-23
读英文微小说,习得英语词汇 | Letters Under the Bench
网易号
英语教学 2025-04-29
读英文微小说,习得英语词汇 | The Bench Beneath the Birch Tree
网易号
英语教学 2025-04-17
豆包大模型团队开源多语言代码修复基准 Multi-SWE-bench
网易号
零壹财经 2025-04-10
字节跳动开源Multi-SWE-bench,推动大模型代码智能升级
网易号
硅星Breaknews 2025-04-10
Deepseek突破AI 训练烧钱魔咒:1/525 成本 MT-Bench 媲美 GPT-4o
网易号
IT之家 2025-04-08
Talk预告|曼彻斯特大学曲星威:CIF-Bench - 评估大模型中文指令泛化能力的基准
网易号
将门创投 2025-04-01
《我的世界》成为AI新「考场」?高三生用游戏评测AI:DeepSeek-R1位列第三!
网易号
CSDN 2025-03-25
没有更多内容了
热点新闻
热点图集
©
1997-2026 网易公司版权所有
About NetEase
|
公司简介
|
联系方法
|
招聘信息
|
客户服务
|
隐私政策
|
不良信息举报 Complaint Center
|
廉正举报
|
侵权投诉
无障碍浏览
进入关怀版