Anthropic推出AI新模型Opus 4.5:编程表现显著优于OpenAI
11月25日,Anthropic发布并商用旗舰模型Claude Opus 4.5。官方称该模型在编码、智能代理及办公场景中性能领先,为两个月内连续推出的第三款模型。SWE-bench测试显示,其编程得分高于Gemini 3 Pro与GPT-5.1,并在软件工程师闭卷测试中超越全部历史人类考生。Opus 4.5已集成至Pro、Max、Enterprise产品线,同步上线Chrome扩展、Excel插
11月25日,Anthropic发布并商用旗舰模型Claude Opus 4.5。官方称该模型在编码、智能代理及办公场景中性能领先,为两个月内连续推出的第三款模型。SWE-bench测试显示,其编程得分高于Gemini 3 Pro与GPT-5.1,并在软件工程师闭卷测试中超越全部历史人类考生。Opus 4.5已集成至Pro、Max、Enterprise产品线,同步上线Chrome扩展、Excel插
SuperCLUE 9月中文大模型基准测评显示,谷歌Gemini-3-Pro-Preview以70.80分位列全球第二,领先GPT-5(high) 1.43分,落后GPT-5.1(high) 1.71分;Gemini-2.5-Pro居第七。新模型推理效率微升至31.9秒/题,成本升至32.0元/百万Tokens。测评覆盖数学推理、科学推理、代码生成、智能体Agent、幻觉控制、精确指令遵循六维度,
蚂蚁集团11月18日发布全模态通用AI助手“灵光”,可在移动端30秒自然语言生成可编辑、可交互、可分享的小应用,并首次实现全代码生成多模态内容。首批上线“灵光对话”“灵光闪应用”“灵光开眼”三大功能,支持3D、音视频、图表、动画、地图等全模态输出,已同步登陆安卓与苹果应用商店。“灵光对话”以结构化思维生成可视化内容;“灵光闪应用”一句话秒级生成带后端能力的个性化AI应用;“灵光开眼”搭载AGI相机
据媒体报道,微软安全研究团队近日披露了一项名为“Whisper Leak”的高风险隐私漏洞,该漏洞针对现代AI聊天服务,构成一种新型侧信道攻击。
搜索引擎优化公司Graphite的最新研究显示,目前互联网上超过半数的书面内容(英文)已由AI生成。
腾讯今天正式发布了全新的ima 2.0,作为业界首个融合Agent能力的个人知识库,ima2.0推出“任务模式”,将知识库从“你问我答”的搜索/问答工具,升级为可以理解复杂任务、自主拆解步骤、调用工具并完成整套流程的智能伙伴。
近日,德克萨斯A&M大学等高校联合团队的研究揭示了一个关键现象:强迫大型语言模型(LLMs)大量阅读社交媒体低质内容,会导致其出现不可逆的“脑损伤”,认知能力显著衰退。
宾夕法尼亚州立大学最新发表的研究论文《Mind Your Tone》揭示了一个反常识的现象:在与大语言模型交互时,使用直白甚至粗鲁的语气,可能比礼貌用语获得更准确的答案。这项研究首次系统性地验证了提问语气对AI模型表现的实际影响。
今日凌晨,蚂蚁集团正式推出万亿参数思考模型Ring-1T,并全面开源模型权重、训练配方。
腾讯生命科学实验室与广州医科大学第一附属医院、广州呼吸健康研究院联合研发的DeepGEM病理大模型,目前已在肺癌基因突变预测中完成大规模验证。据介绍,只需常规病理切片图像,1分钟内完成肺癌基因突变预测,精准度达78%-99%。