语音-语言模型 Voila:实时自主交互和角色扮演

语音-语言模型 Voila:实时自主交互和角色扮演

多模态奖励模型(MRM)在提高多模态大语言模型(MLLM)的性能方面发挥着重要作用。虽然最近的研究进展主要集中在改进 MRM 的模型结构和训练数据上,但对奖励模型的长推理能力的有效性以及如何在 MRM 中激活这些能力的探索还很有限。 在这项工作中,来自中国科学院自动化研究所、清华大学、快手和南京大学
阅读全文
微软推出 LLM 统一框架 ARTIST:集成推理、RL 和工具

微软推出 LLM 统一框架 ARTIST:集成推理、RL 和工具

大语言模型(LLM)在复杂的推理任务中取得了进步,但由于依赖于静态的内部知识和纯文本推理,它们仍然受到根本性的限制。现实世界的问题解决往往需要动态、多步骤推理、自适应决策以及与外部工具和环境交互的能力。 在这项工作中,微软团队推出了一个整合代理式推理、强化学习和工具集成的 LLM 统一框架——ART
阅读全文
蚂蚁集团推出开源多模态框架 Ming-Lite-Uni

蚂蚁集团推出开源多模态框架 Ming-Lite-Uni

在这项工作中,来自蚂蚁集团的研究团队推出了一个开源多模态框架——Ming-Lite-Uni,其具有新设计的统一视觉生成器和为统一视觉和语言而定制的本地多模态自回归模型。 具体来说,该项目提供了集成 MetaQueries 和 M2-omni 框架的开源实现,同时引入了新颖的多尺度可学习 token
阅读全文
98%财务顾问依赖AI,揭秘7家先锋企业如何解锁商业新格局

98%财务顾问依赖AI,揭秘7家先锋企业如何解锁商业新格局

新智元报道 编辑:英智 摩根士丹利的案例表明,企业应用 AI 离不开快速试错与优化。AI 通过分析海量数据打造个性化体验,Indeed 的职位推荐和 Lowe’s搜索优化证明了数据与 AI 结合的巨大潜力。 AI 正以前所未有的速度,重塑企业运营和竞争格局。 从金融服务到电商零售,从求职招聘到家装购
阅读全文
一个LoRA实现GPT-4o级图像编辑!浙大哈佛新模型冲上Hugging Face榜二

一个LoRA实现GPT-4o级图像编辑!浙大哈佛新模型冲上Hugging Face榜二

新智元报道 编辑:LRST 【新智元导读】随着 Gemini、GPT-4o 等商业大模型把基于文本的图像编辑这一任务再次推向高峰,获取更高质量的编辑数据用于训练、以及训练更大参数量的模型似乎成了提高图像编辑性能的唯一出路。然而浙大哈佛这个团队却反其道而行之,仅用以往工作 0.1% 的数据量(获取自公
阅读全文
苹果鼠标新专利曝光:有望支持空中手势识别

苹果鼠标新专利曝光:有望支持空中手势识别

5 月 7 日,据财经网科技消息,苹果公司近期获得了一项名为“具有扩展输入输出能力的电子设备”的专利,揭示了其正在研发的新妙控鼠标的潜在功能。这款鼠标将能够检测用户在鼠标附近空间中做出的手势,而不仅仅是在鼠标表面的触摸操作。 2009 年,苹果首次推出妙控鼠标时,其多点触控手势功能让人眼前一亮。此后
阅读全文
苹果眼里没有“最大甲方”

苹果眼里没有“最大甲方”

文|巨潮谢泽锋 关税大战氛围笼罩下,全球市值最大,亦是最赚钱公司之一的苹果,继续着它的"脱钩之路"。 全球贸易格局中,由于产业禀赋不同,以贸易顺差逆差排名,中国是最大的商品输出国,而美国则是最大的买入国。这也就是很多人将美国定义为"中国最大甲方"的根据。 但对于以苹果为代表的美国国际型公司来说,除本
阅读全文
Q1收入猛增46%,AI出海致富的秘密,藏在昆仑万维财报里

Q1收入猛增46%,AI出海致富的秘密,藏在昆仑万维财报里

在全球 AI 竞赛中,大厂烧钱、创业公司讲故事,真正能靠 AI 赚钱的公司却寥寥无几。这些炫目的大模型和 AI 应用,究竟能不能赚钱?海内和海外市场怎么选择?可持续的盈利真的能实现吗? 昆仑万维 2024 年财报和 Q1 财报交出了一份亮眼的答案。 这家中国 AI 公司 2024 年实现 91% 的
阅读全文
思科推出量子网络纠缠芯片原型,助力量子算力横向扩展

思科推出量子网络纠缠芯片原型,助力量子算力横向扩展

IT 之家 5 月 7 日消息,思科 Cisco 当地时间 6 日宣布推出其量子网络纠缠芯片原型,同日其量子实验室也于美国加利福尼亚州圣莫尼卡正式开业。 思科表示,目前的量子处理器所拥有的量子比特规模仅在三位数量级,而最积极的路线图也仅给出了到 2030 年实现四位数量子比特的展望,这与应用程序所需
阅读全文
一加 Ace 5 Supreme Edition 手机跑分曝光:天玑 9400+ 芯片

一加 Ace 5 Supreme Edition 手机跑分曝光:天玑 9400+ 芯片

IT 之家 5 月 7 日消息,科技媒体 91Mobile 昨日(5 月 6 日)发布博文,报道称型号为 PLC110 的一加手机现身 GeekBench 跑分库,预计仅在中国市场发售,会叫做一加 Ace 5 Supreme Edition,配联发科天玑 9400+ 芯片。 根据跑分库页面,该机搭载
阅读全文
丰田章男砸挂:电动车造越多,碳排放越多

丰田章男砸挂:电动车造越多,碳排放越多

作者 | 王磊 编辑 | 秦章勇 丰田章男又又唱“反调”了。 新近一次采访中,他抛出一个观点,说生产太多纯电动车,碳排放反而会蹭蹭往上涨。 还甩出数据证明,丰田卖了大约 2700 万辆混合动力车,碳减排效果相当于 900 万辆纯电动汽车,但如果丰田在日本生产 900 万辆纯电动汽车,反而会增加碳排放
阅读全文
特斯拉在美推出长续航后轮驱动版 Model Y,44990 美元

特斯拉在美推出长续航后轮驱动版 Model Y,44990 美元

IT 之家 5 月 7 日消息,特斯拉美国官网新增长续航后轮驱动版 Model Y 车型,官方指导价 44990 美元(IT 之家注:现汇率约合 32.4 万元人民币)。 作为参考,国内焕新 Model Y 只有 26.35 万元的后轮驱动版、31.35 万元的长续航全轮驱动版,暂未提供长续航后轮驱
阅读全文
亚马逊旗下Zoox自动驾驶出租车事故频发,软件升级能否破解安全困局

亚马逊旗下Zoox自动驾驶出租车事故频发,软件升级能否破解安全困局

来源:环球网 近日,亚马逊旗下自动驾驶出租车公司 Zoox 宣布,因一起自动驾驶出租车与载客车辆相撞的事故,对旗下全部 270 辆汽车发起软件召回。此次召回事件再次引发了公众对自动驾驶汽车安全性的关注。 5 干 7 日,据外媒报道,Zoox 在最新发布的新闻稿中称,该起事故发生于当地时间 4 月 8
阅读全文
刚刚,Gemini 2.5 Pro升级,成编程模型新王

刚刚,Gemini 2.5 Pro升级,成编程模型新王

更有网友用不到 20 分钟的时间构建了一个完整的城市交通模拟器。 你的默认编程模型是什么?或许可以换一换了。 刚刚,Google DeepMind 发布了 Gemini 2.5 Pro 的最新更新版本:Gemini 2.5 Pro (I/O edition)。 其最大的进步是编程能力大幅提升,不仅在
阅读全文
华为诺亚提出端侧大模型新架构MoLE,内存搬运代价降低1000倍

华为诺亚提出端侧大模型新架构MoLE,内存搬运代价降低1000倍

Mixture-of-Experts(MoE)在推理时仅激活每个 token 所需的一小部分专家,凭借其稀疏激活的特点,已成为当前 LLM 中的主流架构。然而,MoE 虽然显著降低了推理时的计算量,但整体参数规模依然大于同等性能的 Dense 模型,因此在显存资源极为受限的端侧部署场景中,仍然面临较
阅读全文
机架级系统已成 AMD AI 战略核心,Instinct MI400 早期反馈积极

机架级系统已成 AMD AI 战略核心,Instinct MI400 早期反馈积极

IT 之家 5 月 7 日消息,AMD 首席执行官苏姿丰在公司 2025 年一季度财报电话会议上着重强调了机架级解决方案的重要性,而计划于 2026 年推出的 Instinct MI400 AI GPU 加速器将成为该企业 AI 战略的重点。 IT 之家注意到,英伟达如今凭借其 NVL 系列机架级完
阅读全文
小米焕新极简相机确认将保留所有既有功能

小米焕新极简相机确认将保留所有既有功能

IT 之家 5 月 7 日消息,有用户担心小米焕新极简相机会删减功能,小米相机部的产品经理 @Bao_小李今日发文澄清:“会保留所有既有功能,也会对历史功能进行重新设计与适配。” @Bao_小李表示,由于需要针对不同机型进行功能点适配(部分功能会下放至旧机型),因此老机型的版本发布时间会相对靠后。I
阅读全文
OPPO Enco Clip 开放式耳夹耳机实拍:OPPO 首款,轻巧小豆夹

OPPO Enco Clip 开放式耳夹耳机实拍:OPPO 首款,轻巧小豆夹

IT 之家 5 月 7 日消息,今天上午,OPPO Enco Clip 开放式耳机正式亮相,这也是 OPPO 首款开放式耳夹耳机,官方表示不到千元价格,即可拥有“更智能、更舒适、更清晰”的体验。 OPPO Enco Clip 具备随取随用的便捷特性,两只耳机完全一致,无需分辨左右,且左右声道自适应,
阅读全文