豆包可以跟你打视频了,陪我看《甄嬛传》还挺懂!

  金磊发自凹非寺

  量子位 | 公众号 QbitAI

  几乎让大模型全军覆没的新难题——看时钟,被国产 AI 给拿下了。

  要知道,之前单单是一张时钟的图表,几乎所有大模型都答不对时间。

  但现在,国产 AI 却可以直接开视频,实时报准时间!

  视频地址:

  https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g

  可以看到,这个国产 AI 先是准确地报出了“4 点 14 分”,而在等了一分钟后,它也是可以再次准确报时“4 点 15 分”。

  那么这到底是何许 AI 也?

  不卖关子,它就是豆包发布的新功能——视频通话。

  主打一个让 AI 边看边聊天。

  而且啊,它还是接入了联网搜索的功能,所以回答的准确性和时效性这块也是拿捏到位了。

  例如我们对着微博热搜的话题提个问题:

  • 这个热搜第一的是什么新闻呀?

  视频地址:

  https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g

  可以看到,联网的豆包在视频通话的过程中,就可以直接把当下的新闻热点给你总结出来。

  不得不说,这种跟 AI 的互动,不论是趣味性还是可靠性,都大大地增强了。

  除此之外,这次的新功能还增加了“字幕”的选项,点击之后就可以看到之前对话的具体内容啦~

  既然这个功能如此有趣,那我们必须安排一波深度实测。

  来,走起~

  跟豆包一块看《甄嬛传》

  我们先来简单介绍一下视频通话的操作方式。

  打开豆包 App 之后,依次点击“对话”“+号”“打电话”“开启视频通话”即可:

  我们的第一个实测,就是看看豆包能不能成为一个看剧搭子,能跟你边看视频边聊剧情。

  有请《甄嬛传》

  视频地址:

  https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g

  豆包在看视频的瞬间,立马辨别出这是《甄嬛传》,并且分析出了这个名场面:

  • 祺贵人就是想借着皇后的手扳倒甄嬛呢。

  不仅如此,它还是个有态度的 AI,超级不看好祺贵人这个角色:

  • 她太心急又没脑子,最后肯定不会得逞的……根本不是甄嬛的对手。

  整体来看,豆包称得上是个合格的看剧搭子了。

  接下来,我们再来看看豆包视频通话在生活场景中能不能帮上忙。

  例如我们给它看几个食材,然后提问:

  • 拿这些食材我能做什么菜啊?

  视频地址:

  https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g

  豆包不仅秒识别出食材,还把炒菜的步骤、调味品等特别详细地讲解了一番。

  以后要是遇到不会做的菜,是可以用视频通话的方式问问豆包了。

  类似的,我们让它再看看一道物理题

  • 帮我看下第 4 题怎么做?

  视频地址:

  https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g

  豆包准确地识别出题目,然后立马开始作答,把整个题目的求解过程详尽地说了出来,最后给出了正确答案:A。

  不仅是物理题,现在直接让豆包看论文、代码,它也能帮你答疑解惑哦~

  视频地址:

  https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g

  一番实测下来,豆包视频通话功能,整体直观的感受就是:有用好用

  不只是看,还有思考

  豆包视频通话功能背后,其实是豆包·视觉理解模型在发力。

  豆包・视觉理解模型拥有非常强的内容识别能力,它就像一个敏锐的 “眼睛”,能够精准识别图像中的各种要素。

  从基本的物体类别、形状、纹理,到物体之间的关系、空间布局以及场景的整体含义,甚至背后的文化知识,都能被其敏锐捕捉。

  例如,它不仅可以轻松识别现实中的常见物品,还能根据光影、轮廓、位置等特征,准确识别出小动物的影子并判断出这是一只猫。

  再如,当用户在清晨跑步时,看到光线从树林间洒出来,随手拍张照片询问豆包大模型,它能迅速识别出这是丁达尔效应,并详细科普其原理。

  这种强大的内容识别能力,让 AI 能够更好地理解现实世界的视觉信息,为后续的理解和推理奠定了坚实基础。

  理解推理能力是豆包・视觉理解模型的又一核心优势。

  它不仅能识别图文信息,还能进行复杂的逻辑计算,在多个领域展现出了强大的解决问题的能力。

  在教育场景中,拍下一道需要进行微积分运算的数学题,模型能很好地理解图片问题,并根据提示词进行对应的推理计算,给出清晰的答题思路,帮助学生更好地理解和解决数学难题。

  除了识别与理解推理能力,豆包・视觉理解模型还拥有非常细腻的视觉描述和创作能力

  这也就不难理解为什么豆包视频通话能做到又快又准又好。

  总而言之,AI 和人类交互的方式变得越来越有趣了。

  参考链接:

  https://arxiv.org/pdf/2502.05092