AI每日资讯0703

匿名作者
2025-07-03 12:2417

导语 本期AI资讯看点纷呈:从Stability AI将音频创作带入移动端,到字节跳动让单目视频秒变4D大片;从DeepSWE刷新AI编程代理新高度,到亚马逊机器人大军突破百万;同时,阿里、NVIDIA等公司在数字人、图像描述及编辑领域也推出了重磅开源模型。此外,我们还将关注谷歌视频模型Veo 3在游戏领域的巨大潜力,以及ChatGPT流量变化对新闻行业带来的深远影响。


手机秒变作曲家 Stability AI与Arm联手打造掌上音频创作神器

Stability AI 近期与 Arm 合作,开源了一款名为 Stable Audio Open Small 的轻量级文本到音频生成模型。该模型经过专门优化,能够直接在手机等移动设备的 Arm CPU 上本地运行,高效生成长达47秒的高质量立体声音频。这一进展标志着AI音频生成技术正从云端走向边缘计算和移动设备,为用户随时随地进行音乐创作提供了极大的便利。值得一提的是,该模型使用了免版税的数据进行训练,确保了其在商业和个人应用中的合规性。

image.png


字节跳动开源EX-4D 单视角视频一键生成自由视角4D大片

字节跳动PICO-MR团队近日开源了一项名为EX-4D的创新框架,它能够将单一视角的普通视频,转化为可以自由变换观看角度的高质量4D动态影像。该框架的核心技术是一种创新的动态高斯网格表示法(DW-Mesh),它有效解决了传统方法中因物体遮挡和数据稀疏导致的渲染难题。在多项性能指标测试中,EX-4D全面超越了现有的开源方法,并在用户主观评估中获得了高度评价,为未来沉浸式3D内容创作和复杂世界模型的构建提供了强有力的技术支持。

image.png


AI程序员新王者诞生 DeepSWE登顶开源榜单

由 Together.ai 和 Agentica 联合发布的 AI Agent 框架 DeepSWE,正迅速成为软件工程领域的焦点。该框架基于阿里巴巴强大的 Qwen3-32B 模型,并通过强化学习进行了深度训练。在衡量AI代码能力的权威测试集 SWE-Bench-Verified 中,DeepSWE 以高达 59% 的准确率,成功登顶开源AI代理排行榜。这一成绩不仅展示了其在处理真实世界软件工程任务时的卓越能力,也预示着AI在自动化编程和软件开发领域巨大的应用潜力。

image.png


亚马逊机器人大军突破百万 Deep Fleet AI模型加持物流新纪元

亚马逊近日宣布,其在全球部署的机器人数量已正式突破一百万大关。为了更高效地管理和调度这支庞大的机器人车队,亚马逊同时发布了一款全新的AI基础大模型 Deep Fleet。该模型旨在通过先进的AI算法,进一步优化包裹的分拣、搬运和配送流程,从而显著提升物流速度并降低整体运营成本。这一里程碑事件标志着亚马逊在其自动化物流网络建设上取得了重大突破。

image.png


阿里再放大招 OmniAvatar让你的照片开口说话

image.png 阿里巴巴近日开源了一款名为 OmniAvatar 的音频驱动数字人模型。该模型基于先进的 Wan 2.1 技术,用户只需上传一张静态照片、一段音频和相应的文字脚本,即可快速生成一个口型精准匹配、动作表情自然的数字人播报视频。官方建议生成30秒以内的视频片段以获得最佳效果。尽管该模型对硬件有一定要求,需要至少36G显存才能流畅运行,但其在现有开源数字人模型中的表现已属顶尖水平,为个人和企业低成本创造虚拟形象提供了新的可能。


指哪说哪 NVIDIA发布DAM模型精准描述图像局部细节

image.png NVIDIA 最近推出了一款名为“描述一切模型”(Describe Anything Model, DAM)的多模态大语言模型,极大地提升了图像理解的精细度。用户可以通过在图片或视频上进行点击、画框、涂鸦甚至使用遮罩等多种直观方式,来指定自己感兴趣的任何区域,DAM模型便能针对该特定区域生成详尽而准确的文字描述。目前,该模型已经提供了在线演示版本,供用户体验其强大的“指哪说哪”功能。官网地址体验地址


开口即P图 开源对话式图像编辑器EasyEdit发布

image.png 一款名为 EasyEdit 的开源图像编辑器为图片修改带来了全新的交互方式。它采用了先进的 Flux KContext 模型,允许用户通过简单的自然语言对话来智能地编辑图片。无论是想“把天空换成蓝色”还是“让这个人笑起来”,都可以通过聊天的方式实现。目前,用户可以在网页端免登录使用其基础模型,而功能更强大的高级模型则需要提供API Key来调用,这为普通用户和开发者都提供了灵活的选择。


游戏世界的下一场革命 谷歌Veo 3或将开启可玩世界模型

谷歌 DeepMind 的首席执行官 Demis Hassabis 近日在一个公开场合暗示,谷歌最新、最强大的视频生成模型 Veo 3,其技术潜力远不止于生成视频片段,未来很有可能被应用于视频游戏领域。这一表态引发了业界的广泛猜测,如果Veo 3的技术能够实时生成和渲染游戏世界,或将催生出真正的“可玩世界模型”,彻底改变现有游戏引擎的开发范式,为玩家带来前所未有的动态和开放世界体验。

image.png


杯水车薪 ChatGPT推荐流量难解新闻网站搜索量下滑之渴

根据最新数据分析,尽管像ChatGPT这样的人工智能聊天工具为新闻网站带来的推荐流量呈现增长趋势,但这部分增长远不足以弥补因传统搜索引擎流量下滑所造成的巨大缺口。数据显示,自2024年中期达到峰值以来,许多新闻网站的自然搜索流量已大幅下降,总访问量从超过23亿次减少到如今的不足17亿次。这一严峻趋势表明,新闻行业正面临着由AI技术驱动的流量结构性变迁,如何适应新的信息分发渠道已成为一个紧迫的课题。

image.png

评论 (0)

暂无评论,快来发表第一条评论吧!

AI 技术峰会

2025 AI 技术峰会

AI 实战课程

AI 实战课程

热门工具

AI 助手

智能对话,提升效率

智能图像处理

一键美化,智能修图

AI 翻译

多语言实时翻译