AI资讯

华为研究所发布自一致性视觉分词器 Selftok

匿名作者
标签:人工智能华为研究分词技术计算机视觉自然语言处理
2025-05-19 11:159

华为研究所近日发布了一项名为 Selftok 的创新技术,全称为“自一致性分词器”(Discrete Visual Tokens of Autoregression, by Diffusion, and for Reasoning)。这项技术旨在解决视觉模型在离散表征和推理能力上的挑战,有望为未来的图像生成、理解和推理模型带来新的突破。

什么是 Selftok

Selftok 是一种新型的视觉分词器,它致力于生成具有自一致性的离散视觉 token。传统的视觉分词方法往往会产生不连贯或不一致的 token,这会影响下游任务的性能。Selftok 通过整合自回归、扩散模型和推理能力,旨在生成更稳定、更具语义意义的离散视觉表征。

Selftok 的核心技术

Selftok 的核心优势在于其独特的技术架构,它融合了多种先进的 AI 技术

自回归特性

Selftok 利用自回归的方式生成视觉 token,这意味着每个 token 的生成都依赖于之前生成的 token。这种特性有助于确保生成的序列具有一定的连贯性和上下文依赖性。

扩散模型集成

Selftok 结合了扩散模型的思想,通过逐步去噪的过程来生成高质量的视觉 token。扩散模型在图像生成领域取得了巨大成功,将其应用于视觉分词有助于提高 token 的质量和多样性。

image.png

增强推理能力

Selftok 在设计中考虑了对下游推理任务的支持。通过生成更具语义意义的离散 token,Selftok 有望提升视觉模型在图像问答、视觉推理等任务上的表现。

Token 不一致性

许多现有的视觉分词方法生成的 token 缺乏全局一致性,导致在重构或下游任务中出现伪影或语义偏差。Selftok 通过其自一致性设计解决了这一问题。

低质量离散表征

生成高质量的离散视觉 token 一直是一个挑战。Selftok 通过整合扩散模型等技术,旨在生成更具代表性和信息量的离散表征。

有限的推理能力

传统的视觉分词方法生成的 token 往往不利于复杂的视觉推理。Selftok 通过生成更具语义意义的 token,为提升视觉模型的推理能力奠定了基础。

高质量图像生成

通过生成更稳定的离散视觉 token,Selftok 可以为自回归图像生成模型提供更好的输入,从而生成更逼真、更高质量的图像。

image.png

提升视觉理解与推理

Selftok 生成的自一致性 token 有助于视觉模型更好地理解图像内容并进行复杂的推理,例如在视觉问答、图像标注等任务中。

高效的视觉压缩

离散视觉 token 天然地适合用于图像压缩。Selftok 生成的高质量 token 有望实现更高效和无损的视觉信息压缩。

结论与展望

华为研究所发布的 Selftok 技术是视觉分词领域的一项重要进展。通过融合自回归、扩散模型和增强推理能力,Selftok 致力于生成自一致性的离散视觉 token,解决了现有方法的一些关键痛点。这项技术有望为未来的图像生成、理解和推理模型带来新的突破,值得业界持续关注。随着研究的深入,我们期待 Selftok 在实际应用中展现出更强大的潜力。

相关推荐

评论 (0)

暂无评论,快来发表第一条评论吧!
AI 技术峰会

2025 AI 技术峰会

AI 实战课程

AI 实战课程

热门工具

AI 助手

智能对话,提升效率

智能图像处理

一键美化,智能修图

AI 翻译

多语言实时翻译

热门文章