文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

我被震惊了。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

有些兴奋。

也有疑问。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

先说重点。

它很厉害。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

DeepSeek来了。

把整页压缩。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

不到一百个。

视觉Token计数。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

准确率高。

约97%准。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

速度也快。

单卡A100跑。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

每秒约两千五。

数字听着美。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

但我想知道。

怎么做到的?

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

他们有办法。

把字当像素。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

听着像噱头。

但有数据证。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

他们真的做了。

把页面切块。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

每块成视觉。

再去编码。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

不是传统词。

就是图片输入。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

保留排版感。

字体和位置。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

这些很重大。

文本里丢了。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

视觉能保留。

读起来更直观。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

工程上优化。

不是只想法。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

有实际代码。

社区反应强。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

开源爆星。

四千多颗星。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

许多人试。

压缩比惊人。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

常规小于一成。

极端接近二十分。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

有时六十倍。

数字让人心跳。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

但别只看大数。

有两类数据。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

一种是极限。

一种是稳定值。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

都给人信心。

实际应用更稳。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

多语言支持。

据说近百种。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

这点很暖心。

许多场景可用。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

档案数字化。

古籍扫描好。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

流程也简化。

不必繁复预处理。

文本已死视觉当立!Karpathy狂赞DeepSeek新模型,开启理解新纪元

工程细节多。

吞吐和训练。

他们找到平衡。

能兼顾速度。

还能照顾表达。

训练有取舍。

双向注意能用。

但并行受影响。

他们做折中。

团队很靠谱。

作者不简单。

Haoran是老手。

曾做GOT-OCR。

不是从头来。

Yaofeng很强。

北大图灵班出。

竞赛成绩耀眼。

Yukun产量高。

研究多又稳。

合力很有力。

这事不会一阵风。

圈内有人讨论。

Karpathy很感兴趣。

他一直不满分词。

他想全图像输。

或许万物皆图。

他有憧憬。

马斯克也发声。

他想法宏大。

说到光子未来。

有点科幻味。

但唤起想象。

有人质疑可行。

像素也是Token。

切块仍是编码。

关键在编码法。

视觉保留更多。

文本有历史包袱。

表情在文本怪异。

在图里更真实。

工程上差别大。

实践能检验。

论文和码放出。

大家开始试水。

有人看重长文档。

也有人想试流程。

数据偏好有变。

更倾向实体页。

标注策略要改。

我既兴奋又谨慎。

惊艳背后有挑战。

部署要稳定跑。

真实场景更复杂。

噪声和变形多。

多语言也有坑。

但方向值得看。

这是一个尝试。

可能开新路子。

也可能遇挫折。

我愿意观望。

也想亲测效果。

想象一下画面。

像把书变成图画。

AI在图上读书。

读得快又准。

有点像魔法。

但更像工具。

我们可以受益。

也要留心风险。

版权和偏差。

数据要慎用。

社区会检验。

工业会接力。

未来还很长。

我充满期待。

也带些理智。

这就是故事。

接下来看人做。

看模型落地。

看数据验证。

我想继续关注。

你呢?

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容