我被震惊了。

有些兴奋。
也有疑问。

先说重点。
它很厉害。

DeepSeek来了。
把整页压缩。

不到一百个。
视觉Token计数。

准确率高。
约97%准。

速度也快。
单卡A100跑。

每秒约两千五。
数字听着美。

但我想知道。
怎么做到的?

他们有办法。
把字当像素。

听着像噱头。
但有数据证。

他们真的做了。
把页面切块。

每块成视觉。
再去编码。

不是传统词。
就是图片输入。

保留排版感。
字体和位置。

这些很重大。
文本里丢了。

视觉能保留。
读起来更直观。

工程上优化。
不是只想法。

有实际代码。
社区反应强。

开源爆星。
四千多颗星。

许多人试。
压缩比惊人。

常规小于一成。
极端接近二十分。

有时六十倍。
数字让人心跳。

但别只看大数。
有两类数据。

一种是极限。
一种是稳定值。

都给人信心。
实际应用更稳。

多语言支持。
据说近百种。

这点很暖心。
许多场景可用。

档案数字化。
古籍扫描好。

流程也简化。
不必繁复预处理。

工程细节多。
吞吐和训练。
他们找到平衡。
能兼顾速度。
还能照顾表达。
训练有取舍。
双向注意能用。
但并行受影响。
他们做折中。
团队很靠谱。
作者不简单。
Haoran是老手。
曾做GOT-OCR。
不是从头来。
Yaofeng很强。
北大图灵班出。
竞赛成绩耀眼。
Yukun产量高。
研究多又稳。
合力很有力。
这事不会一阵风。
圈内有人讨论。
Karpathy很感兴趣。
他一直不满分词。
他想全图像输。
或许万物皆图。
他有憧憬。
马斯克也发声。
他想法宏大。
说到光子未来。
有点科幻味。
但唤起想象。
有人质疑可行。
像素也是Token。
切块仍是编码。
关键在编码法。
视觉保留更多。
文本有历史包袱。
表情在文本怪异。
在图里更真实。
工程上差别大。
实践能检验。
论文和码放出。
大家开始试水。
有人看重长文档。
也有人想试流程。
数据偏好有变。
更倾向实体页。
标注策略要改。
我既兴奋又谨慎。
惊艳背后有挑战。
部署要稳定跑。
真实场景更复杂。
噪声和变形多。
多语言也有坑。
但方向值得看。
这是一个尝试。
可能开新路子。
也可能遇挫折。
我愿意观望。
也想亲测效果。
想象一下画面。
像把书变成图画。
AI在图上读书。
读得快又准。
有点像魔法。
但更像工具。
我们可以受益。
也要留心风险。
版权和偏差。
数据要慎用。
社区会检验。
工业会接力。
未来还很长。
我充满期待。
也带些理智。
这就是故事。
接下来看人做。
看模型落地。
看数据验证。
我想继续关注。
你呢?



















暂无评论内容