Deep-Learning

Attention is All You Need：专注力才是人和大模型共同的底层算法

Google 那篇论文改变了 AI，但它揭示的道理对人同样成立

Posted on March 5, 2026 | 2 min | 276 words

2017 年，Google 发表了那篇改变世界的论文——“Attention Is All You Need”。八位作者可能没想到，这篇论文不仅催生了 GPT、Claude、Gemini 等一系列大模型，也在某种意义上揭示了一个关于人类自身的深刻隐喻：不论是大模型还是人，决定产出质量的底层机制都是注意力（Attention）。

专注力是人做事质量和效率的基础。这不是心灵鸡汤，而是一个可以从技术原理出发、严肃论证的观点。

Step-by-Step 实现一个能编程的大模型

从零开始训练一个专注于 Python 代码生成的小型 LLM

Posted on February 9, 2026 | 14 min | 2874 words

你是否好奇过 GitHub Copilot、CodeLlama 这些代码生成模型是如何工作的？本文将带你从零开始，一步步实现一个专注于 Python 代码生成的小型语言模型。通过这个项目，你将深入理解 Transformer 架构、代码 tokenization、以及如何让模型学会"写代码"。

压缩即智能：从信息论看机器学习的本质

为什么压缩能力是衡量智能的关键指标

Posted on December 19, 2025 | 2 min | 356 words

如果我告诉你，ChatGPT 本质上是一个文本压缩器，你会相信吗？如果我说，智能的核心就是找到更好的压缩算法，这听起来是不是过于简化了？然而，这个看似激进的观点——“压缩即智能”（Compression is Intelligence）——正在成为理解机器学习和人工智能本质的一个关键视角。

这不仅仅是一个比喻。从信息论的角度看，压缩、预测和理解本质上是同一件事的不同侧面。当我们深入探讨这个观点时，会发现它不仅优雅地解释了为什么深度学习如此有效，还为我们思考通用人工智能（AGI）提供了一个全新的框架。