Invest in your future self, and explore what you truly want with your whole life

24 Jan, 2026

Video Link: https://www.youtube.com/watch?v=I0DrcsDf3Os&list=PLOEGrHTqm7cvBZ8cKLhrE8mJmw4e3nask

After watching this podcast for two times, I really learnt a lot from his experiences and perspectives. So I decide this will be the content of my first blog.

I resonated so much, but I feel reluctant to praise and rephrase from the video, which I already did in Chinese (will be attached at the end of the blog). I will keep it short and summarize my takeaways:

Learn slow and apply super fast, this is a process of building knowledge tree and creating shortcut to shorten inference time.
Sense of achievement is what drives everything. You accidentally run into something, you try many different things, but they won't work out as good. So you would keep up with the right track. The track built only for you.
What happened to you are accidents and not accidental at the same time.
Make yourself standout by following the right judging system, but not what everybody follows.
Consistency is very important at building any large scale systems. The system gets corrupted with more people participating, while keeping it only to one person harms long term growth. There's a tradeoff everywhere you make choices.
When building open source projects, start from your own needs and solve problems for other people like you.
At frontier research labs, what really matters now is the efficiency of verifying ideas. Ideas are cheap and researchers are easily replaced. Those who have worked in this area have great research instincts that are truly useful. The more bugs you fix, the better your model is. Algorithm innovation is not really the key, infra is.
After idea, think about sampling efficiency, training efficiency and scaling up.
From google: the number of iterations is positively correlated with rate of success.
OpenAI is successful for two reasons: keep the organization structure simple, the information flows both ways freely. And the research instincts from early researchers. They made things right and the rest came out naturally.
A healthy organization is everyone inside is replaceable and still functioning well.
OpenAI not outsourcing model and still keeping it open is a tradeoff of making the company survive and raising more money for research. Free models are available for everyone to use, which is opening up and benefiting everyone.
Agent and post-training are essentially the same thing, literally a few more tool calls.
If AI is to solve one problem, that is to predict future. From a higher dimension, plots are already generated and destiny is predictable.
Time is probable not linear, and the future yourself might help you at some point through time leaping.
You could find something worth working for for a long time and suddenly decide to change it. Focus of life is constantly changing and exploring what you want should be a mission of your whole life.
What you should be doing at this point is to invest in your future self.

中文笔记：小时候：偶然学习奥数，发现自己数学天赋，做题快（system1表层意识，不用过脑子）学习规律：花别人两到三倍时间学习，但是学会之后应用非常快。背课文睡觉前想尽办法完整背出来，睡醒后倒背如流。需要比别人先学东西（初中学习高中数学）需要更长时间构建知识树，学习到顶层后建立shortcut缩短推理时间。（初二）从小学数学是投资未来。兴趣驱动数学学习，成就感驱动技能树，在别的地方没有正反馈。自发沿着这条道路前进编程兴趣来自私立初中编程兴趣班。搞数学竞赛和OI竞赛，出于升学压力。放弃数学竞赛因为学校历史上没有基础，初中学高中数学竞赛才有资格。转向OI。 Heuristic方法解OI题，清华降分。福建省队倒数第一，面对未来不确定性，选了清华降分，没有选上交一本线。对代码优化有特别追求，用ipad键盘裸打代码，对题目和逻辑整体认知，反应能力。

16年开始读清华本科。开源所有作业，打平信息差，不让后人疲于奔命。大二入门科研，朱军老师（贝叶斯，GAN，强化学习）三个方向，偶然选择了RL。对人工智能，图形学，网络安全感兴趣，网安尝试（修复成绩单下载bug）；图形学（受tron启发，向往特效制作，创造虚拟世界，图形学作业渲染16K图）；Vizdoom项目。 Overfit，炼丹，玄学，heuristic调参。 Vizdoom对RL来说是一个比MUJOCO和Atari更难的任务，需要大量知识（e.g.什么是障碍物）环境单一，算法不是瓶颈，不享受研究过程，转为造RL infra(Tianshou) 暑研并不成功，在mila，导师帮忙联系了bengio。做MoE相关东西。花了很长时间入门NLP。算力，工程能力都很关键。一个人，几张卡是搞不出来的。 NLP task太分散。当时RL应用于transformer尚不明朗，后来明白环境需要纯环境（text），奖励函数需要强。不纯的例子（atari的数据全部塞进去）

没有一作paper，Phd申请只拿到了master。当时认为phd比master好，但是实际取决于具体做了什么。认清自己想做让自己与众不同的事，挣脱固有评价体系。GPA不是唯一目的。找工作看重相关经验，ng也没问题。计算机系评价体系：论文；比赛；github star。在开源社区搞事。最低限度投入GPA，达到想要标准，不再多投入一点。 19年12月申请，第一学期没能出国。转移注意力，写tuixue online，不过分关注国际局势。

天授出发点：RLlib复杂难用，对开源代码有兴趣。两周第一版写出，对paper实现算法即可。RLlib开始设计有问题，贡献人多了之后，项目会腐化。发paper没意义。申请够用即可。项目很重要的是一致性。假设无法及时传递，导致项目代码膨胀腐化。天授成功，是抓住了用户需求。设计上满足了易用性。开源后还是有腐化现象，consistency和长期发展是traderoff。保持一个负责人一定程度上也可以保持consistency，还会腐化，但是会好很多。

从满足自己需求着手，开发退学。积累1000万用量。

做产生影响力的事情（类似慈善）如果人生是一场游戏，结算分数是记住你名字的人。尝试之后，发现有正反馈。不和fame画等号。力所能及对身边人好，对大家有意义的事。不是害怕被忘记，想摆脱固有体系，这个标准来自别人发自内心对你的点赞。只对自己这么要求，不对别人要求。 Impact标准自己可以调整，不是这个标准的奴隶。评价体系是快速筛选人，短时间内社会是无法改变的。入学后找工作同时拿到了openai和deepseek 英伟达 tiktok的rl infra offer （before chatGPT）

deepmind和OpenAI是当时搞RL是最牛的AI lab优先选择。想体验最前沿的ai lab如何做前沿研究，而不是phd小作坊手搓，无方法论。 John Schulman组亲自面试，工作。Github漂亮，工程能力受认可。除了一个开放式题目3小时，两小时做完了。一个是他，一个是andrey（codex）开发者。通过率100%

如果目标是工业界，读phd是浪费时间，本科时攒够citation，和让自己与众不同的项目。让你可以和phd相竞争。有差异化。学术界教书当教授太卷，为了项目拉funding限制很多。

phd培养学术能力，写paper把故事讲圆，图画漂亮做好宣发。 master是工程能力。在2020年时间点无法辨别哪个更重要，现在看是工程能力更重要。

教一个researcher如何做好engineering比教engineer做research要难。

researchlab拼infra正确性 infra正确性依赖迭代多少次。 Research直觉来自在这个领域的浸润。idea便宜，可以直接找最懂的人讨论。单位时间内能验证多少idea，是最重要的。

Phd培养体系在于如何有好的学术方向。idea is cheap。每家infra都有bug，谁的bug修的越多，谁的模型训的越好。

posttraining infra RL生态位很高。所以每次openai发论文都要带他的名字。思考职业生涯发展目标，指标定为最大化openai blog上名字出现次数。 scale up

现代学术界应该被重构，应该尽早进入工业界。phd灵活性差，进ai lab就弄清楚他们需要什么人。目前还是需要infra的人。不再对toy benchmark如mlsys优化，停止tianshou开发

关于openai（强化学习，posttraining，infra）从环境中获得反馈，就是强化学习刚进入openai的时候还没有posttraining。chatgpt还不是主线。webgpt做browsing效果不好，做toolcall。当时先做chat 通过instruction following，做好RLHF，用户交互体验。已经存在3.5，但是PPO pipeline不好用。用3.5SFT迭代很多次。

OpenAI没有预想到3.5的成功。当时没有allin，打爆服务器，自宣发效应。当时的目的是收集真实用户数据。

OpenAI没有太多方法论，但是有很多有很强的researcher直觉的人在里面。Barret， Luke， Liam带来google迭代能力，单位时间迭代次数和成功率是成正比。 Infra提高迭代效率。简化组织架构，信息流通通畅，利于硬核创新。决策无损传达，研究进度无损向上。保持技术敏感性。一把手二把手需要了解到细节，consistency。

posttraining是从4到3.5的。rlhf先在4上跑通。关键挑战：如何衡量性能训练后不知道是不是更好。reward hacking。不知道哪个checkpoint是不是比其他好。通过建立sampling based eval看每个benchmark。过了就行。实际看的是用人的体会。

Toytask的bottleneck在于环境（模型简单，训练和采样（动作）都很便宜）。rl infra模型非常大，但是环境很简单，只是一个prompt，需要考虑如何高效采样，高效训练。如何scale up。

不在那个位置无法学到这些东西。

实际工作很trivial。日常维护，不需要智商。方向很重要，把事情做好做对就行了。

大模型还是需要breakthrough的。范式可能会不断更新。无法预测。自己很幸运在这个位置，但是换成任何一个人有自己的context也完全可以胜任。

现在的状态还可以scaleup，先等他从largescale rl的实验中看能达到多少成果。现在infra还是有bug，compute也没有榨干。

Posttrain pipeline瓶颈可能在修infra的吞吐量:单位时间内能修多少个bug，能正确迭代多少次。重构OpenAI内部下一代infra，推倒重来，清理technical debt。提高迭代速度。 OpenAI researcher反而可以被取代，就是生成idea。下一步就是取代infra engineer。 sales不会被取代需要说服对面人买单。 Agent和RL posttraining没什么区别。只是多加几个toolcall。

AGI的定义，15个人有20种定义方法。如果这东西能完成80-90%的有意义task就可以。目前还没有。不放心直接改infra代码。技术采用是很慢的事情，屎山还在那里，不需要overreact。

对OpenAI闭源的理解：tradeoff，无法开源最好模型。公司要生存，如果无法生存，就无法继续融资，做实验，有突破。让通用agi造福全人类，分两部分，第一步是实现agi 第二步是造福全人类。（做产品，让免费用户接触到技术，体验） Open不是对大公司open而是对普通人。

对着正确的方向执行。关于内部八卦：llya不信任sam。董事会缺乏透明度。纯技术出身领导可能缺乏远见，实现agi还是需要sam这样的人。sam是一个personality，人们缺乏对这个id的认同感。

一个健康的组织是所有人都可以替代的。可以自行造血。OpenAI能做的东西别人也能做，只要把最简单的东西做好就可以了，没有黑魔法。内部不同组的压力不同。外部公司压力不太对传导到内部，deepseek声称infra迭代速度快，引起内部重视。 Data algo,投入人力可以解决，infra需要更多context。组织架构决定OpenAI迭代速度不可能快于startup。考虑多usecase。每个公司都会变慢，都会变差，比谁更不差。人类组织发展到这个规模都会这样。难以保持组织架构contextsharing一致性。理论上应该有一个无限长context的 agent，负责decision。 AI如果要解决一个问题：如何预测未来。高维度看，自造世界需要提前生成剧本。命运可以被预测的。确定论世界，人没有自由意志。所有东西都是可以被预测的。如果有这样一个机器对个人来说其实是一个灾难。想jailbreak所以会有人想开发这样的model。搞清楚世界背后的原理，世界为什么要确定。宏观不掷骰子，微观掷骰子。无法证伪不是确定性这个事。忘掉这个事实，体验这个经历。

时间线不是线性的，未来的我帮助过去的我。三维生物局限性导致时间线流动。四维时间中，时间可能可以跳跃。

兴趣在product 技术并不重要，面向用户迭代比较重要。抓住需求。希望十年后的自己做自己那时候想做的事，有足够的资源，足够的能力做自己想做的事。想法会变，现在能做的就是投资未来的自己。投资未来是确定性的。投资与否也不是自己的自由意志。除了技术上投资未来，就是想提前退休，有足够的资本做自己想做的事。有无限的钱，就花一些钱找到自己想做的事。手头的事在很长一段时间都是自己想做的事，但是逐渐稳定后，每个人的重心会变。曾经想通了想要什么，但是现在又想不通了，看到头之后就要重新思考了。允许迷茫。

去探索自己想要什么，这个问题值得用一生去思考。