Ajax Zhan's Blog

Welcome!This is Ajaxzhan.
坚信:品味优先于执行,价值驱动下创造、系统工程保安全
持续跟进AI前沿研究,持续思考技术、产品与思维。

这是AI时代,也是一个酒神时代——新技术、新产品、新SOTA层出不穷,从传统大厂到创业公司到OPC到每个个体——每个人都在拼了命想赶上这波浪潮。

神奇的是,在感性和理性的拉扯中,我的理性在这一个月里面变得淡了许多,几乎没有占据过主导地位,感性倒是久不散去,给我带来了许多欢乐和痛苦。

只需要将VPN改成虚拟网卡模式,再打开Cursor的HTTP2.0模式就不会有模型被拦截的问题了,很神奇。解决了HTTP1.1网络环境太差的问题。

最近开始意识到一种很重要的能力——幽默,当然这种幽默不仅仅是对别人,更多是对自己的一种幽默。如果一个人都无法进行自嘲和对生活中的事情进行解构,那么这个人绝对会获得特别痛苦和憋屈,更不用说会产生什么有价值的思考了。所以保持一种对自己冷幽默的态度还是很重要。

兼具深度与启发性的分析,能有效帮助培养更敏锐的Research Taste:关于大海捞针是一个很好的评估长上下文的指标——https://www.zhihu.com/question/654570878/answer/1965228622118888157

AI的发展、LLM的发展太快了,落地的推进也很迅速,中国有无数能人志士正在各自岗位推动这件事情。今年看到的太多新闻都给我一种感觉:AI的浪潮不像是泡沫,未来3-5年AI的需求只会增加,不会减少。浪潮之下,要学习的东西还太多太多。

最近把MLLM当作OCR来用,大概就是识别图中的习题然后转成平台兼容的格式。这个过程中发现大模型的幻觉还挺可怕,他要是直接给你很离谱的错误也就罢了,他居然会给你修改选项中的一些细节,并且修改得很合理,让你完全看不出来。这种幻觉在很多领域我认为还是不可接受的,而且关键是怎么检测出来这种幻觉?如果还要靠人为来检测,那这种基于大模型的自动化工作流其实意义就大打折扣了。

今晚回顾了之前支教的照片,感慨颇深。想做一个好的老师,但确实做的不够好。

今天研究了Coze的Multi-Agent、豆包的语音合成大模型、开源的OpenWebUI和NewAPI,感觉都挺牛的,效果很令人振奋,可以试试组合起来做个项目。

同时我现在越来越觉得,不是为了追求技术而技术,而是要用技术做出真正的好产品,注重用户体验和实际价值。真正的好产品实在令人振奋,字节跳动公司推出的豆包语音系列效果震撼,飞书在办公方面做的绝绝子,今天实用了火山引擎的工单系统都觉得很nice。感觉字节的产品都很有灵气。

今晚看了看过去一年的日记,很有感触,记日记真的很有意思,只有通过当时的文字才能观照今日的自己是否已经成长了。我们需要隔一段时间询问一下自己:自己是否激情依旧,是否能留存有过去许下愿望那时的热情?

Vibe Coding最佳实践

本文介绍了“Vibe Coding”这一以AI为核心编码主力、人类聚焦于需求定义、项目管理等高价值环节的协同工作模式。文章分享了其最佳实践:强调编码前先规划并沉淀文档以建立AI的长期记忆;主张用脚本和配置固化确定性流程,提升系统可靠性;倡导小步迭代以便评审与学习;并分享了手动管理AI上下文的技巧。作者最后指出,AI时代的工程师需掌握结构化表达、系统思维等元技能,其角色正从“写代码”转向“设计系统、拆解任务、验收成果”。

大模型显存占用分析:训练与推理

本文聚焦大模型底层显存占用与推理优化,核心涵盖训练与推理两阶段分析。训练时显存主要由模型参数、优化器、激活值、梯度值构成,其中优化器(如AdamW的梯度指数平滑值、梯度平方指数平滑值、参数值)占用最大,混合精度下llama13b训练显存可达222.5GB,LoRA通过冻结主体参数、仅优化低秩矩阵显著节约显存。推理阶段引入KV Cache缓存历史token的k、v向量,避免重复计算,使flops基本恒定;显存开销源于模型参数与KV Cache,时间分预填充(TTFT)与解码(TPOT)阶段,受GPU算力与HBM速率影响,如llama-7B解码阶段TPOT约9.3ms。

如何定期备份MySQL数据库

定期备份数据库很重要,我之前一直没有这个习惯,因为自己做的都是小项目,而且开发者一般都是自己。 近期与其它同事合作,发现还真会有同事把远程数据库全删了这种情况......所以借这个机会学习和记录一下怎么备份MySQL 为MySQL数据库设置定时备份功能可以通过编写备份脚本并结合操作系统的定时任务工具

深度学习中的数学:香农熵、交叉熵、KL散度

DeepSeek-R1最近刷屏全网,与之相随的是有关大模型强化学习的学习热潮。在大模型的强化学习中,有一个概念经常被提及——KL散度。正好最近复习了一下香农熵、交叉熵、KL散度的概念,将他们串在一起将更有利于理解KL散度。 信息量:小概率事件的信息量更大。用-log可以表示这层关系。 熵(香农熵):

心经的六度修行:雕刻自己,关注自我成长

本文分享了《金刚经》中的“六度”修行法门,将其视为一种引导人从烦恼此岸到达智慧彼岸的生活方法论。六度包括:布施,即从“要”到“给”的心态转变;持戒,即有所不为,规范自身;忍辱,即面对逆境的智慧与勇气;精进,即纯粹不懈的努力;禅定,即专注调心以求澄澈;般若,即看透事物本质的根本智慧。作者强调,这并非抽象教义,而是实在的生活态度,旨在通过自我雕琢,关注内心成长,从而实现内心的平静。

如何构建高质量代码相关基准数据集

本文聚焦代码相关基准数据集构建,香港科技大学Jialun CAO博士通过分析10年内274个基准,发现普遍存在样本重复、错误参考代码、未处理敏感信息等问题。为此提出55条标准清单,并系统阐述基准开发的五阶段生命周期:设计阶段需明确动机、范围与能力;构建阶段需规范数据收集、预处理与验证;验证阶段需确保模型选择、参数配置与环境一致性;分析阶段需评估难度、可区分度与稳定性;发布阶段需保障材料可访问性与开源规范。该研究为研究人员提供了构建高质量、高可靠、可复现基准的实用指南,助力规避常见问题,提升研究严谨性。

书途漫记1:头脑安静下来,内心却充满热情

书途漫记栏目介绍:主要记录笔者近期在读书中的见闻与反思,篇幅往往较短。 今日阅读的书目是克里希那穆提的《生命之书:365天的静心冥想》,第八篇《实相·事实·观与被观·眼前的真相》,颇有感悟,因此记录到书途漫记栏目。 莫把追求“活在当下”变成另一种“我执” “活在当下”或许是大部分有意识的现代人所追求

【撰写中】网络层那些事儿——计算机网络图文笔记

今天聊聊计算机网络中网络层那些事儿:在TCP/IP分层模型中,网络层起着承上启下的作用,它包含着诸多协议,内容十分繁杂,学习起来属实不易。因此,本文将采用图文的形式拆解网络层中的重要知识点,帮助读者一起过一遍网络层的核心知识。 我选取的教材是经典黑皮书“自顶向下”,同时本文的讲解顺序与原书有所区别。

【占坑】Go语言进阶:从零实现跳表

基于Go语言实现跳表 占个坑,写个博客记录一下Go语言实现跳表的经过,并对跳表数据结构做更深入的理解。 目前代码已编写完毕,本文代码详见GitHub仓库。

爬虫攻防:一次js动态cookie的反爬虫解决经历

本文记录一次js动态生成cookie的反爬虫的解决过程。这个反爬卡住了我整整2天,在多次尝试之后终于成功爬取,遂将过程中踩的坑和经验记录一下。 ⚠️声明:本次爬虫仅仅是爬取网站上【公开】的【新闻公告】数据,其目的仅仅是为了制作一个自动订阅工具,无盈利目的和其他目的。同时,rss订阅器的请求频率非常低