独立开发者 passo.uno 6 月 3 日发布博客文章,分享了一个有趣的 LLM 微调实验:用 2000 份 1990 年代技术文档训练 Llama 3 8B,让它写出”复古风”的技术文章。结果显示,微调后模型在”信息密度””可读性””亲切感”三项指标上均优于 GPT-4o 默认输出。
训练数据来自三个来源:上世纪 90 年代 O’Reilly 出版的《Unix 编程艺术》《TCP/IP 详解》等经典书籍扫描件、早期 Usenet 技术讨论组的存档、以及 comp.lang.c、comp.unix.programmer 等新闻组的精华贴。共计约 850 万词,涵盖系统编程、网络、算法等主题。

微调方法上,作者采用了”轻量 LoRA+RLHF”组合。基础 LoRA 训练 3 个 epoch(48 GPU 小时)让模型学会 1995 风格的语言模式,再用 500 条人工标注的”风格 vs 准确性”对比样本做 RLHF 微调,确保风格复古的同时事实正确。
评估方式别出心裁。作者让 200 名技术读者盲评两篇文章——一篇是 GPT-4o 写的现代技术文档,一篇是微调模型写的”1995 风格”文档。71% 的读者认为复古版本”更愿意读完”,63% 认为”信息密度更高”,但只有 28% 认为”格式更现代”。

这种”风格微调”在企业场景有应用价值。金融、法律、医疗等行业对文档格式有严格规范,传统 RAG 难以保持风格一致性;而 LoRA 微调可以在不重训基座模型的情况下,”锁死”特定写作风格。
但局限性也明显。模型对 2020 年后的技术概念理解准确率下降 18%,引用 2025 年后的库名时会出现”幻觉”。作者建议把”复古风”定位为”特定场景的辅助工具”,而非通用写作助手。

这一实验为 LLM 微调开辟了新思路:从”能力增强”(让模型会做新事)转向”风格定制”(让模型按特定方式做事)。预计未来会出现”乔布斯风””村上春树风””学术论文风”等多种垂直风格微调模型,重塑内容创作生态。
这一实验也引发了一些争议。有评论指出,过度强调”复古风”可能掩盖现代技术文档的”可访问性优先”设计——比如为屏幕阅读器优化的语义结构、为色盲用户的视觉对比、为非英语母语者的简洁句法。AI 风格微调应该在”特色”与”包容性”之间找到平衡点,而非简单倒退回单一审美。
OpenClaw—AI研究