逐水寻源

路漫漫其修远兮

RL 后训练进化论：从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励

Tim 发布于 2025-11-28 收录于大语言模型

深度解析DeepSeek-R1背后的GRPO/GSPO/DAPO等新一代强化学习算法，详解如何通过去除Critic网络将显存占用减半，对比PPO/GRPO/GSPO/DAPO的数学原理与工程实现差异，探讨DeepSeekMath-V2代表的大模型RL后训练从监督学习到自我博弈进化的范式转移。

个人数据低成本自动化备份方案

Tim 发布于 2025-05-16 收录于工具与应用

我们的生活和工作越来越依赖于各种数据。从重要的工作文档到珍贵的个人照片，这些数据承载着我们的记忆和价值。然而，硬件故障、系统崩溃、恶意软件攻击等风险随时可能导致数据丢失。本文将介绍一套基于Rclone和云盘的低成本个人数据备份方案，能够有效保护这些个人数据。

异地组网：免域名免备案自建Tailscale DERP节点

Tim 发布于 2025-02-26 收录于网络

无论是远程办公需要访问公司内网资源，还是想要在外出时轻松管理家中的设备，甚至只是想绕过NAT限制直接连接到另一台主机，异地组网都是一个理想的解决方案。本文将介绍一种不需要域名、无需备案的方法来建立自己的私有网络，特别适合国内环境下的技术爱好者和专业人士。

家庭网络配置：利用 Docker 在闲置笔记本上运行 OpenWRT 作为旁路由

Tim 发布于 2025-01-21 收录于网络

通过 Docker 在闲置笔记本上运行 OpenWRT 作为旁路由，充分利用旧设备，提升家庭网络的可定制性和功能性。本文详细介绍了从零开始配置 Docker 环境、创建 macvlan 网络、运行 OpenWRT 容器，并进行网络配置的全过程。无论是去广告、科学上网，还是流量监控和 VPN 服务，都可以通过旁路由轻松实现。适合有一定 Linux 基础的用户，帮助你将闲置设备变身为强大的网络工具。

专家混合模型 (MoE) 详解：Mixtral 8X7B、DBRX 和 Deepseek-V2 的架构与应用

Tim 发布于 2024-12-25 收录于大语言模型

深入了解专家混合模型 (MoE) 的架构与工作原理，探索Mixtral 8X7B、DBRX 和 Deepseek-v2等热门MoE模型的应用与优势。通过Python实现MoE模型，并评估其在逻辑推理、摘要和实体提取等任务中的表现。

数学视角下的支持向量机（SVM）：优化问题求解

Tim 发布于 2024-11-27 收录于数据科学与机器学习

支持向量机（SVM）是机器学习中的经典算法。本文聚焦于SVM中的公式推导，如间隔距离公式的详细推理，以及原问题与对偶问题公式化阐述。深入探讨优化问题，包括构建拉格朗日函数来处理约束优化问题，利用KKT条件求解最优解的过程。同时涉及多项式核函数与高斯核函数公式特性。