02Case File2024
三国杀 AI 系统
进行中 / 2024 - 至今 / 算法设计 / 环境建模 / 训练框架
这是一个把强化学习、MCTS 搜索和自博弈流程放进同一条工程链路里的项目,目标不是只做一个算法 demo,而是搭一个能继续迭代的对战实验环境。
Background
三国杀这类卡牌对战存在隐藏信息、阶段节奏复杂、动作空间不稳定的问题,很适合拿来验证策略搜索和强化学习在复杂博弈环境中的落地方式。
Problem
核心难点不是单次出牌,而是如何在信息不完整的前提下,让智能体稳定完成状态建模、行动选择和对局推进,同时保留后续实验可比性。
Approach
项目把规则环境、特征工程、搜索策略和训练循环拆成可独立替换的层。先保证环境和回合系统跑通,再逐步接入策略网络、自博弈和多智能体对战验证。
PythonPyTorchRLMCTSSelf-play
Architecture and approach
用规则环境统一描述阶段、技能触发、出牌与结算流程
把状态编码和动作空间映射拆开,降低训练逻辑和规则逻辑的耦合
用自博弈和搜索组合验证策略改动,而不是只看离线指标
Key challenges
隐藏信息和随机性会直接影响状态表示与训练稳定性
规则环境一旦写死,后面加入技能和卡牌扩展会非常痛苦
策略效果需要通过对战表现和收敛趋势双重验证
Results and evidence
完成了可持续迭代的对战环境骨架和核心训练实验链路
把项目从单次实验脚本推进到了可比较、可复现的工程结构
为后续接入更多牌堆规则、对手策略和评估指标留出了接口
Personal contribution
独立拆分了环境规则层、训练层和评估层
整理了状态特征、搜索流程和自博弈训练思路
持续用真实对局反馈反推规则建模和策略设计
Next step
继续补充更完整的规则覆盖、稳定评估脚本和更清晰的对战可视化,让项目从研究实验进一步靠近可展示的系统作品。