三国杀 AI 系统

进行中 / 2024 - 至今 / 算法设计 / 环境建模 / 训练框架

这是一个把强化学习、MCTS 搜索和自博弈流程放进同一条工程链路里的项目，目标不是只做一个算法 demo，而是搭一个能继续迭代的对战实验环境。

Background

三国杀这类卡牌对战存在隐藏信息、阶段节奏复杂、动作空间不稳定的问题，很适合拿来验证策略搜索和强化学习在复杂博弈环境中的落地方式。

Problem

核心难点不是单次出牌，而是如何在信息不完整的前提下，让智能体稳定完成状态建模、行动选择和对局推进，同时保留后续实验可比性。

Approach

项目把规则环境、特征工程、搜索策略和训练循环拆成可独立替换的层。先保证环境和回合系统跑通，再逐步接入策略网络、自博弈和多智能体对战验证。

PythonPyTorchRLMCTSSelf-play

Architecture and approach

用规则环境统一描述阶段、技能触发、出牌与结算流程

把状态编码和动作空间映射拆开，降低训练逻辑和规则逻辑的耦合

用自博弈和搜索组合验证策略改动，而不是只看离线指标

隐藏信息和随机性会直接影响状态表示与训练稳定性

规则环境一旦写死，后面加入技能和卡牌扩展会非常痛苦

策略效果需要通过对战表现和收敛趋势双重验证

完成了可持续迭代的对战环境骨架和核心训练实验链路

把项目从单次实验脚本推进到了可比较、可复现的工程结构

为后续接入更多牌堆规则、对手策略和评估指标留出了接口

独立拆分了环境规则层、训练层和评估层

整理了状态特征、搜索流程和自博弈训练思路

持续用真实对局反馈反推规则建模和策略设计

继续补充更完整的规则覆盖、稳定评估脚本和更清晰的对战可视化，让项目从研究实验进一步靠近可展示的系统作品。