-
Notifications
You must be signed in to change notification settings - Fork 11
关于验证场景 & Linux版本问题 #2
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Comments
目前测评指标的部分还在进行调试,主要包括战损比K/D(kill/death ratio) 和胜率 WR(winning rate,也可认为是任务完成率) 在develop分支中我们已经上传了用于实验数据记录的llm_pysc2.lib.data_recorder.DataRecorder、评测指标分析脚本log_analyse.py,他们可以用于分析验证场景的战损比(死亡单位的资源比,并通过1gas=2mineral换算成统一的单位)和胜率,该模块正在进行调试,预计在2024/11/1之前整合到master分支中。 另外,大模型的ave waiting time、ave input tokens、ave output tokens也将被记录,但这些内容暂时仅存放于develop分支中,它们也将与前面所述的内容一同在完成调试后加入master分支。 |
2024/11/1是否会同步公开openai等模型的评测结果? |
会的。 计划是11/1左右发布预印本论文,作为实验章节的基准数据出现,代码中提供的各系列的大模型至少选取一个进行测试。(论文的实际发布时间可能会受其他事项干扰,不一定在11/1之前发布,但不会和11/1这个时间节点相差太远) |
好的,谢谢。 |
我下载了3.16.1版本的星际争霸游戏,但我在测试环境时出现错误。报错如下: The above exception was the direct cause of the following exception: Traceback (most recent call last): The above exception was the direct cause of the following exception: Traceback (most recent call last): |
这似乎是一个星际争霸程序启动和SC2-pysc2通讯的报错(并且未涉及到我们做过修改的pysc2部分,我们只启用了pysc2.lib.feature的raw_unit的tag,并加入了一个动作函数到pysc2.lib.actions,未修改过sc2client、protocol相关的东西) 这个问题我们目前暂未遇到过,可能需要查找pysc2库相关文章确定具体问题,或者按照报错提示查看SC2的error log。 |
我在三台不同的ubuntu机器上分别部署了LLM-pysc2,尝试了3.16.1、4.10、4.6.2三个不同版本的StarCraftII包,均出现上述Error signal: '11'的报错。或者是否能出一份更详细的复现说明?
|
尝试一下下载5.0.13(92440)版本的游戏(地图编辑器记录的版本为该版本),可能是地图版本高于游戏版本引发了兼容性问题,最终导致SC2进程报错。 您可以考虑在Windows系统上运行星际争霸程序,在Windows上与远程大模型/部署在linux的局域网大模型交互。 README中关于获取SC2游戏的部分来源于PySC2项目的README,这一部分确实存在疏忽,暂时没有对其他系统的游戏-地图版本进行测试。我们将在基准测试完成后立即开展程序版本的兼容性测试。 |
好的,感谢你的回复! 希望后续能出一个兼容linux/ubuntu的版本。 |
好的,感谢理解。我们后续会尝试确定是否是地图和游戏版本导致了上述问题,并尝试解决这个问题。如果您对于这一问题的处理有新的进展,也欢迎在此处分享,感谢您的贡献 [鞠躬]。 |
似乎暂时不会有新的linux包发布。 Blizzard/s2client-proto#185 |
如果我们后续确认是地图版本的问题,可能会尝试一下使用低版本的地图编辑器重制一遍地图。技术上的阻碍不大,主要是需要一些时间来完成这个工作。 |
+1 不知道 Linux 上是啥问题 |
感觉还是版本问题,你试一下smac任务能不能启动:如果能启动说明星际争霸和代码包没问题,问题在于experiment_llm_pysc2使用的地图版本过高,linux游戏版本无法兼容;如果smac任务也不能启动,可能需要更多信息来确认具体问题,你可以加我的QQ(734162621)交流。 |
smac 可以启动,可能就因为 Linux 版本地图不兼容吧。希望能早日兼容 👻 |
现有的验证场景主要包含哪些评测指标?具体有哪些?
The text was updated successfully, but these errors were encountered: