本文聚焦代码相关基准数据集构建,香港科技大学Jialun CAO博士通过分析10年内274个基准,发现普遍存在样本重复、错误参考代码、未处理敏感信息等问题。为此提出55条标准清单,并系统阐述基准开发的五阶段生命周期:设计阶段需明确动机、范围与能力;构建阶段需规范数据收集、预处理与验证;验证阶段需确保模型选择、参数配置与环境一致性;分析阶段需评估难度、可区分度与稳定性;发布阶段需保障材料可访问性与开源规范。该研究为研究人员提供了构建高质量、高可靠、可复现基准的实用指南,助力规避常见问题,提升研究严谨性。
标签: #Benchmark
1 / 1