本报讯(记者薛婧)记者从安天科技集团股份有限公司(以下简称安天)获悉,近日,权威网络安全大模型评测平台CyberSec-Eval更新了CS-Eval数据集的评测结果。安天澜砥威胁检测分析垂直大模型(N2-1008版本)以91.51的平均分综合成绩排名第一,并在业务连续性与应急响应恢复、安全架构设计、漏洞管理与渗透测试、AI与网络安全评测中取得四个单项第一名或与单项第一持平成绩。
CyberSec-Eval(CS-Eval)是目前国内外最具代表性与专业性的网络安全大模型评测基准之一,由阿里安全、复旦大学、中国科学院大学联合构建,在2024年上线,目前基于CyberSec-Eval2024年5月的数据集进行评测。该榜单测试具备覆盖全面、贴近实战、客观公正的核心特点。在覆盖全面方面体现在涵盖了11大类网络安全领域、42个子类任务,覆盖知识型与实战型双重维度;贴近实战方面则聚焦真实安全场景下的理解、推理与决策能力评估;客观公正方面主要表现在采用标准化测试集与评分机制,为行业提供可比对、可复现的参考依据。
安天澜砥威胁检测分析垂直大模型N2分支基于安天自研的模型结构结合DeepSeek-V3的权重迁移训练而来,于9月9日首次提交测试并于次日公开,综合排名进入前三。团队综合使用增强学习、前缀微调和经过修改的StableSPAM优化器,进行持续改进,并根据评测结果补充了相关领域的语料。在经过近30天的持续训练后,于10月8日以综合成绩91.51分登顶,获得榜单综合平均排名第一。