AI赋能装备系统的试验鉴定-联参智库

长期以来，美国国防部一直依靠试验和鉴定（T&E）流程来鉴定并确保其系统、平台和技术在全面投入使用之前，能以安全可靠的方式运行。近年，大型语言模型和生成式AI技术的发展，给装备赋能的同时，也为试验鉴定工作带来挑战：人工智能安全标准和政策尚待制定，大语言模型的复杂性和不确定性，使得试验鉴定工作在面对人工智能赋能系统时更为复杂。

如何对AI赋能系统进行试验鉴定？美国防部在首席数字人工智能办公室（CDAO）算法战部门下成立了利马特遣队（ Task Force Lima），加速对生成式人工智能的掌握、鉴定和部署。

CDAO的主要任务是确保AI系统在部署前能够满足安全、可靠的标准，并能够有效支持军事任务。为此，CDAO制定了一套AI赋能系统的试验鉴定框架，评估了AI试验鉴定能力的需求与当前的差距，并提供了若干工具软件和Python库供试验鉴定单位参考使用。

CDAO今年2月份的一份PPT，透露了相关内容。我们将其全文翻译，供同行参考。以下为内容摘要：

1. CDAO评估和保证任务：旨在为利益相关者提供信心，确保美国国防部AI赋能系统满足要求，并通过道德行动支持任务。利益相关者包括战斗人员、指挥官、项目经理、采购人员、监管机构、纳税人和国际盟友。

2. 保证最佳实践：关注工作层面的测试人员，使没有AI/ML专业知识的测试人员也能够达到80-90%的目标。

3. 保证系统研发：AI试验和评估（T&E）的需求和差距报告指出，DoD AI测试人员的成熟度和领域知识不足，在不同的国防部环境、平台和任务中使用工具存在困难。

4. CDAO T&E框架：作战试验鉴定（OT&E）、人机系统整合（HSI）T&E、系统集成（SI）T&E；AI模型T&E。

5. 复杂决策问题：黑盒算法、游戏化和奖励黑客、敏捷迭代开发、过拟合训练数据等问题。

6. AI T&E库：包括用于AI模型测试的一系列Python库，以及与MLOps平台和能力的无缝集成。

7. RAVEN - AI T&E平台：为没有基础设施的组织提供最佳开源工具。

8. 项目评估：强调了T&E与训练数据分割的重要性，需要不断迭代算法和操作指标，以及T&E在优先数据收集、标注和模型开发路线图方面的关键反馈作用。

9. 合作与访问：CDAO T&E正在积极寻求关键政府合作伙伴，研AI T&E和AI保证，并支持AI技术的集成和部署。