本的测试或深度社区

人工智能如今已融入我们的生活。然而,它既可能带来非凡的益处,也可能带来毁灭性的伤害。随着这些系统越来越多地融入我们的日常生活,不准确、有偏见的输出、数据泄露、毒性、安全漏洞甚至良性滥用带来的风险呈指数级增长。想象一下在不知情的情况下生成受版权保护的材料,聊天机器人向客户提供不准确或幻觉的信息,或者使用大型语言模型 (llm)向员工提供有偏见或不适当的绩效反馈。为了防范这些风险并确保负责任地开发人工智能技术,构建人工智能解决方案的组织必须采用包括红队在内的一系列主动策略。

人工智能和技术团队实施

红队实践,通过测试恶意使用或故意完整性攻击(当今相对众所周知的攻击,例如提示注入或越狱)以及良性滥用(善意用户无意中引发有偏见、不准确或有害的 手机数据 结果)来提高我们人工智能产品的安全性。

执行此测试至关重要。在消费者用例中,你可以想象一下,如果自动驾驶汽车背后的团队从未测试过极端情况,例如汽车行驶时乘客进入驾驶座,或者行人走下路边。监测座椅重量变化和物体检测等防护措施可以减轻危险后果。在企业中,红队测试可以识别可能产生同样严重影响的潜在漏洞,例如大规模数据泄露、关键业务运营中断、不遵守法规或失去消费者信任。通过这种方式,红队测试,或者简单地探测系统可能出错的边界,有助于预测和预防潜在风险,确保该技术在实际应用中既安全又有效。

什么是红队?

红队测试是一种“探测人工智能系统和产品以识别有害功能、输出或基础设施威胁的过程”(前沿模型论坛)。此活动的目的是确定人工智能系统可能在何时何地以何 过定期审查数据和 种方式产生不良输出,以便在模型或产品交到用户手中之前减轻这些风险。

在 salesforce,大多数情况下,我们的用户都是合法的、经过身份验证的 salesforce 用户,他们正在浏览其组织。当用户输入“告诉我关于 acme inc.”之类的内容,但无意中输入“告诉我关于 acme kinc”时,他们得到的结果可能不是他们所期望的。即使用户的输入根本不是对抗性的或恶意的,一个简单的拼写错误也可能导致有问题的结果。同样,使用大型语言 hrb 目录 模型 (llm) 生成可能购买运动鞋的消费者的营销细分的良性请求可能会为这些消费者分配人口统计特征,而不是行为特征(例如,不恰当地为这些潜在客户分配年龄或性别,而不是创建具有匹配观看或购买历史的更具包容性的列表)。那里的问题在于系统,而不是用户。因此,我们的红队目标通常可以采取通过从实际测试中获得的见解来识别,然后最小化或潜在地消除不准确或有偏见的输出的形式。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注