完美电竞官网

牛津大学发布:《人工智能安全框架的评估标准

作者:完美电竞世界    来源:完美电竞官网    发布时间:2025-03-20 18:02:15    浏览量:

  2024年9月,牛津大学发布《人工智能安全框架的评分标准》报告,报告提出了一种由七个评估标准组成的人工智能安全框架评分标准和三种应用评分标准的方法。元战略编译报告主要内容,旨在为读者讨论人工智能安全框架的评分标准领域提供参考。

  人工智能安全框架是一种风险管理政策,它概述了人工智能公司如何将前沿AI系统的开发和部署带来的潜在风险控制在可接受的水平。这些框架的最大的目的是应对人工智能带来的灾难性风险。安全框架通常有四个主要组成部分:

  这通常包括详细说明威胁模型,并精确指出其安全框架中最令人担忧的风险场景。此外,它还涉及为每类威胁设置风险阈值。

  这个过程通常包括一系列模型评估,用于检测与已识别威胁相关的危险功能。研发人员还制定了明确的评估结果解释标准,并设置了阈值,以指示系统在何种情况下包含这些风险功能。

  开发人员针对每个已识别威胁类别,规定了每个风险等级应采取的保护措施。一旦模型评估结果为系统达到相应风险等级,他们便实施这些防护措施。

  公司概述了如何确保遵守框架并保持其有效性。这可能包括承诺进行红队模型评估,让外部利益相关者了解评估结果,监督安全框架的遵守情况,以及实施监督和治理程序。这些程序性承诺有助于确保安全框架始终是重中之重,并在整个开发过程中得到贯彻。

  随着AI系统的进步和风险的增加,最初的框架在大多数情况下要跟着时间的推移进行重大改进。评判过程可能会发现这些缺陷,从而让公司能够改进其框架。

  许多人工智能公司希望被视为负责任的行为者,因此,他们可能会尝试改善其框架,以应对低分,或者出于成为“同类最佳”的愿望——特别是如果分数是公开的,并且评分被认为是合理的。这种动力最终可能会引起安全标准“竞相攀高”,各公司努力展示最全面、最有效的安全框架,来提升整个行业的安全标准质量。

  未来,可能会出现实施人工智能安全框架的监督管理要求。在这种情况下,对安全框架做出判断的能力有几率会成为监管者的核心职责,因此现在培养这些评估技能至关重要。

  因为AI系统具有复杂性和技术性,大多数公众缺乏独立评估的专业相关知识。当外部人员评估不同人工智能公司的安全框架并将其结果公之于众时,有助于公众评估这些框架的可靠性。这种外部验证尤为重要。

  鉴于人工智能安全框架是最近才出现的,关于这一个话题的学术研究很少。现有工作大概能分为四个主要领域:

  迄今为止,只有四家公司发布了上述定义的人工智能安全框架。Anthropic公司在2023年9月发布了他们的《负责任扩展政策》(RSP)。OpenAI公司于2023年12月发布了他们的准备框架(测试版),Google DeepMind公司于2024年5月发布了他们的前沿安全框架,Magic公司于2024年7月发布了他们的生成式人工智能准备政策。

  一些学者和从业者也提出了安全框架的建议。METR(在推广人工智能安全框架概念方面发挥了及其重要的作用的组织)审查了现有安全框架的共同要素。同样,英国科学、创新和技术部(DSIT)提出了七项实践,并将其纳入负责任的能力扩展政策。

  一些学者已经对现有框架进行了审查。Anderson-Samways等人依据数据科学和信息技术国际会议(DSIT)关于负责任的能力扩展的指导方针,对Anthropic公司的负责任扩张政策(RSP)进行了评估。同样,Ó hÉigeartaigh等人也在布莱切利园2023年人工智能安全峰会召开之前,对公司关于人工智能安全框架的声明进行了快速审查。每份声明都根据提出的42项安全实践进行了评估。

  只有一个来源提出了人工智能安全框架的标准。Titus公司提出了安全框架应满足的九项标准,以有效应对构建高级AI系统带来的风险。

  本文提出了人工智能安全框架的评分标准。该标准将评估标准分为三类:有效性、遵守和保证。

  首先,本文提出两个可用于评估框架有效性的标准,即框架在多大程度上能够把风险控制在可接受的水平。这两个标准是可信度和稳健性。

  如果框架得到遵守,将风险控制在可接受水平上的可能性有多大。如果该标准得分高,意味着评估人员认为这些决策是合理的。为了具体说明这一标准,评分者能够正常的使用以下三个指标:

  是否有清晰的因果路径,解释框架如何将风险控制在可接受的水平?这些因果路径应把安全框架的各个组成部分(威胁模型、风险阈值、模型评估等)与其主要目标(将风险控制在可接受的水平)联系起来。这些路径应符合逻辑,并基于合理的假设。

  因果路径是否得到经验证据的支持?证据可能来自对照实验或相关案例研究。一般来说,如果证据经过科学验证(例如经过同行评审并成功复制),则其效力更强。然而,由于人工智能安全框架的新颖性(以及学术出版过程的缓慢),科学证据往往还不存在,其他领域的证据可能没办法推广到人工智能领域。

  相关专家是否同意因果路径是可信的?本文所说的“相关专家”是指具有人工智能安全或治理专业相关知识的学者和从业者。高度一致表明安全框架代表了当前最先进的技术。然而,达成专家共识可能很困难。即使达成了共识,也只能为安全框架的有效性提供薄弱的证据(例如,因为专家有几率存在偏见)。在此背景下,专家意见应被视为比经验证据更弱的指标。

  即框架在多大程度上考虑了风险格局的潜在变化以及风险评估和缓解措施的潜在失败。为了具体化稳健性标准,评级人能使用以下四个指标:

  安全框架是否包含足够的安全余量?例如,公司可能会在必要之前(例如在达到特定能力阈值之前)实施安全措施。

  安全框架是否使用多种互补方法来评估和降低风险?这使框架能够更好地抵御个别措施的失败。这种方法在网络安全、核能和航空等其他安全关键领域非常普遍。

  公司是否对安全框架进行压力测试?他们能够创建一个最坏情况的列表,并评估该框架能否针对每种情况提供足够的保护。

  是否持续审查安全框架并在必要时进行更新?框架应反映最新技术和行业最佳实践。理想情况下,应将框架视为动态文件,定时进行重新评估和修订,以纳入新的科学发现和从过去实施中汲取的经验教训。

  接下来,本文提出三个标准,用于评估公司遵守其人工智能安全框架的程度:可行性、合规性和授权。

  第一个与遵守相关的标准评估了履行承诺的难度。从本质上讲,它试图回答一个问题:所提出的安全措施是否现实,或者鉴于研发人员当前的能力和限制,这些措施是否过于雄心勃勃?满足这一标准的价值在于,它能够尽可能的防止开发人员严重依赖这些承诺来降低风险,却发现实际上没办法实现这些承诺的情况。

  它评估了研发人员采取积极措施以确保实施框架的人员按照预期遵守承诺的程度。因此,如果很好地满足了这一标准,评估人员应有信心相信,即使这些政策被视为麻烦的杂务,员工也会积极遵守这些政策。

  与遵守相关的第三个标准评估了安全框架的实施者在多大程度上获得了授权。它评估了安全框架在多大程度上包含了保护员工免受可能破坏其努力的因素影响的措施。研发人员应该可避开以下情况:安全政策在理论上合理,员工也真诚地努力遵守,但由于员工只有少数的能力来正确执行,最终仍然失败。

  最后,本文提出两个标准,用于评估第三方在多大程度上能确保安全框架将风险控制在可接受的水平,和公司是否遵守这些框架。

  如果安全框架中的承诺不准确或遗漏了关键信息,那么就非常有可能出现两个人阅读承诺后对计划如何做有不同的理解的情况。这种模糊性有几率会使难以评估框架的潜在有效性,特别是如果成功或失败的标准也不明确的线. 外部审查

  即使公司全心全意地试图制定和实施高质量框架,但公司有几率存在重要的盲点。因此,外部审查很重要,它既能为利益相关者提供有关框架有效性的可靠信息,又能说明框架的遵守程度。

  每个评估标准都可以从A(黄金标准)到F(不合格)进行分级。六个质量等级的定义如下:(1)框架满足特定评估标准的程度(从“完全满足”到“完全失败”),(2)框架的改进空间(从“任何进一步改善都是微不足道”到“几乎每个部分都需要改进”),以及(3)所展现的努力程度与灾难性人工智能风险缓解的重要性相称(从“明显相称”到“远不相称”)。表1描述了六个质量等级。

  对于每个安全框架,调查要求参与者对每个标准做评分,从A到F。参与者还能够给大家提供其回答的理由,并提出改进框架的方法。

  调查问卷可以发送给来自政府、学术界和民间社会的独立人工智能安全和治理专家。一般来说,样本量越大越好。然而,由于有关专业人才稀缺,因此往往无法达到很大的样本量。

  调查结束后,可以汇总调查的最终结果,并报告每个标准的平均等级。如果将结果写入报告,还可以记录每个标准的差异、理由和主要不确定性。这种方法的一个关键优点是,它能提供清晰易懂的输出结果(每个标准都有具体的评分),同时还能利用评估人员难以言传的专业相关知识和判断力。然而,有必要注意一下的是,结构严密的问卷可能没办法捕捉到所有细微之处。一些评分者可能会发现调查的严格格式限制了他们,因为它无法像其他方法一样进行深入的讨论和探索。

  应用评分标准的另一种方法是德尔菲研究(Delphi study)。这样的一个过程主要有三个步骤。首先,

  在研讨会上讨论这些答复和理由。研讨会结束后,参与者有机会更新他们的回答。这些步骤可以重复进行,直到达成共识,但这不是必须的。最后,对回答做多元化的分析并准备一份综合报告。该报告包括专家小组达成共识、存在分歧的领域和关键见解,以及对整个安全框架的最终评估。德尔菲研究的一大优点是它充分的利用了专家评估人员的见解,这在人工智能安全等不确定性较高且最佳实践仍在发展的领域尤其有价值。此外,该过程的互动性鼓励参与者们在评分过程中提出新的论点和不同的观点,从而获得更深思熟虑的回应和共识。其主要缺点之一是德尔菲研究耗时且需要大量的协调工作(例如安排研讨会),这有几率会使低回应率。参与者们也可能根据“权威”专家的意见来更新他们的回应,而不是最有力的论点。(三)审计

  公司可能会委托一组独立专家评估其安全框架,例如学术机构、民间社会组织或审计公司。或者,他们能够召集一组独立专家。

  评分标准将作为审计标准。审计人员将被要求对每个标准做评分,评分从A到F。重要的是,这些专家将获得非公开信息,以帮他们进行审计。为了收集更多信息,他们可能还会采访关键人员、审查财务文件并访问开发商的办公室。因他们将接触到机密信息,因此在大多数情况下要签署保密协议(NDA)。审计的主要好处是,审计人能更全面地了解安全框架,从而为评估提供相关依据。这是因为审计人员通常有更多的时间和渠道获取更多信息,这对于评估框架的可信度、可行性、合规性和授权特别有用。然而,审计也有一些明显的缺点。首先,与其他评估方法相比,审计耗时更长,成本可能更高。其次,审计的成功取决于研发人员是否愿意与审计人员充分合作,避免干扰审计过程。

  虽然评估标准和指标为评估人工智能安全框架提供了需要改进哪几个方面的信息,但并未提供怎么样改进的具体方法。

  许多评估标准依赖于抽象的概念,例如稳健性、可行性和透明度,这些概念很难精确客观地衡量。这部分是设计的一个特点,而不是缺陷。然而,由于缺乏可量化的指标,评估某些标准变得具有挑战性。因此,评估过程可能严重依赖定性评估和主观判断,这可能会引起不同评分者给出的分数不一致和变化。

  一些标准,例如可信度和稳健性,要求评估人员具备相关的人工智能安全和治理专业相关知识。由于这种专业相关知识稀缺,因此能可靠评估框架质量的人数有限。这似乎是不可避免的,但仍然值得注意。

  可能存在别的因素,这一些因素是安全框架“优秀”的内在因素,而拟议的评估标准并未充分涉及。安全框架是新兴事物,本文目前对安全框架“优秀”的理解可能并不完整。因此,有几率存在一些因素和考虑,这一些因素和考虑在评估安全框架的质量时可能会至关重要。

  建议的分级系统包括六个质量等级,而区分不一样的等级的细微差别可能过于依赖主观判断,导致评分过程中也许会出现不一致和混乱。这样的一个问题尤其与中间等级相关,因为与等级的两端相比,中间等级的质量差异可能不太明显。因此,评估人员可能很难给出高度精确的分数,这可能会限制分级系统在提供清晰可靠的人工智能安全框架评估方面的实用性。

  这些标准不太可能同等重要。例如,一个框架在可信度和稳健性上得分F,但在其他所有标准上得分A,这样的框架并不值得称赞。这就是本文不建议输出单一总评级的部分原因。因此,在每一项标准的评分和总体等级之间建立一种合理的对应关系可能是很重要的。

  文章提出了人工智能安全框架的评分标准。该标准由七个评分标准组成。每个标准都可以从A(黄金标准)到F(不合格)进行评分。该评分标准是文章主要的贡献。文章强调,开发人工智能安全框架十分艰难。任何安全框架的第一个版本都非常有可能不够完善,人工智能公司要一直改进其框架,使其更加健全完善。然而,不应由他们来决定自己的框架是否足够完善——他们不应“给自己打分”。这最终应由政府负责,并听取学术界和民间社会的意见。

  文章内容系原作者本人观点,本公众号编译/转载仅为分享、传达不同观点,如有任何异议,欢迎联系我们!

  国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我们国家的经济、科技社会持续健康发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科学技术、经济发展形态趋势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科学技术创新洞见。

热销产品推荐

完美电竞世界

服务热线:4000-662-888

服务手机:13818913497

公司地址:上海市奉贤区展工路888号

完美电竞世界 二维码二维码
微信公众号手机网站
Copyright © 完美电竞世界 版权所有