【Deep Dive: AI Webinar】将SAFE-D原则应用于开源人工智能中

Stefano Maffulli：

你好。欢迎来到我们的深度人工智能网络研讨会的另一集。我是 Stefano Maffulli，开源促进会的执行理事。今天我们将听到 Kirstie Whitaker，David Leslie 教授和 Victoria Kwan 关于开源人工智能安全原则的运作。别走开。希望大家喜欢，最后我们会回答大家的问题。

Kirstie Whitaker：

大家好，非常感谢大家参加我们的节目，我很高兴能代表图灵研究所，英国国家数据科学与人工智能研究所，在这个开源计划中，深入地定义开源人工智能。我的两位同事将和我一起给大家做报告。David Leslie 教授要开始了，他是该研究所伦理与责任研究与创新部门的主任，他将定义来自2019年发布的公共部门建议的安全原则。Victoria Kwan 是我们的公司治理和研究伦理经理，她会讲到在我们研究所的研究伦理审查中，我们是如何将这些原则运用到一个端到端过程中的。然后我将以思考我们如何采用当前的开源工作方式并使用它们交付基于安全原则开源的AI工作流作为结束。非常感谢大家的参与。

David Leslie：

大家好，我叫 David Leslie 。我是阿兰·图灵研究所伦理与责任创新研究中心的主任，也是伦敦玛丽女王大学的伦理学、技术和社会学教授，我应该说，我们非常感谢今天能和你们一起参加开放科学计划。深度AI网络研讨会系列。我们今天的网络研讨会将讨论安全原则。

首先，我应该说，安全原则是什么? 安全原则是一套实用的原则，或可操作的规范目标，可以在人工智能设计中操作，开发部署实践和研究实践，确保负责任值得信赖的科研创新活动。安全原则本身，来自一些正在进行的研究和合作在过去的几年里，在阿兰·图灵研究所的公共政策项目中，特别是在我们与欧洲委员会的合作关系中，我们撰写了零草案。人权理事会承担即将进行的人权、民主和法治影响评估，人工智能系统和安全原则，都是影响评估的一部分。它们在很大程度上影响了我们，运用可操作的规范目标到治理过程和治理机制。所以，我应该说安全原则，安全原则的一部分安全，是安全、问责、公平、可解释性和数据管理的首字母缩略词。

所以我要做的就是浏览一下这些标题，并描述一下它们包括什么。所以，首先说安全标题。我们考虑安全等因素，确保系统保持完整性，在任何企图破坏系统的情况下。可靠性涉及系统在野外运行时能够保持其预期的功能。稳健性，指的是一个系统足够强大，能够承受未知的未知或不可预见的情况，环境或对抗性攻击，当它在世界上运行时。准确性和性能，就是这样。所以它只是确保系统的性能，它有，它符合性能指标，比如精度或准确度，或者其他什么。最后，可持续性，或社会系统的可持续性包括确保项目是对动态的社会技术环境的响应，同时也对现实世界的影响持续敏感。所以当我们谈论系统的社会可持续性时我们实际上是在谈论系统所拥有的对可能的负面影响进行充分的前瞻性思考，可能的，长期的，有害的。这是一个项目可以做到的。

第二，我们有问责制。问责制包括确保，有一种端到端的责任和可审计性框架，以及可行的追索和补救机制，这些都被整合到研究和创新工作流程中。当我们谈到问责制时，比如说，设计的问责制，我们说的是有一个适当的程序来确保，参与创新过程的人类将对他们的活动负责，你的系统从头到尾都是可审计的。你的系统从头到尾都是可审计的。

我们谈论问责制的另一种方式是过程透明，这样设计背后的过程，开发、部署是足够透明的，因此我能够被追究责任。

其次是公平，确保公平意味着确保人工智能项目是非歧视性的，它们减轻了整个项目生命周期中不公平的偏见他们支持公平，平等，多样性和包容性，而且，你知道，这真的很重要强调这是一种公平或设计上的非歧视从项目的最早期阶段开始的切入点概念化一直到系统的维护和退役。因为制度因为公平和偏见的问题可能会出现在整个研究和创新生命周期的任何时候。

接下来是可解释性。所以可解释性需要确保这一点人工智能项目和研究能够提供清晰、可访问和相关的信息，既基本原理或逻辑基础系统输出，或研究输出模型输出，还包括这些产出背后的创新过程所以，它必须能够证明你有一个系统这是可以充分解释的，为了研究和创新的目的，但这也意味着，有一个适当的机制，这样你就可以，说明创新过程是安全的、负责任的和公平的。所以可解释性是那种双管齐下的角色最终做了一个管家这包括确保它们有足够的数据质量，足够的数据完整性，足够的数据隐私，数据保护已经得到了全面彻底的落实。也就是说，该项目符合数据隐私和保护法律。所以，这就是这些安全标题的总体情况。

现在，让我来接近一下，真正探索可能的治理行动，来实现安全原则。这些只是一些推荐的或可能的机制，将我刚刚谈到的这些顶级规范目标付诸实践。

首先是安全，人们可以进行安全自我评估和风险管理。这些过程将有助于评估人工智能项目和研究如何与通过反复的识别和文件的安全目标贯穿整个生命周期的潜在安全风险，以及为解决这些问题而实施的保证行动。

为可持续性。正如我之前提到的，这种系统对不断变化的环境和社会背景的反应。我们有第一个可能的利益相关者参与过程，哪个是促进上下文知情理解的过程可能受到影响或可能影响单个人工智能项目的社会环境和人为因素。还有利益相关者影响评估，或者某种形式的影响评估，这将促进对社会影响和可持续性的反复评估个人项目和研究。现在，就像我所说的问责制以前，问责制框架涉及的是基于程序的政府，所以有一个基于政府框架的过程在日志协议中也很重要。所以基于过程的治理框架会涉及到实时文档相关团队成员和角色的治理行为涉及到行动，后续行动的时间框架，以及其他，你知道，日志协议的维度。有一个合适的记录框架是很重要的确保在文件中有充分的证据。

为公平。我们有，潜力通过自我评估和风险管理过程。这些过程旨在促进评估项目和研究如何与各种正在付诸实践的公平原则。它是这样做的。偏见本身。风险管理的自我评估就是这样，我通过反复识别和记录整个生命周期的偏见风险，并记录已经实施或实施的保证行动，以解决任何已发现的偏见。另一个公平机制是公平立场声明，所以如果你，如果你有任何模型或系统涉及到，我们称之为基于指标的公平，或者确定一个指标，这将指导输出的分配，或者错误率的分布。例如，当做出关于任何类型的公平指标的决定时，公平立场声明基本上明确了该指标决策背后的基本原理。

现在，我想说，要继续讲可解释性，或者可解释性意义上的透明度，我们有一种可解释性保证管理机制，这就需要展示这种解释。有意识的过程已经发生了，所以关于系统的可解释性的决定是故意做出的根据这些系统的需求影响。也就是说，你考虑了所有的问题，在给定的环境中拥有足够透明的系统。最后就数据管理而言您需要某种形式的文档机制一种可能是数据实况表，比如，它包括一种现场记录在整个项目或研究工作流程中负责任的数据管理和管理的最佳实践。这将涉及记录，或保持数据沿袭的全面记录以及对数据完整性、平等、隐私和保护的反复评估。

我就讲到这里，让我的同事们去深入研究将这种安全性应用于研究的其他一些方面。

谢谢你的分享我希望你能从中有所收获网络研讨会。

Victoria Kwan：

大卫。我叫 Victoria Kwan ，我是艾伦·图灵研究所的公司治理研究伦理经理。在下一节中，我将向您简要介绍我们是如何进行操作的我们公司的安全原则。为了将理论转化为实践，我们将这些原则嵌入到图灵研究伦理审查过程中，在我们组织中也被称为 TRACKS。因此，图灵实验室从事原创研究的研究人员必须申请 TRACKS 伦理许可在他们开始项目的实质性工作之前。

TRACKS 应用程序要求研究人员考虑这些原则大卫谈到了他们自己的项目。我们通过 TRACKS 提出的问题确实鼓励研究人员证明这一点。第一，考虑到他们的工作对现实世界的影响。第二在整个项目团队和整个项目生命周期中培养负责任的研究文化。第三落实确保问责制的治理程序。

接下来，我将快速地向您介绍我们在 TREx 申请表上向研究人员提出的问题在我们的可持续发展和安全部分。

首先，我们要求研究人员确定他们工作的利益相关者，他们的工作对现实世界的影响，以及任何可能特别容易受到预期影响的群体。

如果研究团队进行了利益相关者影响评估，这将是一个很好的地方申请人还应解释利益相关者参与的方法他们正在使用，所以这是否意味着通知利益相关者，与他们协商，与他们合作或授权他们，以及他们已经到位的任何缓解措施处理工作可能带来的负面影响。我们还要求研究人员反思他们的工作可能对环境造成的影响，这对于使用大量计算机资源的一些项目可能特别相关。我们要求研究人员描述他们所拥有的任何潜在的缓解或理由对于我们的技术可持续性问题，我们正在寻找申请者为了讨论他们为确保准确性、可靠性、安全性和稳健性所采取的步骤，并承认任何限制并确定可能的缓解措施。

如果研究小组进行了安全自我评估或一份风险评估，描述他们的人工智能如何与安全目标保持一致，这将是在应用程序上说明这一点的最佳位置。结束我们关于可持续发展的问题，研究人员被要求不仅要考虑研究参与者的幸福感，同时也是研究团队本身。那么这项工作是否有可能对研究人员的安全或心理健康产生潜在的负面影响如果是这样研究小组将采取哪些缓解措施和防护措施。接下来是问责制，我们会有一些关于可回答性和可审计性的问题。这里的问题都是关于确保我们的研究人员能够证明他们在整个项目中所做的决定，每个决定都是由特定的个体决定的。因此，在这里，研究人员将有机会解释他们的治理程序和他们的日志记录协议，解释了规则和责任是如何分配给团队成员的，并解释项目决策如何、在何处以及何时可被审计并由研究小组以外的各方进行审查。

我们还希望鼓励我们的研究团队将他们的数据代码和文档提供给其他研究人员在法律和道德允许的地方。为此，我们有一个问题，请申请人详细说明在哪里举行，以及是否以及在何处保存流程日志以供将来的复制和再现。在我们的公平部分，我们有关于数据公平的问题，研究人员可以解释他们的方法和他们使用的数据集，数据的近代性，数据的来源，以及是否会将元数据和上下文信息附加到数据上，以及团队为确保数据完整性所采取的任何步骤。我们的设计公平性问题要求申请人反思是否和如何在项目设计阶段纳入研究团队的所有声音。在这里，研究人员可以描述招聘过程以及团队是如何组成的，团队结构，团队文化，以及团队如何确保这一点每个人的想法都会被倾听，每个人的贡献都会得到认可。

对于我们的申请人来说，衡量项目的结果和影响，能够清晰地表达他们所使用的公平的定义也很重要。所以对于一些研究项目来说这可能意味着描述他们正在使用的公平的数学定义，如果团队已经写出了一份公平立场声明，那么为项目建立基于度量的公平标准; 这是一个可以提出来的地方。

如果团队进行了自我评估。我们也很想知道图灵的其他一些非定量的项目，所以，如果这是一个涉及定性方法的项目，比如访谈、焦点或调查，在这种情况下，公平可能不是一个数学定义。更确切地说，公平可能意味着其他东西，比如确保受访者的群体是研究人员所关注的都是具有代表性和多样性的，并且，它们清楚地代表了研究人员得出结论的人群。但对于这个问题来说，重要的是研究人员已经反思过在他们的工作背景下，公平意味着什么。为了结束公平部分，研究人员将被要求解释如何以及在哪里他们将交流他们的发现，他们将如何承认项目方法的局限性，他们是否计划为用户提供培训和解释。这就引出了我们的可解释性和透明度问题，这里是我们的申请者有机会的地方进一步详细说明他们如何确保这些结果对利益相关者是可解释和可解释的。

如果研究涉及到构建人工智能系统以及系统用户最后，我们寻求图灵伦理许可的申请人必须确认他们的研究会遵守图灵的数据管理政策,我们的数据保护程序以及我们的法律和合同程序，我们的开放获取和开源政策，我们的公开出版政策、研究不端行为政策和行为准则。以上就是对 TRACKS 应用程序的概述，接下来我将解释这个过程有点。所以一旦我们的研究团队提交了 TRACKS 伦理审批申请，我们有一个两层审查系统。

首先，申请将交给两位 TREx 审查员,他们是从一个由研究人员组成的池子里选出来的在图灵研究所和图灵研究员那里工作，他们也是来自英国不同大学的研究人员，他们都是图灵的下属。这两位审稿人负责评估申请表上的答案，对项目提供反馈和建议。

然后两名评审员的评估会提交给TREx小组，这是一个决策机构，由图灵的同事和非图灵的同事组成。TREx小组每年召开六到七次会议，讨论伦理申请并发布批准决定。

项目的伦理决定和反馈会反馈给申请人，TREx小组有几个可能的决定结果。第一种选择是直接批准。所以这是理所当然的。通常是那些没有或很少涉及伦理问题的项目。下一个选项是有条件批准，所以这是针对有一些道德问题的项目，但这些问题可以减轻，只要研究团队把权利和保障措施落实到位。而且，在大多数情况下，从伦理应用中你看到的图灵TREx小组，会同意的要么直接批准，要么有条件批准。

在极少数情况下，如果有特别具有挑战性或道德上复杂的项目，TREx小组可以选择将这些项目升级到组织的首席执行官听取他们的意见和进一步的讨论。简而言之这就是图灵是如何运作的。大卫讨论过的安全原则，TREx过程鼓励研究人员进行批判性的自我反思他们工作的影响和工作是如何进行的。我们坚信将这些原则融入到项目生命周期的每个阶段这将有助于更好的研究，并支持我们的研究人员所做的伟大工作。

Kirstie Whitaker：

大家好我很高兴跟随 David Leslie 教授，和 Victoria Kwan继续演讲。我是 Kirstie Whitaker，我是阿兰·图灵研究所的工具、实践和系统项目主管。我也是TREx小组的主席。 Victoria Kwan 刚刚跟你说过，我在这最后的演讲中要做的是，我希望能帮助你了解我们在开源社区中是如何做到的，是否已经遵循了负责任和道德的人工智能安全原则的实践。让我以一句真正激励我如此关心开源的引言作为开始。阳光是最好的消毒剂。目前我们对人工智能工作流程最大的失望之一是他们的流程是多么不透明。所以，无论是缺乏计算透明度，还是数据的来源，或者决策，或者劳动相关的模型培训，我们会建立一个更好、更安全、更多样化的人工智能生态系统，如果我们把尽可能多的工作和过程公之于众。

我想既然你来了你会同意的这是一个更大胆的声明。我认为开源实践已经可以提供安全道德的人工智能。这里有一点需要注意的是，这取决于你如何定义开源。很明显这也是我们聚集在这里的原因。我很高兴 OSI 为这一深入研究提供了便利，当我们作为一个全球社区进行这些对话时。所以我在这次演讲中要做的是，我要讲一遍安全原则，然后我将展示它们是如何与现有的开源实践相联系的。所以从安全和可持续性开始，我想选一个图像一个季节性的图像。我们录制这段视频的时间是2023年10月，我为这篇文章引用的一句话，你们很多人都已经知道了，那就是，只要有足够的眼球，所有的bug都是肤浅的。这就是莱纳斯法则埃里克·斯蒂芬·雷蒙德在大教堂和集市中收录了它这是自由软件的基本组成部分开源软件的前身。我想说的是，它从一开始就存在，而是让尽可能多的人参与创造一些工具可以更容易地保证它的安全，并向前发展，以满足用户和开发人员的需求。

所以，如果我们在考虑建立一个安全、可持续的开源人工智能的定义，我想说的是，在整个开发流程中，我们需要一个广泛而积极的社区，这将有助于我们保持基础设施更加安全，保持工作的目的与受影响涉众的需求一致。

所以我认为我们在这里做的是比现在的想法更广泛一点，这些实践的实现可能会考虑到用户和开发者，但也许没有必要考虑那些受工作结果影响的人。但我想说的是，实践还是一样的，我们只需要让尽可能多的人参与到这些对话中来。这很好地引导我思考责任问题。我在这里引用的是来自阿帕网的评论请求的历史记录，这是我们现在所熟知的互联网的前身。StephenCrocker 写过当他们第一次开始思考如何建立这样的系统，他们写下了一些想法，并试图强化这些想法。任何人都可以参与改进这些想法。所以，他想要强调这一点，虽然这是书面的，但不是官方的，没有任何决定。

因此，为了确保这一点得到落实，他把笔记标记为请求评论。我现在提出这个问题的原因是，我认为闭源人工智能最大的问题之一是没有文件记录决策是如何做出的，如何建议更改，如何调整模型或工作流的一部分，也许是适应其他语言。工作流程，你知道，整个开发流程，如何改进。重要的是很少有途径可以引起人们的关注我并不是说开源已经解决了责任问题我认为，事实上，没有机构支持这些责任，可能是一个由开源项目带来的挑战。但我认为我们确实有一些很好的解决方案我们通过以下方式异步参与开发 GitHub 或 GitLab 或其他讨论空间。我们有版本控制，我们有征求意见的请求。

我也想大声说出我们正在进行的大量工作，思考促进参与的行为准则来自构建和维护开源工具的不同人群，想想那些不同的群体，他们需要成为这个战略设定的一部分项目决策的一部分，需要考虑公平性。这句话你可能不知道，我希望你和我一样喜欢它。这是我的一个朋友 TeonBrooks 对我说的，他是一名数据科学家，2016年和我一起成为Mozilla的科学研究员。我一直记得它，因为我喜欢我们正在建立的想法，不是为了建立一个非常非常好的多元化委员会，但事实上，为了摆脱多元化委员会，因为我们的每个团队都有不同的代表，我们正在考虑各个层面的公平、多样性、包容性和正义方面的挑战。

在我继续之前，我想快速地大声说出 OSI 的另一个深度我在研究所领导图灵之路项目的团队成员，聚集在一起，他们问了一个问题，谁在构建开源人工智能?所以请一定要看看那段录音我特别自豪的是，我们请到了代表非洲内容版主联盟的玛菲特。我认为在我们目前的人工智能开发工作场所他们的声音是最被边缘化的常非常自豪我们有这样一个伟大的团队，代表了真正构建开源的人们的不同观点，他们是真正在构建人工智能的人，我希望我们能更透明地认可他们作为一个开源的人工智能生态系统。

回到公平的问题上来，我们想要确保开源人工智能能够清晰地交流人工智能模型和工作流程如何在每个层面上考虑公平和正义。我也非常热衷于思考我们如何重新利用已经可用的思维，所以现在已经有一些工具可以用来质疑偏见，帮助人们以一种结构化的方式反思和思考关于数据集中已经存在的偏见。如果开源生态系统继续以互操作的方式构建，然后我们可以重用这些工具，而不是需要为每个单独的项目重新发明轮子。我不想说我们可以把公平外包给一个统计解决方案。

我认为公平很重要，更深刻，我认为这需要大量的人类的反思。但我确实认为我们有可能站在彼此的肩膀上扩展知识和专业技能，它已经通过一个开放和可互操作的生态系统存在。因此，通过共同努力，我希望我们能在拆除和解构偏见方面取得进展，已经融入了我们的系统，融入了我们的世界。这就是我们的概率。这让我想到了可解释性。我在这里引用的这句话在很多演讲中都出现过关于开放科学或科学开源软件，这张幻灯片上可能有些人要喝到经纪结束。所以现在就喝一杯浓缩咖啡吧我会在幻灯片上读到它最后一部分的完整引言。

一篇发表在科学出版物上的关于计算科学的文章并不是学术本身，这不过是宣传奖学金而已。真正的奖学金是完整的软件开发环境以及生成第五个数字的完整指令集。这是来自Donnaho 的 BookHeight 的一篇文章，几年前，但总是走过，回到。所以如果我们考虑可解释性，在我看来，询问工作流的所有方面的能力，开源定义的基础之一，访问源代码，访问数据，想想那些告诉你如何把这两者联系起来的文档并复制我们已经传达的发现。所以我想说，我们目前的开源工作方式，将提高透明度，因此，让我们在通往可解释性的道路上走得更远，因为我们将能够向受人工智能模型影响的人报告关于结果的决定是如何达成的。

我的最后一个要点是关于数据管理，那就是考虑这样一个事实数字资产应该是可查找的、可访问的、可互操作的和可重用的。是一个巨大的区域。我知道还有其他的演讲作为深入研究的一部分，进行了深入的研究，但我确实想大声说出图书馆科学界和其他数据从业人员的出色工作，为非常多样化的生态系统发布了公平原则，确保我们从不同领域的同事那里学习，并确保这些数字资产可以，如它所说，被找到，可访问，可引用和可重复使用。所以我认为开源社区还没有真正深入参与的人工智能生态系统的领域之一是数据管理，因为数据本身是完全公开的，这可能是，也可能不是，实际上，是一个道德决定，所有的数据都是封闭的，因此不是开放的。因此，开源开发者并不一定认为他们有责任去思考这个问题。

我想在这里强调的是元数据标准允许互操作性和透明度，即使数据不能公开提供。很少有元数据不能以合乎道德的方式公开提供。通常保密是出于商业竞争的原因，因此我不认为这符合开源人工智能的定义。他们可以保持数据的封闭，但我不认为保持元数据的私密性是合适的开源的定义。还有一些例子是关于将数据用于防御和安全目的。但是我认为我们需要问一个问题那就是它是否应该是开源的，我不认为我们对开源人工智能的定义需要包括应用程序，那真的只是不是，不是在不应该是开源的。所以我们可以考虑问责制，公平性，可解释性，可重复性，数据创建和管理的方式，作为一种询问我们在人工智能开发管道中所拥有的东西的方式。

我们的目标不是让垃圾进进出出，我们想要的是高质量，道德管理和精心策划的数据进入开源工作流，这将使我们得到一个更有效，更高效的模型本身的输出。我的演讲快结束了，我想留给你们一些关于我们作为一个开源社区需要停止、开始并继续做的事情。因此，我们需要停止将自己视为独立的、不相连的个体和项目。我们需要停止逃避对数据管理的责任，停止逃避对人民的信任，他们受到我们构建或参与构建的工具或模型的影响。

与此相关的是，当我们停止做这些事情时，我们应该开始建立一种问责制，在整个人工智能开发工作场所做出决策，而不仅仅是一个特定的模块，思考该模块如何适应完整的AI工作流程。我们还需要开始显式地连接数据处理职责，有偏见的诉讼报告框架。通过我们建立的工具，真正承担责任，承担责任的所有方式。但重要的是，我希望我们继续透明地工作，继续建立多样化的社区，继续记录治理决策，继续支持维护和基础设施工作，并继续扩大世界范围内的知识获取渠道。

我真的很自豪能成为开源生态系统的一部分，我很高兴能在未来与你们一起倡导它。所以，非常感谢你们来听这些，来参加这个网络研讨会。

我们非常期待你们有任何问题如果你在看节目也可以离线发给我们这段录音，最后我要感谢大家。我的同事，David Leslie 教授，Victoria Kwan ，谢谢大家的聆听。

Kirstie Whitaker

Programme Director for Tools,

Practices and Systems at The Alan Turing Institute