焦点滚动:OpenAI炸裂研究：AI解释AI黑箱 - 综合 -

首页

政策动态

行业资讯

行业动态

产业会展

智能制造

商业服务

国际贸易

高端装备

科技金融

综合

当前位置：首页 > 综合 > 正文

焦点滚动:OpenAI炸裂研究：AI解释AI黑箱

焦点滚动:OpenAI炸裂研究：AI解释AI黑箱

2023-05-15 11:22:09 来源：清元宇宙

小大

来源：Founder Park

(相关资料图)

作者：Founder Park

就算在新产品满天飞，商业文明正在被AI重建的当下，我们仍然不知道，这些令人惊叹的技术是如何运作的。

AI，语言模型，它是个黑箱（black box），人类无法理解，我们甚至不知道怎样研究才能够理解。

但如果，研究这个黑箱的不是人类，而是AI自己呢？

这是一个令人好奇但又非常危险的想法。因为你甚至不知道，这一研究方法产生的结果，是否会彻底颠覆多年来人类对人脑和AI的理解。

但是有人这样做了。几小时前，OpenAI发布了最新的研究成果，他们用GPT-4解释GPT-2的行为，获得了初步的成果。

毫不夸张地说，人们震惊极了：「求求你们让它离觉醒远点吧！」

「AI理解AI，然后很快，AI训练AI，然后再过几年，AI创造新的AI。」

但客观来说，学术界为之感到兴奋：「疯了，OpenAI刚刚搞定了可解释性问题。」

01

人与机器之间是

GPT-4

OpenAI 刚刚在官网发布博客文章《语言模型可以解释语言模型中的神经元》（Language models can explain neurons in language models）。

简单来说，他们开发了一个工具，调用GPT-4来计算出其他架构更简单的语言模型上神经元的行为，这次针对的是GPT-2，发布于4年前的开源大模型。

大模型（LLM）和人脑一样，由「神经元」（neurons）组成，这些神经元会观察文本中的特定规律，进而影响到模型本身生产的文本。

举例来说，如果有一个针对「漫威超级英雄」的神经元，当用户向模型提问「哪个超级英雄的能力最强」时，这个神经元就会提高模型在回答中说出漫威英雄的概率。

OpenAI开发的工具利用这种规则制定了一套评估流程。

开始之前，先让GPT-2运行文本序列，等待某个特定神经元被频繁「激活」的情况。

然后有三个评估步骤：

第一步，让GPT-4针对这段文本，生成解释。比如在下面的案例中，神经元主要针对漫威内容。GPT-4接收到文本和激活情况后，判断这与电影、角色和娱乐有关。

第二步，用GPT-4模拟这个GPT-2的神经元接下来会做什么。下图就是GPT-4生成的模拟内容。

最后一步，对比评估打分。对比4代模拟神经元和2代真实神经元的结果，看GPT-4猜的有多准。

通过这样的方法，OpenAI对每个神经元的行为作出了初步的自然语言解释，并对这种解释和实际行为的匹配程度进行了评分。

最终他们对GPT-2中307200个神经元全部进行了解释，这些解释汇编成数据集，与工具代码一起在GitHub上发布。

02

超越语言的机器

人类无法理解的机器

据 OpenAI 在博客文章中表示，目前GPT-4生成的解释还不完美，尤其要解释比GPT-2更大的模型时，表现效果很差，「可能是因为后面layer更难解释」。

对于GPT-2解释的评分大多也非常低，仅有1000个左右的解释获得了较高的评分（0.8 以上）。

OpenAI可拓展对齐团队的Jeff Wu表示，「大多数解释的得分很低，或者无法解释实际神经元那么多的行为。比如，许多神经元以一种难以判断的方式保持活跃，它们在五六件事上保持激活，但却没有可以辨别的模式。有时候存在明显的模式，但 GPT-4 有无法找到它。」

虽然现阶段成绩不好，但是OpenAI却比较有信心，他们认为可以使用机器学习的方式提高GPT-4产出解释的能力。

比如通过反复产出解释，并根据激活情况修改解释；或者使用更大的模型作出解释；以及调整解释模型的结构等等。

OpenAI还提到，这一方法目前还有很多局限性。

使用简短的自然语言进行解释，也许并不匹配神经元可能非常复杂的行为，不能简洁地进行描述。神经元可能会具备多个不同概念，也可能，会具备一个人类没有语言描述甚至无法理解的概念。

最终OpenAI希望能够自动化找到并解释能够实现复杂行为的整个神经回路，而目前的方法只解释了神经元的行为，并没有涉及下游影响。

解释了神经元的行为，但没有解释产生这种行为的机制。这意味着即使是拿了高分的解释，也只能描述相关性。

整个过程是计算密集型的。

在论文中，OpenAI表示：「语言模型可能代表了人类无法用语言表达的陌生概念。这可能是因为语言模型关心不同的事情，比如统计结构对下一个token预测任务有用，或者因为模型已经发现了人类尚未发现的自然的抽象，例如在不同领域的类似概念家族。」

它把LLM的这种属性，称为Alien Feature，在生物领域翻译为「异类特征」。

Founder Park微信后台回复「解释神经元论文」，获取论文链接和中英对照PDF链接（机翻）。

03

把对齐问题

也交给AI

「我们正试图开发预测『AI系统会出现什么问题』的方法，」OpenAI可解释性团队负责人 William Saunders对媒体说，「我们希望能够真正做到，让这些模型的行为和生产的回答是可以被信任的。」

Sam Altman也转发博客文章称：GPT-4对GPT-2做了一些可解释性工作。

可解释性（interpretability）是机器学习的研究子领域，指的是对模型的行为有清晰的理解和对模型结果的理解能力。

简单来说，目的就是解释机器学习模型「如何做到」（how）。

2019 年开始，可解释性成为机器学习的重要领域，相关研究有助于开发人员对模型进行优化和调整。针对当下AI模型大规模应用时，亟需解决的可信度（trust）、安全性（safety）和决策参考（decision making）等问题。

如果我们不知道AI是如何作出决策的，始终把它当做一个黑箱，那么就算AI 在各种场景下表现得再完美，也无法解决部分人类的信任问题。

OpenAI这次使用GPT-4来解决可解释性的问题，就是希望能够使用自动化的方式，让机器完成AI研究。

「这是我们对齐研究的第三支柱的一部分：我们希望自动化对齐研究。令人期待的是，这一方向能让它（对齐）与AI发展的步伐相匹配。」

在 2022 年夏天，OpenAI 曾发布文章《我们做对齐研究的方法》（Our approach to alignment research）。

文中提到，宏观来看，OpenAI的对齐研究将由三大支柱支撑：

1、利用人工反馈训练AI

2、训练AI系统协助人类评估

3、训练AI系统进行对齐研究

「语言模型非常适合自动化对齐研究，因为它们通过阅读互联网『预装』了大量有关人类价值观的知识和信息。开箱即用，它们不是独立代理，因此不会在世界上追求自己的目标。」

04

太快了

连认知都规范革命了

虽然OpenAI本意很好，但是这样的研究成果着实吓坏了网友。

OpenAI的推文下梗图横飞，有不少人在认真地建议OpenAI搞慢点。

「用我们不理解的东西，解释另一个我们不理解的东西，这合理吗？」

「护栏都被你撤了」

「这太迷人了，但也让我感到极度不适。」

「自然创造了人类来理解自然。我们创造了GPT-4来理解自己。」

「我们要怎么判断解释者是好的？这就像... 谁监督着监督者？」（who watches the watchers)

还有人看到了更深的一层：

「大模型很快就能比人类更好地解释他们自己的思维过程，我想知道我们未来要创造多少新的词汇，来描述那些AI发现的概念（概念本身也不准确）？我们还没有一个合适的词描述它们。或者，我们是否会觉得这些概念有意义？它们又能教会我们如何认识自己呢？」

另一网友回应道：「人类本身对自己行为的解释，大多是谎言、捏造、幻觉、错误的记忆、事后推理，就像AI一样。」

本文首发于公众号：Founder Park 如需转载请联系微信：geekparker

排版：骆伟玲

图片源于Q仔互联网冲浪所得，若有侵权，后台联系，Q仔滑跪删除~

清博旗下的产品大多开放免费试用权限，想体验我们的产品，欢迎咨询~

对咱们文章有兴趣或者有意见的朋友也可以扫码勾搭Q仔哦~

想找到志同道合，相互学习进步的朋友，欢迎大家扫码进群~

转载/品牌/媒体合作

产品客服答疑

未来派对(群)

标签：

(责任编辑：news01)

我国汽车产销4月同比大幅增长出口有望成为全球第一天天简讯

我国汽车产销4月同比大幅增长出口有望成为全球第一天天简讯

中新网5月11日电(中新财经葛成)11日，中汽协发布汽车产销数据。2023年4月，汽车产销分别完成213 3万辆和2

05-11 22:21:26

河南师范大学：组织“与青年面对面”交流会调研难题

河南师范大学：组织“与青年面对面”交流会调研难题

“欢迎同学们提出建议。”近日，河南师范大学组织“与青年面对面”交流会，党委书记、校长王宗敏和学校...

05-11 19:12:22

第五届中国生命电子学术年会在南海举办通讯

第五届中国生命电子学术年会在南海举办通讯

佛山新闻网讯佛山市新闻传媒中心记者毛蕾通讯员赵亮晶报道：5月10日，第五届中国生命电子学术年会在南海区

05-11 18:07:28

素描球体怎么画才有立感圆阴影排线_每日资讯

素描球体怎么画才有立感圆阴影排线_每日资讯

1、素描球体怎么画素描的工具种类很多，如石笔、炭笔、铁笔、粉笔、毛笔、铅笔和钢笔等；也有用钻子和金钢

05-11 17:16:56

济宁请律师是先给钱还是后给钱当前热讯

济宁请律师是先给钱还是后给钱当前热讯

1、请律师是先给钱的。正常委托是先支付和办理委托程序。如果是风险代理人，首先要办理手续，等待胜诉后再

05-11 16:52:12

波音为美国空军赢得2.16亿美元的改装合同焦点关注

波音为美国空军赢得2.16亿美元的改装合同焦点关注

格隆汇5月11日丨波音已经获得了一份约2 16亿美元的修改合同(P00013)，用于先前授予的ID IQ合同FA8526-21-D-

05-11 16:23:15

湖南农业银行招聘官网2023,农行招聘2023年春季招聘

湖南农业银行招聘官网2023,农行招聘2023年春季招聘

本文内容是由小编为大家搜集关于湖南农业银行招聘官网2023，以及农行招聘2023年春季招聘的资料,整理后发布

05-11 15:58:22

速读：必修三物理教学工作计划(推荐7篇)

速读：必修三物理教学工作计划(推荐7篇)

必修三物理教学工作计划第1篇一、学生基本情况分析：本学期，我所教的班级是高三(4)、(5)，这两个班虽是重

05-11 15:36:20

世界动态:“金字招牌”成色更足中国品牌迈向高质量发展

世界动态:“金字招牌”成色更足中国品牌迈向高质量发展

5月10日是“中国品牌日”。品牌是高质量发展的重要象征，加强品牌建设是满足人民美好生活需要的重要途径...

05-11 14:52:28

热门看点：武汉长江新区平安苑社区举办“512防灾减灾”主题宣传活动

热门看点：武汉长江新区平安苑社区举办“512防灾减灾”主题宣传活动

极目新闻记者张扬通讯员杜珊珊在全国第15个“防灾减灾日”到来之际，武汉市长江新区谌家矶街道平安苑社...

05-11 14:31:45

最新资讯：喜茶回应“被列入失信被执行人”：纠纷与喜茶无关已向法院申请取消

最新资讯：喜茶回应“被列入失信被执行人”：纠纷与喜茶无关已向法院申请取消

针对被列为失信被执行人一事，喜茶方面回应称，该案件为喜茶广州一门店业主方与第三方的纠纷，纠纷本身与喜

05-11 13:46:02

4月银行存款利率报告出炉，中小行利率下调空间较大

4月银行存款利率报告出炉，中小行利率下调空间较大

从各类银行过去一年的存款利率调整情况来看，大型国有银行存款利率下调幅度较大，且去年9月份利率下调之后

05-11 13:06:21

早盘收盘，国内期货主力合约多数下跌，沪镍跌超4%，棕榈油跌超3%，纯碱、豆油、工业硅跌超2%。涨幅方面，橡胶涨近1%

早盘收盘，国内期货主力合约多数下跌，沪镍跌超4%，棕榈油跌超3%，纯碱、豆油、工业硅跌超2%。涨幅方面，橡胶涨近1%

早盘收盘，国内期货主力合约多数下跌，沪镍跌超4%，棕榈油跌超3%，纯碱、豆油、工业硅跌超2%。涨幅方面，橡

05-11 12:34:10

阿斯利康中金医疗产业基金完成对云检医学B1轮的独家投资|环球即时看

阿斯利康中金医疗产业基金完成对云检医学B1轮的独家投资|环球即时看

2022年8月19日云检医学集团（以下简称“云检医学”）宣布，阿斯利康中金医疗产业基金完成对公司B1轮的独...

05-11 11:53:26

交往半年多被骗 14 万，网恋“女友”竟是男同事

交往半年多被骗 14 万，网恋“女友”竟是男同事

男子黄某假借给同事小周介绍 "女朋友 "之名，自己另外在聊天软件注册小号冒充该 "女友 "，哄骗小周...

05-11 11:34:58

睡个好觉泰国进口乳胶：网易严选天然乳胶枕69元起抄底大促

睡个好觉泰国进口乳胶：网易严选天然乳胶枕69元起抄底大促

纯天然乳胶，90%-93%乳胶含量，泰国原装进口。网易严选旗舰店，网易严选乳胶枕售价129元起，可领限量60元券

05-11 11:06:45

【环球播资讯】上海人注意：医保个人账户里的钱这样用，不再有金额限制！会被钻空子吗？

【环球播资讯】上海人注意：医保个人账户里的钱这样用，不再有金额限制！会被钻空子吗？

对于常跑药房的上海市民来说用个人医保账户资金购买时不管是非处方药还是处方药都会受到一些限制比如药品品

05-11 10:34:26

北京部分地铁站将实施高低峰差异化换乘|全球焦点

北京部分地铁站将实施高低峰差异化换乘|全球焦点

地铁站内换乘时间有望进一步缩短。记者昨天从北京地铁公司获悉，今年北京地铁将按照“减少乘客走行时间...

05-11 10:24:23

驻马店火车站“全国巾帼文明岗驿路情深”服务台助力重点旅客温馨出行_世界时讯

驻马店火车站“全国巾帼文明岗驿路情深”服务台助力重点旅客温馨出行_世界时讯

全媒体记者张勇通讯员柴刚“我听说驻马店火车站有个爱心服务台,便试着联系了,没想到你们的服务这么好,这...

05-11 09:52:41

爱心送到天山脚下_快看点

爱心送到天山脚下_快看点

5月10日，无锡明慈心血管病医院的心血管病专家在为参加筛查的儿童进行诊断。当日，由中国红十字基金会组织

05-11 09:40:21

电脑出现不明声音_电脑无缘无故出现声音

电脑出现不明声音_电脑无缘无故出现声音

1、可能出现的几大原因如下：1 后台的流氓软件，像最近的一些网页游戏，旗帜广告，甚至是商城广告这类的都

05-11 09:13:23

网络诈骗2000元犯法吗_独家焦点

网络诈骗2000元犯法吗_独家焦点

网络诈骗2000元不犯法，不构成诈骗罪，一般需要承担民事责任，诈骗罪的立案条件是个人诈骗公私财物价值三千

05-11 08:35:47

苏鎏的全部小说下载_苏鎏的全部小说-今日快看

苏鎏的全部小说下载_苏鎏的全部小说-今日快看

1、《入骨》作者:苏鎏【片段】：袁沐好心提醒他：“要不要帮您配备两名保镖。2、”“不用。3、”他不可...

05-11 07:39:36

一生只爱你电视剧剧情_该剧是什么故事|天天新资讯

一生只爱你电视剧剧情_该剧是什么故事|天天新资讯

1、1974年的一个晚上，河北定县“东风艺术团”下乡演出。16岁的青年女演员石小青认识了比她大两岁、会吹...

05-11 06:53:30

霸气一点的网名很特别_霸气一点的网名很特别有哪些

霸气一点的网名很特别_霸气一点的网名很特别有哪些

霸气一点的网名很特别，霸气一点的网名很特别有哪些很多人还不知道，现在让我们一起来看看吧！1、名字~快来

05-11 06:14:52

盈米基金致歉：目前提供的基金投顾服务仅针对场外公募投资

盈米基金致歉：目前提供的基金投顾服务仅针对场外公募投资

就今日已入职投顾机构大V的“乌龙”操作导致场内基金逼近涨停事件，盈米基金在旗下公号“且慢管家”发文...

05-11 04:43:06

2023年第一批国推鉴定承担机构能力确认范围公布_天天即时看

2023年第一批国推鉴定承担机构能力确认范围公布_天天即时看

关于公布2023年第一批国家支持的农业机械推广鉴定承担机构能力确认范围的通知农机化总站〔2023〕72号各有关

05-11 02:08:45

珍稀植株异地“安”新家重庆银杉首次落户四川-每日时讯

珍稀植株异地“安”新家重庆银杉首次落户四川-每日时讯

5月9日，在四川生物多样性保护最具标志性的地方峨眉山，两株来自重庆武隆的当地珍稀植物银杉，正式赠与四川

05-10 23:48:05

环球报道:萝卜干怎么泡才好吃?

环球报道:萝卜干怎么泡才好吃?

第一步：首先我们准备好晒好的萝卜干，第二步：把晒好的萝卜干，加入清水泡开（大约泡2个小时左右即可），

05-10 22:20:27

货币市场日报：5月10日天天播报

货币市场日报：5月10日天天播报

10日资金面整体均衡，隔夜Shibor续跌13BP，与7天期品种利差继续扩大至80BP。银行间质押式回购市场DR001回落

05-10 21:24:33

为您推荐

焦点滚动:OpenAI炸裂研究：AI解释AI黑箱

南台元以太弱碱酒：白酒中的古董，传承历史文化

世华科技：公司本次定增已取得中国证监会批复，后续将在规定时间内完成发行

京东白条借款逾期九年多久会上征信|环球视讯

环球热资讯！过亿资产与妻子无关？莫将全职太太与免费保姆划等号

外汇交易提醒：担忧情绪助推美元续涨，英银加息预期和经济前景改善，英镑有望企稳反弹_独家

郑州流感疫苗预约平台有哪些（郑州流感疫苗在哪里预约）

广发中证稀有金属ETF净值下跌2.23% 请保持关注

环球热消息：茄子和“它”才天生一对，延缓衰老预防高血压，我家常吃比肉还香

当前信息：塞下曲王昌龄翻译（塞下曲王昌龄）

【环球时快讯】微信身份证实名认证_微信身份证

全球快资讯：花生黑斑病

【聚看点】怎么制作网页页面_怎么制作网页

即时：名臣健康04月18日被深股通减持10.62万股

东营p2p律师收费明细

身体语言真有那么神奇吗？

观点：万吨级海上油气平台下半年投产将为我国经济社会发展注入新动力

环球微速讯：北京发布雷雨蓝色预警，7级短时大风！随后高温，明后天或冲35℃——

就是我有个朋友，前久和一堆人去殴打了一个人，是那个人先说打架的_焦点热议

【萍安健康】医生，我40岁了怎么牙齿还在长?

世界速读：期待爱歌词_期待爱歌词列述

每日报道：正式赴任，郭焱正式回归，乒协官宣新职务，爱徒丁宁现身助阵

天天关注：今年6月底，郑州全面实施存量房“带押过户”

建议和预测！追梦：不能让约基奇又得分又助攻湖人6场晋级

上海进一步增强产业竞争力推进无人驾驶车创新应用

全球今头条！十连涨！锂价半个月涨近40% 供应商挺价惜售产业链排产向好

全球热资讯！德甲-格纳布里双响穆勒破门拜仁6-0沙尔克仍领跑

当前聚焦：黑玉断续膏功效和作用_黑玉断续膏

全球通讯！离任审计报告（离任审计）

Win10强制推送22H2更新_当前滚动

精彩推送

文章放送