在 Transformers 中使用对比搜索生成可媲美人类水平的文本_每日热门 - 综合 -

当前位置:首页  >  综合  > 正文

在 Transformers 中使用对比搜索生成可媲美人类水平的文本_每日热门

在 Transformers 中使用对比搜索生成可媲美人类水平的文本_每日热门
2023-05-16 23:13:23 来源:哔哩哔哩

1. 引言

自然语言生成 (即文本生成) 是自然语言处理 (NLP) 的核心任务之一。本文将介绍神经网络文本生成领域当前最先进的解码方法 对比搜索 (Contrastive Search)。提出该方法的论文 “A Contrastive Framework for Neural Text Generation” 最初发表于 NeurIPS 2022 ([论文]、[官方实现])。此后, “Contrastive Search Is What You Need For Neural Text Generation” 的作者又进一步证明了对比搜索可以用 现有的语言模型在 16种语言上生成可媲美人类水平的文本 ([论文]、[官方实现])。


(资料图片仅供参考)

[备注]对于不熟悉文本生成的用户,请参阅 此博文 了解更多详情。

2. Hugging Face 对比搜索演示

目前, transformers的 PyTorch 和 TensorFlow 后端均支持对比搜索。你可以在 该 Colab notebook 中根据不同的后端选择相应的部分来探索该方法,文章顶部也有该 notebook 链接。我们还构建了这个不错的 演示应用,用它可以直观地比较对比搜索与其他流行的解码方法 (例如波束搜索、top-k 采样 [3] 以及核采样 [4])。

3. 环境安装

在进行后续实验前,我们要先安装最新的 transformers库,如下:

4. 现有解码方法存在的问题

解码方法可以分为两类: (i) 确定性方法,(ii) 随机方法。下面我们分别对两者进行讨论!

4.1. 确定性方法

确定性方法,如贪心搜索和波束搜索,通过在语言模型输出的所有候选补全词中选择概率最高的词来生成最终文本。然而,正如之前研究 [3][4] 指出的,确定性方法通常会导致 _模型退化_,即生成的文本不自然且包含不必要的重复。

下面,我们看一个用 GPT-2 模型和贪心搜索生成文本的例子。

模型输出:Output:

[备注]我们可以看到,贪心搜索生成的结果中有明显的重复。

4.2. 随机方法

为了解决确定性方法带来的问题,随机方法通过在解码过程中引入随机性来生成文本。常用的两种随机方法是 (i) top-k 采样 [3] 和 (ii) 核采样 (也称为 top-p 采样) [4]。

下面,我们给出用 GPT-2 模型和核采样 (p=0.95) 生成文本的示例。

模型输出:Output:

[备注]虽然核采样可以生成没有重复的文本,但生成文本的语义一致性并不是很好。例如,生成的短语 ‘AI is not journalism’ 与给定的上文即 ‘DeepMind Company’ 不一致。

我们注意到,这种语义不一致的问题可以通过降低温度 (temperature) 来部分解决。然而,降低温度会使核采样更接近贪心搜索,这其实就变成了贪心搜索和核采样之间的权衡。一般来讲,要找到一个既能避免贪心搜索又能避免核采样陷阱的快捷且与模型无关的温度相当有挑战。

5. 对比搜索

本节我们来详细介绍一种新的解码方法, _ 对比搜索_。

5.1. 解码目标

给定前缀文本 ,我们按如下公式选择输出词元 :

上式中,  是语言模型输出概率分布  中 k 个概率最大的候选词元的集合。第一项,即 _模型置信度 (model confidence)_,是语言模型预测的每个候选词元  的概率。第二项, _退化惩罚 (degeneration penalty)_,用于度量  与上文  中每个词元的相异度,其中函数  用于计算每两个词元间的余弦相似度。更具体地说,退化惩罚被定义为  的向量表征  与其上文  中每个词元的向量表征间余弦相似度的最大值。这里,候选词元的向量表征  是在给定  和   的条件下将二者连接起来输入给语言模型,然后由语言模型计算出来的。直观上,如果  的退化惩罚较大意味着它与上文更相似 (在表示空间中),因此更有可能导致模型退化问题。超参数  用于在这两项中折衷。当  时,对比搜索退化为纯贪心搜索。

[备注]在生成输出时,对比搜索同时考虑 (i) 语言模型预测的概率,以保持生成文本和前缀文本之间的语义连贯性; (ii) 与上文的相似性以避免模型退化。

5.2. 使用对比搜索生成文本

下面,我们使用与  第 4.1 节  和  第 4.2 节  中相同的前缀文本 (即 “DeepMind Company is” ),并使用对比搜索生成文本 (取 k=4、)。为了充分展示对比搜索的卓越能力,我们让语言模型生成一个 512词元的 文档,如下:

参数设置如下:

--top_k: 对比搜索中的超参 。

--penalty_alpha: 对比搜索中的超参 。

模型输出:Output:

[备注]我们看到生成的文本质量非常高。整个文档语法流畅,语义连贯。同时,生成的文本也很好地保持了事实的正确性。例如,在第一段中,它正确阐述了 “AlphaGo” 作为 “第一个击败职业围棋选手的程序” 这一事实。

5.3. 对比搜索的结果可视化

为了更好地理解对比搜索的工作原理,我们对贪心搜索 ( 第 4.1 节 ) 和对比搜索进行了直观比较。具体来说,我们分别将贪心搜索和对比搜索生成的词元相似度矩阵可视化。两个词元之间的相似性被定义为它们的向量表征 (即最后一个转换器层的隐藏状态) 之间的余弦相似性。贪心搜索 (上) 和对比搜索 (下) 的结果如下图所示。

[备注]从贪心搜索的结果中,我们看到非对角线的相似度很高,这清楚地表明贪心搜索产生了重复。相反,在对比搜索的结果中,高相似度分数主要出现在对角线上,这证明我们成功解决了退化问题。对比搜索的这一优良特性是通过在解码过程中引入退化惩罚 (参见  第 5.1 节 ) 来实现的。

6. 更多的生成示例

在本节中,我们提供了更多的生成示例来比较不同的解码方法。

6.1. 示例一: GPT-2

在这部分中,我们使用 GPT-2 生成文本,其前缀文本来自 OpenAI 发布 GPT-2 的博客文章。

In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English.

加载语言模型并准备前缀文本:

6.1.1. 使用贪心搜索生成文本

代码:

模型输出:Output:

6.1.2. 使用核采样生成文本

代码:

模型输出:

6.1.3. 使用对比搜索生成文本

代码:

模型输出:

6.2. 示例二: OPT

本节中,我们使用 Meta 最近发布的 OPT 模型 [5],并从著名的 ResNet 论文 [6] 摘要中选取前两个句子来作为前缀文本。

Deeper neural networks are more difficult to train. We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously.

加载语言模型并准备前缀文本:

6.2.1. 使用贪心搜索生成文本

代码:

模型输出:

6.2.2. 使用核采样生成文本

代码:

模型输出:

6.2.3. 使用对比搜索生成文本

代码:

模型输出:Output:

7. 更多资源

有关对比搜索的更多详细信息,请查看我们的论文和代码,如下:

A Contrastive Framework for Neural Text Generation: 论文、官方实现

Contrastive Search Is What You Need For Neural Text Generation: 论文、官方实现

8. 引用

参考文献

[1] Su et al., 2022 “A Contrastive Framework for Neural Text Generation”, NeurIPS 2022[2] Su and Collier, 2022 “Contrastive Search Is What You Need For Neural Text Generation”, Arxiv 2022[3] Fan et al., 2018 “Hierarchical Neural Story Generation”, ACL 2018[4] Holtzman et al., 2020 “The Curious Case of Neural Text Degeneration”, ICLR 2020[5] Zhang et al., 2022 “OPT: Open Pre-trained Transformer Language Models”, Arxiv 2022[6] He et al., 2016 “Deep Residual Learning for Image Recognition”, CVPR 2016

- 本文由 Yixuan Su 和 Tian Lan 撰写

致谢

我们要感谢 Joao Gante (@joaogante)、Patrick von Platen (@patrickvonplaten) 和 Sylvain Gugger (@sgugger),感谢他们在我们将本文中的对比搜索集成进 transformers库的过程中给予的帮助和指导。

英文原文: https://hf.co/blog/introducing-csearch

原文作者: Tian Lan

译者: Matrix Yao (姚伟峰),英特尔深度学习工程师,工作方向为 transformer-family 模型在各模态数据上的应用及大规模模型的训练推理。

审校/排版: zhongdongy (阿东)

标签:

(责任编辑:news01)
就是我有个朋友,前久和一堆人去殴打了一个人,是那个人先说打架的_焦点热议

就是我有个朋友,前久和一堆人去殴打了一个人,是那个人先说打架的_焦点热议

就是我有个朋友,前久和一堆人去殴打了一个人,是那个人先说打架的
05-14 15:48:15
【萍安健康】医生,我40岁了怎么牙齿还在长?

【萍安健康】医生,我40岁了怎么牙齿还在长?

扬州发布记者李晓明众所周知,人的一生有两副牙齿:乳牙和恒牙。恒牙是伴随我们一生的重要咀嚼器官,在完全
05-14 14:25:15
世界速读:期待爱歌词_期待爱歌词列述

世界速读:期待爱歌词_期待爱歌词列述

解答:1、我的生活一直在等待2、空口袋3、想放一份爱进去。4、为什么总是被打败。5、真的很无奈。6、事实上
05-14 13:47:31
每日报道:正式赴任,郭焱正式回归,乒协官宣新职务,爱徒丁宁现身助阵

每日报道:正式赴任,郭焱正式回归,乒协官宣新职务,爱徒丁宁现身助阵

离开国乒,郭焱并没有远离乒乓球,她还是会经常出现在乒乓球比赛的解说当中,而近期,郭焱也是喜提了新职务
05-14 12:27:01
天天关注:今年6月底,郑州全面实施存量房“带押过户”

天天关注:今年6月底,郑州全面实施存量房“带押过户”

5月14日,大河报·豫视频记者从郑州市政府获悉,郑州市印发《郑州市2023年优化营商环境工作要点》,按照要
05-14 11:20:46
建议和预测!追梦:不能让约基奇又得分又助攻 湖人6场晋级

建议和预测!追梦:不能让约基奇又得分又助攻 湖人6场晋级

直播吧5月14日讯今日,追梦更新了自己的播客。谈到西决时,追梦表示:“戴维斯和约基奇的对位将是关键,...
05-14 10:19:52
上海进一步增强产业竞争力 推进无人驾驶车创新应用

上海进一步增强产业竞争力 推进无人驾驶车创新应用

“真的连测试安全员都没有吗?”工作人员挥挥手离开,车门缓缓关上。几秒钟后,这辆主驾、副驾都空着的...
05-14 09:55:10
全球今头条!十连涨!锂价半个月涨近40% 供应商挺价惜售 产业链排产向好

全球今头条!十连涨!锂价半个月涨近40% 供应商挺价惜售 产业链排产向好

【十连涨!锂价半个月涨近40%供应商挺价惜售产业链排产向好】近半个月以来,电池级碳酸锂价格自18万元吨价
05-14 08:51:46
全球热资讯!德甲-格纳布里双响穆勒破门 拜仁6-0沙尔克仍领跑

全球热资讯!德甲-格纳布里双响穆勒破门 拜仁6-0沙尔克仍领跑

久攻之下,拜仁也很快取得进球,第21分钟,萨内禁区中路背身做球,随后分给弧顶的穆勒,后者一脚低射突施冷
05-14 07:37:55
当前聚焦:黑玉断续膏功效和作用_黑玉断续膏

当前聚焦:黑玉断续膏功效和作用_黑玉断续膏

1、截止到2018年为止,没有。2、黑玉断续膏是金庸老先生虚构的。3、有人说“黑玉断续膏”可能是“黑药膏...
05-14 06:17:44
全球通讯!离任审计报告(离任审计)

全球通讯!离任审计报告(离任审计)

1、收支的真实性、合法性和效益性这里的收支,在一级政府可以表现为财政收支,行政部门表现为经费收支,事
05-14 04:11:55
Win10强制推送22H2更新_当前滚动

Win10强制推送22H2更新_当前滚动

IT之家5月13日消息,微软今天发布了关于Windows10版本21H2即将EOS(IT之家注:EndofSupport,结束支持)的重
05-14 01:08:37
炸藕片为什么不脆 炸藕片为什么不脆呢

炸藕片为什么不脆 炸藕片为什么不脆呢

1、太厚的藕片中的水分过多,炸出来就不会太脆。建议将藕片切成0 3厘米厚度,炸出来的藕片会更薄,吃起来更
05-13 22:40:52
为期三天!青城公交推出优惠乘车活动-焦点日报

为期三天!青城公交推出优惠乘车活动-焦点日报

小伙伴们为倡导低碳、环保、健康的出行方式践行绿色出行理念公交推出优惠乘车活动啦NO 1活动时间2023年5月1
05-13 21:11:54
2022年平均工资公布!哪个行业最赚钱?|世界快报

2022年平均工资公布!哪个行业最赚钱?|世界快报

近日,国家统计局发布2022年平均工资数据虽然平均数不能反映个体情况但可以看出就业行情大家找工作时也有一
05-13 19:56:09
51岁已被游客喊了十多年谭爷爷!熊猫饲养员谭金淘“出圈”

51岁已被游客喊了十多年谭爷爷!熊猫饲养员谭金淘“出圈”

51岁已被游客喊了十多年谭爷爷!熊猫饲养员谭金淘“出圈”
05-13 19:44:59
计算机系统时间怎么查询成绩查询考试官方入口等级考试多久可以_当前讯息

计算机系统时间怎么查询成绩查询考试官方入口等级考试多久可以_当前讯息

1、计算机系统时间怎么查询成绩查询2021年9月计算机一级考试时间为9月25日至27日,考生可于考后35个工作日
05-13 18:10:07
卡普空也?《生化危机8》编剧称吸血鬼夫人是女同_热资讯

卡普空也?《生化危机8》编剧称吸血鬼夫人是女同_热资讯

近日,《生化危机:村庄》编剧AntonyJohnston于LGBT网站PinkNews发文表示,游戏中的吸血鬼迪米特雷斯库夫人
05-13 17:10:37
全球观焦点:推动招投标领域营商环境持续优化

全球观焦点:推动招投标领域营商环境持续优化

今年以来,宣城市坚持目标导向、问题导向,聚焦优化营商环境全过程管理,在能力提升、技术应用、制度建设、
05-13 16:10:43
Shams:若勇士决定缩减支出 普尔是最可能被送走的人选|天天新要闻

Shams:若勇士决定缩减支出 普尔是最可能被送走的人选|天天新要闻

Shams:若勇士决定缩减支出普尔是最可能被送走的人选,普尔,勇士,湖人,shams
05-13 15:20:58
北京青年政治学院师生在2023年北京市高职院校技能大赛“健康养老照护”赛项获佳绩

北京青年政治学院师生在2023年北京市高职院校技能大赛“健康养老照护”赛项获佳绩

5月9日,2023年北京市高职院校技能大赛(高职组)“健康养老照护”赛项在北京劳动保障职业学院成功举办...
05-13 14:12:27
坚守耕地保护红线 当前头条

坚守耕地保护红线 当前头条

自然资源部日前称,2022年度全国国土变更调查初步数据显示,2022年全国耕地净增130万亩,是继2021年全国耕地总
05-13 13:04:56
全球新消息丨2023年哪些才是稀有金属上市公司龙头?(5月13日)

全球新消息丨2023年哪些才是稀有金属上市公司龙头?(5月13日)

2023年哪些才是稀有金属上市公司龙头?(5月13日),稀有金属上市公司龙头有:章源钨业:稀有金属龙头。5月1
05-13 11:57:27
掌握校园必备急救技能 “120急救大课堂”走进北京市少年宫 环球观天下

掌握校园必备急救技能 “120急救大课堂”走进北京市少年宫 环球观天下

点击图片查看视频央视网消息:2021年,教育部等五部门下发了《关于全面加强和改进新时代学校卫生与健康教育
05-13 11:34:45
掌握校园必备急救技能 “120急救大课堂”走进北京市少年宫|每日时讯

掌握校园必备急救技能 “120急救大课堂”走进北京市少年宫|每日时讯

央视网消息:2021年,教育部等五部门下发了《关于全面加强和改进新时代学校卫生与健康教育工作的意见》,其
05-13 10:41:22
2023年上海科技节将于5月20日-31日举办

2023年上海科技节将于5月20日-31日举办

2023年上海科技节将于5月20日-31日举办:据上海市科委消息,2023年上海科技节将于5月20日-31日举办,主题是
05-13 09:42:57
尾气处理股龙头:A股尾气处理龙头3强名单(5/12)

尾气处理股龙头:A股尾气处理龙头3强名单(5/12)

尾气处理股龙头:A股尾气处理龙头3强名单(5 12),尾气处理概念股有国瓷材料、中国汽研、齐翔腾达、威孚高
05-13 09:04:56
肥西设立为企服务警务室护企促发展

肥西设立为企服务警务室护企促发展

原标题:肥西设立为企服务警务室护企促发展本报讯今年以来,安徽省合肥市肥西县公安局深入贯彻落实《安徽省
05-13 08:14:56
环球快资讯:奥尼尔:我可能不会去执教 但我想成为佛罗里达一支球队的老板

环球快资讯:奥尼尔:我可能不会去执教 但我想成为佛罗里达一支球队的老板

奥尼尔:我可能不会去执教但我想成为佛罗里达一支球队的老板,嘻哈,热火队,nba,佛罗里达,美国篮球,帕特-莱利
05-13 07:11:16
全球热文:气排球技巧扣球步伐_气排球技巧

全球热文:气排球技巧扣球步伐_气排球技巧

1、首先要掌握好起跳的时间,要在你起跳的最高点去击打球的中上部,手掌要包住球,用力向下带腕。2、其次起
05-13 07:00:43

为您推荐

精彩推送