ChatGPT相关论文总结 | Aryue的个人博客

type

status

date

slug

summary

总览

随着 ChatGPT 为首的大型语言模型逐渐进入公众视野，其应用领域之广、影响范围之大前所未有。不仅是因为其解决问题的能力超越了以往的所有大型语言模型，而且在解决一些以往并不属于大型语言模型负责管辖的领域中的问题上，也表现出了惊人的效果。

虽然笔者主攻研究方向是人机交互与游戏开发领域，但对近期出现的 ChatGPT 相关技术非常感兴趣，因此在此总结了一些 ChatGPT 相关的论文。

前言

要对科学论文进行分析，需要采用科学的研究方法。在后文中，我们会详细介绍每篇论文的具体研究内容。在此之前，我们将采用“论文十问”的形式，先罗列出论文要解决的核心问题、研究意义、研究贡献等，以便读者快速浏览，并找到感兴趣的研究。

论文十问

论文十问由沈向洋博士提出，鼓励大家带着这十个问题去阅读论文，用有用的信息构建认知模型。十个问题具体罗列如下：

论文试图解决什么问题？

这是否是一个新的问题？

这篇文章要验证一个什么科学假设？

有哪些相关研究？如何归类？谁是这一课题在领域内值得关注的研究员？

论文中提到的解决方案之关键是什么？

论文中的实验是如何设计的？

用于定量评估的数据集是什么？代码有没有开源？

论文中的实验及结果有没有很好地支持需要验证的科学假设？

这篇论文到底有什么贡献？

下一步呢？有什么工作可以继续深入？

ChatGPT Competition: Character-like Level Generation for Science Birds

论文十问

论文试图解决什么问题？

❓

本论文介绍了ChatGPT4PCG竞赛，旨在挑战参与者创建有效的提示词，以便ChatGPT生成具有高稳定性和字符样式（Character-like）的Science Birds关卡。该竞赛旨在激发提示工程的热情，并为参与者提供一个展示他们创造力和提示工程技能的平台。

这是否是一个新的问题？

❓

本文介绍了第一届ChatGPT4PCG竞赛，该竞赛旨在挑战参赛者创建有效的提示，以便ChatGPT生成具有高稳定性和字符样式的Science Birds游戏关卡。这是一个新颖的问题，因为它涉及到使用自然语言处理技术来生成游戏关卡，同时还需要考虑游戏关卡的稳定性和相似性。

这篇文章要验证一个什么科学假设？

❓

该论文介绍了一个新的竞赛，旨在挑战参与者创建有效的提示，以便ChatGPT生成具有高稳定性和字符样式的Science Birds关卡。该竞赛旨在激发提示工程的热情，并为参与者提供一个展示他们创造力和提示工程技能的平台。因此，该论文主要介绍和推广这个竞赛，而不是验证任何特定的科学假设。

有哪些相关研究？如何归类？谁是这一课题在领域内值得关注的研究员？

❓

这篇论文的”Related Work“中，主要介绍了三个领域的相关研究，如下：

Prompt Engineering 提示工程相关研究

PCG相关研究

Science Bird相关研究

在这个领域内值得关注的研究员有很多，其中一些包括Ian Goodfellow、Yoshua Bengio、Geoffrey Hinton等人。他们是深度学习和自然语言处理领域的知名专家，也在游戏设计领域做出了一定的贡献。此外，在游戏设计领域还有许多其他值得关注的研究员，例如Michael Mateas、Noah Wardrip-Fruin等人。

论文中提到的解决方案之关键是什么？

❓

本论文提出的解决方案的关键在于使用ChatGPT生成具有高稳定性和类字符样式的Science Birds关卡。为了实现这个目标，参赛者需要设计有效的提示，以便ChatGPT能够生成符合要求的游戏关卡。因此，提示工程是这个解决方案的关键所在。此外，该论文还提到了一些与提示工程相关的技术和模式，例如InstructGPT中使用的对齐技术和White等人提出的六种提示模式。这些技术和模式也是实现这个解决方案的关键所在。

论文中的实验是如何设计的？

❓

这篇论文介绍了两个实验，分别是使用样本提示和修改后的提示生成Science Birds关卡。这些实验旨在评估参赛者设计的提示的有效性和ChatGPT生成的游戏关卡的质量。

在第一个实验中，参赛者可以使用提供的样本提示或创建自己的提示来生成游戏关卡。然后，评估人员将评估这些游戏关卡的质量，并将结果与使用随机提示生成的游戏关卡进行比较。

在第二个实验中，参赛者需要修改样本提示并使用修改后的提示来生成游戏关卡。然后，评估人员将评估这些游戏关卡的质量，并将结果与使用原始样本提示和随机提示生成的游戏关卡进行比较。

在两个实验中，评估人员使用了一些指标来评估游戏关卡的质量，例如稳定性、相似性等。同时，他们还对参赛者设计的提示进行了分析，并提出了一些有用的建议和反馈。

用于定量评估的数据集是什么？代码有没有开源？

❓

这篇论文中使用的数据集是一个开源的字母识别数据集，包含26个大写英文字母的图像。该数据集共有10,000张训练图像和1,000张测试图像，用于训练和测试模型。这个数据集可以用于定量评估生成的游戏关卡的质量。

论文中的实验及结果有没有很好地支持需要验证的科学假设？

❓

这篇论文的实验和结果可以很好地支持需要验证的科学假设。具体来说，该论文的主要假设是：使用ChatGPT生成具有高稳定性和类似角色特质的Science Birds关卡是可行的，并且提示工程是实现这个目标的关键所在。

通过实验，该论文证明了使用ChatGPT生成游戏关卡是可行的，并且提示工程对于生成高质量游戏关卡非常重要。此外，该论文还提出了一些有用的技术和模式，例如InstructGPT中使用的对齐技术和White等人提出的六种提示模式。这些技术和模式可以帮助研究人员更好地设计有效的提示，并生成更高质量的游戏关卡。

因此，该论文中的实验和结果可以很好地支持需要验证的科学假设，并为相关领域的研究提供了有价值的参考。

这篇论文到底有什么贡献？

❓

这篇论文的主要贡献在于提出了一种使用 ChatGPT 生成具有高稳定性和类字符样式的 Science Birds 关卡的解决方案，并探索了提示工程在这个解决方案中的重要性。具体来说，该论文的贡献包括：

提出了一种使用 ChatGPT 生成游戏关卡的解决方案，为游戏关卡生成领域提供了新思路和新方法。

探索了提示工程在使用 ChatGPT 生成游戏关卡中的重要性，并提出了一些有用的技术和模式，例如 InstructGPT 中使用的对齐技术和 White 等人提出的六种提示模式。

通过实验验证了该解决方案的可行性，并证明提示工程对于生成高质量游戏关卡非常重要。

提供了一个开源数据集和在线模型网页，可以帮助其他研究人员重现实验结果并进行进一步研究。

因此，这篇论文为游戏关卡生成领域提供了有价值的思路、方法和实验结果，并为相关领域的研究做出了贡献。

下一步呢？有什么工作可以继续深入？

❓

在这篇论文的基础上，可以进行以下一些工作来进一步深入研究：

探索更多的提示模式和技术，以提高生成游戏关卡的质量和稳定性。

尝试使用其他类型的游戏或任务来评估ChatGPT生成游戏关卡的效果，并比较不同模型和方法之间的性能差异。

研究如何将ChatGPT生成的游戏关卡与其他PCG方法相结合，以进一步提高生成结果的质量和多样性。

探索如何使用ChatGPT生成具有更高复杂度和多样性的游戏关卡，例如包含不同类型障碍物、敌人、道具等元素的游戏。

研究如何将ChatGPT应用于其他领域，例如自然语言处理、对话系统等。

总之，这篇论文提出了一个新颖且有前途的解决方案，并为相关领域提供了有价值的思路和方法。未来可以在此基础上继续深入研究，并探索更多有趣而实用的应用场景。

:::

论文具体内容

研究者做的视频演示：

Intro to ChatGPT4PCG Competition @ IEEE CoG 2023

For more information on this competition, please see https://chatgpt4pcg.github.io/

https://youtu.be/9AJhqIkDbxs

Introduction-研究意义阐述

大型语言模型（后文统称LLM）涌现出了在小型语言模型中前所未有的能力，Jason Wei在论文中论述，一旦LLM的参数突破一定阈值，它们就可以在没有明确训练的情况下涌现出新的能力。这些能力在各种领域得到了应用，比如机器人控制、游戏对话生成等。

因此，受这些研究的启发，作者想进一步研究ChatGPT在PCG中的应用。他们选择了“Science Bird”作为评估平台，它是《愤怒的小鸟》的一个复刻版本。选择这个游戏的原因是，类似于《愤怒的小鸟》这样的游戏，关卡生成是一项有挑战性的任务，需要生成具有良好重量分布的关卡。他们设计了一个具体的挑战，参赛者需要使用ChatGPT生成一个英文大写字母的关卡形状（类似于右侧的图），为此需要仔细设计提示词。

ChatGPT4PCG比赛

大量篇幅介绍，但本质上是提示工程，流程如下：

上图就是比赛方设置的初始提示词，用来引导参赛选手，选手们据此进行修改，编写更加有效的提示词。

目标就是生成A-Z，26个大写英文字母，根据每个字符生成的相似性和稳定性，使用自动化脚本进行评估。

比如右图，生成了一个字母I。

稳定性评价

简单来说，稳定性就是生成的结果容不容易倒塌，因为实验平台本来就是个有重力要素的游戏。相似性评估，则使用图像处理的方法，判断生成结果和26个大写英文字母相似度。

Sample Prompt（提示词案例）

这部分内容用来介绍，论文中如何确定初始提示词、参赛者如何修改提示词以及最后的结果

提示结构指令-定义-环境-工具

参赛者对提示词有哪些修改

哪些字母的生成结果最好

结论和未来工作

如下图，结果证明，初始提示词的v1修改版生成结果最好，即把有关关卡稳定性的提示词部分删除。

Emergent Abilities of Large Language Models

Transactions on Machine Learning Research (TMLR), 2022