- 大模型应用开发极简入门:基于GPT-4和ChatGPT(第2版)
- (比)奥利维耶·卡埃朗 (法)玛丽-艾丽斯·布莱特
- 270字
- 2025-05-07 12:20:58
1.2.2 GPT-2
2019 年初,OpenAI提出了 GPT-2。这是 GPT-1 的一个扩展版本,其参数量和训练数据集的规模大约是 GPT-1 的 10 倍。这个新版本的参数量为 15 亿,训练文本数据量为 40 GB。2019 年 11 月,OpenAI发布了完整版的 GPT-2 模型。
GPT-2 是公开可用的,可以从 Hugging Face 或 GitHub 下载。
GPT-2 表明,使用更大的数据集训练更大的语言模型可以提高语言模型的任务处理能力,并使其在许多任务中超越已有模型 4。它还表明,更大的语言模型能够更好地处理自然语言。
4 OpenAI于 2020 年发布论文“Scaling Laws for Neural Language Models”。该论文探讨了基于 Transformer 架构的语言模型的性能如何随着模型大小、数据集规模和训练计算量的增加而变化,发现了模型性能与这些因素之间的幂律关系。——译者注