OPT: Open Pre-trained Transformer

tags: Transformers, GPT, NLP
paper: (Zhang et al. 2022)

Architecture

It is the same architecture as GPT-3 but with some training improvements from Megatron.

Parameter count

175B

Bibliography

Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, et al.. June 21, 2022. "OPT: Open Pre-trained Transformer Language Models". arXiv. http://arxiv.org/abs/2205.01068.

Links to this note

BlenderBot 3

Last changed 27/07/2022 | authored by Hugo Cisneros

Comments

← Back to Notes