Transformer family

Notion link

去年在组里给大家分享的一些关于大模型的知识。那个时候GPT-3并没有掀起太大波浪,在 talk to transformer 网站上它的表现和小冰属于卧龙凤雏。那个时候NLP监督任务还风靡BERT+fine-tune的模式。

Lilian Weng 上个月翁荔的博客,相较于我自己的总结,这篇文章更加前沿,也更有逻辑。