FareedKhan 作者

浏览作者 FareedKhan 的公开文章、摘要与延伸阅读。肖恩子的知识花园

作者:FareedKhan排序:发表时间倒序
从零训练大语言模型中文
1

从零训练大语言模型

学习资料
LLM训练PyTorch+3
作者: FareedKhan
发表时间

教程用PyTorch从零复现Transformer语言模型,覆盖The Pile数据下载、预处理、训练、生成与代码解析,支持1300万至20亿参数规模;项目模块化实现MLP、自注意力、因果掩码、Transformer块、嵌入和位置编码,并给出GPU显存与可训练规模参考。

每页显示 1
上一页 1 / 1 下一页