Skip to content

Latest commit

 

History

History
77 lines (59 loc) · 5.49 KB

README.md

File metadata and controls

77 lines (59 loc) · 5.49 KB

fun-transformer

本课程涵盖了Transformer的核心组成部分,包含Transformer编码器和解码器的实现。 课程结合代码解读知识点,同时通过形象生动的例子,为学习者理解Transformer模型提供参考和借鉴。 实践项目无需依赖任何深度学习框架,完全从零开始,使用基础的Numpy等科学计算库实现Transformer,旨在深化学习者对模型本质的理解与掌握。 最后,使用Transformer模型实现在机器翻译任务中的应用,加深对模型的理解

课程大纲

章节 内容 代码实现
第一章 引言introduction 词嵌入低维映射到高维
第二章 Transformer简述Transformer 相对位置向量 , WordVec
第三章 Encoder结构Encoder 交叉注意力Cross-Attention
第四章 Decoder结构Decoder bertapply-bert、gptapply-gpt
第五章 项目实践 机器翻译项目案例、Transformer结构拆解、使用 NumPy 和 SciPy 实现通用注意力机制

目录

第一章 引言introduction

    1. 序列到序列(Seq2Seq)模型概述
    1. Encoder-Decoder模型概述
    1. Attention 的提出与影响

第二章 Transformer简述Transformer

    1. Attention 机制
    1. Transformer概述
    1. Transformer vs CNN vs RNN
    1. 输入嵌入(Input Embedding)
    1. Multi-Head Attention vs Multi-Head Self-Attention
    1. 词向量生成过程

第三章 Encoder结构Encoder

    1. 编码器(Encoder)
    1. 多头自注意力(Multi-Head Self-Attention)
    1. 交叉自注意力(Cross Attention)
    1. Cross Attention 和 Self Attention 主要的区别

第四章 Decoder结构Decoder

    1. 解码器(Decoder)
    1. 掩码(Mask)
    1. 模型的训练与评估
    1. 高级主题和应用
    1. Tokenization

第五章 Project

参与贡献

  • 如果你想参与到项目中来欢迎查看项目的 Issue 查看没有被分配的任务。
  • 如果你发现了一些问题,欢迎在 Issue 中进行反馈🐛。
  • 如果你对本项目感兴趣想要参与进来可以通过 Discussion 进行交流💬。

如果你对 Datawhale 很感兴趣并想要发起一个新的项目,欢迎查看 Datawhale 贡献指南

贡献者名单

姓名 职责 简介
罗清泉 项目负责人

关注我们

扫描下方二维码关注公众号:Datawhale

LICENSE

知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

注:默认使用CC 4.0协议,也可根据自身项目情况选用其他协议