transformer

结构:
)

transformer与RNN相比,更适合GPU并行

模型:是由公式和参数组成的
chatGPT3.5有1350亿个参数,训练前都是一个随机数,训练完后就是一个具体的固定的参数了

注意力机制
注意力机制:如果现在有个人,他的身高是178cm,请预估他的体重

transformer是多头自注意力机制

AGI
越往AGI发展,算法工程师越不重要,


模型微调:第三阶技术:Fine-tune(定制垂直领域的大模型)(openai 是 Fine-tune的鼻祖)

1、80个顶级专业领域博士,一问一答,整理结合gpt3做一轮监督学习,作为微调(教大模型专业知识)
2、又找了一堆人,普通人,蹲在这给gpt提问,每提一个问,gpt给出4个答案,人给4个答案排序,一直重复。弄出一个积分系统(调教大模型)
3、就人类反馈的数据再学一次(RL)
4、再回到第二步再做
5、再

所谓基于人类反馈的强化学习