“ 大模型的核心主要有两部分,一是训练数据,二是机器学习模型。”
现在大模型发展得如火如荼,但是没有学过人工智能技术的开发者,只会调用其接口,但不清楚怎么训练一个大模型。
今天就简单介绍一下自己的理解,有什么问题欢迎讨论。
01
—
怎么训练一个大模型?
我们知道大模型是指以神经网络为基础构建,通过大量数据学习或者说训练得到的一个模型。
这里大指的是学习的数据量大,而模型是指机器学习模型。通过大量数据训练出来的机器学习模型,就是大模型。
所以,训练一个大模型最重要的两个部分就是训练数据和机器学习模型;再加上对训练成果的验证,就构成了一个完善的训练流程。
所以说,训练大模型主要有三步,而每一步下面又有几个步骤:
训练数据
要想弄一份训练数据需要经过几个步骤:
①:数据的收集
②:数据的清洗
③:数据的整理
④:自然语言处理(NLP)
训练大模型需要收集大量的数据,比如语言类,科学类,生活类等;而根据数据的类型分类又有文本,图像,视频等;而不论是文本,图像,还是视频都有多种格式,比如txt,pdf,png,jpg,mp4等。
数据处理
而根据数据收集的途径,比如来自书籍,网络社区,企业内部数据等;
而收集到的数据并不能直接使用,还需要对数据进行清洗整理等操作,比如一些常识性错误,一些敏感数据等。
而数据的整理就是需要把数据整理成一种或几种固定的格式;
最后进行自然语言处理,因为机器学习模型并不认识人类语言,我们需要把这些收集到的数据,不论是文本,图像还是视频,都需要转换为模型能够认识和存储的格式。
而以上操作只是为了训练大模型做数据准备。
2. 机器学习模型
机器学习模型根据不同的维度可以进行不同的分类,比如有什么监督学习,非监督学习等;然后根据实现算法又分为线性回归,支持向量机等。
机器学习模型根据不同的理论,算法,架构等,具有不同的实现方式,但对训练来说,我们不需要关心模型是怎么开发的,我们只需要知道模型的训练方法即可。
而现在比较火的GPT,就是openAI公司在transformer神经网络架构下开发的一款机器学习模型。
3. 训练成果验证
训练成果验证就是使用一些整理好的数据,输入到大模型中,测试其处理效果是否和预期相同。
一般情况下,都是把整理好的数据,分成训练数据和验证数据;
在模型训练完成之后,再使用验证数据进行结果验证。
而对应到Huggingface这个大模型开源平台,平台把大模型的训练抽象成数据集(datasets),模型(model),自然语言处理(tokenizer),训练(trainer),以及验证评价(evaluate)。
而且为了解决大模型在某些方面的能力不足,还专门设计了大模型的微调方法,以及框架。
大模型的开发,训练,微调,使用等是一个复杂的过程,也是一个需要慢慢学习的过程。
本文链接:https://hzby.vip/Llama3/53.html
meta llama模型开源llama2模型是哪家公司llama2模型微调llama模型 本地部署llama模型下载地址可商用大模型llamallama2模型规模llama模型怎么微调llama 模型结构llama模型哪个最好
网友评论