什么是大模型?

2025-05-24

这两年AI火,就是因为大模型火。那么,什么是大模型?

大模型,是具有庞大参数规模和复杂计算结构的机器学习模型。(参数,是指在模型训练过程中,学习和调整的变量。参数定义了模型的行为、性能、实现的成本以及对计算资源的需求。简单来说,参数是模型内部用来做出预测或决策的部分。)

大模型,通常拥有数百万至数十亿的参数。相对应的,参数少的,就是小模型。对一些细分的领域或场景,小模型也够用。大模型需要依赖大规模数据进行训练,对算力资源的消耗极大。绝大多数大模型的基础核心结构,都是Transformer及其变体。

大模型有很多种类别。通常所说的大模型,主要是指语言大模型(以文本数据进行训练)。但实际上,还有视觉大模型(以图像数据进行训练),以及多模态大模型(文本和图像都有)。

按应用领域,大模型可以分为通用大模型和行业大模型。通用大模型的训练数据集更加广泛,覆盖的领域更加全面。行业大模型,顾名思义,训练数据来自特定行业,应用于专门的领域(例如金融、医疗、法律、工业)


分享