MosaicML 推出 300 亿参数模型,训练成本 70 万
(资料图片仅供参考)
AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。
MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。
MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。
300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。
其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。
除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。
开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。
关键词:
相关阅读
-
MosaicML 推出 300 亿参数模型,训练成本 70 万
AI创业公司MosaicML近日发布了其语言模型MPT-30B,单从参数来看,这个 -
日本历史最强的横纲白鹏_日本第六十代横...
1、白鹏翔(はくほうしょう、1985年3月11日-)は、モンゴル国ウランバー -
天天速递!“敬礼娃娃”郎铮637分!已收...
昨晚(23日)“敬礼娃娃”郎铮查到了自己今年的高考分数637分,四川... -
万亿级板块机会来了?重磅解读|速递
万亿级板块机会来了?重磅解读 -
厦门今起三天闷热潮湿 局部多雷阵雨 ...
翔安大帽山,游客在田园拍照留念。(厦门日报记者王火炎摄)昨天是端午 -
资讯:翔安区新溪尾小学将开建 办学规...
厦门网讯(厦门晚报记者戴舒静)近日,厦门市自然资源和规划局核发了新 -
宋福伦|环球头条
1、宋福伦(1921年-1948年),男,山西省泽州人。2、生前为战士。1948 -
宋禁私史
1、秦桧时有私史之禁。2、秦桧死后。3、私史又流行起来。文章到此就分 -
假期前两日,南京成旅游目的地最热门城市
去南京夜赏秦淮美景,到青岛晒日光浴,在广州看赛龙舟……这个端午... -
行政复议涉及哪些被申请人部门 每日热闻
行政复议涉及的被申请人部门包括公民、法人或者其他组织对行政机关的具 -
痛心!南京大屠杀幸存者高恒发去世
据“侵华日军南京大屠杀遇难同胞纪念馆”公众号消息南京大屠杀幸存... -
RTX 4060月底上市:2399元敞开买 热推荐
RTX4060非Ti版将于6月29日发布,近期已经开始向渠道发货。这款显卡备受 -
全球新动态:四川绵阳可提供爱德电磁炉...
1、绵阳市荷花中街3号附4-5号0816-2360996 -
没看样板间就掏上千万,上海这些业主如...
“盲买”是去年疫情过后上海楼市打新族的一种买房状态。彼时,上海... -
零和思维是什么意思啊(零和思维什么意思)
hello大家好,我是城乡经济网小晟来为大家解答以上问题,零和思维是什 -
蔚蓝烟台再启航-天天信息
蔚蓝烟台再启航 -
广西贺州:构建“一石多吃”新业态
广西贺州市近期召开第四届中国贺州国际石材·碳酸钙展览会新闻发布... -
2023年山东省中小学教师合唱展演活动圆...
中国山东网-感知山东6月22日讯6月21日,2023年山东省中小学教师合唱展 -
2023年中国钾盐行业全景速览:市场需求...
钾盐是含钾矿物的总称,分为KCl,常含溴、铷和铯。为等轴晶系,晶体呈 -
【地评线】东湖评论:“村BA”出圈激发...
【地评线】东湖评论:“村BA”出圈激发乡村文旅新活力---“村超”“...