UCloud优刻得升级推出US3FS 2.0,面向大模型的存储系统改造
随着2023年ChatGPT的概念不断升温,AI模型的参数规模呈现了指数级增长。云厂商面对的大模型客户也逐渐增多,并对存储系统以及整个IaaS层架构提出了巨大的挑战。
目前大模型的客户在存储系统的选型上可能会有以下几种选择:并行文件系统、基于对象存储的存储系统、NFS等。
首先我们看一下并行文件系统:
(资料图片仅供参考)
Density distribution plots of I/O activity from ML jobs using GPFS
《Characterizing Machine Learning I/O Workloads on Leadership Scale HPC Systems》中关于ML在GPFS中的IO模型示意图,可以看到在并行文件系统的传统科学计算领域IO模式,读写比例基本平衡且大部分为小IO,这种GPFS适用的IO模式是否能够完全匹配AI大模型下的场景呢?
这里引用Vast Data的数据,95%的AI Workloads是读密集型的,当然也有例外情况,比如大型语言模型的Checkpoint。并行文件系统在拥有高性能的同时,也引入了高复杂性,包括额外的客户端以及较高难度的维护工作,并行文件系统适用的HPC科学研究场景需要一个对存储系统代码和操作系统有深入了解的团队,这在科研实验室中是相对常见的,但对于商业企业来说,往往缺乏这种人员配置,在目前的大模型场景下,类似于GPFS的并行文件系统并不完全适用。
根据UCloud优刻得云平台上的客户IO模式来看,大模型计算的工作负载大部分场景下是读密集型的,并非大部分文件系统面对的读写比例平衡的场景,短时间的高读吞吐需求较为常见,高吞吐读之前会对文件进行大量列表操作等元数据操作,以及Checkpoint时期会有大量顺序写入,对于历史数据有一定的归档需求。
针对上述场景,目前UCloud优刻得提供全面优化升级的US3FS 2.0来满足大模型客户的存储需求。
US3FS是基于UCloud优刻得对象存储系统US3的文件系统,支持将对象存储中的Bucket直接以文件的形式挂载至客户端,方便客户业务通过文件的POSIX接口来访问数据,避免客户业务层面做过多的修改适配。面向大模型场景,目前UCloud优刻得对US3FS进行了升级优化,US3FS 2.0 整体架构如下:
从前述大模型的存储需求来看,后面将从高吞吐读需求,大量列表操作,大量顺序写入这三方面描述UCloud优刻得针对US3FS的优化升级过程。
这里首先考虑高吞吐读之前的大量列表的问题,整体分为两种解决思路:
1.打散后端US3的存储结构,旁路一套元数据系统进行元数据的性能优化等维护操作,不利用现有US3的元数据能力。
2.不打散后端US3的存储结构,优化升级现有的US3元数据性能,并进行Meta Cache等近计算端优化。
第一种方案理论上可以规避现有架构的历史负担,需要额外的硬件资源来提供元数据服务,改造后能够规避业务层面文件大小等因素对US3在高并发情况下发挥高吞吐能力的限制,也可以优化元数据结构以更贴近文件存储的树状方式,而不是对象存储的KV方式。但此方案整体改动较大,引入的风险也较多,且无法直接利用US3对象存储现有的增值服务,包括但不限于归档、低频等廉价存储的功能。
第二种方案需要对现有关系型数据库的老架构US3元数据进行升级,这里由于US3同时正在进行元数据UKV的升级过程,将US3整体的元数据迁移至KV的方式进行存取,可以直接利用数据,与此同时,还需要对现有的对象存储语义的ListObject进行一定优化来适配文件存储的场景,进而解决对象和文件之间元数据差异的问题。
经过对比,UCloud优刻得选择了第二种方案来实现US3FS2.0的元数据部分,依赖于UKV(UCloud优刻得自研的分布式KV存储系统)的整体存储计算分离的架构,可以支持0数据搬迁的Shard Split,快速进行列表请求计算部分的压力分摊,底层的统一存储层Manul也可以进行存储层面的压力分摊。
这里UCloud优刻得也会进行近端元数据的Cache,由于对象存储和文件存储存在天然的区别,对象存储的结构近似于KV的方式平铺,文件存储的方式近似于树状结构,客户在文件层面的readdir操作在极端情况下会导致底层KV层的大量seek操作效率不高,这里我们优化成直接进行平铺的ListObject操作并在近端进行整体的元数据重构以及Cache,保证客户的元数据检索效率,以在UCloud优刻得云平台实际上线的某客户为例,30PiB的数据元数据异步Cache的整体时间可控制在10分钟到20分钟级别。
其次,UCloud优刻得还综合考虑了客户高并发读吞吐的需求,这里面向客户的业务实际场景,大模型通常是GiB级别的文件高并发的重复读取,UCloud优刻得并不希望这些重复的读取消耗后端对象存储的带宽。
UCloud优刻得在US3FS的挂载端通过本地NVMe来提供近计算端的分布式缓存,这里的缓存会利用计算节点间的东西向带宽,一般建议实际操作时,在计算网和存储网做网络层面的隔离,防止和计算部分的流量有干扰,UCloud优刻得也提供独立专有化部署的一整套解决方案。
后续UCloud优刻得还会提供通过US3FS的管理节点US3FS Master来支持业务层主动提前Load指定的数据至缓存中的功能,但这需要将业务层和存储层做一些深度的结合才能实现。
在未进行预Cache时,上层应用从US3FS挂载点读取数据时,Kernel会将上层的读缓冲区拆分成固定大小传递给US3FS, 当US3FS接收到这些读请求时,会根据读的偏移,传入的缓冲区的大小以及设置的预读大小来确定实际要读的Range。默认情况下,US3FS以1MiB一个CachePage的形式组织文件的缓存区,通过读Range可以确定涉及的Pages,接着根据Page的状态(Ready, Missing or Infight), 如Pages全为Ready,则可直接向上返回,如存在Missing或者Inflight的Pages,则Missing的Pages需要向数据层发送GET_RANGE请求,Inflight的Pages需要等待对应的GET_RANGE执行完成,这里一定程度的耦合了大模型下客户顺序读的IO模型,通过参数能够最大优化在这种场景下的读取并发吞吐。
接下来还需要对业务Checkpoint场景进行优化。由于业务的特殊性,写入Checkpoint期间计算训练是暂停的,写入速度的快慢就直接影响了客户整体的效率,又由于此时是大量顺序写,对存储系统的性能需求就明确为写吞吐。
这里也有两种解决思路:
3.写缓存,异步的上传到后端对象存储,保证当时写入的速度是近似于本地盘的速度。
4.提高并发,直接写至后端对象存储,由于后端整体的吞吐是可以支持平行扩展的,这里瓶颈如果能够打满挂载的网络则是最优的情况,那需要提高的就是写入的并发,降低整体吞吐对于写延迟的依赖。
综上UCloud优刻得选择了两者结合的方式。纯粹写缓存的方式在数据一致性以及系统复杂度上都有不少的麻烦,且能否解决问题强依赖于不可控的计算节点的缓存盘,而不是依赖于存储系统自身的环境。UCloud优刻得会在写入时将上层Kernel拆分下载为固定大小的IO进行进一步的合并整合,整合一个4MiB大小的Logic Block,用于后续并发上传至后端US3对象存储。上层的IO到达US3FS之后会直接返回成功,并逐步累积缓存对后端进行并发的分片上传,这里并发的大小以及缓存的度都是支持对参数随时配置修改的。
这样上层的串行IO通过US3FS后会变成高并发的分片上传请求到US3后端,进而提升整体的吞吐。
以上为一个实例集群US3FS Runtime的实时Stat功能展示的写吞吐,相较于优化前有50%左右的吞吐提升。
本文描述了面向大模型场景的存储需求,UCloud US3FS2.0 在元数据性能、读缓存、写吞吐三个方面的优化内容。在AI大模型的需求推动下,对整个存储系统以及IaaS计算、网络架构提出了较大的挑战。对于对象存储来说,前端的压力能够释放到后端之后,后续,UCloud优刻得还将在存储容量与性能需求不匹配、读缓存预热等方面持续进行优化。*图片来源由UCloud优刻得提供授权使用返回搜狐,查看更多
责任编辑:
标签:
推荐
财富更多》
-
九部门:实施差别化水价政策 抑制不合理用水需求
九部门:实施差别化水价政策抑制不合理...
-
连续奋战71小时 受水害影响的丰沙铁路恢复通行
连续奋战71小时受水害影响的丰沙铁路恢...
-
8月8日国内黄金期货跌0.02%
8月8日国内黄金期货跌0 02%---中国经济...
-
8月8日国内原油期货跌0.77%
8月8日国内原油期货跌0 77%---中国经济...
-
工信部:瞄准重点领域 推动数字产业化创新发展
工信部:瞄准重点领域推动数字产业化创...
动态更多》
热点
- realme10系列正式宣布 采用双曲面屏正面顶部居中挖孔
- 五菱全新微型电动车内饰官图发布 座椅采用星际形打孔工艺
- 努比亚Z40星空典藏版正式开售 采用微米级油画笔触纹理技术
- iQOO11系列正式官宣 首批搭载骁龙8Gen2机型之一
- 海信34英寸带鱼屏显示器发布 支持165Hz刷新率
- OPPO明年将商用240W超级闪充 新一代电芯支持更高倍率充电
- 第一款Android手机渲染图曝光 横向滑盖设计和全尺寸键盘
- 吉利首款纯电皮卡11月9日上市 车辆续航里程超过610公里
- 努比亚Z40SPro星空典藏版正式公布 堪称窄边框天花板
- vivo无线运动耳机2今日正式上市 首销只要119元
- 全国近百名专家调研凤凰磁浮观光快线 亲历科技文旅融合之美
- 【受权发布】北京8月8日12时至8月10日12时,房山、门头沟、昌平等区局部路段山体斜坡发生崩塌灾害的风险较高,请注意防范
- 上汽集团7月销售整车40万辆,其中新能源汽车9.1万辆
- 江淮汽车7月销量50572辆,同比上涨16.67%
- 上半年新疆阿拉山口进出口货运量达1264.6万吨
- 7月份信澳量化先锋混合跌10%
- BioMed获得战略投资
- 郧阳区2023年公开招聘中小学、幼儿园教师考察体检递补公示公告(二)
- 香港将循三大工作范畴巩固可持续金融枢纽的角色
- 《新生活》淄博市妇幼保健院 韩军宁主任专访 老年人耳聋该怎么治疗?
- 女子突发急症,博山交警8分钟护送就医
- “大学越好开学越早”本科为何普遍比专科开学早,理由和想象不同
- 中证协发布《证券公司内部审计指引》
- 党员先锋行,引领行业绿色发展的“钢铁之心”
- 安徽霍山:“所站里的安全课”为千名学子“护航”
- 周期配置实盘账户展示0808:0.920
- 为丑闻灭火,韩国总理到这里扫厕所
- 万顺新材:深圳宇锵与鹏辉能源共同投资设立控股子公司
- 阿波罗寻求发行优先股融资10亿美元
- 立秋大涨,广西南华又有糖厂清库金十期货8月8日讯,今日立秋,盘面走势强劲助推广西去库存进度提速,白糖期货主力合约一度涨至6768点,最终收于6731点,上涨69点
- 软银CFO:软银将在某个时候再次进行回购
- 标普全球移动的预测显示,到2028年美国超过8年的汽车数量将增长2500多万辆
- 高山企业(00616)购入383万股新沣(00616)股份
- 乘联会:7月新能源车国内零售渗透率较去年同期提升9.3个百分点
- 淄博保险业积极组织开展“清廉金融文化建设主题月”活动
- 多项数据发布 我国经济发展韧性强
- 官方通报幼儿园游泳教练体罚孩子:涉事教练已辞退
- 泉州出台14条措施帮扶企业灾后重建
- 成都大运会闭幕式MV《梦·直播》独家首发
- 东方时评丨让职业技能培训服务合同范本更加管用
- 广州交警新增2套交通监控设备 9月11日起投入使用
- 同样是大明功臣,朱元璋为何唯独没杀徐达?真正原因让人很意外!
- 河南财经学院是211吗_河南财经学院是几本
- 闲话上海:这块冰砖侬吃到吗?
- 抢25号的票付款后变成26号?百名消费者称遭音乐节“跳票”
- “1.31亿科研经费0成果”,为哪桩?
- 破产矿企拍出20亿高价?锂矿小镇有点东西
- 一季度河北工业设备上云率20.6% 居全国首位
- 浪潮信息申请YuanChat商标 浪潮信息申请Chat相关商标
- 中断4天的滨绥铁路已全线恢复通车
- 兜礼福利完成数千万元融资
- 山东好人刘心静:不离不弃抚养脑瘫弃婴34年
- 后生可畏!17岁国乒劲敌淘汰欧洲名将,及川瑞基力克华裔晋级
- 齐评丨以体育赛事之名 奔赴文化盛会之约
- 北京现代新款伊兰特官图发布,将于成都车展亮相
- 逆水寒手游真假茶香任务攻略一览
- 重庆永川区规划自然资源局原一级调研员蒋勇被查
- 教研活动记录指导教师意见
- AEKE专栏:探索家居经济万亿市场,引领运动生活革新
- 与“李”相约!息烽这里的“冰脆李”进入采摘期
- 京东家电家居独家冠名《乐队的夏天3》即将回归
- 雪人股份8月8日快速上涨
- 恒大新能源汽车被强执1.2亿 恒大新能源汽车累计被执行超5亿
- 护航企业健康发展,金山这样做
- 盘点万达刘海波商业版图 万达刘海波名下多家企业曾被吊销 万达高级副总裁刘海波被公安带走
- 阿里专利可生成父母语音为孩子阅读 阿里专利可采集声纹生成个性化语音
- 数字人民币行业现状分析:数字人民币产业未来三年或将步入快速发展期
- 亘喜生物与多家知名投资机构签订最高可达1.5亿美元私募配售协议
- 广汽AI大模型平台亮相
- 雪人股份8月8日盘中涨幅达5%
- 五音戏戏歌《齐音》冲上抖音排行
- 90度急转弯!台风卡努又朝着我国来了?对淄博有影响吗?
- 习语丨“少年强则中国强,体育强则中国强”
- “非法代理维权”“征信修复”等形成金融黑灰产业链,如何整治?
- 西安饮食8月8日快速反弹
- 哈密送重庆±800千伏特高压输电工程开工
- 骆驼股份8月8日盘中跌幅达5%
- 蔚来汽车回应向奔驰开放换电平台传言:不实消息
- 警惕!这样喝水可能致命,女子因此住进ICU……
- 小鹏汽车开始收占位费:超时每分钟1元
- 蔚来回应奔驰将采用其换电平台:不实消息
- 2023“活力淄博”英语风采大赛完美收官!
- FM89《清风传家》第79期 家风故事展播——市法院:刘敏
- 施柏宇方回应加戏亲吻争议:按剧本演的
- 男子隔空教唆学生自杀,还炫耀“我刚送走的”,判了!
- 哈尔滨10万级食品净化车间
- 恒安标准人寿恶性肿瘤保险好不好?有必要购买吗?
- 推动新能源汽车下乡 山东组织经销商开展超50场下乡巡展活动
- Win11新版文件管理器性能糟糕:7代i5启动将近半分钟
- 张艺兴公司申请萝卜不肉商标 张艺兴音乐公司申请新商标
- D&D Beyond禁止艺术家使用AI创建《龙与地下城》插图
- 暴走漫画所持500万股权被冻结 暴走漫画被冻结500万股权
- Materials Nexus获得200万英镑种子轮融资
- 新西兰同意微软收购动视暴雪:英国CMA成为唯一阻碍
- 权威发布 | 将黄河淄博段打造成“河畅水安”幸福河
- "费翔天选纣王"登热搜 网友:演员还得多读书
- 《荒野大镖客:救赎》画面信息公布 PS5版或仅4K30帧
- 鹤峰县箬叶综合产值近5亿元,年出口创汇1000万美元——野箬转家箬 绿叶变金叶
- 突发!某头部房企副总被带走!
- 学什么技术有前途(30岁学什么技术有前途)
- 今年新疆阿拉山口铁路口岸通行中欧(中亚)班列超4000列
- 长沙理工大学学者成功研发首款低成本高能量密度锌-高锰液流电池
- 周鸿祎谈室温超导:未来所有科技树的发展都需要能源支持,希望超级人工智能出来后先解决常温超导等问题帮助人类实现能源自由
- 灵魂最高贵的三大星座 王者和王者的碰撞
- 渊联技术完成数千万元A轮融资
- 让钱袋子“活起来”厦门国际银行推出“如e宝”零钱理财业务
- 消费贷“内卷”花样多,有银行利率低至3%
- 侵权杨幂商家被限消 商家侵权杨幂被限消
- Neuralink获得2.8亿美元战略投资
- 淄博的哥拾金不昧 急寻万元现金失主
- 引入“碳中和” 2023年服贸会将实现“零碳”
- 海南开展二手房“带押过户”住房公积金贷款业务
- 立秋农忙-->
- Fernride获得3100万美元A轮融资
- 荣盛生物终止上交所科创板IPO 保荐机构为安信证券
- 造价堪比高铁2-3倍 磁悬浮列车经济账如何算
- 美国电动汽车零部件供应商Proterra申请破产保护
- 中国电信陕西铜川分公司开展反诈百日宣防活动
- 中国地震局发布山东平原5.5级地震烈度图,最高烈度为7度
- 闻“汛”而战 银川移动驰援京冀保通信
- 致敬!高温下的劳动者丨烈日骄阳下的“守护”和“喜悦”
- 天风证券给予利柏特买入评级 Q2扣非净利润大增181% 盈利能力显著改善 目标价格为12.83元
- 河北启动水毁公路恢复重建前期工作
- 山海杨阳:黄金旗形上涨形态不变,低位震荡等破位!
- 海南开展二手房“带押过户”住房公积金贷款业务
- 纸巾架英文(纸巾架简介)
- 证监会强化离职人员监管,行业机构违规聘任证监会系统离职人员遭严肃处理
- 京腔调获得战略投资,滴灌通投资
- 《海藏楼诗笺注》0247
- 医学专科学校排名前十 医学院专科排名
- 食品饮料板块异动拉升 熊猫乳品大涨超10%
- 华为Mate 60新外观曝光:巨大星环后摄与“灵动岛”设计
- 西门子推出全新 iQ700 灵感系列蒸烤套装,支持 AI 智慧烹饪
- 信宇人上交所公开招股
- 博山镇:同心向阳 小“膳”大爱