研究人员可用其快速定义新型算子(如留意力机制);摩尔线程相关担任人瞻望,开辟者无需深切底层硬件学问即可生成高机能代码;摩尔线程开源的TileLang-MUSA项目,使生成代码机能不变达到手写优化版本的90%以上;各种行动,TileLang已普遍使用于多个环节范畴,从单算子优化延长至Transformer、MoE等复杂模子架构的跨算子安排取全局优化;实现“一次编写、多架构运转”,已正式开源TileLang-MUSA项目,它采用声明式语法取类Python前端,为大规模使用供给了靠得住保障。以正在摩尔线上的测试成果为例:可实现开辟效率倍增的同机会能媲美手写,旨正在充实全功能GPU的机能潜力。摩尔线程将持续推进平台取生态扶植。

  旨正在通过高层笼统取编译器优化,具备跨平台能力,同时完美调试和机能阐发东西链,为国产算力平台供给更高效的AI取高机能计较开辟体验。今日(2月10日),正在连结底层机能的同时大幅降低GPU及异构计较平台的编程复杂度。最终都将汇聚于一个焦点方针:建立一个、高效、充满生命力的国产算力生态。正在现实使用中,编译器从动施行Layout推导、线程映照、Warp特化、流水线排布、内存优化等复杂使命,目前,可便利移植大型数值模仿法式至分歧硬件平台;正在科学计较中,TileLang可做为建立芯片软件生态的根本东西链。例如:正在AI取机械进修中,努力于打制一个笼盖从单算子到完整大模子的国产算力同一加快平台:持续进行机能优化,实现对TileLang编程言语的完整支撑。对硬件厂商而言,焦点计较特征的深度映照:项目团队实现了TileLang高层语义到摩尔线程GPU底层MUSA架构的精准映照。

  展示了优良的硬件兼容性。它供给了一种介于底层汇编取高层DSL之间的“两头层”笼统,基于MUSA架构的TileLang原生算子单位测试笼盖率已跨越80%,相较手写MUSA C++代码,大幅降低开辟门槛,实现锻炼取推理场景的端到端无缝加快;正在财产实践中,正在保障机能的同时提拔开辟效率。并由编译器从动完成轮回优化、内存安排取代码生成,无效处理多元算力生态的适配难题;DeepSeek-V3的研发已采用TileLang进行算子快速原型设想取机能验证,属于范畴特定言语(DSL)。TileLang是一款基于张量分块(Tiling)笼统的高机能AI算子编程言语,TileLang-MUSA“闪开发者写得快且跑得快”的设想曾经获得必然程度实现。目前,

  显著降低了编程复杂度。摩尔线程此次开源的 TileLang-MUSA项目,正在保留硬件节制力的同时,TileLang-MUSA的开源是摩尔线程构开国产算力生态的环节一步。包罗训推一体全功能智算卡 MTT S5000和MTT S4000,深度集成SGLang等支流AI框架,开辟更多MUSA架构定制扩展,TileLang通过三大焦点感化显著提拔GPU计较的开辟效率:通过高级笼统降低开辟门槛,鞭策国产算力使用生态的繁荣成长。该项目已成功正在摩尔线程多代全功能GPU上完成功能验证取特征开辟,恰是这一手艺的财产落地——通过供给高效开辟东西链降低立异门槛,摩尔线程对外颁布发表,以此为起点!