在 2024 年世界人工智能大会的现场,很多人在一个展台前排队,只为让 AI 大模型给自己在天庭「安排」一个差事。
流程:体验方式:
与上影合作的 AI 互动体验《AI + 大闹天宫》只是阶跃星辰展示大模型魅力的开胃菜。在 WAIC 期间,他们隆重推出了以下大招:
Step-2 万亿参数大模型
在 3 月份与阶跃星辰首次亮相后,Step-2 已进化至全面接近 GPT-4 的水平,在数理逻辑、编程、中文知识、英文知识和指令遵循等方面表现优异。
Step-1.5V 多模态大模型
基于 Step-2 模型,阶跃星辰开发出了多模态大模型 Step-1.5V,不仅具有强大的感知和视频理解能力,还可根据图像内容进行高级推理(如解答数学题、编写代码、创作诗歌)。
Step-1X 图像生成大模型
《AI + 大闹天宫》中的图像生成由 Step-1X 模型完成,该模型针对中国元素进行了深度优化,并拥有出色的语义对齐和指令遵循能力。
阶跃星辰已建立起涵盖万亿参数 MoE 大模型和多模态大模型的完整大模型矩阵,成为大模型创业公司第一梯队。这得益于他们对 Scaling Law 的坚持以及匹配的技术和资源实力。
从头训练的
Step-2 万亿参数大模型
万亿参数量将显著提升模型在数学、编程等领域的推理能力。Step-2 相比千亿级模型,可解决更为复杂的数理逻辑和编程问题,也得到了基准评测的量化证实。
此外,它的中英文能力和指令跟随能力也实现了明显提升。前面提到,在 Step-1.5V 的诞生过程中,Step-2 功不可没。这指的是,在 Step-1.5V 进行 RLHF(基于人类反馈的强化学习)训练过程中,Step-2 是作为监督模型来用的,这相当于 Step-1.5V 有了一个万亿参数的模型当老师。在这个老师的指导下,Step-1.5V 的推理能力大大提升,能够根据图像内容进行各类高级推理任务,如解答数学题、编写代码、创作诗歌等。这也是 OpenAI GPT-4o 最近所展示的能力之一,这项能力让外界对于它的应用前景充满了期待。
多模态的生成能力主要体现在 Step-1X 这个新模型上。与一些同类模型相比,它有更好的语义对齐和指令跟随能力,同时针对中国元素做了深度优化,更适合国人的审美风格。
基于该模型打造的《大闹天宫》AI 互动体验的背后融合了图像理解、风格迁移、图像生成、剧情创作等多种能力,丰富立体地展现了阶跃星辰行业领先的多模态水平。例如,在初始角色生成时,系统首先会判断用户上传的照片是否符合「捏脸」要求,然后用非常《大闹天宫》的语言风格灵活给予反馈。这里就体现了模型的图片理解能力和大语言模型的能力。在大模型技术加持下,这款游戏就让玩家获得了和传统线上 H5 游戏完全不同的互动体验。因为所有的互动问题、用户形象、分析结果都是模型实时学习特征后生成的,真正做到了千人千面和无限剧情的可能。
这些优异的表现离不开阶跃星辰全链路自研的 DiT 模型架构(OpenAI 的 Sora 也是 DiT 架构)。为了让更多人用上该模型,阶跃星辰给 Step-1X 设计了 600M、2B、8B 三种不同的参数量,以满足不同算力场景的需求。在 3 月份的亮相活动中,阶跃星辰创始人姜大昕曾明确指出,他认为大模型的演进会经历三个阶段:
これは、Jiang Daxinらが事業を始めた当初から貫いてきた道でもあります。この道には、「数兆のパラメータ」と「マルチモード融合」が不可欠です。Step-2、Step-1.5V、Step-1X はすべて、この道で到達したノードです。
さらに、これらのノードは1つずつ接続されています。 OpenAI を例に挙げると、彼らが今年の初めにリリースしたビデオ生成モデル Sora は、アノテーションに OpenAI の内部ツール (おそらく GPT-4V) を使用しており、GPT-4V は GPT-4 関連テクノロジーに基づいてトレーニングされました。現在の観点からすると、シングルモーダル モデルの強力な機能がマルチモーダルの基礎を築き、マルチモーダルを理解することが生成の基礎を築きます。 このようなモデル行列に基づいて、OpenAI は左足が右足を踏むことを実現します。そして、ステップスターは中国でこのルートを確認しています。
この会社が国内の大型モデル分野にさらなる驚きをもたらすことを期待しています。
以上が公開: Step Star 兆 MoE+ マルチモーダル大型モデル マトリックスを公開の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。