


Alibaba Cloudの新大型モデルが登場! AIアーティファクト「Tongyi Listening」がパブリックベータ中:長い動画も1秒に要約可能、自動メモ取りや字幕変換も可能|羊毛も収穫可能
大規模なモデル機能にアクセスできるグループ会議用のもう 1 つの実用的なツールが、無料のパブリック ベータ版として公開されました。
その背後にある大きなモデルは、アリババの同宜銭文です。これがグループ会議の魔法のツールと言われる理由については -
ほら、これはステーション B の私の講師、李牧先生です。生徒たちを率いて大きなモデル論文を集中的に読んでいます。
残念なことに、この時点で、上司は私にレンガを早く動かすように促しました。仕方なく、黙ってヘッドフォンを外し、「Tongyi Listening」というプラグインをクリックしてページを切り替えた。 ###############何だと思う?私は「グループミーティング」には参加していませんでしたが、Tingwu はグループミーティングの内容を完全に記録するのに協力してくれました。
キーワード、全文要約、学習ポイントをワンクリックで要約するのにも役立ちました。
#簡単に言えば、大規模モデル能力にアクセスしたばかりのこの「一般意味聴解」は大規模モデルです。 Focus のバージョン。オーディオおよびビデオ コンテンツ用の仕事と勉強の AI アシスタントです。
Tongyi リスニング総合テスト
音声コンテンツの整理と分析において最も基本的かつ重要なことは、文字起こしの正確さです。
ラウンド 1 では、まず約 10 分の中国語ビデオをアップロードして、Tingwu が同様のツールと比較して精度の点でどのように機能するかを確認します。
基本的に、AI はこの中程度の長さの音声とビデオを非常に高速に処理し、2 分以内に文字起こしできます。
まず、Tingwu のパフォーマンスを見てみましょう:一般に、これらの AI ツールでは中国語の認識は難しくありません。では、英語の教材に直面した場合、彼らはどのようにパフォーマンスを発揮できるのでしょうか?
OpenAI との過去の論争に関するマスク氏の最新インタビューをアップロードしました。
まず、Tingwu による結果を見てみましょう。マスク氏の回答では、ラリー・ペイジ氏の名前を除いて、華武氏は基本的に他の全員を正しく特定した。
Tingwu は、英語の音訳結果を直接中国語に翻訳し、二か国語の比較を表示できることを言及する価値があり、翻訳の品質も非常に優れています。
Feishu Miaoji はラリー ペイジの名前を認識することに成功しましたが、Listening と同様に、Musk の全体的な話す速度が速く、口語的なところもあります。表現にはいくつかの小さな間違いがあります。 「この家と言う」の代わりに「彼の家に泊まる」と書く。
ここで iFlytek が聞いたところによると、名前と発音の詳細はうまく処理されていますが、マスクの口語的な表現、たとえば「夕方まで」などに誤解されるケースもあります。 「夕方への憧れ」として。
AI ツールは、音声認識の基本能力に関しては非常に高い精度に達しているようですが、非常に効率が高い一方で、いくつかの小さな問題は解決されています。 . 欠点が長所を隠すことはありません。
次に、難易度をラウンド 2 に上げて、約 1 時間のビデオを要約する能力をテストします。
テスト ビデオは、中国における AIGC の新たな機会をテーマにした 40 分間のラウンドテーブル ディスカッションです。ラウンドテーブルディスカッションには計5名が参加しました。
リスニング側では、文字起こし完了からAIがキーワードを抽出して全文要約を提供するまで、合計5分もかかりませんでした。
結果は江おばさんの:
キーワードを与えるだけでなく、ラウンドテーブルの内容も要約します。非常に正確で、ビデオの重要なポイントも分割しています。
人間の編集者が抜粋した論点を比較すると、危機の兆しを感じました...
特筆すべきは、さまざまなゲストのスピーチについてです。 , ウーの話を聞いて、対応するスピーチの要約を提供できます。
同じ質問がフェイシュ・ミアオジにも投げられました。現在、コンテンツの概要に関して、フェイシュ ミアオジはキーワードのみを提供できます。
しかし、この実際のテストで、Tongyi Tingwu について最も驚くべき点は、実際には「小さな」設計です。
Chrome プラグイン機能です。
英語のビデオを見ている場合でも、ライブ放送を見ている場合でも、授業中の会議に参加している場合でも、リスニング プラグインをクリックすることで、音声とビデオのリアルタイムの書き起こしと翻訳を実現できます。
冒頭で紹介したように、低遅延、高速翻訳、二か国語比較機能を備えたリアルタイム字幕として利用できると同時に、録音と文字起こししたテキストをワンクリックで保存できます。今後の使用のために。
お母さんは、私が英語のビデオ教材を咀嚼できないことを心配する必要はもうありません。
さらに、大胆なアイデアがあります...
グループミーティングを行うときにリスニングをオンにすると、講師に突然チェックされる心配がなくなります。
現在、Tingwu は Alibaba Cloud Disk に接続されており、クラウド ディスクに保存されている音声およびビデオ コンテンツをワンクリックで文字起こしでき、クラウド ディスクのビデオをオンラインで再生すると字幕が自動的に表示されます。将来的には、AI 処理されたオーディオ ファイルとビデオ ファイルをエンタープライズ バージョンで社内で迅速に共有できるようになります。
Tingwu 関係者は、Tingwu が将来的に画像の直接抽出などの新しい大規模モデル機能を追加し続けることも明らかにしました。ビデオから。PPT スクリーンショットを使用すると、オーディオおよびビデオ コンテンツについて AI に直接質問できます...
さらに、Wu の研究開発チームは、中国の超大規模文書会話データセット Doc2Bot もリリースしました。モデルの質問応答機能を向上させるチームの Re3G メソッドが ICASSP 2023 に選択されました。このメソッドは、Retrieve (取得)、Rerank (再ランキング)、Refine (微調整)、Generate (その理解、知識の検索、および応答生成の機能は、Doc2Dial と Multi Doc2Dial の 2 つの主要なドキュメント ダイアログ リストで 1 位にランクされています。
Tingwu は、大規模モデルの機能に加えて、アリババの音声テクノロジーの達人でもあります。
その背後にある音声認識モデル Paraformer は Alibaba Damo Academy から提供されており、産業レベルのアプリケーション レベルでエンドツーエンドの認識効果と効率のバランスをとるという問題を初めて解決します:
推論効率が向上するだけでなく、パフォーマンスの点で従来のモデルよりも 10 倍優れており、また、最初の発売時に多くの信頼できるデータセットの記録を破り、音声認識の SOTA 精度を更新しました。専門的なサードパーティのフルネットワーク パブリック クラウドの中国語音声認識評価 SpeechIO TIOBE ホワイト ボックス テストでは、Paraformer-large が依然として最高の精度を備えた中国語音声認識モデルです。
Paraformer は、エンコーダー、予測子、サンプラー、デコーダー、損失関数の 5 つの部分で構成されるシングルラウンドの非自己回帰モデルです。
Paraformer は、予測子の革新的な設計により、ターゲット単語の数と対応する音響潜在変数の正確な予測を実現します。
さらに、研究者らは機械翻訳の分野にブラウジング言語モデル (GLM) のアイデアを導入し、GLM に基づいてサンプラーを設計し、文脈セマンティクスのモデルのモデリングを強化しました。
同時に、Paraformer は豊富なシナリオをカバーする超大規模産業データセットで数万時間のトレーニングを行い、認識精度をさらに向上させました。
複数人でのディスカッションにおける発言者の正確な識別には、DAMO アカデミーの CAM 発言者認識基本モデルの恩恵を受けます。このモデルは、密な接続に基づく遅延ネットワーク D-TDNN を使用します。各層の入力は、前のすべての層の出力から接続されます。この階層的な機能の多重化と遅延ネットワークの 1 次元畳み込みにより、遅延ネットワークの計算効率が大幅に向上します。ネットワーク。
業界の主流である中国語と英語のテスト セット VoxCeleb および CN-Celeb で、CAM は最高の精度を更新しました。
大規模なモデルの開始、ユーザーの利益
中国科学技術情報研究院の報告書によると、未完統計によると、現在国内で発売されている大型モデルは79モデル。
この大規模モデル開発の流れのもと、AIアプリケーションの進化のスピードは再びスプリント段階に入りました。
ユーザーの視点から見ると、歓迎すべき状況が徐々に形になりつつあります。
大規模モデルの「連携」のもと、アプリケーション側でもさまざまなAI技術が開花し、ツールがより便利になり、より人気があり、より効率的かつスマートになります。
スラッシュを使用して作業計画を自動的に作成できるスマート ドキュメントから、要素をすばやく要約するのに役立つ音声およびビデオの記録および分析ツールまで、AGI の火花である生成大規模モデルは、より多くの機能を実現し、より多くの人 AI の魔法を感じる人が増えています。
同時に、テクノロジー企業にとっては、間違いなく新たな課題と新たな機会が生じています。
あらゆる製品が大型モデルの嵐にさらされるという課題があり、技術革新は避けて通れない重要な課題となっています。
既存の市場構造は、新たなキラーアプリケーションのために書き換えられるチャンスの瞬間に達しました。誰が主導権を握ることができるかは、誰がより技術的に準備ができているか、誰のテクノロジーがより速く進化するかによって決まります。
何があっても、技術開発は最終的にはユーザーに利益をもたらします。
以上がAlibaba Cloudの新大型モデルが登場! AIアーティファクト「Tongyi Listening」がパブリックベータ中:長い動画も1秒に要約可能、自動メモ取りや字幕変換も可能|羊毛も収穫可能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









8月5日のこのウェブサイトのニュースによると、Alibaba Cloudは、2024年のYunqiカンファレンスが9月19日から21日まで杭州市Yunqiタウンで開催されると発表した。3日間のメインフォーラム、400のサブフォーラム、および並行トピックが開催される。およそ4万平方メートルの展示エリアもございます。 Yunqi Conference は無料で一般公開されており、今後は Yunqi Conference の公式ウェブサイトから無料チケットを申し込むことができます。チケットのウェブサイトは次のとおりです。 https://yunqi.aliyun.com/2024 /ticket-list 報告によると、Yunqi カンファレンスは 2009 年に始まり、2011 年に最初の中国ウェブサイト開発フォーラムと名付けられ、2015 年に Alibaba Cloud Developer Conference に発展しました。 、正式に「Yunqi Conference」と改名され、成功した動きを続けています

5月30日、TencentはHunyuanモデルの包括的なアップグレードを発表し、Hunyuanモデルに基づくアプリ「Tencent Yuanbao」が正式にリリースされ、AppleおよびAndroidアプリストアからダウンロードできるようになりました。前のテスト段階のフンユアン アプレット バージョンと比較して、Tencent Yuanbao は、日常生活シナリオ向けの AI 検索、AI サマリー、AI ライティングなどのコア機能を提供し、Yuanbao のゲームプレイもより豊富で、複数の機能を提供します。 、パーソナルエージェントの作成などの新しいゲームプレイ方法が追加されます。 Tencent Cloud 副社長で Tencent Hunyuan 大型モデルの責任者である Liu Yuhong 氏は、「テンセントは、最初に大型モデルを開発しようとはしません。」と述べました。 Tencent Hunyuan の大型モデルは、ビジネス シナリオにおける豊富で大規模なポーランド テクノロジーを活用しながら、ユーザーの真のニーズを洞察します。

Volcano Engine の社長である Tan Dai 氏は、大規模モデルを実装したい企業は、モデルの有効性、推論コスト、実装の難易度という 3 つの重要な課題に直面していると述べました。複雑な問題を解決するためのサポートとして、適切な基本的な大規模モデルが必要です。また、サービスは低コストの推論を備えているため、大規模なモデルを広く使用できるようになり、企業がシナリオを実装できるようにするためには、より多くのツール、プラットフォーム、アプリケーションが必要になります。 ——Huoshan Engine 01 社長、Tan Dai 氏。大きなビーンバッグ モデルがデビューし、頻繁に使用されています。モデル効果を磨き上げることは、AI の実装における最も重要な課題です。 Tan Dai 氏は、良いモデルは大量に使用することでのみ磨かれると指摘しました。現在、Doubao モデルは毎日 1,200 億トークンのテキストを処理し、3,000 万枚の画像を生成しています。企業による大規模モデルシナリオの実装を支援するために、バイトダンスが独自に開発した豆包大規模モデルが火山を通じて打ち上げられます。

1. TensorRT-LLM の製品位置付け TensorRT-LLM は、NVIDIA が開発した大規模言語モデル (LLM) 向けのスケーラブルな推論ソリューションです。 TensorRT 深層学習コンパイル フレームワークに基づいて計算グラフを構築、コンパイル、実行し、FastTransformer の効率的なカーネル実装を利用します。さらに、デバイス間の通信には NCCL を利用します。開発者は、カットラスに基づいてカスタマイズされた GEMM を開発するなど、技術開発や需要の違いに基づいて特定のニーズを満たすためにオペレーターをカスタマイズできます。 TensorRT-LLM は、NVIDIA の公式推論ソリューションであり、高いパフォーマンスを提供し、実用性を継続的に向上させることに尽力しています。 TensorRT-LL

1. 背景の紹介 まず、Yunwen Technology の開発の歴史を紹介します。 Yunwen Technology Company ...2023 年は大規模モデルが普及する時期であり、多くの企業は大規模モデルの後、グラフの重要性が大幅に低下し、以前に検討されたプリセット情報システムはもはや重要ではないと考えています。しかし、RAG の推進とデータ ガバナンスの普及により、より効率的なデータ ガバナンスと高品質のデータが民営化された大規模モデルの有効性を向上させるための重要な前提条件であることがわかり、ますます多くの企業が注目し始めています。知識構築関連コンテンツへ。これにより、知識の構築と処理がより高いレベルに促進され、探索できる技術や方法が数多く存在します。新しいテクノロジーの出現によってすべての古いテクノロジーが打ち破られるわけではなく、新旧のテクノロジーが統合される可能性があることがわかります。

4月4日のニュースによると、中国サイバースペース局は最近、登録された大型モデルのリストを発表し、その中にチャイナモバイルの「九天自然言語インタラクション大型モデル」が含まれており、チャイナモバイルの九天AI大型モデルが生成人工言語を正式に提供できることを示した。外部世界への諜報機関。チャイナモバイルは、これは中央企業が開発した初めての大規模モデルであり、国家の「生成人工知能サービス登録」と「国内深層合成サービスアルゴリズム登録」の二重登録を通過したと述べた。報告によると、Juiutian の自然言語インタラクション大規模モデルは、強化された業界能力、セキュリティ、信頼性の特徴を持ち、フルスタック ローカリゼーションをサポートしており、90 億、139 億、570 億、1000 億などのさまざまなパラメータ バージョンを形成しており、クラウド、エッジ、エンドでは状況が異なりますが、柔軟に導入できます。

テストの問題が簡単すぎると、上位の生徒も下位の生徒も 90 点を獲得でき、その差は広がりません。Claude3、Llama3、さらには GPT-5 などのより強力なモデルが後にリリースされるため、業界はより困難で差別化されたモデルのベンチマークが緊急に必要です。大型モデルアリーナの背後にある組織 LMSYS は、次世代ベンチマーク Arena-Hard を発表し、広く注目を集めました。 Llama3 命令の 2 つの微調整されたバージョンの強度に関する最新のリファレンスもあります。全員が同様のスコアを持っていた以前の MTBench と比較すると、アリーナとハードの識別は 22.6% から 87.4% に増加し、一目で強くも弱くもなりました。 Arena-Hard は、アリーナからのリアルタイムの人間データを使用して構築されており、人間の好みとの一致率は 89.1% です。

6月13日のニュースによると、Byteの「Volcano Engine」公開アカウントによると、Xiaomiの人工知能アシスタント「Xiao Ai」はVolcano Engineとの協力に達し、両社はbeanbao大型モデルに基づいて、よりインテリジェントなAIインタラクティブ体験を実現するとのこと。 。 ByteDance が作成した大規模な豆包モデルは、毎日最大 1,200 億のテキスト トークンを効率的に処理し、3,000 万個のコンテンツを生成できると報告されています。 Xiaomi は、Doubao 大型モデルを使用して、独自モデルの学習能力と推論能力を向上させ、ユーザーのニーズをより正確に把握するだけでなく、より速い応答速度とより包括的なコンテンツ サービスを提供する新しい「Xiao Ai Classmate」を作成しました。たとえば、ユーザーが複雑な科学的概念について質問する場合、&ldq
