ゲスト: Shi Shuming
執筆者: Mo Qi
査読者: Yun Zhao
「ほとんどの研究作業は、点を中心に展開する傾向があり、点のようなものです。結果をユーザーが直接使用するのは困難です」と、Tencent AI Lab の自然言語処理センターのディレクターである Shi Shuming 氏は述べています。
過去 10 年ほどで、人工知能 (AI) は復活を遂げ、自然言語処理 (NLP) の分野でも大きな技術進歩が見られました。 NLP テクノロジーの進歩により、機械翻訳の品質が大幅に向上し、検索と推奨がより正確になり、会話ロボットやスマート ライティングなど、より多くのデジタル シナリオ アプリケーションも生み出されました。 AI の至宝として、NLP 分野には国内外の無数の企業、人材、資金が集まっていますが、さまざまな要因がその研究の進歩をどのように促進しているのでしょうか?企業は研究結果をどのように育成し、実践しているのでしょうか?関連する専門家は、AI 開発におけるボトルネックと論争をどのように見ていますか?
最近、「T フロントライン」は、「人工知能研究所」の視点からその様子を垣間見ることを期待して、テンセント AI ラボ自然言語処理センターにインタビューする機会に恵まれました。
T 最前線: Tencent AILab の自然言語研究室 処理の観点からは、どのような方向性を模索する必要がありますか?
Shi Shuming: Tencent AI Lab の自然言語処理チームは、テキスト理解、テキスト生成、インテリジェントな対話、機械翻訳の 4 つの方向で研究を行っています。成果としては、論文発表状況から判断すると、過去3年間で毎年50本以上の学術論文を一流の国際会議やジャーナルに発表しており、国内の研究機関のトップに位置しており、特筆に値する。 NAACL'2021 の最優秀論文と ACL'2021 の優れた論文について、私たちの 2 つの論文が別々に評価されました。アカデミックコンテストにおいては、昨年の国際機械翻訳コンペティションWMT'2021では5課題で1位を獲得するなど、数々の重量級のコンテストで優勝してきました。
私たちは、論文や学術コンテストに加えて、研究成果をシステムやオープンソースデータとして意識的に変換し、社内外のユーザーに公開します。これらのシステムとデータには、テキスト理解システム TexSmart、対話型翻訳システム TranSmart、インテリジェント クリエイティブ アシスタント「Effidit」、800 万語を含む中国語単語ベクトル データなどが含まれます。
2018年末に公開された中国語単語ベクトルデータは、対外的には「テンセント単語ベクトル」と呼ばれており、規模、精度、鮮度の点でトップレベルにあり、広く注目を集めています。 、業界での議論と使用。多くの業界で広く使用されており、アプリケーションのパフォーマンスを継続的に向上させます。同様のシステムと比較して、テキスト理解システム TexSmart は、きめ細かい固有表現認識 (NER)、意味的関連付け、深い意味的表現、テキスト マッピング、その他の特別な機能を提供し、第 19 回中国計算言語学会議 (CCL') で最優秀賞を受賞しました。 2020) システムデモンストレーション賞を受賞。インタラクティブ翻訳システム TranSmart は、中国初の公開インタラクティブ翻訳インターネット製品で、翻訳入力方法、制約解読、翻訳メモリ融合などのハイライト機能を提供します。国連文書庁、Memsource、Huatai Securities、Tencent Music、China Literature Online、Tencent Games Going Global、Tencent Optional Stock Document Translation など、社内外の多くの顧客、ビジネス、シナリオをサポートしています。当社が先日リリースしたインテリジェントクリエイティブアシスタント「Effidit」は、AI技術を活用し、多面的な文章補完や多様な文章磨きなどの特殊機能を提供し、ライターのアイデアの発散や表現の豊かさ、文章の編集・執筆効率の向上を支援します。 。
T フロントライン: インテリジェントなコラボレーションという観点から、「Effidit」を例に挙げて、プロジェクトの起源と最新の状況についてお話しいただけますか?
Shi Shuming: スマート ライティング アシスタント Effidit プロジェクトは、2020 年の建国記念日の前に開始されました。このプロジェクトを行う主な理由は 2 つあります。1 つ目は、ライティングに問題があること、2 つ目は、このシナリオに必要な NLP テクノロジがチームの能力の蓄積と一致していることです。
まず第一に、ライティングの問題点について話しましょう。日常生活や仕事において、ニュース、小説、公開記事、論文、技術レポートなどを読む必要があることがよくあります。技術文書や議事録、報告資料などを書きます。読書のプロセスは通常、リラックスしていて楽しく、楽なものですが、書くことは異なります。自分の考えを表現するのに適切な言葉の使い方がわからないことがよくあります。一生懸命書いた文章や段落がまだ不明瞭であることもあります。無味乾燥で途中でタイプミスが起こりやすいようです。おそらくほとんどの人は書くことよりも読むことのほうが得意です。そこで私たちは、テクノロジーを利用してライティングの問題点を解決し、ライティングの効率を向上できないか考えました。
このプロジェクトを開始した 2 番目の理由について話しましょう。私たちは、NLP テクノロジーがどのように人間の作業効率と生活の質を向上させることができるかについて考えてきました。過去数年間、私たちはテキスト理解、テキスト生成、機械翻訳などの NLP の下位方向で徹底的な研究作業を行ってきました。ほとんどの研究作業は点を中心に実行されることが多く、点のような結果をユーザーが直接使用することは困難です。そのため、私たちは無意識のうちに点状の研究結果をいくつもつなぎ合わせて線、つまりシステムを形成しています。私たちはテキスト生成における研究成果の実装シナリオを探してきました。前述したライティングの悩みを考慮し、議論の結果、スマート ライティング アシスタント Effidit プロジェクトを立ち上げることにしました。
1 年半の研究開発を経て、最初のバージョンがリリースされました。今後も継続して最適化を繰り返し、ユーザーの声に耳を傾け、さまざまな機能の有効性を改善し、ユーザーに使いやすく人気のあるツールを生み出すよう努めていきます。
T 現場: 近年、信頼できる AI が業界の人々の注目を集めています。 NLP の分野における信頼できる AI の理解と進歩について話していますか?
Shi Shuming: 私は信頼できる AI についてあまり詳しくないので、表面的なアイデアについてしか話すことができません。信頼できる AI は抽象的な概念であり、現時点では正確な定義はありません。ただし、技術的な観点から見ると、モデルの解釈可能性、堅牢性、公平性、プライバシー保護など、多くの要素が含まれています。近年、Transformer 構造に基づいた事前トレーニング済み言語モデルが、多くの自然言語処理タスクで驚くべき結果を示し、幅広い注目を集めています。しかし、このタイプの AI モデルは本質的にデータ駆動型のブラック ボックス モデルであり、予測結果の解釈性が低く、モデルの堅牢性もあまり良くなく、データ固有のバイアス(性別など)を学習しやすいです。バイアス)、モデルの公平性にいくつかの問題が生じます。事前にトレーニングされた言語モデルよりも早く出現した単語ベクトルも、性別によるバイアスの影響を受けます。現在、信頼できる AI モデルの構築は機械学習と NLP の分野で注目を集めている研究方向であり、多くの研究が行われ、ある程度の進歩が見られます。一方で、これらの進歩は目標にはまだ程遠く、例えば、ディープモデルの解釈可能性に関しては、それほど大きな進歩はなく、重要な一歩は講じられていません。
私が働いている Tencent AI Lab も、信頼できる AI に関する研究作業を行っています。 Tencent AI Lab は 2018 年以来、信頼できる AI の取り組みに投資を続けており、敵対的堅牢性、分散転移学習、解釈可能性という 3 つの主要な方向である程度の成果を上げています。 Tencent AI Labは今後、AIの公平性と説明可能性に焦点を当て、医療、製薬、ライフサイエンスなどの分野で関連技術の応用を探求し続ける。
T 最前線: 現段階での NLP 研究のボトルネックは何だと思いますか ## ## どこ?今後の方向性は何ですか? Shi Shuming: 自然言語処理の研究分野が出現して以来、
この研究分野が直面している最大のボトルネックは、自然言語テキストによって表現される意味論を真に理解する方法です。このボトルネックは今のところ解消されていません。 人間は本当に自然言語を理解する能力を持っています。たとえば、「彼女は青が好きです」という文を見ると、その意味、「好き」が何なのか、「青」が何なのかを理解します。 NLP アルゴリズムに関しては、上記の文を処理する場合、私たちが未知の外国語で目にする「abc def xyz」という文と本質的な違いはありません。この未知の外国語で、「abc」は「彼女」を意味し、「def」は「好き」を意味し、「xyz」は「緑」を意味するとします。この外国語について何も知らないとき、私たちはこの外国語で書かれた文章を理解することができません。幸運にもこの外国語で書かれた大量の文章を見ることができれば、それらについて統計分析を行って、この外国語の単語と母国語の単語との対応関係を確立しようとして、最終的には言語の目的を解読する。このプロセスは簡単ではなく、最終的に成功するという保証はありません。
AI にとって、AI が直面する状況は、私たち人間が未知の外国語を解読するよりも悪い状況です。私たちは生活の常識と、頭の中にネイティブの言葉を内なる概念にマッピングするという常識を持っていますが、AIにはこれらがありません。 NLP 研究における記号的手法は、テキストと知識マップの記号的表現を通じて AI に人間のような機能を追加し、理解の問題を根本的に解決しようとしますが、
統計的手法は、社会の常識や内部概念を一時的に無視します。統計手法の改善とデータ自体の情報を最大限に活用することに重点を置いています。これまでのところ、2 番目の方法が業界調査の主流であり、より大きな成功を収めています。過去 10 年間の統計的 NLP のボトルネックの打開と進歩から判断すると、
ワード ベクトル技術(つまり、単語を表すために中次元の密なベクトルを使用する) これは、深層学習アルゴリズムと GPU コンピューティング能力と組み合わせて、単語の計算能力のボトルネックを突破し、過去 10 年間における NLP における一連のブレークスルーの始まりとなりました。 新しいネットワーク構造 (Transformer など) とパラダイム (事前トレーニングなど) の出現により、テキストの計算可能性とテキスト表現の効果が大幅に向上しました。ただし、統計的 NLP は人間ほど常識や基本概念をモデル化しておらず、自然言語を根本的に理解できないため、いくつかの常識上の誤りを避けることは困難です。 もちろん、研究コミュニティは記号化と深い意味表現の取り組みを決して放棄していません。過去 10 年間でこの分野で最も影響力のある試みには、Wolfram Alpha と AMR (抽象意味表現) が含まれます。
この道は非常に険しく、主な課題は、多数の抽象概念のモデル化と拡張性 (つまり、高度に形式化された文の理解から一般的な自然言語テキストの理解まで) です。基礎技術における今後の研究の方向性としては、新世代言語モデル、制御可能なテキスト生成、モデルのクロスドメイン転送機能の向上、知識を効果的に組み込む統計モデル、深い意味表現などが挙げられます。これらの研究の方向性は、NLP 研究におけるいくつかの局所的なボトルネックに対応しています。 アプリケーションの観点から検討する必要がある方向性は、NLP テクノロジーを使用して人間の作業効率と生活の質を向上させる方法です。 T 最前線: AI Lab NLP の方向性は、基礎研究、最先端技術、産業化の観点からどのように検討され、展開されていますか?次のステップは何ですか? Shi Shuming: 基礎研究に関して言えば、私たちの目標は、基礎研究のブレークスルーを追求し、現在の研究のボトルネックを解決し、Word2vec、Transformer、Bert などの独創的で有用な製品を生み出すよう努めることです。 . 、重大な影響を与える結果。この目標を達成するために、基礎研究者にはより大きな自由度を与え、長期的な影響をもたらす可能性のあることを行うよう奨励する一方で、チームメンバー全体がブレインストーミングなどの方法を使用して選択を行います。数々の重要な画期的な方向性を提案しています。一緒に働きましょう。 産業化に関しては、会社の既存製品の技術革新に加えて、当社が主導する技術製品の 1 ~ 2 つを開発することに注力しており、研究成果を統合し、人々の作業効率を向上させることが目標です。または生活の質。 これらのテクノロジー製品には、翻訳者向けの対話型翻訳システムである TranSmart や、テキスト編集およびシナリオ作成のためのインテリジェントなクリエイティブ アシスタントである Effidit が含まれます。今後もこの2つの技術製品を磨き続けていきます。 T 最前線: 科学研究部門に関する限り、異なる焦点は何だと思いますか研究者やアルゴリズムエンジニアの数は? Shi Shuming: 私たちのチームでは、アルゴリズム エンジニアの責任は 2 点あります。1 つは既存のアルゴリズム (出版された論文のアルゴリズムなど) を実装または最適化すること、もう 1 つは実装することです。 ITテクノロジー製品を磨きます。アルゴリズム エンジニアの 2 つの責任に加えて、研究者の責任には、独自の研究結果を提案し、発表することも含まれます。この区分は絶対的なものではなく、境界は比較的曖昧であり、従業員の個人的な興味とプロジェクトのニーズに大きく依存します。 T 最前線: マネージャーとして、研究室チームの管理と従来の技術エンジニアの管理方法および概念の違いは何ですか? Shi Shuming: ビジネス チームの場合、技術エンジニアは緊密に連携して、特定のプロジェクト管理プロセスを通じて計画された製品を作成する必要があります。ラボ チームは、基礎研究者と技術エンジニア (およびおそらく少数の製品および運用スタッフ) で構成される傾向があります。基礎研究の場合、研究者にはより大きな自由が与えられ、「指導」は減り、より多くの支援が与えられ、研究者の興味を尊重し、彼らの可能性を刺激し、長期的な潜在的な影響を与える何かを行うよう奨励する必要があります。基礎研究におけるブレークスルーは、多くの場合、トップダウンで計画されたり、プロジェクト管理プロセスを通じて管理されたりするものではありません。一方、研究室チームが技術製品を構築する場合、研究者と技術エンジニアの間でより多くのコラボレーションが必要となり、軽量のプロジェクト管理プロセスによって補完されます。 T現場:研究力の高い応募者がいればハイレベルの会議で多くの論文を発表しています。論文を持っていますが、エンジニアリング能力が低いのですが、受け入れてもらえますか? Shi Shuming: 良い質問ですね、これは採用の際によく遭遇する質問です。理想的には、学術界も産業界も、優れた研究能力やエンジニアリング能力を備えた人材を育成または採用したいと考えていますが、実際にはそのような人材は稀であり、多くの場合、さまざまな企業や研究機関の間で競争の対象となっています。面接の過程において、特に優れた研究能力を持つ候補者の場合、エンジニアリング能力の要件はそれに応じて緩和されますが、基本的な基準以上である必要があります。 同様に、優れたエンジニアリング能力を持つ候補者の場合、研究能力に対する要件も低くなります。実際の業務プロセスにおいては、適切な配置がなされれば、高い研究力と高いエンジニアリング力を持った社員が連携し、それぞれの利点を最大限に発揮し、一体となってプロジェクトを完成させます。 T 最前線: 候補者のどのような能力を最も重視しますか? 1~2時間の面接では判断しにくい能力もありますが、採用した社員がその能力を持っていれば宝です。 1つ目は、重要な研究テーマを選択できることです。 2つ目は、一つのことをやり遂げる力です。この能力が欠けている人やチームは、常にさまざまなトピックやプロジェクトを頻繁に開始しますが、これらのトピックやプロジェクトは決して高い品質で完了することはなく、多くの場合、中途半端な結末に終わります。これは実行力、忍耐力、集中力、技術レベルなどに関係している可能性があります。 3つ目は、孤独と批判に耐える能力です。重要なことや影響力のあることは、その影響が表に出るまではほとんどの人に理解されていないことが多く、心が弱く孤独や批判に耐えられないと、継続するのは難しく、初志を捨ててしまいがちです。すでにレッドオーシャンとなっているところに飛び込み、現在のホットスポットを巻き込む。 T 最前線: 人工知能の分野にキャリアを変える新卒者や技術者に向けて、現在どのような提案がありますか? Shi Shuming: 各卒業生の学歴、学校、プロジェクトへの参加状況は異なります。人工知能に切り替える技術者は、職業上および人生経験が大きく異なります。あまり多くの情報を提供するのは困難です。一般的なアドバイスは何ですか? 。今のところ思いつくポイントはいくつかあります。まず、物事に没頭して情報収集や知性を無視しないことです。より多くの先輩、姉妹、友人を見つけて状況を尋ね、現在の仕事の状況の紹介やさまざまな種類の仕事やさまざまな作業単位の評価を聞き、彼らがこれまで歩んできた道と踏んだ落とし穴を理解してください。同時に、人生のこの重要なノードで意思決定を行うのに役立つ情報が、フォーラム、公開アカウント、短いビデオなどのさまざまな方法を通じて収集されます。次に、卒業まであと 1 年以上あり、インターンシップの経験がない場合は、インターンシップができる信頼できる場所を見つけてください。インターンシップを通じて、実務経験を積み、能力の向上や仕事の実感を事前に体験できる一方で、履歴書の充実や就職活動の競争力の向上にもつながります。第三に、仕事では巻き込みは常に避けられず、すべてが計画通りに進みます。期待をコントロールし、メンタルを調整し、変化によって生じる感情的なギャップを消化する方法を見つけてください。 4つ目は、落ち着いた後も夢を忘れずに努力し、自分の能力に見合った何かを達成することです。 私は、すべての卒業生が自分の好きな仕事を見つけて職場で成長できることを願っています。また、転職して人工知能の分野に参入するすべての技術者が、AI の新たな道で奮闘することで得られる幸福を享受できることを願っています。そして収穫。 Shi Shuming は清華大学コンピュータ サイエンス学部を卒業し、現在 Tencent AI Lab の自然言語処理センターの所長を務めています。彼の研究対象には、ナレッジマイニング、自然言語理解、テキスト生成、インテリジェントな対話などがあります。彼は、ACL、EMNLP、AAAI、IJCAI、WWW、SIGIR、TACL などの学会やジャーナルに 100 以上の論文を発表しており、H インデックスは 35 です。彼は、EMNLP 2021 および CIKM 2013 のシステム デモンストレーション共同議長、KDD2022 の上級プログラム委員会メンバー、ACL、EMNLP およびその他の会議のプログラム委員会メンバーを務めてきました。 調査と実装: この 2 つのバランスをとるにはどうすればよいでしょうか?
昆山の翡翠を探して: 研究者にはある程度の自由が必要です
研究AI職:選考は「3つの良いこと」を重視し、心は十分です
ゲスト紹介
以上がT Frontline | Tencent AILab 独占インタビュー: 「点」から「線」へ、ラボは単なる実験ではありませんの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。