起業1年目のLLMの進歩、苦労、反省について友人に報告します。 Amazon に入社して 5 年目のとき、起業を考えましたが、疫病の影響で遅れました。 7年半目であまりにもかゆくなったので退職しました。今思えば、人生でやらなければいけないことがあれば、早めにやっておこうと思います。なぜなら、実際に始めてみると、新しく学ばなければならないことがたくさんあることに気づき、なぜもっと早く始めなかったのかといつも思うからです。名前: BosonAI の由来 ビジネスを始める前に、Gluon にちなんで名付けられた一連のプロジェクトを実行しました。量子物理学において、グルオンはクォークを結合するボソンの一種であり、このプロジェクトが Amazon と Microsoft の共同プロジェクトとして始まったことを象徴しています。当時、プロジェクトマネージャーが頭を撫でて名前が出てきたのですが、プログラマーにとって命名は非常に難しく、日々様々なファイル名や変数名と格闘していました。結局、新会社は単純にボソンにちなんで名付けた。 「ボソンとフェルミオンが世界を構成する」というミームを知ったときに、誰もが知ったように笑ってくれることを願っています。しかし、多くの人がここをボストンとして見るとは予想していませんでした。 「私はボストンにいます。一度試してみませんか?」 「え?でも、私はベイエリアにいるの?」 資金調達: 主要な投資家が署名の前日に逃亡した 2022 年末、私は 2 つのプロジェクトを考えました。大規模言語モデル (LLM) の生産性向上ツールのアイデアを使用します。私は偶然チャン・イーミンに会ってアドバイスを求めました。議論の後、彼は次のように尋ねました。なぜ LLM そのものをやらないのですか?私は無意識のうちにたじろぎました。Amazon の私たちのチームは、数万枚のカードと、ブラブラのような多くの困難を抱えて、これを数年間行ってきました。易明河氏は「これらは短期的な困難であり、我々は長期的な視点を持つ必要がある」と述べた。私の利点は、アドバイスを聞いて実際に LLM を実行したことです。創業チームはデータ、事前トレーニング、事後トレーニング、アーキテクチャの担当者を集めて資金調達に向かいました。幸運なことに、すぐにシード投資を受けることができました。しかし、カードを買うにはお金が足りないので、第 2 ラウンドを取得する必要があります。このラウンドのリーダーは非常に大規模な組織であり、条件の文書化と交渉に数か月かかりました。しかし、署名の前日、同指導者は投資しないと発言し、これが直接、複数の投資家の撤退につながった。このラウンドを完了し、LLM へのチケットを獲得してくれた残りの投資家に非常に感謝しています。今思い返してみると、当時の資本市場の熱意がまだ残っていたので、おそらく他の友人たちと同じように、私も今手元に 10 億の現金を持っているのかもしれません。当時は資金を集めすぎると出口が難しくなる、あるいは天に放り出されてしまうのではないかと心配していました。今考えてみると、起業とは逆境に負けず人生を変えることです。その解決策は何でしょうか?マシン: 最初のアーリーアダプターは、お金があるときに GPU を購入しました。さまざまなサプライヤーに尋ねましたが、H100 の納入は 1 年後であるとの満場一致の答えでした。私はアイデアを思いつき、Lao Huangに直接メールを書きました。ラオ・ファンはすぐに返事をして、見てみると言った。 1時間後、AMDのCEOから電話があった。もう少しお金を払って列に並び、20日後にマシンを手に入れました。早くからカニを食べられて光栄でした。カニを食べた後、私は自分の人生を疑い、あらゆる種類の奇妙な虫に遭遇しました。たとえば、GPU の電源が不十分で不安定になったために、Supermicro のエンジニアが BIOS コードを修正してパッチを適用したため、Nvidia が推奨したネットワーク レイアウトが不安定になりました。が最適ではなかったため、新しいプランを作成し、後に Nvidia I 自身もこのプランを採用しました。まだ理解できませんが、私たちが購入したカードは 1,000 枚未満なので、小規模な購入者と言えます。しかし、大手バイヤーは私たちが遭遇したこれらの問題に遭遇したことがないのでしょうか? なぜデバッグが必要なのでしょうか?同時に、私たちも同じ数の H100 をレンタルしましたが、GPU には毎日さまざまなバグが発生し、このクラウドにいるのは私たちだけではないかとさえ思いました。その後、Llama 3 の技術レポートを見て、H100 に切り替えた後、モデルがトレーニング中に何百回も中断されたと述べていましたが、その行間の痛みには共感できます。セルフ建設とリースを比較すると、3年間のレンタル費用はセルフ建設とほぼ同じになります。レンタルカードのメリットはなんといっても安心感です。セルフビルドには2つのメリットがあります。 1 つは、Nvidia のテクノロジーが 3 年後もまだはるかに進んでいるのであれば、GPU の価値を維持できるように価格をコントロールできるということです。もう 1 つは、自社構築のデータ ストレージの低コストです。大規模なクラウドでも小規模な GPU クラウドでも、ストレージは GPU の近くにある必要があります。ストレージの価格は高くなります。ただし、1 つのモデルのトレーニングではチェックポイントを保存するために数 TB のスペースが使用される可能性があり、トレーニング データのストレージは 10PB から始まります。 AWS S3 を使用する場合、10PB で年間 200 万かかります。この資金を自己建設に使えば100PBに達する可能性がある。ビジネス: お客様のおかげで、初年度は収益と支出が均衡することができ、非常に幸運でした。私たちの支出は主に人的資源とコンピューティング能力にあり、Openai の財源と Nvidia の大幅なリードのおかげで、両方の支出は非常に多額です。私たちの収入源は、大口顧客向けにカスタマイズされたモデルを作ることです。 LLM を非常に早くから開始した企業のほとんどは、CEO の意思決定力が高く、高いコンピューティング能力と人件費を恐れず、社内チームに新しいテクノロジーを一緒に試すよう断固として促したからです。私たちに息抜きの時間を与えてくれたお客様にとても感謝しています。そうでなかったら、私はこの数カ月間、さまざまな投資家のところへ駆け回っていたでしょう。次に、自社製品をアップグレードするためでも、コストを削減して効率を高めるためでも、より多くの企業が LLM の使用を試みるべきです。その理由は、一方では技術コストが低下しており、他方では業界リーダー (当社の顧客など) が LLM ベースの製品を次々とリリースし、業界を巻き込んでいくためです。 toCにおけるLLMの導入にも注目しています。The last wave of top players such as c.ai and perplexity are still looking for business models, but there are also a dozen or so small LLM native applications that are making good money. We provided a model for a role-playing start-up company. They focus on deep players and balance income and expenses, which is also great. Model capabilities are still evolving, and more modalities (voice, music, pictures, videos) are being integrated. I believe there will be more imaginative applications in the future. Overall, the industry and capital are still impatient. This year, several companies that have been established for more than a year but have raised billions have chosen to exit. From technology to product is a long process, and it is normal to take 2 or 3 years. Counting the emergence of user needs, it may take longer. We focus on the present, explore the path in the fog, and remain optimistic about the future. Technology: Four stages of LLM awareness The awareness of LLM has gone through four stages. The first stage is from Bert to GPT3. It feels like the new architecture and big data can be done. When we were at Amazon, we also went in immediately to do large-scale training and product implementation. The second stage was when GPT4 was released when I first started my business, and I was greatly shocked. Most of the reason comes from the fact that the technology is not made public. According to rumors, it is estimated that one model training time is 100 million, and the standard data cost is tens of millions. Many investors asked me how much it would cost to reproduce GPT4, and I said 300-400 million. Later, one of them actually invested hundreds of millions. The third stage is the first half year of starting a business. We can’t do GPT4, so let’s start from specific problems. So I started looking for customers, including those in gaming, education, sales, finance, and insurance. Train models based on specific needs. At the beginning, there were no good open source models on the market, so we trained from scratch. Later, many good models came out, which reduced our costs. Then design an evaluation method based on the business scenario, mark the data, see where the model is not working, and improve it accordingly. At the end of 2023, we were pleasantly surprised to find that our Photon (a type of Boson) series models outperformed GPT4 in customer applications. The benefit of a custom model is that the cost of inference is 1/10 of calling the API. Although APIs are much cheaper today, our own technology is also improving and is still 1/10 of the cost. In addition, QPS, delay, etc. are all better controlled. The understanding at this stage is that for specific applications, we can beat the best models on the market. The fourth stage is the second half year of starting a business. Although the customer got the model required in the contract, it was not what they expected because GPT4 was not enough. At the beginning of the year, we found that it was difficult for the model to make another leap if it was trained for a single application. Looking back, if AGI is to reach the level of ordinary humans, what customers want is the level of professionals. Games require professional planners and professional actors, education requires gold medal teachers, sales requires gold medal sales, and finance and insurance require senior analysts. This is all AGI plus industry expertise. Although we were in awe of AGI at the time, we felt it was inevitable. At the beginning of the year we designed a series of Higgs (God Particle, a type of Boson) models. The main general ability is to follow the best model, but stand out in a certain ability. The competencies we picked were role-playing: play a virtual character, play teacher, play sales, play analyst, and so on. It was iterated to the second generation in mid-2024. On Arena-Hard and AlpacaEval 2.0, which test general capabilities, V2 is comparable to the best models, and it is not far behind on MMLU-Pro, which tests knowledge. Far.
1. Higgs-V2 is based on Llama3 base and has complete post-training.A good vertical model also needs to have strong general capabilities, such as reasoning, instruction following and other vertical capabilities. In the long term, both general and vertical models are moving towards AGI. The vertical model can be more specialized, have outstanding specialties, have acceptable general capabilities, have lower R&D costs, and have different R&D methods.
The fifth phase of getting to know each other
is currently in progress and we look forward to sharing it as soon as possible.
Vision: Human Companion
We pursue the vision of "intelligent agents accompanied by humans", with high EQ and IQ, equivalent to a professional team. For example, it can accompany playing (planner + actor), sports (encourager + sports coach), and learning (counseling and teaching). The model stays with you for a long time, deeply understands the user, and can "sincerely consider the user."
Team: Challenging things depend on the team
It was only after starting a business that I truly realized the importance of the team. Team members are like screws, making up the entire "car", able to respond flexibly to various situations and shoulder heavy responsibilities. In the early days of the company's establishment, the team size was small, and all members were important. There was no redundancy, and the failure of one person could affect the overall operation. In the past, I would choose projects that I could lead the development of, but this also meant that the problems were not very challenging. Starting a business has chosen a big problem to solve, and it can only rely on the team. Although "I" is used extensively in this article, the work is done by a team.
Personal pursuit: fame or fortune?
I make decisions based on my inner voice, whether studying for a Ph.D., making videos, or starting a business. Entrepreneurship requires strong motivation to overcome difficulties. My deepest motivation comes from the fear that life may have no meaning. I choose to "go forward" to improve my ability to create value; I choose to record videos and write teaching materials to create educational value; I choose to write work and entrepreneurial summaries to create case value; I choose to start a business and unite my efforts to create greater value.
The last advertisement is our company’s recruitment information
(Bay Area and Vancouver) https://jobs.lever.co/bosonai
If you have overseas applications, please contact us api@boson.ai
以上が李牧:起業するのに1年、生きるのに3年の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。