새로운 생성 AI 시대를 맞아 거대 기술 기업들은 온라인 콘텐츠 소비에 있어 '내가 말한 대로 하고 내가 하는 대로 하지 말라' 전략을 추구하고 있습니다. 이 전략은 어느 정도 이중 잣대이자 발언권 남용이라고 할 수 있다.
동시에 대형 언어 모델(LLM)이 AI 개발의 주류 트렌드로 자리잡으면서 대기업과 스타트업 모두 자체 대형 모델 개발에 노력을 아끼지 않고 있습니다. 그 중 학습 데이터는 대형 모델의 능력을 갖추기 위한 중요한 전제 조건입니다.
최근 Insider의 보고서에 따르면 Microsoft가 지원하는 OpenAI, Google과 그 지원을 받는 Anthropic은 수년간 다른 웹사이트나 회사의 온라인 콘텐츠를 사용하여 생성 AI 모델을 훈련해 왔습니다. 이는 모두 특정 허가를 요청하지 않고 수행되었으며 웹의 미래와 이 새로운 시대에 저작권법이 적용되는 방법을 결정하기 위한 법적 싸움의 일부가 될 것입니다.
이러한 대형 기술 회사는 공정 사용이라고 주장할 수 있지만, 실제로 그러한지는 논쟁의 여지가 있습니다. 그러나 그들은 자신의 콘텐츠가 다른 AI 모델을 훈련하는 데 사용되는 것을 허용하지 않습니다. 그렇다면 우리는 이렇게 묻지 않을 수 없습니다. 왜 이러한 대형 기술 회사가 대형 모델을 훈련할 때 다른 회사의 온라인 콘텐츠를 사용할 수 있습니까?
대형 기술 회사가 다른 사람의 온라인 콘텐츠를 사용하지만 다른 사람이 자신의 콘텐츠를 사용하는 것을 허용하지 않는다는 주장에 대한 확실한 증거가 있습니까? 서비스 및 일부 제품 사용에 대한 단서를 확인하세요.
먼저 Anthropic에서 출시한 ChatGPT와 유사한 AI 비서인 Claude를 살펴보겠습니다. 시스템은 요약 요약, 검색, 작성 지원, 질문 및 답변, 코딩과 같은 작업을 완료할 수 있습니다. 얼마 전 다시 업그레이드되어 컨텍스트 토큰이 100k로 확장되어 처리 속도가 크게 빨라졌습니다.
Claude의 이용약관은 다음과 같습니다. 귀하는 다음과 같은 방법으로 서비스에 액세스하거나 이를 사용할 수 없습니다(그 중 일부는 여기에 나열되어 있음). 이러한 제한 사항이 허용 가능한 사용 정책과 일치하지 않거나 불명확한 경우 후자가 우선 적용됩니다.
simally, Google의 생성 AI가 사용합니다. "귀하는 기계 학습 모델 또는 관련 기술을 개발하기 위해 서비스를 사용할 수 없습니다."라는 조항도 마찬가지입니다.
Google Generative AI 이용 약관 주소: https://policies.google. com/terms/ Generative-ai
OpenAI의 이용 약관은 어떻게 되나요? Google과 유사하게 "OpenAI와 경쟁하는 모델을 개발하는 데 이 서비스의 결과물을 사용할 수 없습니다."
OpenAI 이용 약관 주소: https://openai.com/policies/terms -사용 중
이 회사들은 똑똑합니다. 그들은 고품질 콘텐츠가 새로운 AI 모델을 훈련하는 데 중요하다는 것을 알고 있으므로 다른 사람들이 이러한 방식으로 결과물을 사용하도록 허용하지 않는 것이 합리적입니다. 하지만 그들은 자신의 모델을 훈련하기 위해 다른 사람의 데이터를 사용하는 데 아무런 거리낌이 없습니다.
OpenAI, Google 및 Anthropic은 Insider의 논평 요청을 거부하고 응답하지 않았습니다.
사실 다른 회사들은 무슨 일이 일어나고 있는지 깨달았을 때 기뻐하지 않았습니다. 수년 동안 AI 모델을 훈련해 온 Reddit은 4월부터 해당 데이터에 대한 액세스 비용을 청구하기 시작할 계획입니다.
Reddit CEO인 Steve Huffman은 "Reddit의 데이터 코퍼스는 매우 가치가 높기 때문에 이 가치를 세계 최대 기업에 무료로 제공할 수 없습니다."라고 말했습니다.
또한 올해 4월에는 Musk가 OpenAI Microsoft를 비난했습니다. 소송의 주요 후원자는 AI 모델을 훈련시키기 위해 트위터 데이터를 불법적으로 사용했습니다. 그는 트위터에 "소송 시간이다"라고 썼다.
그러나 Insider의 의견에 대해 Microsoft는 "이 전제에는 실수가 너무 많아서 어디서부터 시작해야 할지조차 모르겠습니다."라고 밝혔습니다.
OpenAI CEO Sam Altman은 탐색을 시도했습니다. 이 문제를 심화시키기 위해 저작권을 존중하는 새로운 AI 모델. Axios에 따르면 그는 최근 "우리는 새로운 모델을 개발하려고 노력하고 있습니다. AI 시스템이 귀하의 콘텐츠를 사용하거나 귀하의 스타일을 사용하면 그에 대한 대가를 받게 될 것입니다."라고 말했습니다.
Sam Altman
출판사(내부자 포함)는 모두 기득권을 갖습니다. 또한 U.S. News Corp.를 포함한 일부 출판사는 이미 기술 회사에 콘텐츠를 사용하여 AI 모델을 교육하는 데 비용을 지불하도록 요구하고 있습니다.
전직 Microsoft 임원은 여기에 문제가 있을 것이라고 말했습니다. Microsoft 베테랑이자 유명 소프트웨어 개발자인 Steven Sinofsky는 AI 모델의 현재 훈련 방법이 네트워크를 "파괴"한다고 믿습니다.
Steven Sinofsky
그는 트위터에 다음과 같이 썼습니다. "과거에는 크롤링 데이터가 클릭률을 대가로 사용되었습니다. 그러나 지금은 모델을 훈련하고 창작자와 저작권 소유자는 어떤 가치도 가져오지 않습니다.”
아마도 더 많은 기업이 깨어날수록 이러한 불균형한 데이터 사용량은 곧 바뀔 것입니다.
위 내용은 OpenAI와 Google은 이중 표준을 가지고 놀고 있습니다. 즉, 다른 사람의 데이터를 사용하여 대규모 모델을 훈련하지만 자신의 데이터가 유출되는 것을 허용하지 않습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!