미국 언론은 대규모 모델 훈련 데이터 세트를 공개했습니다. 일부 콘텐츠는 약간 '더럽습니다'.
4월 20일 뉴스에 따르면, 지난 4개월 동안 인공지능 챗봇의 인기가 높아졌습니다. 복잡한 학술 논문 작성, 격렬한 대화 진행 등 다양한 작업을 수행하는 능력이 인상적입니다.
챗봇은 인간처럼 생각하지 않으며, 자신이 무슨 말을 하는지조차 모릅니다. 로봇을 구동하는 인공 지능은 인터넷에서 스크랩한 방대한 양의 텍스트를 흡수하기 때문에 인간의 음성을 모방할 수 있습니다.
이 텍스트는 AI가 구축되는 동안 세상에 대한 정보를 얻을 수 있는 주요 소스이며, AI가 반응하는 방식에 큰 영향을 미칠 수 있습니다. 인공지능이 사법시험에서 좋은 성적을 거둔다면, 그 훈련 데이터에 수천 개의 LSAT(로스쿨 입학시험, 미국 로스쿨 입학시험) 정보가 담겨 있기 때문일 것이다.
기술 회사들은 인공지능에 어떤 정보를 제공하는지 항상 비밀로 합니다. 그래서 워싱턴 포스트(The Washington Post)는 이러한 중요한 데이터 세트 중 하나를 분석하여 AI 훈련에 사용되는 독점적이고 개인적이며 종종 공격적인 웹사이트의 유형을 밝혀냈습니다.
인공 지능 훈련 데이터의 내부 구성을 탐색하기 위해 Washington Post는 Allen Institute for Artificial Intelligence의 연구원들과 협력하여 Google의 C4 데이터 세트를 분석했습니다. 이 데이터 세트는 1,500만 개 이상의 웹사이트에 대한 대규모 스냅샷이며, 그 콘텐츠는 Google의 T5 및 Facebook의 LLaMA와 같은 많은 유명 영어 AI를 훈련하는 데 사용됩니다. OpenAI는 챗봇 ChatGPT를 지원하는 모델을 훈련하는 데 어떤 종류의 데이터 세트를 사용했는지 공개하지 않았습니다.
이 설문조사에서 연구원들은 웹 분석 회사인 Likeweb의 데이터를 사용하여 웹사이트를 분류했습니다. 이들 사이트 중 약 3분의 1은 분류되지 않고 제외되었는데, 그 주된 이유는 해당 사이트가 더 이상 인터넷에 존재하지 않기 때문입니다. 그런 다음 연구원들은 데이터 세트의 각 웹사이트에 나타난 "토큰" 수를 기준으로 나머지 1천만 개의 웹사이트 순위를 매겼습니다. 토큰은 AI 모델을 훈련하는 데 사용되는 작은 텍스트 처리 정보(일반적으로 단어나 구문)입니다.
Wikipedia에서 WoWhead까지
C4 데이터세트의 웹사이트는 주로 뉴스, 엔터테인먼트, 소프트웨어 개발, 의료 및 콘텐츠 제작과 같은 산업 분야의 웹사이트입니다. 이는 이러한 분야가 새로운 인공 지능의 물결에 의해 위협받을 수 있는 이유를 설명할 수 있습니다. 상위 3개 웹사이트는 다음과 같습니다. 첫 번째는 전 세계에 게시된 특허 텍스트를 포함하는 Google Patent Search이고, 두 번째는 Wikipedia이고, 세 번째는 유료 구독만 허용하는 디지털 라이브러리입니다. 이 밖에도 미국 법무부가 불법 행위로 폐쇄한 불법 전자책 마켓 라이브러리(190번)도 상위 사이트로 꼽힌다. 또한, 데이터 세트에는 미국 정부가 불법 복제 제품 및 위조 제품 시장으로 식별한 웹사이트가 최소 27개 있습니다.
월드 오브 워크래프트 플레이어를 위한 포럼인 wowhead(181위)와 Arianna Huffington이 175비트를 돕기 위해 설립한 사이트인 throveglobal(181위)과 같은 인기 사이트도 있습니다. 또한 덤프스테로이드(No. 183)를 포함하여 쓰레기 수거통을 판매하는 웹사이트가 최소 10개 이상 있지만 더 이상 접속할 수 없는 것으로 보입니다.
대부분의 웹사이트는 안전하지만 일부 웹사이트는 심각한 개인 정보 보호 문제를 안고 있습니다. 예를 들어, 상위 100위 안에 드는 두 웹사이트에는 주 유권자 등록 데이터베이스의 개인 호스팅 사본이 나열되어 있습니다. 유권자 데이터는 공개되어 있지만 이러한 모델은 이 개인 정보를 알 수 없는 방식으로 사용할 수 있습니다.
산업 및 상업 웹사이트가 가장 큰 카테고리를 차지합니다(카테고리 토큰의 16%를 차지). 목록 맨 위에는 투자 조언을 제공하는 The Motley Fool(13위)이 있습니다. 다음은 사용자가 창의적인 프로젝트를 크라우드펀딩할 수 있는 웹사이트인 Kickstarter(25위)입니다. 2,398위로 순위가 낮은 Patreon은 크리에이터가 구독자로부터 독점 콘텐츠에 대한 월 수수료를 징수할 수 있도록 도와줍니다.
그러나 Kickstarter와 Patreon은 인공지능이 아티스트의 아이디어와 마케팅 카피에 접근하도록 허용할 수 있으며, AI가 사용자에게 제안을 제공할 때 이러한 작품을 복사할 수 있다는 우려가 있습니다. 현재 자신의 작업이 AI 훈련 데이터에 포함되어도 아무런 보상을 받지 못하는 아티스트들은 텍스트-이미지 생성기 Stable Diffusion, MidJourney 및 DeviantArt를 상대로 침해 소송을 제기했습니다.
이 Washington Post 분석에 따르면 더 많은 법적 문제가 발생할 수 있습니다. C4 데이터 세트에는 저작권 기호(지적 재산으로 등록된 저작물을 나타냄)가 2억 번 이상 나타납니다.
기술 웹사이트는 카테고리 토큰의 15%를 차지하는 두 번째로 큰 카테고리입니다. 여기에는 영국 레딩의 유도 클럽부터 뉴저지의 유치원까지 모든 것을 다루는 페이지가 있는 Google 사이트(85번)와 같이 사람들이 웹사이트를 구축하는 데 도움이 되는 많은 플랫폼이 포함됩니다.
C4 데이터 세트에는 500,000개 이상의 개인 블로그도 포함되어 있으며 이는 기밀 콘텐츠의 3.8%를 차지합니다. 출판 플랫폼 Medium은 46위에 올랐으며 도메인 이름으로 수만 개의 블로그를 보유하고 있는 다섯 번째로 큰 기술 웹 사이트입니다. 그 외에도 WordPress, Tumblr, Blogpot, Live Journal 등의 플랫폼에 작성된 블로그가 있습니다.
이러한 블로그는 두 명의 익명 학자가 공동 저술한 "Grumpy Rumblings"라는 블로그와 같이 전문적인 것부터 개인적인 것까지 다양한 형태로 제공됩니다. 그 중 한 명은 최근 파트너의 실직이 몇 가지 세금에 어떤 영향을 미쳤는지에 대해 글을 썼습니다. 또한 C4 데이터세트의 실사 롤플레잉 게임에 초점을 맞춘 상위 블로그도 있습니다.
현대 웹의 핵심으로 간주되는 Facebook, Twitter와 같은 소셜 네트워크의 콘텐츠는 크롤링이 차단되어 있습니다. 이는 인공 지능 훈련에 사용되는 대부분의 데이터 세트에 액세스할 수 없음을 의미합니다. Facebook 및 Google과 같은 거대 기술 기업은 방대한 양의 대화 데이터를 보유하고 있지만 개인 사용자 정보를 사용하여 내부용 또는 제품 판매용 인공 지능 모델을 훈련시키는 방법을 아직 모릅니다.
뉴스 및 미디어 사이트는 모든 카테고리에서 3위를 차지했으며 상위 10개 사이트 중 절반은 뉴스 매체입니다. New York Times 웹사이트는 4위, Los Angeles Times 웹사이트는 6위, The Guardian 웹사이트는 3위 7위 , "Forbes" 웹사이트는 8위, "Huffington Post" 웹사이트는 9위, "Washington Post" 웹사이트는 11위를 차지했습니다. 예술가 및 창작자와 마찬가지로 몇몇 언론 기관에서는 기술 회사가 승인이나 보상 없이 콘텐츠를 사용하는 것에 대해 비난했습니다.
동시에 "워싱턴 포스트"는 러시아의 RT(65위), 극우 뉴스 웹사이트 Breitbart(159위), 반이민 웹사이트 vdare( No. 993)은 백인 우월주의와 관련이 있습니다.
챗봇은 잘못된 정보를 공유하는 것으로 입증되었습니다. 신뢰할 수 없는 교육 데이터는 사용자가 원본 소스를 추적할 수 없는 상태에서 편견을 확산시키고 잘못된 정보를 조장할 수 있습니다.
커뮤니티 웹사이트는 기밀 콘텐츠의 약 5%를 차지하며, 주로 종교 웹사이트입니다.
필터에 어떤 물고기가 빠졌나요?
대부분의 회사와 마찬가지로 Google은 AI에 데이터를 제공하기 전에 데이터를 필터링하고 선별합니다. 무의미하고 반복적인 텍스트를 제거하는 것 외에도 회사는 402개의 영어 용어와 이모티콘이 포함된 오픈 소스 "불량 단어 목록"도 사용합니다. 기업에서는 사용자가 보고 싶어하지 않는 콘텐츠를 차단하기 위해 모델을 미세 조정하기 위해 고품질 데이터 세트를 사용하는 경우가 많습니다.
이러한 목록은 모델이 훈련을 받는 동안 인종 비방과 부적절한 콘텐츠에 노출되는 것을 제한하기 위한 것이지만, 많은 것들이 필터를 통과합니다. 워싱턴 포스트(Washington Post)는 금지어 목록에서 수백 개의 포르노 웹사이트와 72,000개 이상의 "나치" 예시를 발견했습니다.
한편, 워싱턴 포스트는 백인 우월주의 웹사이트, 트랜스젠더 반대 웹사이트, 개인에 대한 괴롭힘 캠페인을 조직하는 것으로 알려진 익명 게시판 등 일부 불안한 콘텐츠를 필터가 제거하지 못했다는 사실을 발견했습니다. 이 연구는 음모론을 조장하는 웹사이트도 발견했습니다.
당신의 웹사이트는 AI 훈련에 사용되나요?
웹 스크래핑은 인터넷 전체를 복사하는 것처럼 들릴 수도 있지만 실제로는 특정 시점의 웹페이지 샘플인 스냅샷을 수집하는 것입니다. C4 데이터 세트는 원래 2019년 4월 웹 콘텐츠 크롤링을 위해 비영리 조직인 CommonCrawl에서 생성되었으며 인공 지능 모델 교육을 위한 인기 있는 리소스입니다. CommonCrawl은 이 조직이 가장 중요하고 평판이 좋은 웹사이트에 우선순위를 두려고 노력하지만 라이센스가 있거나 저작권으로 보호되는 콘텐츠를 피하려는 시도는 하지 않는다고 말했습니다.
워싱턴 포스트(Washington Post)는 사람들의 현대 생활의 여러 측면을 관리할 것으로 예상되는 인공 지능 모델에 완전한 데이터 콘텐츠를 제공하는 것이 중요하다고 믿습니다. 그러나 이 데이터세트의 많은 웹사이트에는 매우 모욕적인 언어가 포함되어 있으며, 모델이 이러한 단어를 가리도록 훈련되었더라도 불쾌한 콘텐츠가 여전히 존재할 수 있습니다.
전문가들은 C4 데이터 세트가 크더라도 대규모 언어 모델은 더 큰 데이터 세트를 사용할 수 있다고 말합니다. 예를 들어, OpenAI는 2020년에 GPT-3 교육 데이터를 출시했는데, 이는 C4에서 웹 스크래핑된 데이터 양의 40배입니다. GPT-3의 학습 데이터에는 영어 위키피디아, 대규모 기술 기업에서 자주 사용하는 미출판 작가의 무료 소설 모음, Reddit 사용자가 높은 평가를 받은 링크 텍스트 모음이 모두 포함됩니다.
전문가들은 개인 식별 정보, 저작권 보호 자료 및 동의 없이 도난당한 기타 데이터를 알아낼 수 있다는 두려움 때문에 훈련 데이터의 내용을 (심지어 내부적으로도) 기록하지 않는 기업이 많다고 말합니다. 기업이 챗봇의 의사결정 방식을 설명하는 과제를 강조함에 따라 경영진은 이에 대해 투명한 답변을 제공해야 합니다.
위 내용은 미국 언론은 대규모 모델 훈련 데이터 세트를 공개했습니다. 일부 콘텐츠는 약간 '더럽습니다'.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











이 사이트는 6월 27일에 Jianying이 ByteDance의 자회사인 FaceMeng Technology에서 개발한 비디오 편집 소프트웨어라고 보도했습니다. 이 소프트웨어는 Douyin 플랫폼을 기반으로 하며 기본적으로 플랫폼 사용자를 위한 짧은 비디오 콘텐츠를 제작합니다. Windows, MacOS 및 기타 운영 체제. Jianying은 멤버십 시스템 업그레이드를 공식 발표하고 지능형 번역, 지능형 하이라이트, 지능형 패키징, 디지털 인간 합성 등 다양한 AI 블랙 기술을 포함하는 새로운 SVIP를 출시했습니다. 가격면에서 SVIP 클리핑 월 요금은 79위안, 연간 요금은 599위안(본 사이트 참고: 월 49.9위안에 해당), 월간 연속 구독료는 월 59위안, 연간 연속 구독료는 59위안입니다. 연간 499위안(월 41.6위안)입니다. 또한, 컷 관계자는 "사용자 경험 향상을 위해 기존 VIP에 가입하신 분들도

검색 강화 생성 및 의미론적 메모리를 AI 코딩 도우미에 통합하여 개발자 생산성, 효율성 및 정확성을 향상시킵니다. EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG에서 번역됨, 저자 JanakiramMSV. 기본 AI 프로그래밍 도우미는 자연스럽게 도움이 되지만, 소프트웨어 언어에 대한 일반적인 이해와 소프트웨어 작성의 가장 일반적인 패턴에 의존하기 때문에 가장 관련성이 높고 정확한 코드 제안을 제공하지 못하는 경우가 많습니다. 이러한 코딩 도우미가 생성한 코드는 자신이 해결해야 할 문제를 해결하는 데 적합하지만 개별 팀의 코딩 표준, 규칙 및 스타일을 따르지 않는 경우가 많습니다. 이로 인해 코드가 애플리케이션에 승인되기 위해 수정되거나 개선되어야 하는 제안이 나타나는 경우가 많습니다.

AIGC에 대해 자세히 알아보려면 다음을 방문하세요. 51CTOAI.x 커뮤니티 https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou는 인터넷 어디에서나 볼 수 있는 전통적인 문제 은행과 다릅니다. 고정관념에서 벗어나 생각해야 합니다. LLM(대형 언어 모델)은 데이터 과학, 생성 인공 지능(GenAI) 및 인공 지능 분야에서 점점 더 중요해지고 있습니다. 이러한 복잡한 알고리즘은 인간의 기술을 향상시키고 많은 산업 분야에서 효율성과 혁신을 촉진하여 기업이 경쟁력을 유지하는 데 핵심이 됩니다. LLM은 자연어 처리, 텍스트 생성, 음성 인식 및 추천 시스템과 같은 분야에서 광범위하게 사용될 수 있습니다. LLM은 대량의 데이터로부터 학습하여 텍스트를 생성할 수 있습니다.

LLM(대형 언어 모델)은 대규모 텍스트 데이터베이스에서 훈련되어 대량의 실제 지식을 습득합니다. 이 지식은 매개변수에 내장되어 필요할 때 사용할 수 있습니다. 이러한 모델에 대한 지식은 훈련이 끝나면 "구체화"됩니다. 사전 훈련이 끝나면 모델은 실제로 학습을 중단합니다. 모델을 정렬하거나 미세 조정하여 이 지식을 활용하고 사용자 질문에 보다 자연스럽게 응답하는 방법을 알아보세요. 그러나 때로는 모델 지식만으로는 충분하지 않을 때도 있으며, 모델이 RAG를 통해 외부 콘텐츠에 접근할 수 있더라도 미세 조정을 통해 모델을 새로운 도메인에 적응시키는 것이 유익한 것으로 간주됩니다. 이러한 미세 조정은 인간 주석 작성자 또는 기타 LLM 생성자의 입력을 사용하여 수행됩니다. 여기서 모델은 추가적인 실제 지식을 접하고 이를 통합합니다.

머신 러닝은 명시적으로 프로그래밍하지 않고도 컴퓨터가 데이터로부터 학습하고 능력을 향상시킬 수 있는 능력을 제공하는 인공 지능의 중요한 분야입니다. 머신러닝은 이미지 인식, 자연어 처리, 추천 시스템, 사기 탐지 등 다양한 분야에서 폭넓게 활용되며 우리의 삶의 방식을 변화시키고 있습니다. 기계 학습 분야에는 다양한 방법과 이론이 있으며, 그 중 가장 영향력 있는 5가지 방법을 "기계 학습의 5개 학교"라고 합니다. 5개 주요 학파는 상징학파, 연결주의 학파, 진화학파, 베이지안 학파, 유추학파이다. 1. 상징주의라고도 알려진 상징주의는 논리적 추론과 지식 표현을 위해 상징을 사용하는 것을 강조합니다. 이 사고 학교는 학습이 기존을 통한 역연역 과정이라고 믿습니다.

편집자 |ScienceAI 질문 응답(QA) 데이터 세트는 자연어 처리(NLP) 연구를 촉진하는 데 중요한 역할을 합니다. 고품질 QA 데이터 세트는 모델을 미세 조정하는 데 사용될 수 있을 뿐만 아니라 LLM(대형 언어 모델)의 기능, 특히 과학적 지식을 이해하고 추론하는 능력을 효과적으로 평가하는 데에도 사용할 수 있습니다. 현재 의학, 화학, 생물학 및 기타 분야를 포괄하는 과학적인 QA 데이터 세트가 많이 있지만 이러한 데이터 세트에는 여전히 몇 가지 단점이 있습니다. 첫째, 데이터 형식이 비교적 단순하고 대부분이 객관식 질문이므로 평가하기 쉽지만 모델의 답변 선택 범위가 제한되고 모델의 과학적 질문 답변 능력을 완전히 테스트할 수 없습니다. 이에 비해 개방형 Q&A는

1일 본 사이트 소식에 따르면 SK하이닉스는 오늘(1일) 블로그 게시물을 통해 8월 6일부터 8일까지 미국 캘리포니아주 산타클라라에서 열리는 글로벌 반도체 메모리 서밋 FMS2024에 참가한다고 밝혔다. 많은 새로운 세대의 제품. 인공지능 기술에 대한 관심이 높아지고 있는 가운데, 이전에는 주로 NAND 공급업체를 대상으로 한 플래시 메모리 서밋(FlashMemorySummit)이었던 미래 메모리 및 스토리지 서밋(FutureMemoryandStorage) 소개를 올해는 미래 메모리 및 스토리지 서밋(FutureMemoryandStorage)으로 명칭을 변경했습니다. DRAM 및 스토리지 공급업체와 더 많은 플레이어를 초대하세요. SK하이닉스가 지난해 출시한 신제품

Editor | KX 약물 연구 및 개발 분야에서 단백질과 리간드의 결합 친화도를 정확하고 효과적으로 예측하는 것은 약물 스크리닝 및 최적화에 매우 중요합니다. 그러나 현재 연구에서는 단백질-리간드 상호작용에서 분자 표면 정보의 중요한 역할을 고려하지 않습니다. 이를 기반으로 Xiamen University의 연구자들은 처음으로 단백질 표면, 3D 구조 및 서열에 대한 정보를 결합하고 교차 주의 메커니즘을 사용하여 다양한 양식 특징을 비교하는 새로운 다중 모드 특징 추출(MFE) 프레임워크를 제안했습니다. 조정. 실험 결과는 이 방법이 단백질-리간드 결합 친화도를 예측하는 데 있어 최첨단 성능을 달성한다는 것을 보여줍니다. 또한 절제 연구는 이 프레임워크 내에서 단백질 표면 정보와 다중 모드 기능 정렬의 효율성과 필요성을 보여줍니다. 관련 연구는 "S"로 시작된다
