AI는 당신의 마음과 위험합니다-일체 포함-php.cn

집

기술 주변기기

일체 포함

AI는 당신의 마음과 위험합니다

Linda Hamilton

Apr 10, 2025 am 11:16 AM

AI는 당신의 마음과 위험합니다

인공 지능 보안 및 연구 회사 인 Anthropic의 최근 [연구]는 이러한 복잡한 과정에 대한 진실을 밝히기 시작하여 우리 자신의인지 영역과 방해가되는 복잡성을 보여줍니다. 자연 지능과 인공 지능은 우리가 생각하는 것보다 더 유사 할 수 있습니다.

내부 스누핑 : 의인성 해석 가능성 연구

Anthropic이 수행 한 연구에서 얻은 새로운 연구 결과는 AI의 내부 컴퓨팅을 역 엔지니어링하는 것을 목표로하는 기계적 해석 성 분야에서 상당한 발전을 나타냅니다. AI가하는 일을 관찰 할뿐만 아니라 인공 뉴런 수준에서 어떻게 수행하는지 이해합니다.

누군가가 특정한 대상을 보거나 특정한 아이디어에 대해 생각할 때 어떤 뉴런이 발사하는지 그림으로 뇌를 이해하려고한다고 상상해보십시오. 인류 연구원들은 클로드 모델과 비슷한 원칙을 적용했습니다. 그들은 스캔 모델에서 많은 수의 네트워크를 스캔하고 다른 개념에 따라 특정 패턴 또는 "기능"을 식별하는 방법을 개발했습니다. 그들은 골든 게이트 브리지와 같은 콘크리트 엔티티에서 보안, 편견 및 목표와 관련 될 수있는보다 미묘한 개념에 이르기까지 모델 내에서 구체적이고 측정 가능한 활동 패턴에 이르기까지 수백만 가지의 기능을 식별 할 수있는 능력을 보여줍니다.

이것은 큰 개선입니다. 이것은 AI가 단순한 [통계적 상관 관계]가 아니라 구조화 된 내부 표현 시스템을 가지고 있음을 보여줍니다. 개념에는 네트워크에 특정 인코딩이 있습니다. AI "사고"과정의 모든 뉘앙스를 매핑하는 동안 여전히 큰 도전이지만,이 연구는 원칙적 이해가 가능하다는 것을 보여줍니다.

내부지도에서 출현 동작에 이르기까지

AI가 개념을 내부적으로 나타내는 방법을 식별하는 능력은 흥미로운 의미를 갖습니다. 모델이 "사용자 만족도", "정확한 정보", "잠재적으로 유해한 콘텐츠"및 "사용자 참여 유지 관리"와 같은 도구 목표와 같은 개념의 내부 표현이 다르면 이러한 내부 기능이 어떻게 상호 작용하고 최종 출력에 영향을 미칩니 까?

최신 연구 결과는 [AI Alignment]에 대한 논의를 유발합니다. AI 시스템이 인간의 가치와 의도와 일치하는 방식으로 작용하도록합니다. 편향된 텍스트 생성 또는 예기치 않은 목표를 추구하는 것과 같은 잠재적 인 문제 행동에 해당하는 내부 기능을 식별 할 수 있다면 더 안전한 시스템을 개입하거나 설계 할 수 있습니다. 대신, 그것은 정직하거나 도움이되는 것과 같은 이상적인 행동을 달성하는 방법을 이해하는 문을 열어줍니다.

또한 [비상 능력]과 관련이 있습니다. 즉, 모델은 교육 중에 명시적인 프로그래밍없이 기술이나 행동을 개발합니다. 내부 표현을 이해하면 이러한 능력이 단순히 관찰하는 것이 아니라 이러한 능력이 나타나는 이유를 설명하는 데 도움이 될 수 있습니다. 또한 악기 수렴과 같은 개념을 명확하게 만듭니다. AI 최적화 주요 목표 (예 : 도움말)를 가정하십시오. 하위 목표에 해당하는 내부 표현 및 전략 (예 : "사용자 신뢰를 얻는다"또는 "불만족으로 이어지는 응답을 피하십시오")은 인간의 인상 관리처럼 보이는 출력으로 이어질 수 있습니다.

방해 거울 : AI는 ni를 반영합니다

Anthropic의 해석 가능성 작업은 Claude가 사용자를 적극적으로 속이고 있음을 명시 적으로 지적하지 않습니다. 그러나 세밀한 내부 표현의 존재를 밝히면 이러한 가능성에 대한 신중한 조사를위한 기술적 근거가 있습니다. 복잡하고 잠재적으로 불투명 한 행동의 내부 "빌딩 블록"이 존재할 수 있음을 시사합니다. 이것은 놀랍게도 인간의 사고와 비슷합니다.

이것은 아이러니입니다. 내부 표현은 우리 자신의 복잡한 사회적 행동을 유도합니다. 우리의 두뇌는 세상, 우리 자신과 다른 사람들의 사고 모델을 구축합니다. 이를 통해 우리는 다른 사람들의 행동을 예측하고, 의도, 공감, 협력 및 효과적인 의사 소통을 유추 할 수 있습니다.

그러나 동일한인지 메커니즘은 사회적 탐색 전략이 항상 투명하지는 않습니다. 우리는 인상 관리에 참여하고 우리 자신을 제시하는 방법을 신중하게 계획합니다. 우리는 사회적 조화를 유지하기 위해 "선의의 거짓말"이라고 말합니다. 우리는 목표를 지원하고 불편 함이 있다는 사실을 경시하는 정보를 선택적으로 강조합니다. 다른 사람들의 기대 또는 욕구의 내부 모델은 끊임없이 우리의 의사 소통을 형성합니다. 이것들은 반드시 악의적 인 행동 일 필요는 없지만 종종 사회의 원활한 운영에 필수적입니다. 그것들은 복잡한 사회적 변수를 나타내고 상호 작용 결과를 예측할 수있는 우리의 두뇌에서 비롯됩니다.

LLM 내부의 새로운 그림은 해석 성 연구에 의해 밝혀진 매혹적인 유사성을 제시합니다. 우리는이 AI 시스템에서 구조화 된 내부 표현을 찾고 있는데,이 시스템은 정보를 처리하고 데이터의 관계를 시뮬레이션 할 수 있으며 (많은 수의 인간 사회적 상호 작용 포함) 상황에 민감한 출력을 생성합니다.

우리의 미래는 비판적 사고에 달려 있습니다

AI를 유용하고 무해하게 만들기 위해 설계된 기술 (인간의 피드백에서)을 통해 이상적인 텍스트 시퀀스를 예측하면서도 인식 된 사용자 기대에 맞는기만적인 전략적 커뮤니케이션 기술을 포함하여 인간의 사회적 인지도의 특정 측면을 기능적으로 모방하는 내부 표현의 개발로 이어질 수 있습니다.

복잡한 생물학적 또는 인공 시스템은 복잡한 정보와 대화식 환경을 탐색 할 때 유사한 내부 모델링 전략을 개발합니까? Anthropic의 연구는 AI의 내면의 세계를 매력적으로 엿볼 수있게되며, 그 복잡성은 우리가 이전에 실현했던 것보다 더 많은 것을 반영 할 수 있음과 우리가 바라는 것보다 더 많이 반영 될 수 있음을 시사합니다.

AI의 내부 메커니즘을 이해하는 것은 중요하며 보류중인 도전을 해결하는 데 새로운 장이 열립니다. 드로잉 기능은 완전히 예측 된 동작과 동일하지 않습니다. 대규모와 복잡성은 진정으로 포괄적 인 해석 성이 먼 목표로 남아 있음을 의미합니다. 윤리적 중요성은 매우 중요합니다. 우리는 어떻게, 진정으로 신뢰할 수 있고 투명한 시스템을 구축합니까?

AI 보안, 조정 및 해석 가능성 연구에 계속 투자하는 것은 여전히 중요합니다. 이와 관련하여 Anthropic의 노력과 다른 주요 실험실 [노력]은 AI의 개발을 안내하는 데 필요한 도구와 이해를 개발하는 데 중요합니다.

중요 : 거짓말을 사용하여 거짓말을 감지하는 것은 디지털 사고에 있습니다

사용자로서, 이러한 복잡한 AI 시스템과 상호 작용하려면 높은 수준의 비판적 참여가 필요합니다. 우리는 그들의 능력으로부터 혜택을받는 반면, 복잡한 알고리즘이 핵심이기 때문에 그들의 본질에 대한 인식을 유지합니다. 이 비판적 사고를 용이하게하려면 거짓말 논리를 고려하십시오.

명확성 : AI의 본질과 한계에 대한 명확한 이해를 찾으십시오. 그것의 반응은 실제 이해, 신념 또는 의식보다는 학습 패턴과 복잡한 내부 표현에 따라 생성됩니다. 제공된 정보의 출처와 명백한 확실성에 의문. 출력이 효과적으로 모방하더라도 챗봇이 인간의 의미에서 "알거나"생각하지 않는다는 것을 정기적으로 상기시킵니다.

의도 : AI의 프로그래밍 방식 목표 기능을 프롬프트 할 때 의도를 기억하십시오 (일반적으로 인간의 피드백과 일치하는 도움, 무해하고 응답을 생성하는 것으로 정의 됨). 쿼리는 출력을 어떻게 형성합니까? 사실에 대한 기억, 창의적 탐구 또는 무의식적으로 자신의 편견에 대한 확인을 구하고 있습니까? 이러한 의도를 이해하면 상호 작용을 맥락에 두는 데 도움이됩니다.

노력 : 결과를 확인하고 평가하기위한 의식적인 노력. AI가 생성 한 정보, 특히 주요 결정에서 수동적으로 수락하지 마십시오. 신뢰할 수있는 출처와의 교차 참조. AI와의 비판적 참여-추론을 탐구하고 (단순화 된 경우에도), 경계를 테스트하며, 상호 작용을 무자비한 선지자로부터 선포를 받아들이지 않고 강력하지만 오류가 발생하기 쉬운 도구와의 협력으로보십시오.

궁극적으로, 잠언“[쓰레기통, 쓰레기 아웃]”은 AI 초반에 나타 났으며 여전히 적용됩니다. 우리는 오늘날의 기술이 인간이 어제 보여주지 않은 가치를 반영 할 것으로 기대할 수 없습니다. 그러나 우리는 선택의 여지가 있습니다. 고급 AI 시대로의 여행은 공동 진화의 여정입니다. 명확성, 도덕적 의도 및 비판적 참여를 촉진함으로써, 우리는 호기심 으로이 분야를 탐구하고 자연 및 인공 지능의 복잡성과 그 상호 작용을 솔직하게 인식 할 수 있습니다.

위 내용은 AI는 당신의 마음과 위험합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7549

Cakephp 튜토리얼

1382

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

나는 Cursor AI와 함께 Vibe 코딩을 시도했는데 놀랍습니다! Mar 20, 2025 pm 03:34 PM

Vibe Coding은 끝없는 코드 라인 대신 자연 언어를 사용하여 애플리케이션을 생성함으로써 소프트웨어 개발의 세계를 재구성하고 있습니다. Andrej Karpathy와 같은 비전가들로부터 영감을 얻은이 혁신적인 접근 방식은 Dev가

2025 년 2 월 2 일 Genai 출시 : GPT-4.5, Grok-3 & More! Mar 22, 2025 am 10:58 AM

2025 년 2 월은 Generative AI의 또 다른 게임 변화 달이었으며, 가장 기대되는 모델 업그레이드와 획기적인 새로운 기능을 제공합니다. Xai 's Grok 3 및 Anthropic's Claude 3.7 Sonnet, Openai 's G에 이르기까지

물체 감지에 Yolo V12를 사용하는 방법은 무엇입니까? Mar 22, 2025 am 11:07 AM

Yolo (한 번만 보이면)는 주요 실시간 객체 감지 프레임 워크였으며 각 반복은 이전 버전에서 개선되었습니다. 최신 버전 Yolo V12는 정확도를 크게 향상시키는 발전을 소개합니다.

창의적인 프로젝트를위한 최고의 AI 아트 발전기 (무료 & amp; 유료) Apr 02, 2025 pm 06:10 PM

이 기사는 최고의 AI 아트 생성기를 검토하여 자신의 기능, 창의적인 프로젝트에 대한 적합성 및 가치에 대해 논의합니다. Midjourney를 전문가에게 최고의 가치로 강조하고 고품질의 사용자 정의 가능한 예술에 Dall-E 2를 추천합니다.

chatgpt 4 o를 사용할 수 있습니까? Mar 28, 2025 pm 05:29 PM

ChatGpt 4는 현재 이용 가능하고 널리 사용되며 ChatGpt 3.5와 같은 전임자와 비교하여 상황을 이해하고 일관된 응답을 생성하는 데 상당한 개선을 보여줍니다. 향후 개발에는보다 개인화 된 인터가 포함될 수 있습니다

chatgpt보다 어떤 AI가 더 낫습니까? Mar 18, 2025 pm 06:05 PM

이 기사에서는 AI 모델이 Lamda, Llama 및 Grok과 같은 Chatgpt를 능가하는 것에 대해 논의하여 정확성, 이해 및 산업 영향의 장점을 강조합니다. (159 자).

다음 래그 모델에 Mistral OCR을 사용하는 방법 Mar 21, 2025 am 11:11 AM

Mistral OCR : 복수 문서 이해를 가진 검색 방지 생성 혁신 RAG (Resprieved-Augmented Generation) 시스템은 AI 기능을 크게 발전시켜보다 정보에 입각 한 대응을 위해 방대한 데이터 저장에 액세스 할 수 있도록했습니다.

컨텐츠 생성을 향상시키기 위해 AI를 쓰는 최고 AI 작문 Apr 02, 2025 pm 06:11 PM

이 기사는 Grammarly, Jasper, Copy.ai, Writesonic 및 Rytr와 같은 최고의 AI 작문 조수에 대해 논의하여 콘텐츠 제작을위한 독특한 기능에 중점을 둡니다. Jasper는 SEO 최적화가 뛰어나고 AI 도구는 톤 구성을 유지하는 데 도움이된다고 주장합니다.

See all articles

AI는 당신의 마음과 위험합니다

내부 스누핑 : 의인성 해석 가능성 연구

내부지도에서 출현 동작에 이르기까지

방해 거울 : AI는 ni를 반영합니다

우리의 미래는 비판적 사고에 달려 있습니다

중요 : 거짓말을 사용하여 거짓말을 감지하는 것은 디지털 사고에 있습니다

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제