강화학습이 다시 네이처 표지에 등장, 자율주행 안전 검증의 새로운 패러다임으로 시험 주행거리 대폭 단축-일체 포함-php.cn

연구 소개

집

기술 주변기기

일체 포함

강화학습이 다시 네이처 표지에 등장, 자율주행 안전 검증의 새로운 패러다임으로 시험 주행거리 대폭 단축

PHPz

Mar 31, 2023 pm 10:38 PM

ai 강화 학습

밀도 강화 학습을 도입하고 AI를 사용해 AI를 검증합니다.

자율주행차(AV) 기술의 급속한 발전으로 인해 우리는 100년 전 자동차 출현 이후 볼 수 없었던 규모의 교통 혁명을 앞두고 있습니다. 자율주행 기술은 교통안전, 이동성, 지속가능성을 획기적으로 향상시킬 수 있는 잠재력을 갖고 있어 업계, 정부기관, 전문단체, 학계의 주목을 받고 있습니다.

자율주행차의 개발은 특히 딥러닝의 출현과 함께 지난 20년 동안 큰 발전을 이루었습니다. 2015년부터 기업들은 2020년까지 AV를 대량 생산할 것이라고 발표하기 시작했습니다. 그러나 지금까지 시장에는 레벨 4 AV가 없습니다.

이 현상에는 여러 가지 이유가 있지만 가장 중요한 것은 자율주행차의 안전 성능이 여전히 인간 운전자의 안전 성능보다 현저히 낮다는 것입니다. 미국의 평균 운전자의 경우 자연 주행 환경(NDE)에서 충돌 확률은 마일당 약 1.9 × 10^-6입니다. 이에 비해 캘리포니아의 2021년 분리 보고서에 따르면 최첨단 자율주행 차량의 분리율은 약 2.0 × 10^-5/마일입니다.

참고: 이탈률은 자율 주행의 신뢰성을 평가하는 중요한 지표입니다. 이는 시스템에서 운전자가 1,000마일을 운전해야 하는 횟수를 나타냅니다. 시스템의 분리율이 낮을수록 신뢰성이 향상됩니다. 이탈률이 0이면 자율주행 시스템이 어느 정도 무인 수준에 도달했다는 뜻이다.

이탈률은 편향적이라는 비판을 받을 수 있지만, 자율주행차의 안전 성능을 평가하는 데 널리 사용되어 왔습니다.

자율주행차의 안전 성능 향상에 있어 가장 큰 걸림돌은 바로 낮은 안전 검증 효율성입니다. 현재 소프트웨어 시뮬레이션, 비공개 테스트 트랙 및 도로 테스트를 결합하여 자율주행차의 비파괴 테스트를 테스트하는 것이 인기가 있습니다. 결과적으로 AV 개발자는 평가를 위해 상당한 경제적, 시간적 비용을 부담해야 하며 AV 배포 진행을 방해합니다.

NDE 환경에서 AV 보안 성능을 확인하는 것은 매우 복잡합니다. 예를 들어 운전 환경은 공간과 시간이 복잡하기 때문에 이러한 환경을 정의하는 데 필요한 변수는 고차원적입니다. 변수의 차원이 기하급수적으로 증가함에 따라 계산의 복잡성도 증가합니다. 이 경우 딥러닝 모델은 많은 양의 데이터가 주어져도 학습하기 어렵습니다.

이 기사에서는 미시간 대학교, 앤아버 대학교, 칭화 대학교 및 기타 기관의 연구자들이 이 문제를 해결하기 위해 D2RL(밀도 심층 강화 학습) 방법을 제안합니다.

이 연구는 Nature 표지에 실렸습니다.

강화학습이 다시 네이처 표지에 등장, 자율주행 안전 검증의 새로운 패러다임으로 시험 주행거리 대폭 단축

논문 주소: https://www.nature.com/articles/s41586-023-05732-2
프로젝트 주소: https://github.com/michigan-traffic-lab/Dense-Deep -Reinforcement-Learning

논문 작성 후 석사 학위를 받았습니다. 그는 현재 칭화 대학교 자동화학과의 조교수로 재직하고 있으며, 미시간 대학교의 조교수이기도 합니다. 교통 연구소(UMTRI). 그는 Zhang Yi 교수 지도 하에 2014년과 2019년에 칭화대학교 자동화학과에서 학사 및 박사 학위를 받았습니다. 2017년부터 2019년까지 그는 미시간대학교 토목환경공학과의 객원 박사과정 학생으로 Henry X. Liu 교수(본 논문의 교신저자) 밑에서 공부했습니다.

연구 소개

D2RL 방법의 기본 아이디어는 안전에 중요하지 않은 데이터를 식별 및 제거하고 안전에 중요하지 않은 데이터를 사용하여 신경망을 훈련시키는 것입니다. 보안에 중요한 데이터는 극히 일부이므로 나머지 데이터에는 정보가 많이 밀집되어 있습니다.

DRL 방법과 비교하여 D2RL 방법은 편견을 잃지 않고 정책 기울기 추정의 분산을 여러 자릿수로 크게 줄일 수 있습니다. 이러한 상당한 분산 감소를 통해 신경망은 DRL 방법으로는 다루기 힘든 작업을 학습하고 완료할 수 있습니다.

AV 테스트의 경우 이 연구에서는 D2RL 방법을 사용하여 신경망을 통해 배경 차량(BV)을 훈련하여 언제 어떤 적대적 작업을 수행할지 학습하여 테스트 효율성을 향상시킵니다. D2RL은 편견 없는 테스트를 보장하면서 AI 기반 적대적 테스트 환경에서 AV에 필요한 테스트 마일리지를 여러 배로 줄일 수 있습니다.

D2RL 방식은 기존 시나리오 기반 방식으로는 불가능했던 다중 고속도로, 교차로, 로터리 등 복잡한 주행 환경에 적용할 수 있습니다. 또한, 본 연구에서 제안하는 방법은 AI를 활용하여 AI를 검증하는 지능형 테스트 환경을 구축할 수 있다. 이는 다른 안전 필수 시스템의 테스트 및 교육을 가속화할 수 있는 문을 여는 패러다임 전환입니다.

AI 기반 테스트 방법의 유효성을 입증하기 위해 본 연구에서는 대규모 실제 주행 데이터 세트를 사용하여 BV를 교육하고 물리적 테스트 트랙에 대한 시뮬레이션 실험과 현장 실험을 수행했습니다. 실험 결과는 아래 그림 1과 같습니다.

강화학습이 다시 네이처 표지에 등장, 자율주행 안전 검증의 새로운 패러다임으로 시험 주행거리 대폭 단축

Dense Deep Reinforcement Learning

AI 기술을 활용하기 위해 본 연구에서는 AV 테스트 문제를 현재 상태 정보를 기반으로 BV의 운영을 결정하는 Markov Decision Process(MDP)로 공식화합니다. 이 연구는 평가 효율성을 극대화하고 편견을 보장하기 위해 AV와 상호 작용하는 BV의 동작을 제어하는 신경망으로 모델링된 정책(DRL 에이전트)을 훈련하는 것을 목표로 합니다. 그러나 위에서 언급한 바와 같이 차원성과 계산 복잡도의 한계로 인해 DRL 방법을 직접 적용하면 효과적인 정책을 학습하는 것이 어렵거나 심지어 불가능할 수도 있습니다.

대부분의 상태는 중요하지 않고 보안이 중요한 이벤트에 대한 정보를 제공할 수 없기 때문에 D2RL은 이러한 중요하지 않은 상태에서 데이터를 제거하는 데 중점을 둡니다. AV 테스트 문제의 경우 다양한 보안 메트릭을 활용하여 다양한 효율성과 효과로 중요한 상태를 식별할 수 있습니다. 본 연구에서 활용된 중요도 측정 기준은 현재 상태의 특정 시간 프레임(예: 1초) 내 AV 충돌 비율의 외부 근사치입니다. 그런 다음 연구에서는 Markov 프로세스를 편집하여 중요하지 않은 상태에 대한 데이터를 삭제하고 나머지 데이터를 정책 경사 추정에 사용하고 Bootstrap을 DRL 훈련에 사용했습니다.

아래 그림 2에서 볼 수 있듯이 DRL과 비교하여 D2RL의 장점은 훈련 과정에서 보상을 극대화할 수 있다는 것입니다.

강화학습이 다시 네이처 표지에 등장, 자율주행 안전 검증의 새로운 패러다임으로 시험 주행거리 대폭 단축

AV 시뮬레이션 테스트

D2RL 방법의 정확성, 효율성, 확장성 및 일반성을 평가하기 위해 본 연구에서는 시뮬레이션 테스트를 수행했습니다. 각 테스트 세트에 대해 연구에서는 고정된 교통 이동 거리를 시뮬레이션한 후 아래 그림 3과 같이 테스트 결과를 기록하고 분석했습니다.

강화학습이 다시 네이처 표지에 등장, 자율주행 안전 검증의 새로운 패러다임으로 시험 주행거리 대폭 단축

D2RL의 확장성과 일반화에 대한 추가 연구를 위해 본 연구에서는 차선 수(2차선, 3차선)와 주행 거리(400m, 2km, 4km, 25km)를 달리한 AV-I 모델 실험을 수행했습니다. . 미국의 평균 통근자는 편도 약 25km를 이동하므로 이 기사에서는 25km 이동을 살펴봅니다. 결과는 표 1에 나와 있습니다.

강화학습이 다시 네이처 표지에 등장, 자율주행 안전 검증의 새로운 패러다임으로 시험 주행거리 대폭 단축

위 내용은 강화학습이 다시 네이처 표지에 등장, 자율주행 안전 검증의 새로운 패러다임으로 시험 주행거리 대폭 단축의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7526

Cakephp 튜토리얼

1378

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

데비안 아파치 로그 레벨을 설정하는 방법 Apr 13, 2025 am 08:33 AM

이 기사에서는 데비안 시스템에서 Apacheweb 서버의 로깅 레벨을 조정하는 방법에 대해 설명합니다. 구성 파일을 수정하면 Apache가 기록한 로그 정보 수준을 제어 할 수 있습니다. 메소드 1 : 구성 파일을 찾으려면 기본 구성 파일을 수정합니다. 구성 파일 : APACHE2.X의 구성 파일은 일반적으로/etc/apache2/디렉토리에 있습니다. 파일 이름은 설치 방법에 따라 apache2.conf 또는 httpd.conf 일 수 있습니다. 구성 파일 편집 : 텍스트 편집기 (예 : Nano)를 사용하여 루트 권한이있는 구성 파일 열기 : sudonano/etc/apache2/apache2.conf

Debian Readdir의 성능을 최적화하는 방법 Apr 13, 2025 am 08:48 AM

Debian Systems에서 ReadDir 시스템 호출은 디렉토리 내용을 읽는 데 사용됩니다. 성능이 좋지 않은 경우 다음과 같은 최적화 전략을 시도해보십시오. 디렉토리 파일 수를 단순화하십시오. 대규모 디렉토리를 가능한 한 여러 소규모 디렉토리로 나누어 읽기마다 처리 된 항목 수를 줄입니다. 디렉토리 컨텐츠 캐싱 활성화 : 캐시 메커니즘을 구축하고 정기적으로 캐시를 업데이트하거나 디렉토리 컨텐츠가 변경 될 때 캐시를 업데이트하며 readDir로 자주 호출을 줄입니다. 메모리 캐시 (예 : Memcached 또는 Redis) 또는 로컬 캐시 (예 : 파일 또는 데이터베이스)를 고려할 수 있습니다. 효율적인 데이터 구조 채택 : 디렉토리 트래버스를 직접 구현하는 경우 디렉토리 정보를 저장하고 액세스하기 위해보다 효율적인 데이터 구조 (예 : 선형 검색 대신 해시 테이블)를 선택하십시오.

Debian Readdir의 파일 정렬을 구현하는 방법 Apr 13, 2025 am 09:06 AM

Debian Systems에서 readDIR 함수는 디렉토리 내용을 읽는 데 사용되지만 반환하는 순서는 사전 정의되지 않습니다. 디렉토리에 파일을 정렬하려면 먼저 모든 파일을 읽은 다음 QSORT 기능을 사용하여 정렬해야합니다. 다음 코드는 데비안 시스템에서 readdir 및 qsort를 사용하여 디렉토리 파일을 정렬하는 방법을 보여줍니다.#포함#포함#포함#포함#포함 // QsortIntCompare (constvoid*a, constVoid*b) {returnStrcmp (*(*)

데비안 메일 서버 방화벽 구성 팁 Apr 13, 2025 am 11:42 AM

데비안 메일 서버의 방화벽 구성은 서버 보안을 보장하는 데 중요한 단계입니다. 다음은 iptables 및 방화구 사용을 포함하여 일반적으로 사용되는 여러 방화벽 구성 방법입니다. iptables를 사용하여 iptables를 설치하도록 방화벽을 구성하십시오 (아직 설치되지 않은 경우) : sudoapt-getupdatesudoapt-getinstalliptablesview 현재 iptables 규칙 : sudoiptables-l configuration

데비안 메일 서버 SSL 인증서 설치 방법 Apr 13, 2025 am 11:39 AM

Debian Mail 서버에 SSL 인증서를 설치하는 단계는 다음과 같습니다. 1. OpenSSL 툴킷을 먼저 설치하십시오. 먼저 OpenSSL 툴킷이 이미 시스템에 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. 개인 키 및 인증서 요청 생성 다음에 다음, OpenSSL을 사용하여 2048 비트 RSA 개인 키 및 인증서 요청 (CSR)을 생성합니다.

Debian Readdir가 다른 도구와 통합하는 방법 Apr 13, 2025 am 09:42 AM

데비안 시스템의 readdir 함수는 디렉토리 컨텐츠를 읽는 데 사용되는 시스템 호출이며 종종 C 프로그래밍에 사용됩니다. 이 기사에서는 ReadDir를 다른 도구와 통합하여 기능을 향상시키는 방법을 설명합니다. 방법 1 : C 언어 프로그램을 파이프 라인과 결합하고 먼저 C 프로그램을 작성하여 readDir 함수를 호출하고 결과를 출력하십시오.#포함#포함#포함#포함#includinTmain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

데비안을 오류하는 방법은 중간 중간의 공격을 방해합니다 Apr 13, 2025 am 10:30 AM

Debian Systems에서 OpenSSL은 암호화, 암호 해독 및 인증서 관리를위한 중요한 라이브러리입니다. MITM (Man-in-the-Middle Attack)을 방지하려면 다음 측정을 수행 할 수 있습니다. HTTPS 사용 : 모든 네트워크 요청이 HTTP 대신 HTTPS 프로토콜을 사용하도록하십시오. HTTPS는 TLS (Transport Layer Security Protocol)를 사용하여 통신 데이터를 암호화하여 전송 중에 데이터가 도난 당하거나 변조되지 않도록합니다. 서버 인증서 확인 : 클라이언트의 서버 인증서를 수동으로 확인하여 신뢰할 수 있는지 확인하십시오. 서버는 대의원 메소드를 통해 수동으로 확인할 수 있습니다.

데비안 하프 로그 관리를 수행하는 방법 Apr 13, 2025 am 10:45 AM

Debian에서 Hadoop 로그 관리하면 다음 단계 및 모범 사례를 따라갈 수 있습니다. 로그 집계 로그 집계 : Yarn-site.xml 파일에서 Ture에서 True로 설정 할 수 있도록 설정 : 로그 집계를 활성화하십시오. 로그 보유 정책 구성 : 172800 초 (2 일)와 같이 로그의 유지 시간을 정의하기 위해 yarn.log-aggregation.retain-seconds를 설정하십시오. 로그 저장 경로를 지정하십시오 : Yarn.n을 통해

See all articles

강화학습이 다시 네이처 표지에 등장, 자율주행 안전 검증의 새로운 패러다임으로 시험 주행거리 대폭 단축

연구 소개

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제