현장에서 최대 97%의 정확도를 자랑하는 엔드사이드 디바이스용 AI 에이전트 최적화 프레임워크가 출시됐다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

현장에서 최대 97%의 정확도를 자랑하는 엔드사이드 디바이스용 AI 에이전트 최적화 프레임워크가 출시됐다.

Jul 17, 2024 am 02:52 AM

프로젝트 AI 에이전트

현장에서 최대 97%의 정확도를 자랑하는 엔드사이드 디바이스용 AI 에이전트 최적화 프레임워크가 출시됐다.

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 기사는 NEXA AI 팀과 MIT-IBM Watson AI Lab에서 개발되었습니다. 제1저자인 웨이첸(Chen Wei)은 NEXA AI의 공동 창업자이자 CEO, 수석 과학자로 스탠포드 대학에서 박사학위를 취득했으며 인공지능 연구에 풍부한 경험을 갖고 있다. 공동 저자 Zhiyuan Li는 NEXA AI의 공동 창립자이자 CTO로 스탠포드 대학 졸업생이며 Google 및 Amazon Lab126에서 엔드사이드 AI 분야에서 다년간의 최전선 R&D 경험을 보유하고 있습니다. 다른 두 명의 공동 저자는 MIT와 IBM의 Zhen Guo와 Yikang Shen입니다.

자율적인 의사 결정과 문제 해결 능력을 갖춘 AI 에이전트는 점점 더 중요해지고 있습니다. 효과적으로 기능하려면 이러한 에이전트가 최선의 조치 과정을 결정한 다음 계획된 조치를 실행하는 계획 프로세스가 필요합니다.

본 논문에서는 계획과 행동 실행을 에지 장치에 최적화된 계획 에이전트인 Octo-planner와 기능을 실행하는 행동 에이전트의 두 가지 구성 요소로 분리하는 효율적인 장치 측 계획-행동 프레임워크를 제안합니다. Octopus 모델을 사용합니다. Octo-Planner는 먼저 작업을 일련의 하위 단계로 나누어 사용자 쿼리에 응답한 다음 Octopus 작업 에이전트에 의해 실행됩니다. 리소스가 제한된 장치의 성능을 최적화하기 위해 상황별 학습 대신 모델 미세 조정을 사용하여 계산 비용과 에너지 소비를 줄이면서 응답 시간을 향상시킵니다.

우리의 접근 방식에는 GPT-4를 사용하여 사용 가능한 기능을 기반으로 다양한 계획 쿼리 및 응답을 생성하고 후속 검증을 통해 데이터 품질을 보장하는 것이 포함됩니다. 우리는 선별된 데이터 세트에서 Phi-3 Mini 모델을 미세 조정하여 도메인 내 테스트 환경에서 97%의 성공률을 달성했습니다.

다중 도메인 계획 문제를 해결하기 위해 우리는 다양한 기능 하위 집합에 대해 훈련된 LoRA 가중치를 병합하는 다중 LoRA 훈련 방법을 개발했습니다. 이 접근 방식은 리소스가 제한된 장치에서 계산 효율성을 유지하면서 복잡한 다중 도메인 쿼리를 유연하게 처리합니다.

종이: https://arxiv.org/pdf/2406.18082
데모: https://www.nexa4ai.com/octo-planner#video
모델 페이지: https: //huggingface.co/NexaAIDev/octopus-planning

1 소개

인공지능(AI) 에이전트는 자율적인 의사결정을 가능하게 하고 운영 효율성을 향상시켜 다양한 산업을 크게 변화시켰습니다. 이러한 에이전트는 최선의 조치 결정, 계획된 조치 실행 및 결과 요약을 포함하는 중요한 계획 프로세스에 의존합니다. Gemini-Pro 및 GPT-4와 같은 LLM(대형 언어 모델)은 이 영역에서 잠재력을 보여줍니다.

이러한 모델은 복잡한 계획 작업을 수행하는 데 어려움을 겪고 인간 성능에 필적하는 수준에 도달하기 위해 노력하지만 여전히 간단한 작업을 처리하는 데 효과적이므로 실제 적용이 용이합니다. 이러한 응용 프로그램 중 하나는 LLM의 기능을 활용하여 다양한 분야에서 지능형 보조자를 제공하는 MultiOn, Simular AI 및 Adept AI와 같은 회사의 AI 보조 도구입니다.

또한 Rabbit R1, Humane AI Pin 및 Limitless 펜던트와 같은 소비자 지향 AI 하드웨어 제품은 LLM을 사용자 친화적인 장치에 통합하여 스마트 비서의 접근성을 높이고 상당한 견인력을 제공합니다. AI 에이전트의 성공은 기반이 되는 LLM의 성능에 달려 있다. 작업 시연에서 미세 조정 없이 사전 훈련된 모델을 사용한 에이전트는 데스크톱 앱의 경우 12%에서 모바일 앱의 경우 46%에 이르기까지 상대적으로 낮은 성공률을 보인 반면, 미세 조정된 모델을 활용한 에이전트는 훈련과 유사한 작업에서 더 나은 성능을 보였습니다. 데이터 작업에서 최대 80%의 성공률을 달성합니다.

그러나 LLM을 사용하는 AI 에이전트는 높은 계산 요구 사항과 인프라 비용으로 인해 비용이 많이 들고 광범위한 채택이 제한됩니다. 온디바이스 AI 에이전트가 부족하면 실시간 처리, 오프라인 기능 또는 강화된 개인 정보 보호가 필요한 애플리케이션이 제한됩니다. 온디바이스 AI 에이전트는 지연 시간 단축, 오프라인 운영, 비용 절감, 데이터 보안 향상 등의 이점을 제공합니다. Octopus V2와 같은 작업 모델은 함수 호출에서 95% 이상의 정확도를 달성하지만 여전히 장치 측 계획 모델이 부족합니다. 일반 에이전트 프레임워크는 단일 모델 컨텍스트 학습을 사용하며 각 프롬프트에 긴 기능 설명과 계획 지침이 필요합니다. 이 접근 방식은 컨텍스트 길이가 제한된 장치 측 모델에는 비실용적이므로 에지 장치에서 대기 시간이 길고 배터리 소모가 발생합니다.

이 백서에서는 효율성, 적응성 및 리소스 제약이라는 주요 문제를 해결하는 온디바이스 계획 에이전트인 Octo-planner를 소개합니다. 우리의 계획-행동 프레임워크는 계획과 행동 실행을 두 가지 구성요소, 즉 에지 장치 또는 Octo-planner에 사용하도록 최적화된 계획 에이전트와 Octopus 모델을 사용하여 기능을 실행하는 행동 에이전트로 분리합니다.

몇 번의 힌트보다 미세 조정을 우선시하여 계산 비용을 줄이고 KV(키 값) 캐싱 요구 사항을 최소화합니다. 우리의 접근 방식은 GPT-4를 사용하여 계획 데이터를 생성 및 확인한 다음 온디바이스 배포를 위해 Phi-3 Mini를 미세 조정하는 데 사용됩니다. 도메인 내 테스트에서는 이러한 미세 조정을 통해 계획 성공률이 97%로 향상되는 것으로 나타났습니다. 다중 도메인 계획 문제를 해결하기 위해 우리는 다양한 기능 하위 집합에 대해 훈련된 LoRA 가중치를 병합하는 다중 LoRA 훈련 방법을 개발합니다. 이 접근 방식은 리소스가 제한된 장치에서 계산 효율성을 유지하면서 복잡한 다중 도메인 쿼리를 유연하게 처리합니다.

간단한 작업을 위해 사전 정의된 기능에 중점을 두고 미세 조정을 활용함으로써 실제 애플리케이션에서 AI 에이전트를 더욱 실용적이고 접근 가능하며 비용 효율적으로 만드는 것을 목표로 합니다.

이 작업은 AI를 더욱 쉽게 접근하고 유용하게 만들기 위한 지속적인 노력에 기여하는 것을 목표로 합니다. AI 에이전트의 잠재력과 엣지 컴퓨팅의 한계 사이의 격차를 해소함으로써 다양한 분야에서 스마트 온디바이스 비서의 채택을 촉진하고자 합니다. 우리의 접근 방식을 오픈 소스화함으로써 온디바이스 AI의 혁신을 더욱 촉진하고 고급 계획 기능의 범위를 확장할 수 있기를 바랍니다.

2 관련 작업

계획 에이전트: 언어 모델은 계획 에이전트 시스템의 핵심이 되었습니다. OpenAI의 Assistant API와 같은 독점 모델은 사용자 쿼리 및 사용 가능한 기능을 기반으로 정책을 생성하는 데 탁월합니다. 최근의 발전은 사물의 체계에서 언어 모델의 기능을 더욱 확장합니다. ReAct 프레임워크는 제한된 행동 공간에서 계획과 행동을 통합하는 반면, Alibaba Group의 연구는 복잡한 작업에서 별도의 계획과 행동 모델의 효율성을 강조합니다. 로봇 공학에서는 작업 수준 계획에 언어 모델이 점점 더 많이 사용되고 있습니다. 주목할만한 예로는 LLM을 사용하여 상위 수준 작업을 구체적인 하위 작업으로 분해하는 SayCan과 텍스트-비디오 동적 모델을 통해 장기 계획을 강화하는 VLP(비디오 언어 계획)가 있습니다. 일반 정책부터 특정 로봇 작업에 이르기까지 계획 시스템에서 언어 모델을 광범위하게 적용하면 다양한 의사 결정 프로세스에서 언어 모델의 중요성과 적응성이 높아집니다.

긴 맥락에 대한 미세 조정 대안: 언어 모델을 미세 조정하여 특정 단서나 문맥 정보를 내면화하면 입력 길이를 줄이고 효율성을 높일 수 있습니다. 이 접근 방식에는 신중하게 선별된 작업별 데이터 세트에 대한 훈련 모델이 포함됩니다. 이 기술은 응답 품질을 저하시키지 않고 쿼리 처리 효율성을 향상시킬 수 있으므로 컨텍스트 창이 제한된 모델에 특히 유용합니다. 미세 조정의 성공 여부는 다양한 고품질 데이터 세트를 사용하여 모델이 다양한 프롬프트 문구에 걸쳐 일반화될 수 있는지 확인하는 데 크게 달려 있습니다. 적절하게 구현되면 미세 조정을 통해 애플리케이션별 상호 작용을 단순화하고 실제 배포에서 컨텍스트 길이 제약 조건과 계산 문제를 해결할 수 있습니다.

LoRA 및 다중 LoRA: LoRA(저위 적응)는 사전 훈련된 언어 모델을 특정 작업에 효율적으로 적용할 수 있습니다. 모든 매개변수를 업데이트하는 미세 조정과 달리 LoRA는 사전 훈련된 가중치를 동결하고 각 계층에 훈련 가능한 하위 행렬을 추가하여 훈련 가능한 매개변수와 계산 요구 사항을 크게 줄입니다. Multi-LoRA는 추론 시 여러 작업별 어댑터를 훈련, 결합 또는 전환할 수 있도록 이 개념을 확장하여 단일 기본 모델이 다양한 작업을 효율적으로 처리할 수 있도록 합니다. 이러한 방법을 기반으로 연구자들은 모델 적응의 다양한 측면을 해결하기 위해 여러 관련 변형을 개발했습니다. LoRA + 최적화된 학습 속도, VeRA는 무작위 투영을 사용하고, AdaLoRA는 적응 순위를 구현하고, DoRA는 가중치를 분해하고, Delta-LoRA는 사전 훈련된 가중치를 업데이트합니다. 이러한 변형은 특정 시나리오에서 효율성이나 성능을 더욱 향상시키도록 설계되었습니다.

3 방법

이 섹션에서는 온디바이스 계획을 위한 프레임워크인 액션 에이전트를 소개합니다. 먼저 효율적인 문제 해결을 가능하게 하는 계획 및 실행 에이전트의 통합을 설명합니다. 그런 다음 광범위한 기능 지원과 추가 기능 세트를 위한 플러그 앤 플레이 기능을 포함하여 계획 에이전트에 사용한 데이터 세트 설계 및 교육 프로세스를 자세히 설명합니다. 마지막으로 에이전트 성능을 평가하는 데 사용되는 벤치마크를 간략하게 설명합니다.

3.1 계획 및 행동 에이전트 프레임워크

우리의 계획-행동 접근 방식은 계획 및 행동 실행 프로세스를 두 가지 구성 요소로 나눈다는 점에서 일반 에이전트 프레임워크와 차별화됩니다. 이러한 분리는 모듈성을 높이고 각 구성 요소의 전용 최적화를 가능하게 합니다. 프레임워크는 다음과 같이 작동합니다.

계획 단계: 사용자 쿼리 q가 주어지면 계획 모델 πplan은 작업을 일련의 하위 단계로 분해합니다. 형식:

{τ1, τ2, ..., τn} - πplan (q;F )

여기서 F는 함수로 설명할 수 있는 집합이고 τi는 i번째 실행 단계입니다. πplan은 명령어 트리밍 중에 F를 내부화합니다.

Action 단계: 실행 시퀀스의 각 단계에 대해 액션 모델 πaction을 채택합니다. 단계 i에서 현재 상태 관측 Oi가 주어지면 동작 모델은 다음을 실행합니다.

Oi+1 = πaction(τi, Oi), (2)

Oi+1과 τi+1이 다음 단계로 전달되어 실행을 계속합니다. 이 반복 프로세스는 작업 하위 단계의 일관된 진행을 보장합니다.

액션 모델의 경우 기기 측 함수 호출을 위해 설계된 Octopus 모델을 사용합니다. 그림 2는 계획-행동 프레임워크와 단일 모델 LLM 에이전트 간의 차이점을 보여줍니다.

^{그림 2: 단일 LLM 에이전트와 계획-작업 에이전트 프레임워크 비교. (왼쪽) 단일 LLM 에이전트: 작업 계획 및 작업 실행을 위한 통합 모델. (오른쪽) 계획-행동 에이전트: 특수 계획 모델은 작업을 하위 작업으로 분해하고, 별도의 작업 모델은 각 하위 작업을 차례로 실행합니다.}

프레임워크의 모듈식 설계는 여러 가지 장점을 제공합니다.

전문성: 계획과 작업 실행을 분리하면 각 모델을 특정 역할에 맞게 최적화하여 복잡한 작업의 성능을 향상시킬 수 있습니다.
확장성: 계획 및 실행 기능을 독립적으로 확장하고 다양한 작업의 복잡성에 효율적으로 적응할 수 있습니다.
설명 가능성: 단계를 명시적으로 분리하면 의사 결정 과정의 투명성이 향상됩니다.
적응성: 시스템 전체를 변경할 필요 없이 도메인별 지식이나 제약 조건을 모든 단계에 더 쉽게 통합할 수 있습니다.

3.2 계획 데이터 세트

우리 프레임워크는 Octopus 모델을 작업 모델로 사용하며 계획 에이전트만 훈련하면 됩니다. 다음 데이터 세트 형식을 사용하여 계획 에이전트를 미세 조정합니다.

채팅 모델 사전 학습을 위한 및 와 같은 특수 마커는 선택 사항입니다. 모바일 앱의 대부분 작업이 5단계 미만으로 구성된다는 사실을 바탕으로 n을 1~5로 설정했습니다. 데이터세트 생성 및 큐레이션 프로세스에는 다음이 포함됩니다.

1. 데이터세트 수집: 사용 가능한 기능 F가 주어지면 대규모 언어 모델(GPT-4)을 사용하여 이러한 기능으로 응답하는 다양한 쿼리를 생성합니다. 쿼리 다양성을 보장하기 위해 모델의 온도 설정을 높였습니다. 그러면 지정된 데이터 세트 형식으로 응답이 생성됩니다. 생성 과정에서 기능 설명을 사용하는 것이 중요하지만 최종 데이터 세트에는 포함하지 않습니다. 대신, 계획 모델은 훈련 중에 이 기능 정보를 내부화합니다.

2. 데이터 검증: 쿼리-응답 쌍의 정확성을 평가하기 위해 검증 도구와 동일한 언어 모델을 사용합니다. 초기 생성 중에 일부 오류가 있었지만 모델이 생성된 콘텐츠를 유효 또는 유효하지 않은 것으로 효과적으로 분류하여 잘못된 출력을 필터링하고 데이터 세트 품질을 유지할 수 있음을 발견했습니다.

다양한 하위 단계 수에 대한 예시 데이터 포인트는 다음과 같습니다.

데이터세트 컬렉션을 시각화하려면 그림 3을 참조하세요. 예제 기능은 부록 7.1에 설명되어 있습니다.

3.3 기준 설계

우리의 평가는 신중하게 구성된 테스트 데이터 세트에 의존합니다. 이 데이터 세트는 자동 생성, 전문가 검증 및 경험적 테스트를 결합한 다단계 접근 방식을 사용하여 실제 계획의 복잡성을 나타내도록 설계되었습니다.

이 프로세스는 GPT-4를 사용하여 자동으로 생성된 1000개 데이터 포인트의 초기 데이터 세트로 시작됩니다. 이러한 데이터 포인트는 완전성과 관련성을 보장하기 위해 엄격한 품질 보증 프로세스를 거칩니다. 품질 평가 기준은 다음과 같습니다.

각 단계는 기존 기능과 일치해야 합니다.
단계 순서가 정확해야 합니다.

평가의 신뢰성을 보장하기 위해 사람의 검증 단계를 추가로 포함했습니다. 이 단계에는 엔드투엔드 모델 실행을 위한 예제 하위 집합을 선택하여 결과의 정확성을 검증하고 모델 성능에 대한 포괄적인 평가를 수행하는 작업이 포함됩니다.

제안된 계획 모델을 평가하기 위해 GPT-4를 Oracle로 사용하여 생성된 계획의 정확성을 확인합니다. 이 선택은 GPT-4가 특정 사용 사례에서 효율적으로 작동한다는 것을 보여주는 경험적 관찰을 기반으로 합니다.

4 실험 설계

우리의 실험 설계는 온디바이스 AI 에이전트 계획에서 Octo-planner의 성능을 평가합니다. 우리의 목표는 새로운 영역과 기능에 대한 적응성을 유지하면서 리소스가 제한된 장치에 효율적이고 정확한 계획 모델을 배포하기 위한 최적의 구성을 식별하는 것입니다. 우리의 실험은 다음 네 가지 주요 영역에 중점을 둡니다.

완전한 미세 조정과 LoRA 간의 성능 및 효율성 절충.
서로 다른 기능 세트를 동시에 처리할 때 Multi-LoRA의 정확도.
다양한 기본 모델과 스케일의 성능 비교.
100~1000개의 훈련 예시 범위에서 데이터 세트 크기가 정확도에 미치는 영향.

Phi-3 Mini 및 기타 몇 가지 대안을 기본 모델로 사용하여 선별된 데이터 세트에 대해 감독된 미세 조정을 수행합니다. 교육에는 완전한 미세 조정 및 LoRA 기술이 포함됩니다. 모든 실험에서 데이터 세트 크기를 사용 가능한 기능 수의 800배로 설정하고 NVIDIA A100 GPU에서 미세 조정했습니다. 우리는 학습률 5×10-6, 배치 크기 4, 준비 비율 0.2, 2세대 훈련 등 두 가지 기술에 최적화된 하이퍼파라미터를 사용합니다. LoRA의 경우 target_modules를 모든 선형으로 설정합니다.

5개 결과

5.1 Full Fine-tuning vs. LoRA

표 1은 Full Fine-tuning과 LoRA 방법에 대한 계획 모델의 자세한 비교를 보여줍니다. 우리의 실험에서는 이러한 방법의 성능에 상당한 차이가 있음을 보여줍니다. Full Fine Tuning으로 98.1% 정확도로 최고의 성능을 발휘하며 탁월한 성능을 발휘합니다. 반면 LoRA의 성능은 순위 크기에 따라 달라집니다. LoRA는 랭크 64와 알파 256에서 85.1%의 정확도를 달성하는 반면, 랭크 16과 알파 32로 감소하면 정확도는 72.9%로 떨어집니다. 이러한 결과는 LoRA를 사용할 때 모델 성능과 계산 효율성 간의 균형을 강조합니다. 전체 미세 조정이 더 나은 정확도를 제공하지만 LoRA는 자원 효율성 측면에서 더 매력적인 대안을 제공하며 성능은 순위 구성에 따라 달라집니다. ㅋㅋㅋ 표 1: 전액 벌금 -튜닝 및 LoRA 벤치마크

5.2 다중 LoRA 교육 및 병합 특정 기능 세트에 유효하지만 실제 응용 프로그램은 종종 새로운 기능을 처리해야 합니다. 또는 확장된 기능 세트. 이 문제를 해결하기 위해 우리는 서로 다른 기능 하위 집합에 대해 훈련된 각 LoRA 가중치를 동일한 기본 모델에 병합하는 방법을 제안합니다. 이 접근 방식은 다양한 기능 세트의 지식을 결합하여 리소스가 제한된 환경에서 복잡한 다중 도메인 쿼리에 대한 확장 가능한 솔루션을 제공하는 구성 모델을 만듭니다.

이 접근 방식을 평가하기 위해 우리는 각 LoRA 도메인에 대한 기능을 무작위로 선택하고 이를 워크플로에 결합하여 벤치마크 데이터 세트를 구성했습니다. 쿼리와 계획은 GPT-4에 의해 생성됩니다. 예를 들어, 두 개의 병합된 LoRA를 테스트할 때 쿼리에는 Android 기능, 전자상거래 기능 또는 둘 다 동일한 확률로 포함될 수 있습니다.

다음 코드 블록은 벤치마크 데이터 세트의 예제 쿼리와 다중 LoRA 병합 모델에 대한 해당 추론 결과를 보여줍니다.

표 2는 다중 LoRA 병합 기술의 성능 결과를 보여줍니다. 각 개별 LoRA는 일관된 하이퍼 매개변수(랭크 64, lora_alpha 256, target_modules가 "all-linear"로 설정)로 훈련되었습니다. 단일 도메인 Android 기능 세트 LoRA는 85.1%의 정확도를 달성합니다. 두 도메인(Android 및 전자상거래)의 LoRA를 결합하면 정확도가 82.2%로 약간 떨어집니다. 다음과 같이 추가 병합을 하면 정확도가 떨어집니다. 3개 도메인(비디오 스트리밍 추가)의 경우 78.9%, 4개 도메인(여행 추가)의 경우 69.7%입니다. 이러한 결과는 특히 세 번째 도메인을 추가한 후에 더 많은 기능 세트를 통합할수록 정확도가 점차 감소하는 경향이 있음을 보여줍니다. ㅋㅋㅋ 표 2: Multi-LoRA 벤치마크

현장에서 최대 97%의 정확도를 자랑하는 엔드사이드 디바이스용 AI 에이전트 최적화 프레임워크가 출시됐다. 5.3 다양한 기본 모델을 사용한 전체 미세 조정

튜닝 후 다양한 기본 모델을 사용한 기준 정확도. Google Gemma 2b는 85.6%의 정확도를 달성한 반면, 더 큰 Gemma 7b는 99.7%의 정확도로 뛰어났습니다. Microsoft Phi-3 Mini도 강력한 성능을 발휘하여 98.1%의 정확도를 달성했습니다. 이러한 결과는 우리의 프레임워크가 다양한 장치 측 LLM에 적응하고 더 큰 모델이 일반적으로 더 높은 정확도를 달성한다는 것을 보여줍니다.

^{5.4 다양한 데이터 세트 크기를 사용한 전체 미세 조정}

기본 교육 데이터 세트에는 1000개의 데이터 포인트가 포함되어 있으며 다양한 작업 복잡성을 나타내기 위해 1~5단계 시퀀스(각각 200개)로 균등하게 분산되어 있습니다. 우리는 기능 세트 통합 효율성을 최적화하고 합성 데이터 생성 비용을 해결하기 위해 데이터 세트 크기가 모델 성능에 미치는 영향을 연구합니다. 표 4는 다양한 교육 데이터 세트 크기에 대한 기준 정확도를 보여줍니다.

결과는 데이터세트 크기와 정확도 사이의 명확한 상관관계를 보여줍니다. 전체 1000포인트 데이터 세트는 98.1%의 정확도를 달성한 반면, 500개 데이터 포인트로 줄이면 정확도가 92.5%로 감소했습니다. 데이터 포인트를 250개와 100개로 더 줄이면 정확도는 각각 85.3%와 78.1%입니다. 이러한 결과는 최적의 성능을 위해 1000개 이상의 데이터 포인트가 있는 교육 데이터 세트를 사용하는 것이 권장됨을 시사합니다.

6 결론

이 기사에서는 Octopus V2와 같은 모바일 에이전트와 함께 작동하도록 설계된 장치 측 계획 에이전트인 Octo-planner를 소개합니다.

기획과 실행을 분리하여 전문성과 적응성을 높입니다. 우리의 접근 방식은 38억 개의 매개변수 LLM인 Phi-3 Mini를 미세 조정하여 에지 장치에서 기본적으로 실행되도록 하고 도메인 내 테스트에서 97%의 성공률을 달성합니다. 계산 요구 사항을 줄이고 대기 시간과 배터리 수명을 개선했으며 완전한 재교육 없이 모델 기능 확장을 위한 다중 LoRA 기술을 구현했습니다. Octo-Planner는 데이터 개인정보 보호, 대기 시간, 오프라인 기능 등 AI 배포 문제를 해결하는 데 기여합니다. 이는 개인용 장치를 위한 실용적이고 정교한 AI 에이전트를 향한 진전을 나타냅니다.

모델 가중치를 오픈 소스화함으로써 우리는 온디바이스 AI의 혁신을 주도하고 성능이나 보안을 저하시키지 않으면서 일상 생활을 향상시키는 효율적이고 개인 정보를 존중하는 애플리케이션의 개발을 촉진하는 것을 목표로 합니다.

7. 제한 사항 및 향후 작업

현재 모델은 특정 휴대폰 사용 사례에서 효과적으로 작동하지만 더 넓은 적용 가능성 측면에서는 제한이 있습니다.

실시간 피드백을 기반으로 계획 단계와 작업 실행을 번갈아 수행하는 ReAct와 같은 프레임워크와 달리 우리 모델은 모든 계획을 미리 수행합니다. 이러한 사전 계획된 접근 방식은 간단한 작업을 처리하는 데 더 효율적이지만, 실행 중에 조건이 변경될 수 있는 복잡하거나 예측 불가능한 시나리오에서는 적응성이 떨어질 수 있습니다.

향후 작업은 동적 환경에 대한 적응성을 향상시키기 위해 실시간 관찰을 기반으로 하는 반복 계획 방법을 탐색하는 데 중점을 둘 것입니다. 또한 사물 인터넷, 로봇 공학, 스마트 홈 시스템과 같은 모바일 애플리케이션을 넘어 기능을 확장하기 위해 계획 모델을 다양한 작업 모델과 통합하는 방법을 연구할 계획입니다. 이러한 발전은 현재의 한계를 해결하고, 온디바이스 계획 모델의 다기능성을 확장하며, 효율적이고 지역화된 AI 처리와 복잡한 실제 요구 사이의 격차를 해소할 것입니다.

위 내용은 현장에서 최대 97%의 정확도를 자랑하는 엔드사이드 디바이스용 AI 에이전트 최적화 프레임워크가 출시됐다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.