향후 10년 안에 AI 음성인식은 이 5가지 방향으로 발전할 것입니다.
저자 | Migüel Jetté
편집자 | bluemin
편집자 Chen Caixian
지난 2년 동안 자동 음성 인식(Automatic Speech Recognition, ASR)은 상업용으로 중요한 발전을 이루었습니다. Alexa, Rev, AssemblyAI, ASAPP 등과 같이 전적으로 신경망을 기반으로 하는 여러 엔터프라이즈 수준 ASR 모델이 성공적으로 출시되었습니다. 2016년에 Microsoft Research는 그들의 모델이 25년 된 "Switchboard" 데이터 세트에서 인간 수준의 성능(단어 오류율로 측정)에 도달했음을 알리는 기사를 발표했습니다. ASR 정확도는 지속적으로 향상되어 더 많은 데이터 세트와 사용 사례에서 인간 수준의 성능에 도달합니다.
이미지 출처: Awni Hannun의 블로그 게시물 "음성 인식이 해결되지 않았습니다"
ASR 기술의 인식 정확도가 크게 향상되고 응용 시나리오가 점점 더 풍부해짐에 따라 우리는 지금은 그렇지 않다고 믿습니다. 이 분야의 ASR 상업적 사용, 연구 및 시장 적용의 정점은 아직 탐색되지 않았습니다. 우리는 향후 10년 동안 AI 음성 관련 연구 및 상용 시스템이 다음 5가지 분야에 중점을 둘 것이라고 예측합니다. 개발자가 모든 언어로 누구나 이해할 수 있는 애플리케이션을 구축할 수 있도록 지원하는 다국어 모델을 통해 음성 인식의 힘을 실제로 세상에 발휘할 수 있습니다.”
출처: Alexis Conneau 외, 2020. "비지도 교차 음성 인식을 위한 언어 표현 학습" 논문오늘날의 상용 ASR 모델은 주로 영어 데이터 세트를 훈련에 사용하므로 영어 입력에 대한 정확도가 더 높습니다. 데이터 가용성과 시장 수요로 인해 학계와 산업계에서 영어에 대한 장기적인 관심이 높아지고 있습니다. 프랑스어, 스페인어, 포르투갈어, 독일어 등 널리 사용되는 상용 언어의 인식 정확도도 합리적이지만 훈련 데이터가 제한적이고 ASR 출력 품질이 상대적으로 낮은 언어의 롱테일은 분명히 존재합니다. 또한 대부분의 비즈니스 시스템은 단일 언어를 기반으로 하기 때문에 많은 사회의 고유한 다국어 시나리오에는 적용할 수 없습니다. 다중 언어 사용은 이중 언어 국가의 미디어 프로그래밍과 같이 연속 언어의 형태를 취할 수 있습니다. Amazon은 최근 LID(언어 식별)와 ASR을 통합한 제품을 출시하여 이 문제를 해결하는 데 큰 진전을 이루었습니다. 대조적으로, 번역(코드 전환이라고도 함)은 개인이 동일한 문장에서 두 언어의 단어와 문법을 결합하기 위해 사용하는 언어 시스템입니다. 이는 학계가 계속해서 흥미로운 발전을 이루고 있는 분야입니다.자연어 처리 분야가 다국어 접근 방식을 채택하는 것처럼 향후 10년 동안 ASR이 뒤따르는 모습을 보게 될 것입니다. 새로운 엔드투엔드 기술을 활용하는 방법을 배우면서 여러 언어 간에 학습을 이전할 수 있는 대규모 다국어 모델을 교육할 것입니다. Meta의 XLS-R이 좋은 예입니다. 한 데모에서 사용자는 언어를 지정하지 않고도 21개 언어 중 하나를 말할 수 있었고 모델은 결국 영어로 번역되었습니다. 이러한 스마트한 ASR 시스템은 언어 간의 유사성을 이해하고 적용함으로써 리소스가 적은 언어 및 혼합 언어 사용 사례에 대한 고품질 ASR 가용성을 제공하고 상용 등급 애플리케이션을 활성화합니다.
2. 풍부하고 표준화된 출력 개체
"향후 10년 안에 우리는 상용 ASR 시스템이 단순한 단어 이상의 내용을 포함하는 더 풍부한 전사 개체를 출력할 것이라고 믿습니다. 또한 우리는 이 더 풍부한 출력이 인식될 것이라고 예측합니다. W3C와 같은 표준 기관에서 모든 API가 유사하게 구성된 출력을 반환하도록 합니다. 이렇게 하면 전 세계 모든 사람을 위한 음성 응용 프로그램의 잠재력이 더욱 발휘될 것입니다.
" NIST(국립 표준 기술 연구소)에서는 "풍부한 전사"를 탐구하는 전통이 있지만 이를 ASR 출력을 위해 표준화되고 확장 가능한 형식으로 통합하려는 노력은 여전히 상대적으로 얕습니다. 풍부한 전사의 개념은 처음에는 대문자 사용, 구두점 및 일기 작성을 포함했지만 화자 역할과 다양한 비언어적 음성 이벤트까지 어느 정도 확장되었습니다. 예상되는 혁신에는 다양한 화자의 중복되는 음성, 다양한 감정 및 기타 준언어적 특징은 물론 다양한 비언어적, 심지어 인간이 아닌 음성 장면 및 이벤트를 전사하는 것, 텍스트 기반 또는 언어적 다양성을 전사하는 것이 포함됩니다. Tanaka 등은 사용자가 다양한 풍부함의 전사 옵션 중에서 선택하기를 원할 수 있는 시나리오를 설명하며, 분명히 우리가 예측하는 추가 정보의 양과 성격은 다운스트림 애플리케이션에 따라 지정 가능합니다.
기존 ASR 시스템은 음성 단어를 인식하는 과정에서 여러 가설의 그리드를 생성할 수 있으며, 이는 인간 지원 전사, 음성 대화 시스템 및 정보 검색에 큰 이점이 있는 것으로 입증되었습니다. 풍부한 출력 형식에 n-best 정보를 포함하면 더 많은 사용자가 ASR 시스템을 사용하도록 장려하여 사용자 경험을 향상시킬 수 있습니다. 음성 디코딩 중에 현재 또는 잠재적으로 생성되는 추가 정보를 구조화하거나 저장하기 위한 표준은 현재 존재하지 않지만 CallMiner의 OVTS(Open Speech Transcription Standard)는 이러한 방향으로 나아가는 확실한 단계로서 기업이 여러 ASR 공급업체를 쉽게 탐색하고 선택할 수 있도록 해줍니다.
미래에는 ASR 시스템이 표준 형식으로 더 풍부한 출력을 생성하여 더 강력한 다운스트림 애플리케이션을 가능하게 할 것으로 예상합니다. 예를 들어, ASR 시스템은 가능한 전체 범위의 메시를 출력할 수 있으며, 애플리케이션은 이 추가 데이터를 사용하여 대화 내용을 편집할 때 지능형 자동 전사를 수행할 수 있습니다. 마찬가지로 감지된 지역 방언, 악센트, 주변 소음 또는 분위기와 같은 추가 메타데이터를 포함하는 ASR 기록을 통해 더욱 강력한 검색 애플리케이션을 구현할 수 있습니다.
3. 모두를 위한 대규모 ASR
“향후 10년 안에 대규모 ASR(즉, 민영화되고 저렴하며 안정적이고 빠른)이 모든 사람의 일상생활의 일부가 될 것입니다. 비디오를 검색하고, 우리가 참여하는 모든 미디어 콘텐츠를 색인화하고, 전 세계 청각 장애 소비자가 모든 비디오에 액세스할 수 있도록 할 수 있습니다. ASR은 모든 오디오 및 비디오를 액세스하고 실행 가능하게 만드는 핵심이 될 것입니다."
우리 모두는 팟캐스트, 소셜 미디어 스트리밍, 온라인 비디오, 실시간 그룹 채팅, Zoom 회의 등 오디오 및 비디오 소프트웨어를 많이 사용할 수 있습니다. 그러나 관련 내용 중 실제로 복사된 내용은 거의 없습니다. 오늘날 콘텐츠 전사는 ASR API의 가장 큰 시장 중 하나가 되었으며 특히 정확성과 경제성을 고려할 때 향후 10년 동안 기하급수적으로 성장할 것입니다. ASR 전사는 현재 특정 애플리케이션(방송 비디오, 특정 회의 및 팟캐스트 등)에만 사용됩니다. 그 결과, 많은 사람들이 이러한 미디어 콘텐츠에 접근할 수 없고, 방송이나 행사가 끝난 후 관련 정보를 찾는 데 어려움을 겪고 있습니다.
앞으로 이런 상황은 바뀔 것입니다. Matt Thompson이 2010년에 예측했듯이 어느 시점에는 ASR이 저렴해지고 널리 보급되어 그가 "말하기"라고 부르는 것을 경험할 수 있을 것입니다. 우리는 미래에는 거의 모든 오디오 및 비디오 콘텐츠가 전사되어 대규모로 즉시 액세스, 저장 및 검색이 가능해질 것으로 예상합니다. 하지만 ASR의 발전은 여기서 끝나지 않고, 이러한 콘텐츠가 실행 가능해지기를 바랍니다. 우리는 소비되거나 참여하는 각 오디오 및 비디오가 팟캐스트나 컨퍼런스에서 자동으로 생성된 통찰력, 비디오의 주요 순간에 대한 자동 요약 등과 같은 추가 컨텍스트를 제공하기를 바랍니다. NLP 시스템이 위의 처리를 일상화할 수 있기를 바랍니다.
4. 인간-기계 협업
“금세기 말에는 인간의 도움이나 자기 감독을 통해 끊임없이 학습하는 살아있는 유기체와 같은 ASR 시스템이 진화하게 될 것입니다. 실제 세계의 다양한 채널에서 배우고, 비동기식보다는 실시간으로 새로운 단어와 언어 변형을 이해하고, 자체 디버그하고 다양한 사용법을 자동으로 모니터링합니다.”
ASR이 주류가 되어 점점 더 많은 사용 사례를 포괄합니다. 인간-기계 협업이 중요한 역할을 할 것입니다. ASR 모델의 훈련은 이를 잘 반영합니다. 오늘날 오픈 소스 데이터 세트와 사전 훈련된 모델은 ASR 공급업체의 진입 장벽을 낮추고 있습니다. 그러나 훈련 프로세스는 여전히 매우 간단합니다. 데이터 수집, 데이터 주석 달기, 모델 훈련, 결과 평가, 모델 개선 등입니다. 그러나 이는 느린 프로세스이며 많은 경우 튜닝의 어려움이나 데이터 부족으로 인해 오류가 발생하기 쉽습니다. Garnerin 등은 메타데이터 누락과 말뭉치 표현의 불일치로 인해 ASR 성능의 동일한 정확성을 보장하기가 어렵다는 점을 관찰했습니다. 이는 Reid와 Walker가 메타데이터 표준을 개발할 때 해결하려고 시도한 문제이기도 합니다.
미래에는 인간이 지능적인 수단을 통해 ASR 훈련을 효율적으로 감독하고 기계 학습을 가속화하는 데 점점 더 중요한 역할을 담당하게 될 것입니다. Human-in-the-Loop 접근 방식은 인간 검토자를 기계 학습/피드백 루프에 배치하여 모델 결과를 지속적으로 검토하고 조정할 수 있도록 합니다. 이를 통해 기계 학습이 더 빠르고 효율적으로 이루어지며 결과적으로 더 높은 품질의 결과를 얻을 수 있습니다. 올해 초 우리는 ASR 개선을 통해 Rev의 인간 전사자("Revvers"라고 함)가 ASR 초안을 사후 편집하여 생산성을 높일 수 있는 방법에 대해 논의했습니다. Revver의 전사는 개선된 ASR 모델에 직접 입력되어 선순환을 형성할 수 있습니다.
인간 언어 전문가가 ASR에 필수적인 영역 중 하나는 ITN(역 텍스트 정규화)으로, 인식된 문자열(예: "5달러")을 예상되는 서면 형식(예: "$5")으로 변환합니다. Pusateri 등은 "손으로 만든 문법 및 통계 모델"을 사용하는 하이브리드 접근 방식을 제안했으며 Zhang 등은 손으로 만든 FST로 RNN을 제한하여 이러한 방식을 계속했습니다.
5. 책임 있는 ASR
“모든 인공 지능 시스템과 마찬가지로 미래의 ASR 시스템도 더 엄격한 인공 지능 윤리 원칙을 준수하여 시스템이 모든 사람을 동등하게 대하고 더 높은 수준의 설명 가능성을 갖게 될 것입니다. 그리고 사용자와 데이터의 개인정보를 존중합니다.”
미래의 ASR 시스템은 공정성, 설명 가능성, 개인 정보 보호 존중, 책임이라는 인공 지능 윤리의 4가지 원칙을 따릅니다.
공정성: 공정한 ASR 시스템은 화자의 배경, 사회 경제적 지위 또는 기타 특성에 관계없이 음성을 인식할 수 있습니다. 이러한 시스템을 구축하려면 모델과 훈련 데이터의 편향을 식별하고 줄여야 한다는 점은 주목할 가치가 있습니다. 다행스럽게도 정부, NGO, 기업은 이미 편견을 식별하고 완화하기 위한 인프라를 구축하기 위해 노력하고 있습니다.
해석 가능성: ASR 시스템은 더 이상 "블랙박스"가 아닙니다. 필요에 따라 데이터 수집 및 분석, 모델 성능 및 출력 프로세스를 설명합니다. 이러한 추가 투명성 요구 사항을 통해 모델 교육 및 성능에 대한 인간의 감독이 더 잘 이루어집니다. Gerlings et al.과 마찬가지로 우리는 다양한 이해관계자(연구원, 개발자, 고객, Rev의 경우 전사 전문가 포함)의 관점에서 해석 가능성을 봅니다. 연구자는 문제를 완화하기 위해 잘못된 텍스트를 출력하는 이유를 알고 싶어할 수 있지만, 전사 전문가는 특히 ASR이 People보다 더 효율적일 수 있는 시끄러운 상황에서 효율성을 평가하는 데 도움이 된다고 생각하는 이유에 대한 증거를 원할 수 있습니다. "듣는" 것이 더 좋습니다. Weitz et al.은 오디오 키워드 인식의 맥락에서 최종 사용자의 해석 가능성을 향한 중요한 첫 단계를 밟았습니다. Laguarta와 Subirana는 알츠하이머병 검출을 위한 음성 바이오마커 시스템에 임상의의 지도에 따른 해석을 통합했습니다.
개인 정보 존중: "음성"은 다양한 미국 및 국제 법률에 따라 "개인 데이터"로 간주되므로 음성 녹음의 수집 및 처리에는 엄격한 개인 정보 보호가 적용됩니다. Rev에서는 이미 데이터 보안 및 제어 기능을 제공하고 있으며 향후 ASR 시스템은 사용자 데이터의 개인 정보 보호와 모델의 개인 정보 보호를 더욱 존중할 것입니다. 대부분의 경우 이는 ASR 모델을 (장치 또는 브라우저에서) 가장자리로 푸시하는 것과 관련이 있을 가능성이 높습니다. 음성 개인 정보 보호 문제는 이 분야에 대한 연구를 주도하고 있으며 유럽 연합과 같은 많은 관할권에서 입법 노력을 시작했습니다. 개인 정보 보호 기계 학습 분야는 이 기술의 중요한 측면에 관심을 집중시켜 대중이 널리 받아들이고 신뢰할 수 있도록 할 것을 약속합니다.
책임성: 우리는 ASR 시스템을 모니터링하여 처음 세 가지 원칙을 준수하는지 확인합니다. 이를 위해서는 필요한 모니터링 시스템을 설계 및 개발하고 결과에 대응하여 조치를 취하기 위한 자원과 인프라에 대한 투자가 필요합니다. ASR 시스템을 배포하는 회사는 기술 사용에 대한 책임을 지며 ASR 윤리 원칙을 준수하기 위해 특별한 노력을 기울입니다. ASR 시스템의 설계자, 유지관리자, 소비자인 인간이 이러한 원칙을 구현하고 시행하는 데 책임이 있다는 점은 언급할 가치가 있습니다. 이는 인간-기계 협업의 또 다른 예입니다.
참조 링크: https://thegradient.pub/the-future-of-speech-recognition/https://awni.github.io/speech-recognition/
위 내용은 향후 10년 안에 AI 음성인식은 이 5가지 방향으로 발전할 것입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











StableDiffusion3의 논문이 드디어 나왔습니다! 이 모델은 2주 전에 출시되었으며 Sora와 동일한 DiT(DiffusionTransformer) 아키텍처를 사용합니다. 출시되자마자 큰 화제를 불러일으켰습니다. 이전 버전과 비교하여 StableDiffusion3에서 생성된 이미지의 품질이 크게 향상되었습니다. 이제 다중 테마 프롬프트를 지원하고 텍스트 쓰기 효과도 향상되었으며 더 이상 잘못된 문자가 표시되지 않습니다. StabilityAI는 StableDiffusion3이 800M에서 8B 범위의 매개변수 크기를 가진 일련의 모델임을 지적했습니다. 이 매개변수 범위는 모델이 많은 휴대용 장치에서 직접 실행될 수 있어 AI 사용이 크게 줄어든다는 것을 의미합니다.

첫 번째 파일럿 및 주요 기사에서는 주로 자율 주행 기술에서 일반적으로 사용되는 여러 좌표계를 소개하고 이들 간의 상관 관계 및 변환을 완료하고 최종적으로 통합 환경 모델을 구축하는 방법을 소개합니다. 여기서 초점은 차량에서 카메라 강체로의 변환(외부 매개변수), 카메라에서 이미지로의 변환(내부 매개변수), 이미지에서 픽셀 단위로의 변환을 이해하는 것입니다. 3D에서 2D로의 변환에는 해당 왜곡, 변환 등이 포함됩니다. 요점: 차량 좌표계와 카메라 본체 좌표계를 다시 작성해야 합니다. 평면 좌표계와 픽셀 좌표계 난이도: 이미지 평면에서 왜곡 제거와 왜곡 추가를 모두 고려해야 합니다. 2. 소개 좌표계에는 픽셀 평면 좌표계(u, v), 이미지 좌표계(x, y), 카메라 좌표계(), 월드 좌표계() 등 총 4가지 비전 시스템이 있습니다. 각 좌표계 사이에는 관계가 있으며,

자율주행 궤적 예측은 차량의 주행 과정에서 발생하는 다양한 데이터를 분석하여 차량의 향후 주행 궤적을 예측하는 것을 의미합니다. 자율주행의 핵심 모듈인 궤도 예측의 품질은 후속 계획 제어에 매우 중요합니다. 궤적 예측 작업은 풍부한 기술 스택을 보유하고 있으며 자율 주행 동적/정적 인식, 고정밀 지도, 차선, 신경망 아키텍처(CNN&GNN&Transformer) 기술 등에 대한 익숙함이 필요합니다. 시작하기가 매우 어렵습니다! 많은 팬들은 가능한 한 빨리 궤도 예측을 시작하여 함정을 피하기를 희망합니다. 오늘은 궤도 예측을 위한 몇 가지 일반적인 문제와 입문 학습 방법을 살펴보겠습니다. 관련 지식 입문 1. 미리보기 논문이 순서대로 되어 있나요? A: 먼저 설문조사를 보세요, p

본 논문에서는 자율 주행에서 다양한 시야각(예: 원근 및 조감도)에서 객체를 정확하게 감지하는 문제, 특히 원근(PV) 공간에서 조감(BEV) 공간으로 기능을 효과적으로 변환하는 방법을 탐구합니다. VT(Visual Transformation) 모듈을 통해 구현됩니다. 기존 방법은 크게 2D에서 3D로, 3D에서 2D로 변환하는 두 가지 전략으로 나뉩니다. 2D에서 3D로의 방법은 깊이 확률을 예측하여 조밀한 2D 특징을 개선하지만, 특히 먼 영역에서는 깊이 예측의 본질적인 불확실성으로 인해 부정확성이 발생할 수 있습니다. 3D에서 2D로의 방법은 일반적으로 3D 쿼리를 사용하여 2D 기능을 샘플링하고 Transformer를 통해 3D와 2D 기능 간의 대응에 대한 주의 가중치를 학습하므로 계산 및 배포 시간이 늘어납니다.

인터넷의 급속한 발전으로 셀프 미디어 산업은 점점 더 많은 사람들의 관심의 초점이 되었습니다. 이 업계에서는 광범위한 시장 전망과 수익성으로 인해 일부 영역이 많은 주목을 받고 있습니다. 이 기사에서는 셀프 미디어의 가장 수익성이 높은 다섯 가지 영역을 공개하고, 셀프 미디어의 발전 기회를 더 잘 파악하는 데 도움이 되도록 2024년 Douyin의 지원 방향에 대해 논의합니다. 1. 셀프미디어의 가장 수익성이 높은 5대 분야는 무엇입니까? 온라인 교육의 등장으로 교육훈련 분야가 점점 대중화되고 있습니다. 사람들은 학문적 과정뿐만 아니라 기술 훈련과 직장 발전에도 지식과 기술을 습득하는 데 기꺼이 투자합니다. 셀프 미디어 제작자는 학생들이 학습 비용을 지불하도록 유도하는 고품질 교육 콘텐츠를 제작하여 수익성을 달성할 수 있습니다. 이러한 추세는 사람들이 평생학습에 관심을 갖고 있음을 보여준다.

저자 개인 생각 중 일부 자율주행 분야에서는 BEV 기반의 하위 작업/End-to-End 솔루션 개발로 인해 고품질의 다시점 훈련 데이터와 그에 따른 시뮬레이션 장면 구축이 점점 더 중요해지고 있습니다. 현재 작업의 문제점에 대응하여 "고품질"은 세 가지 측면으로 분리될 수 있습니다. 다양한 차원의 롱테일 시나리오(예: 장애물 데이터의 근거리 차량 및 자동차 절단 과정의 정확한 방향 각도) 곡률이 다른 곡선이나 경사로/병합/병합 등 캡처하기 어려운 차선 데이터. 이는 종종 비용이 많이 드는 대량의 데이터 수집과 복잡한 데이터 마이닝 전략에 의존합니다. 3D 진정한 가치 - 매우 일관된 이미지: 현재 BEV 데이터 수집은 센서 설치/보정, 고정밀 지도 및 재구성 알고리즘 자체의 오류에 의해 영향을 받는 경우가 많습니다. 이것이 나를 이끌었다

갑자기 발견한 19년 된 논문 GSLAM: A General SLAM Framework and Benchmark 오픈소스 코드: https://github.com/zdzhaoyong/GSLAM 전문으로 직접 가서 이 작품의 퀄리티를 느껴보세요~1 Abstract SLAM technology 최근 많은 성공을 거두었으며 많은 첨단 기술 기업의 관심을 끌었습니다. 그러나 기존 또는 신흥 알고리즘에 대한 인터페이스를 사용하여 속도, 견고성 및 이식성에 대한 벤치마크를 효과적으로 수행하는 방법은 여전히 문제로 남아 있습니다. 본 논문에서는 평가 기능을 제공할 뿐만 아니라 연구자에게 자체 SLAM 시스템을 신속하게 개발할 수 있는 유용한 방법을 제공하는 GSLAM이라는 새로운 SLAM 플랫폼을 제안합니다.

이 네모난 남자는 눈앞에 있는 '불청객'의 정체를 고민하며 미간을 찌푸리고 있다는 점에 주목해주세요. 알고 보니 그녀는 위험한 상황에 처해 있었고, 이를 깨닫자마자 문제를 해결하기 위한 전략을 찾기 위해 재빨리 정신적 탐색을 시작했습니다. 결국 그녀는 현장을 떠나 가능한 한 빨리 도움을 구하고 즉각적인 조치를 취하기로 결정했습니다. 동시에 반대편에 있는 사람도 그녀와 같은 생각을 하고 있었는데... <마인크래프트>에도 모든 캐릭터가 인공지능에 의해 조종되는 장면이 있었다. 예를 들어 앞서 언급한 소녀는 17세지만 똑똑하고 용감한 택배기사입니다. 그들은 마인크래프트를 배경으로 한 이 작은 마을에서 인간처럼 기억하고 생각하며 살아갈 수 있는 능력을 가지고 있습니다. 그들을 움직이는 것은 아주 새로운 것입니다.
