Interspeech 2023에 여러 논문이 선정되었으며 Huoshan Speech는 다양한 유형의 실제 문제를 효과적으로 해결했습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

Interspeech 2023에 여러 논문이 선정되었으며 Huoshan Speech는 다양한 유형의 실제 문제를 효과적으로 해결했습니다.

王林

Sep 18, 2023 am 11:09 AM

이론

최근 Interspeech 2023에 Volcano Voice 팀의 여러 논문이 선정되어 짧은 비디오 음성 인식, 교차 언어 음색 및 스타일, 구두 유창성 평가 등 다양한 응용 분야의 혁신적인 혁신을 다루고 있습니다. 인터스피치(Interspeech)는 국제음성통신협회(ISCA)가 주관하는 음성 연구 분야 최고 학회 중 하나로, 세계 최대 규모의 종합 음성 신호 처리 행사로도 알려지며 전 세계 언어 분야 사람들의 폭넓은 관심을 받아왔다.

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

Interspeech2023이벤트 사이트

단문 비디오 음성 인식 개선을 위한 무작위 문장 연결 기반 데이터 증강(Random Utterance Concatenation Based Data Augmentation for Improving Short-video Speech Recognition)

보통 예를 들어, 엔드투엔드 자동 음성 인식(ASR) 프레임워크의 한계 중 하나는 훈련 길이와 테스트 문장의 길이가 일치하지 않으면 성능에 영향을 미칠 수 있다는 것입니다. 본 논문에서 Huoshan Speech 팀은 짧은 비디오 ASR 작업에서 훈련 및 테스트 문장 길이 불일치 문제를 완화하기 위한 프런트 엔드 데이터 향상으로 즉각적인 무작위 문장 연결(RUC)을 기반으로 하는 데이터 향상 방법을 제안합니다.

특히 팀은 다음과 같은 관찰이 혁신적인 실천에 중요한 역할을 한다는 것을 발견했습니다. 일반적으로 짧은 비디오 자발적 음성의 훈련 문장은 사람이 전사한 문장보다 훨씬 짧습니다(평균 약 3초). 활동 감지 프런트엔드에서 생성된 테스트 문은 훨씬 더 깁니다(평균 약 10초). 따라서 이러한 불일치는 성능 저하로 이어질 수 있습니다.

Volcano Speech 팀은 실증적 목적을 위해 15개 언어의 다중 클래스 ASR 모델을 사용했다고 밝혔습니다. 이들 언어에 대한 데이터 세트는 1,000~30,000시간 범위입니다. 모델 미세 조정 단계에서는 여러 데이터에서 실시간으로 샘플링하고 접합한 데이터도 추가했습니다. 증강되지 않은 데이터와 비교하여 이 방법은 모든 언어에서 5.72%의 평균 상대 단어 오류율 감소를 달성합니다.

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

테스트 세트의 긴 문장의 WER은 RUC(파란색 대 빨간색)로 훈련한 후 크게 감소합니다. )

실험적 관찰에 따르면 RUC 방법은 긴 문장의 인식 능력을 크게 향상시키는 반면, 짧은 문장의 성능은 저하하지 않습니다. 추가 분석에서는 제안된 데이터 증대 방법이 길이 정규화 변화에 대한 ASR 모델의 민감도를 줄일 수 있다는 사실을 발견했습니다. 이는 ASR 모델이 다양한 환경에서 더욱 강력하다는 것을 의미할 수 있습니다. 요약하자면, RUC 데이터 향상 방법은 작동이 간단하지만 그 효과는 상당합니다

음성학적 및 운율 인식을 기반으로 한 유창성 점수 비원어민 유창성 점수를 위한 자기 지도 학습 접근 방식

중요한 것 중 하나 제2언어 학습자의 언어 능력을 평가하는 기준은 말하기 유창성이다. 유창한 발음이란 말을 할 때 멈춤, 머뭇거림, 자기 교정 등의 비정상적인 현상이 많이 발생하지 않고 쉽고 정상적으로 말을 할 수 있는 능력을 주요 특징으로 합니다. 대부분의 제2외국어 학습자는 일반적으로 원어민보다 느리게 말하고 더 자주 멈춥니다. Volcano Speech 팀은 음성 유창성을 평가하기 위해 음성과 운율을 기반으로 한 자기주도 모델링 방법을 제안했습니다. 구체적으로 사전 학습 단계에서 모델의 입력 시퀀스 특성(음향 특성, 음소 ID, 음소 지속 시간)을 고려했습니다. 마스킹되고, 마스킹된 특징이 모델에 입력되며, 문맥 관련 인코더를 사용하여 타이밍 정보를 기반으로 마스킹된 부분의 음소 ID 및 음소 지속 시간 정보를 복원함으로써 모델이 더욱 강력한 발화 및 운율을 갖게 됩니다. 표현 능력.

이 솔루션은 시퀀스 모델링 프레임워크에서 원래 기간, 음소 및 음향 정보의 세 가지 기능을 마스크하고 재구성하여 기계가 유창성 점수에 더 잘 사용되는 컨텍스트의 음성 및 기간 표현을 자동으로 학습할 수 있도록 합니다.

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

말과 운율을 기반으로 하는 이 자기 지도 학습 방법은 현장의 다른 방법을 능가합니다. 내부 테스트 세트에서 기계 예측 결과와 인간 전문가 점수 간의 상관 관계는

0.833에 도달했습니다. 전문가와 전문가의 상관관계는 0.831입니다. 오픈 소스 데이터 세트에서 기계 예측 결과와 인간 전문가 점수 간의 상관 관계는 0.835에 도달했으며 성능은 이 작업에 대해 과거에 제안된 일부 자기 감독 방법을 초과했습니다. 적용 시나리오 측면에서 이 방법은 구술 시험, 다양한 온라인 구술 연습 등 자동 유창성 평가가 필요한 시나리오에 적용할 수 있습니다. 자동 발음 평가에서 비원어민 음성의 기여도 분리

(자동 발음 평가에서 비원어민 음성의 기여도 분리)

비원어민 발음 평가의 기본 아이디어는 학습자 발음과 원어민 발음의 편차를 수량화하는 것입니다. 따라서 발음 평가에 사용되는 초기 음향 모델은 일반적으로 훈련을 위해 대상 언어 데이터만 사용하지만 최근 일부 연구에서는 비원어민 발음을 데이터에 통합하는 것이 모델 훈련에 통합됩니다. 비원어민 음성을 L2 ASR에 통합하는 목적과 비원어민 평가 또는 발음 오류 감지 사이에는 근본적인 차이가 있습니다. 전자의 목표는 최적의 ASR을 달성하기 위해 가능한 한 비원어민 데이터에 모델을 적용하는 것입니다. 후자는 두 가지 관점의 균형을 요구합니다. 즉, 비원어민 음성의 인식 정확도가 높고 비원어민 발음의 발음 수준에 대한 객관적인 평가가 필요합니다.

화산 음성 팀은 발음 평가에서 비원어민 음성의 기여도를 두 가지 관점, 즉 정렬 정확도와 평가 성능에서 연구하는 것을 목표로 합니다. 이를 위해 그들은 위의 그림과 같이 음향 모델을 훈련할 때 서로 다른 데이터 조합과 텍스트 전사 형식을 설계했습니다

위 두 표는 각각 음향 모델 성능의 다양한 조합에 대한 정렬 정확도와 평가를 보여줍니다. . 실험 결과는 음향 모델 훈련 중에 수동으로 주석이 달린 음소 시퀀스가 있는 비원어민 언어 데이터만 사용하면 비원어민 음성을 정렬하고 발음 평가에서 가장 높은 정확도를 얻을 수 있음을 보여줍니다. 특히 훈련에서 모국어 데이터 절반과 비원어 데이터(인간 주석이 달린 음소 시퀀스)를 절반으로 혼합하는 것은 약간 더 나쁠 수 있지만 인간 주석이 달린 음소 시퀀스와 함께 비원어 데이터만 사용하는 것과 비슷합니다.

게다가 위의 혼합 사례는 모국어 데이터로 발음을 평가할 때 더 잘 수행됩니다. 제한된 리소스로 10시간의 비모국어 데이터를 추가하면 모국어 데이터만 사용한 음향 모델 훈련에 비해 사용된 텍스트 전사 유형에 관계없이 정렬 정확도와 평가 성능이 크게 향상되었습니다. 이 연구는 음성 평가 분야의 데이터 응용에 중요한 지침이 됩니다.

엔드 투 엔드 음성 인식에서 비피크 CTC프레임 분류기 최적화(프레임 개선-)를 통해 타임스탬프 문제를 해결합니다. level Classifier for Word Timing with Non-peaky CTC in End-to-End 자동 음성 인식)

자동 음성 인식(ASR) 분야의 엔드 투 엔드 시스템은 하이브리드 시스템에 필적하는 성능을 보여주었습니다. ASR의 부산물인 타임스탬프는 특히 자막 생성 및 계산 지원 발음 훈련과 같은 시나리오에서 매우 중요합니다. 이 문서는 타임스탬프를 얻기 위해 엔드투엔드 시스템에서 프레임 수준 분류기를 최적화하는 것을 목표로 합니다. . 이에 팀에서는 프레임 수준 분류기를 훈련하기 위해 CTC(Connectionist Temporal Classification) 손실을 도입했으며, CTC의 스파이크 현상을 완화하기 위해 레이블 사전 정보를 도입했습니다. 또한 Mel 필터의 출력을 ASR과 결합했습니다. 인코더를 입력 기능으로 사용합니다.

내부 중국어 실험에서 이 방법은 단어 타임스탬프 200ms에서 95.68%/94.18%의 정확도를 달성한 반면, 기존 하이브리드 시스템은 93.0%/90.22%에 불과했습니다. 또한 이전의 엔드 투 엔드 접근 방식과 비교하여 팀은 7개 내부 언어에서 4.80%/8.02%의 절대적인 성능 향상을 달성했습니다. 이 실험은 LibriSpeech에 대해서만 수행되었지만 프레임별 지식 증류 접근 방식을 통해 단어 타이밍의 정확성도 더욱 향상되었습니다.

이 연구 결과는 라벨 우선순위를 도입하고 다양한 수준의 기능을 융합함으로써 엔드투엔드 음성 인식 시스템의 타임스탬프 성능을 효과적으로 최적화할 수 있음을 보여줍니다. 내부 중국어 실험에서 이 방법은 하이브리드 시스템 및 이전의 엔드투엔드 방법과 비교하여 상당한 개선을 이루었습니다. 또한 이 방법은 지식 증류 방법을 적용하여 다국어에 대한 명백한 이점을 보여 주며 더욱 향상된 단어를 제공합니다. 타이밍 정확성. 이러한 결과는 자막 생성, 발음 훈련 등의 활용에 큰 의미가 있을 뿐만 아니라, 자동 음성 인식 기술 개발에 유용한 탐색 방향을 제시한다.

언어별 음향 경계 학습 기반 중국어-영어 혼합 음성 인식(Language-special Acoustic Boundary Learning for Mandarin-English Code-switching Speech Recognition )

재작성된 내용: 우리 모두 알고 있듯이 코드 스위칭(CS의 주요 목표)은 서로 다른 언어나 기술 분야 간의 효과적인 의사소통을 촉진하는 것입니다. CS는 문장에서 두 개 이상의 언어를 교대로 사용해야 하지만 여러 언어의 단어나 구문을 병합하면 음성 인식에 오류와 혼란이 발생할 수 있으며 이로 인해 CSSR(코드 전환 음성 인식)이 더욱 어려워집니다. 임무

일반적인 엔드투엔드 ASR 모델은 인코더, 디코더 및 정렬 메커니즘으로 구성됩니다. 기존 End-to-End CSASR 모델의 대부분은 인코더 및 디코더 구조 최적화에만 초점을 맞추고 정렬 메커니즘의 언어 관련 설계가 필요한지 거의 논의하지 않습니다. 기존 작업의 대부분은 중국어와 영어 혼합 시나리오의 모델링 단위로 중국어 문자와 영어 하위 단어의 혼합을 사용합니다. 표준 중국어 문자는 일반적으로 표준 중국어의 단일 음절을 나타내며 명확한 음향 경계를 갖는 반면, 영어 하위 단어는 음향 지식을 참조하지 않고 얻어지므로 음향 경계가 모호할 수 있습니다. CSASR 시스템에서 중국어와 영어 사이의 좋은 음향 경계(정렬)를 얻기 위해서는 언어 관련 음향 경계 학습이 매우 필요합니다. 따라서 우리는 CIF 모델을 개선하고 CSASR 작업을 위한 언어별 음향 경계 학습 방법을 제안했습니다. 모델 아키텍처에 대한 자세한 내용은 아래 그림을 참조하세요

모델은 인코더, LSWE(언어 차별화 가중치 추정기), CIF 모듈, AR(자동 회귀) 디코더, 비자동 회귀( NAR) 디코더 및 언어 변경 감지(LCD) 모듈. 인코더, 자동회귀 디코더 및 CIF의 계산 프로세스는 원래 CIF 기반 ASR 방법과 동일합니다. 언어별 가중치 추정기는 비자동회귀(NAR) 디코더의 모델링을 완료합니다. LCD(언어 변경 감지) 모듈은 모델 훈련을 지원하도록 설계되었으며 더 이상 디코딩 단계에 유지되지 않습니다. 실험 결과에 따르면 이 방법은 오픈 소스 중국어-영어의 두 테스트 세트
및
에서 새로운 결과를 달성한 것으로 나타났습니다. 혼합 데이터 세트 SEAME. SOTA 효과는 각각 16.29% 및 22.81% MER입니다. 더 큰 데이터 볼륨에 대한 이 방법의 효과를 추가로 검증하기 위해 팀은 9,000시간의 내부 데이터 세트에 대한 실험을 수행했으며 최종적으로 7.9%의 상대적 MER 이득을 달성했습니다. 이 논문은 CSASR 과제에서 언어 차별화를 위한 음향 경계 학습에 대한 첫 번째 작업이기도 한 것으로 이해됩니다.
USTR
: 통합 표현 및 일반 텍스트 기반 ASR 도메인 적응(Transducer의 통합 음성 텍스트 표현을 사용하는 텍스트 전용 도메인 적응)우리 모두 알고 있듯이 도메인 마이그레이션 ASR에서는 항상 매우 중요한 작업이지만, 대상 도메인에서 쌍을 이루는 음성 데이터를 얻는 것은 시간과 비용이 많이 들기 때문에 많은 작품에서는 인식 효과를 높이기 위해 대상 도메인과 관련된 텍스트 데이터를 사용합니다. 전통적인 방법 중 TTS는 훈련 주기와 관련 데이터의 저장 비용을 증가시키는 반면, ILME 및 Shallow fusion과 같은 방법은 추론의 복잡성을 증가시킵니다.

이 작업을 기반으로 팀은 RNN-T를 기반으로 Encoder를 Audio Encoder와 Shared Encoder로 나누고 Text Encoder를 도입하여 RNN을 사용한 Shared Encoder 학습을 통해 음성 신호와 유사한 표현을 학습했습니다. -T 손실을 USTR(Unified Speech-Text Representation)이라고 합니다. "텍스트 인코더 부분의 경우 문자 시퀀스, 전화 시퀀스 및 하위 단어 시퀀스를 포함한 다양한 유형의 표현을 탐색했습니다. 최종 결과는 전화 시퀀스가 가장 좋은 효과가 있음을 보여주었습니다. 훈련 방법에 대해서는 이 기사에서 방법을 탐색합니다. 주어진 RNN- T 모델의 다단계 훈련 방법과 완전 무작위 초기화를 통한 단일 단계 훈련 방법을 기반으로 합니다. "

구체적으로 팀은 LibriSpeech 데이터 세트를 소스 도메인으로 사용하고 주석이 달린 텍스트를 사용했습니다. 도메인 마이그레이션 실험을 위한 일반 텍스트인 SPGISpeech. 실험 결과는 목표 분야에서 이 방법의 효과가 기본적으로 TTS의 효과와 동일할 수 있음을 보여줍니다. 단일 단계 훈련 효과는 기본적으로 다중 단계와 동일합니다. USTR 방법은 LM이 동일한 텍스트 학습 코퍼스를 사용하더라도 ILME와 같은 플러그인 언어 모델의 성능을 더욱 향상시킬 수 있습니다. 마지막으로, 외부 언어 모델을 결합하지 않은 대상 도메인 테스트 세트에서 이 방법은 기준 WER 23.55% -> 13.25%에 비해 43.7%의 상대적 감소를 달성했습니다.

지식 증류 기반의 효율적인 내부 언어 모델 추정 방법
(Knowledge Distillation Approach for Efficient Internal Language Model Estimation)
ILME(내부 언어 모델 추정)는 기존의 얕은 융합에 비해 엔드 투 엔드 ASR 언어 모델 융합에서 효율성이 입증되었지만 ILME는 내부 언어 모델 계산을 추가로 도입하여 추론 비용을 높입니다. 내부 언어 모델을 추정하기 위해서는 ASR 디코더를 기반으로 추가적인 순방향 계산이 필요하거나 Density Ratio 방식을 기반으로 ASR 훈련 세트 텍스트를 내부 언어로 사용하여 독립 언어 모델(DR-LM)을 훈련합니다. 모델의 근사치. ASR 디코더를 기반으로 한 ILME 방법은 추정을 위해 ASR 매개변수를 직접 사용하기 때문에 일반적으로 밀도비 방법보다 더 나은 성능을 얻을 수 있지만, ASR 디코더의 매개변수 양에 따라 계산량이 달라집니다. 밀도비 방법의 장점은 다음과 같습니다. DR-LM의 크기는 효율적인 내부 언어 모델 추정을 가능하게 합니다.

이러한 이유로 Volcano Voice 팀은 밀도 비율 방법의 프레임워크 하에서 ASR 디코더 기반의 ILME 방법을 교사로 사용하여 DR-LM을 추출하고 학습함으로써 ILME의 계산 비용을 크게 줄이면서 유지하는 것을 제안했습니다. ILME의 성능.

실험 결과에 따르면 이 방법은 내부 언어 모델 매개 변수를 95%까지 줄일 수 있으며 ASR 디코더 기반 ILME 방법과 성능면에서 비슷합니다. 더 나은 성능을 가진 ILME 방법을 교사로 사용하면 해당 학생 모델도 더 나은 결과를 얻을 수 있습니다. 유사한 계산량을 사용하는 기존 밀도 비율 방법과 비교할 때 이 방법은 리소스가 많은 시나리오에서 약간 더 나은 성능을 제공합니다. 리소스가 적은 도메인 간 마이그레이션 시나리오에서는 CER 이득이 8%에 도달할 수 있으며 더 강력합니다. fusion Weights

GenerTTS: 교차 언어 텍스트 음성 변환의 음색 및 스타일 일반화를 위한 발음 분리 언어 간 음색 및 스타일 일반화 가능한 음성 합성(TTS)은 특정 참조 음색으로 음성을 합성하는 것을 목표로 합니다. 또는 대상 언어로 훈련되지 않은 스타일. 특정 화자에 대한 다국어 음성 데이터를 얻는 것이 종종 어렵기 때문에 음색과 발음을 분리하는 데 어려움이 있으며, 음성 스타일에는 언어 독립적인 부분과 언어 종속적인 부분이 모두 포함되어 있기 때문에 발음이 혼합되어 있는 경우가 많습니다. 이러한 문제를 해결하기 위해 Volcano Voice 팀은 GenerTTS를 제안했습니다. 그들은 음색과 발음/스타일 사이의 연결을 분리하기 위해 HuBERT 기반 정보 병목 현상을 신중하게 설계했습니다. 동시에 스타일과 언어 간의 상호 정보를 최소화하여 스타일에서 언어별 정보를 제거합니다.

실험을 통해 GenerTTS가 스타일 유사성과 발음 정확도 측면에서 기준 시스템보다 우수하다는 것이 입증되었습니다. 언어 음색과 스타일 전반에 걸쳐 일반화가 가능합니다.

Volcano Voice 팀은 항상 ByteDance의 내부 비즈니스 라인에 고품질 음성 AI 기술 역량과 풀 스택 음성 제품 솔루션을 제공하고 Volcano 엔진을 통해 외부 서비스를 제공해 왔습니다. 2017년 설립 이후, 팀은 업계 최고의 AI 지능형 음성 기술 연구 개발에 주력해 왔으며, 더 큰 사용자 가치를 달성하기 위해 AI와 비즈니스 시나리오의 효율적인 조합을 지속적으로 탐색하고 있습니다.

위 내용은 Interspeech 2023에 여러 논문이 선정되었으며 Huoshan Speech는 다양한 유형의 실제 문제를 효과적으로 해결했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7675

Cakephp 튜토리얼

1393

C# 튜토리얼

1207

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

Related knowledge

'Defect Spectrum'은 기존 결함 감지의 경계를 뛰어넘어 초고정밀 및 풍부한 의미론적 산업 결함 감지를 최초로 달성합니다. Jul 26, 2024 pm 05:38 PM

현대 제조업에서 정확한 결함 검출은 제품 품질을 보장하는 열쇠일 뿐만 아니라 생산 효율성을 향상시키는 핵심이기도 합니다. 그러나 기존 결함 감지 데이터세트는 실제 적용에 필요한 정확성과 의미론적 풍부함이 부족한 경우가 많아 모델이 특정 결함 카테고리나 위치를 식별할 수 없게 됩니다. 이 문제를 해결하기 위해 광저우 과학기술대학교와 Simou Technology로 구성된 최고 연구팀은 산업 결함에 대한 상세하고 의미론적으로 풍부한 대규모 주석을 제공하는 "DefectSpectrum" 데이터 세트를 혁신적으로 개발했습니다. 표 1에서 볼 수 있듯이, 다른 산업 데이터 세트와 비교하여 "DefectSpectrum" 데이터 세트는 가장 많은 결함 주석(5438개의 결함 샘플)과 가장 상세한 결함 분류(125개의 결함 카테고리)를 제공합니다.

NVIDIA 대화 모델 ChatQA는 버전 2.0으로 발전했으며 컨텍스트 길이는 128K로 언급되었습니다. Jul 26, 2024 am 08:40 AM

오픈 LLM 커뮤니티는 백개의 꽃이 피어 경쟁하는 시대입니다. Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 등을 보실 수 있습니다. 훌륭한 연기자. 그러나 GPT-4-Turbo로 대표되는 독점 대형 모델과 비교하면 개방형 모델은 여전히 많은 분야에서 상당한 격차를 보이고 있습니다. 일반 모델 외에도 프로그래밍 및 수학을 위한 DeepSeek-Coder-V2, 시각 언어 작업을 위한 InternVL과 같이 핵심 영역을 전문으로 하는 일부 개방형 모델이 개발되었습니다.

수백만 개의 결정 데이터로 훈련하여 결정학적 위상 문제를 해결하는 딥러닝 방법인 PhAI가 Science에 게재되었습니다. Aug 08, 2024 pm 09:22 PM

Editor |KX 오늘날까지 단순한 금속부터 큰 막 단백질에 이르기까지 결정학을 통해 결정되는 구조적 세부 사항과 정밀도는 다른 어떤 방법과도 비교할 수 없습니다. 그러나 가장 큰 과제인 소위 위상 문제는 실험적으로 결정된 진폭에서 위상 정보를 검색하는 것입니다. 덴마크 코펜하겐 대학의 연구원들은 결정 위상 문제를 해결하기 위해 PhAI라는 딥러닝 방법을 개발했습니다. 수백만 개의 인공 결정 구조와 그에 상응하는 합성 회절 데이터를 사용하여 훈련된 딥러닝 신경망은 정확한 전자 밀도 맵을 생성할 수 있습니다. 연구는 이 딥러닝 기반의 순순한 구조 솔루션 방법이 단 2옹스트롬의 해상도로 위상 문제를 해결할 수 있음을 보여줍니다. 이는 원자 해상도에서 사용할 수 있는 데이터의 10~20%에 해당하는 반면, 기존의 순순한 계산은

Google AI가 IMO 수학 올림피아드 은메달을 획득하고 수학적 추론 모델 AlphaProof가 출시되었으며 강화 학습이 다시 시작되었습니다. Jul 26, 2024 pm 02:40 PM

AI의 경우 수학 올림피아드는 더 이상 문제가 되지 않습니다. 목요일에 Google DeepMind의 인공 지능은 AI를 사용하여 올해 국제 수학 올림피아드 IMO의 실제 문제를 해결하는 위업을 달성했으며 금메달 획득에 한 걸음 더 다가섰습니다. 지난 주 막 끝난 IMO 대회에는 대수학, 조합론, 기하학, 수론 등 6개 문제가 출제됐다. 구글이 제안한 하이브리드 AI 시스템은 4문제를 맞혀 28점을 얻어 은메달 수준에 이르렀다. 이달 초 UCLA 종신 교수인 테렌스 타오(Terence Tao)가 상금 100만 달러의 AI 수학 올림피아드(AIMO Progress Award)를 추진했는데, 예상외로 7월 이전에 AI 문제 해결 수준이 이 수준으로 향상됐다. IMO에서 동시에 질문을 해보세요. 가장 정확하게 하기 어려운 것이 IMO인데, 역사도 가장 길고, 규모도 가장 크며, 가장 부정적이기도 합니다.

자연의 관점: 의학 분야의 인공지능 테스트는 혼란에 빠졌습니다. 어떻게 해야 할까요? Aug 22, 2024 pm 04:37 PM

Editor | ScienceAI 제한된 임상 데이터를 기반으로 수백 개의 의료 알고리즘이 승인되었습니다. 과학자들은 누가 도구를 테스트해야 하며 최선의 방법은 무엇인지에 대해 토론하고 있습니다. 데빈 싱(Devin Singh)은 응급실에서 오랜 시간 치료를 기다리던 중 심장마비를 겪는 소아환자를 목격했고, 이를 계기로 대기시간을 단축하기 위해 AI 적용을 모색하게 됐다. SickKids 응급실의 분류 데이터를 사용하여 Singh과 동료들은 잠재적인 진단을 제공하고 테스트를 권장하는 일련의 AI 모델을 구축했습니다. 한 연구에 따르면 이러한 모델은 의사 방문 속도를 22.3% 단축하여 의료 검사가 필요한 환자당 결과 처리 속도를 거의 3시간 단축할 수 있는 것으로 나타났습니다. 그러나 인공지능 알고리즘의 연구 성공은 이를 입증할 뿐이다.

대형 모델에 대한 새로운 과학적이고 복잡한 질문 답변 벤치마크 및 평가 시스템을 제공하기 위해 UNSW, Argonne, University of Chicago 및 기타 기관이 공동으로 SciQAG 프레임워크를 출시했습니다. Jul 25, 2024 am 06:42 AM

편집자 |ScienceAI 질문 응답(QA) 데이터 세트는 자연어 처리(NLP) 연구를 촉진하는 데 중요한 역할을 합니다. 고품질 QA 데이터 세트는 모델을 미세 조정하는 데 사용될 수 있을 뿐만 아니라 LLM(대형 언어 모델)의 기능, 특히 과학적 지식을 이해하고 추론하는 능력을 효과적으로 평가하는 데에도 사용할 수 있습니다. 현재 의학, 화학, 생물학 및 기타 분야를 포괄하는 과학적인 QA 데이터 세트가 많이 있지만 이러한 데이터 세트에는 여전히 몇 가지 단점이 있습니다. 첫째, 데이터 형식이 비교적 단순하고 대부분이 객관식 질문이므로 평가하기 쉽지만 모델의 답변 선택 범위가 제한되고 모델의 과학적 질문 답변 능력을 완전히 테스트할 수 없습니다. 이에 비해 개방형 Q&A는

PRO | MoE 기반의 대형 모델이 더 주목받는 이유는 무엇인가요? Aug 07, 2024 pm 07:08 PM

2023년에는 AI의 거의 모든 분야가 전례 없는 속도로 진화하고 있다. 동시에 AI는 구체화된 지능, 자율주행 등 핵심 트랙의 기술적 한계를 지속적으로 확장하고 있다. 멀티모달 추세 하에서 AI 대형 모델의 주류 아키텍처인 Transformer의 상황이 흔들릴까요? MoE(Mixed of Experts) 아키텍처를 기반으로 한 대형 모델 탐색이 업계에서 새로운 트렌드가 된 이유는 무엇입니까? 대형 비전 모델(LVM)이 일반 비전 분야에서 새로운 돌파구가 될 수 있습니까? ...지난 6개월 동안 공개된 본 사이트의 2023 PRO 회원 뉴스레터에서 위 분야의 기술 동향과 산업 변화에 대한 심층 분석을 제공하여 새로운 환경에서 귀하의 목표 달성에 도움이 되는 10가지 특별 해석을 선택했습니다. 년. 준비하세요. 이 해석은 2023년 50주차에 나온 것입니다.

정확도는 60.8%에 달합니다. Transformer를 기반으로 한 Zhejiang University의 화학적 역합성 예측 모델은 Nature 저널에 게재되었습니다. Aug 06, 2024 pm 07:34 PM

Editor | KX 역합성은 약물 발견 및 유기 합성에서 중요한 작업이며, 프로세스 속도를 높이기 위해 AI가 점점 더 많이 사용되고 있습니다. 기존 AI 방식은 성능이 만족스럽지 못하고 다양성이 제한적입니다. 실제로 화학 반응은 종종 반응물과 생성물 사이에 상당한 중복이 발생하는 국지적인 분자 변화를 일으킵니다. 이에 영감을 받아 Zhejiang University의 Hou Tingjun 팀은 단일 단계 역합성 예측을 분자 문자열 편집 작업으로 재정의하고 표적 분자 문자열을 반복적으로 정제하여 전구체 화합물을 생성할 것을 제안했습니다. 그리고 고품질의 다양한 예측이 가능한 편집 기반 역합성 모델 EditRetro를 제안합니다. 광범위한 실험을 통해 이 모델은 표준 벤치마크 데이터 세트 USPTO-50 K에서 60.8%의 상위 1 정확도로 탁월한 성능을 달성하는 것으로 나타났습니다.

See all articles

Interspeech 2023에 여러 논문이 선정되었으며 Huoshan Speech는 다양한 유형의 실제 문제를 효과적으로 해결했습니다.

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제