단어 임베딩이 매개변수의 비율을 너무 많이 나타내나요? MorphTE 방식으로 손실 없는 20배 압축 효과-일체 포함-php.cn

소개

모델

01 단어의 형태소 구성

02 얽힌 텐서 형태의 단어 임베딩 압축 표현

03 형태론이 강화된 텐서 단어 임베딩 압축 표현

실험

결론

집

기술 주변기기

일체 포함

단어 임베딩이 매개변수의 비율을 너무 많이 나타내나요? MorphTE 방식으로 손실 없는 20배 압축 효과

王林

May 17, 2023 pm 04:01 PM

매개변수 방법

소개

워드 임베딩 표현은 기계 번역, 질문 응답, 텍스트 분류 등 다양한 자연어 처리 작업의 기초입니다. 일반적으로 전체 모델 매개변수의 20%~90%를 차지합니다. 이러한 임베딩을 저장하고 액세스하려면 많은 공간이 필요하므로 리소스가 제한된 장치에 모델을 배포하고 적용하는 데 도움이 되지 않습니다. 이 문제를 해결하기 위해 이 기사에서는 MorphTE 단어 임베딩 압축 방법을 제안합니다. MorphTE는 텐서 곱 작업의 강력한 압축 기능과 언어 형태학에 대한 사전 지식을 결합하여 모델 성능을 유지하면서 단어 임베딩 매개변수의 높은 압축( 20배 이상)을 달성합니다.

단어 임베딩이 매개변수의 비율을 너무 많이 나타내나요? MorphTE 방식으로 손실 없는 20배 압축 효과

논문 링크: https://arxiv.org/abs/2210.15379
오픈 소스 코드: https://github.com/bigganbing/Fairseq_MorphTE

모델

본 글에서 제안하는 MorphTE 단어 임베딩 압축 방법은 먼저 단어를 의미론적 의미를 갖는 가장 작은 단위인 형태소로 나누고, 각 형태소에 대해 저차원 벡터 표현을 훈련한 후, 텐서 곱을 사용하여 저차원 양자를 구현하는 것입니다. 차원 형태소 벡터 얽힌 상태를 수학적으로 표현하여 고차원 단어 표현을 얻습니다.

01 단어의 형태소 구성

언어학에서 형태소는 특정한 의미나 문법 기능을 지닌 가장 작은 단위입니다. 영어와 같은 언어의 경우 단어는 어근, 접사와 같은 더 작은 단위의 형태소로 나눌 수 있습니다. 예를 들어, "unkindly"는 부정을 나타내는 "un", "Friendly"와 같은 것을 나타내는 "kind", 부사를 나타내는 "ly"로 나눌 수 있습니다. 중국어의 경우 한자는 부수와 같은 더 작은 단위로 분할될 수도 있습니다. 예를 들어 "MU"는 물을 나타내는 "氵"과 "木"로 분할될 수 있습니다.

단어 임베딩이 매개변수의 비율을 너무 많이 나타내나요? MorphTE 방식으로 손실 없는 20배 압축 효과

형태소에는 의미가 포함되어 있지만 단어 간에 공유하여 다른 단어를 연결할 수도 있습니다. 또한 제한된 수의 형태소를 결합하여 더 많은 수의 단어를 만들 수 있습니다.

02 얽힌 텐서 형태의 단어 임베딩 압축 표현

단어 임베딩이 매개변수의 비율을 너무 많이 나타내나요? MorphTE 방식으로 손실 없는 20배 압축 효과

관련 작업 Word2ket은 텐서 곱을 사용하여 단일 단어 임베딩을 여러 저차원 벡터의 얽힌 텐서 형태로 표현합니다. 공식은 다음과 같습니다. :

단어 임베딩이 매개변수의 비율을 너무 많이 나타내나요? MorphTE 방식으로 손실 없는 20배 압축 효과

여기서 , r은 순위, n은 순서, 는 텐서 곱을 나타냅니다. Word2ket은 이러한 저차원 벡터를 저장하고 사용하여 고차원 단어 벡터를 구축하면 효과적으로 매개변수를 줄일 수 있습니다. 예를 들어 r = 2이고 n = 3인 경우 차원이 512인 단어 벡터는 각 그룹에 차원이 8인 3개의 저차원 벡터 텐서로 구성된 두 그룹을 통해 얻을 수 있습니다. 필요한 횟수가 512에서 48로 감소되었습니다.

03 형태론이 강화된 텐서 단어 임베딩 압축 표현

Word2ket은 텐서 제품을 통해 확실한 매개변수 압축을 달성할 수 있습니다. 그러나 일반적으로 고전력 압축 및 압축과 같은 더 복잡한 작업에서는 사전 압축 성능을 달성하기가 어렵습니다. 기계 번역. 저차원 벡터는 얽힘 텐서를 구성하는 기본 단위이고, 형태소는 단어를 구성하는 기본 단위이기 때문입니다. 본 연구에서는 언어 지식의 도입을 고려하여 저차원 형태소 벡터를 훈련하고 단어에 포함된 형태소 벡터의 텐서 곱을 사용하여 해당 단어 임베딩 표현을 구성하는 MorphTE를 제안합니다.

단어 임베딩이 매개변수의 비율을 너무 많이 나타내나요? MorphTE 방식으로 손실 없는 20배 압축 효과

구체적으로는 먼저 형태소 분할 도구를 사용하여 어휘 목록 V의 단어를 분할합니다. 모든 단어의 형태소는 형태소 목록 M을 형성하며, 형태소 수는 단어 수()보다 현저히 적습니다. ).

각 단어에 대해 형태소 테이블의 각 단어에 포함된 형태소의 위치를 가리키는 형태소 인덱스 벡터를 구성합니다. 모든 단어의 형태소 색인 벡터는 단어 임베딩이 매개변수의 비율을 너무 많이 나타내나요? MorphTE 방식으로 손실 없는 20배 압축 효과 의 형태소 색인 행렬을 형성하며, 여기서 n은 MorphTE의 차수입니다.

어휘의 j번째 단어 단어 임베딩이 매개변수의 비율을 너무 많이 나타내나요? MorphTE 방식으로 손실 없는 20배 압축 효과 에 대해 해당 형태소 색인 벡터 를 사용하여 매개변수화된 형태소 임베딩 행렬의 r 그룹에서 해당 형태소 벡터를 색인화하고 텐서 곱을 통해 얽힘 확장을 수행합니다.

단어 임베딩이 매개변수의 비율을 너무 많이 나타내나요? MorphTE 방식으로 손실 없는 20배 압축 효과

위의 방법을 통해 MophTE는 단어 임베딩 표현에 형태소 기반 언어 사전 지식을 주입할 수 있으며, 동시에 형태소 벡터는 다른 단어에서 사용되며 단어 간 공유는 명시적으로 단어 간 연결을 구축할 수 있습니다. 또한 형태소의 수와 벡터 차원은 어휘의 크기와 차원보다 훨씬 낮으며 MophTE는 두 관점 모두에서 단어 임베딩 매개변수의 압축을 달성합니다. 따라서 MophTE는 단어 임베딩 표현의 고품질 압축을 달성할 수 있습니다.

실험

이 글에서는 주로 다양한 언어의 번역, 질의응답 작업에 대한 실험을 진행하고, 이를 관련 분해 기반 단어 임베딩 압축 방법과 비교합니다.

단어 임베딩이 매개변수의 비율을 너무 많이 나타내나요? MorphTE 방식으로 손실 없는 20배 압축 효과

표에서 볼 수 있듯이 MorphTE는 영어, 독일어, 이탈리아어 등 다양한 언어에 적응할 수 있습니다. 20배 이상의 압축 비율에서 MorphTE는 원래 모델의 효과를 유지할 수 있는 반면, 거의 모든 다른 압축 방법은 효과가 감소합니다. 또한 MorphTE는 40배 이상의 압축 비율로 다양한 데이터 세트에서 다른 압축 방법보다 더 나은 성능을 발휘합니다.

단어 임베딩이 매개변수의 비율을 너무 많이 나타내나요? MorphTE 방식으로 손실 없는 20배 압축 효과

마찬가지로 WikiQA의 질의응답 작업과 SNLI의 자연어 추론 작업에서 MorphTE는 모델의 효과를 유지하면서 각각 81배와 38배의 압축률을 달성했습니다.

결론

MorphTE는 사전 형태론적 언어 지식과 텐서 제품의 강력한 압축 기능을 결합하여 단어 임베딩의 고품질 압축을 달성합니다. 다양한 언어 및 작업에 대한 실험에서는 MorphTE가 모델 효과를 손상시키지 않고 단어 임베딩 매개변수를 20~80배 압축할 수 있음을 보여줍니다. 이는 형태소 기반 언어 지식의 도입이 단어 임베딩의 압축 표현 학습을 향상시킬 수 있음을 검증합니다. MorphTE는 현재 형태소만 모델링하지만 실제로는 프로토타입, 품사, 대문자 사용 등과 같은 선험적 언어 지식을 명시적으로 모델링하는 일반적인 단어 임베딩 압축 향상 프레임워크로 확장되어 단어 임베딩 표현을 더욱 향상시킬 수 있습니다.

위 내용은 단어 임베딩이 매개변수의 비율을 너무 많이 나타내나요? MorphTE 방식으로 손실 없는 20배 압축 효과의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7563

Cakephp 튜토리얼

1385

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Tomato Free Novel 앱에서 소설 쓰는 방법 Tomato Novel에서 소설 쓰는 방법에 대한 튜토리얼을 공유하세요. Mar 28, 2024 pm 12:50 PM

Tomato Novel은 매우 인기 있는 소설 읽기 소프트웨어입니다. 우리는 종종 Tomato Novel에서 읽을 새로운 소설과 만화를 가지고 있습니다. 많은 친구들도 용돈을 벌고 소설의 내용을 편집하고 싶어합니다. 글로 쓰고 싶은데, 그 안에 소설을 어떻게 쓰는지 친구들도 모르니까, 소설 쓰는 방법에 대한 소개를 함께 살펴보는 시간을 가져보겠습니다. 토마토 소설을 사용하여 소설을 쓰는 방법에 대한 튜토리얼을 공유하세요. 1. 먼저 휴대폰에서 토마토 무료 소설 앱을 열고 개인 센터 - 작가 센터를 클릭하세요. 2. 토마토 작가 도우미 페이지로 이동하여 새로 만들기를 클릭하세요. 소설의 끝 부분에 예약하십시오.

컬러풀 마더보드에서 바이오스로 진입하는 방법은 무엇입니까? 두 가지 방법을 가르쳐주세요. Mar 13, 2024 pm 06:01 PM

컬러풀한 마더보드는 중국 국내 시장에서 높은 인기와 시장 점유율을 누리고 있지만 일부 컬러풀한 마더보드 사용자는 아직도 설정을 위해 BIOS에 진입하는 방법을 모르시나요? 이러한 상황에 대응하여 편집자는 다채로운 마더보드 BIOS에 들어갈 수 있는 두 가지 방법을 특별히 가져왔습니다. 방법 1: U 디스크 시작 단축키를 사용하여 U 디스크 설치 시스템에 직접 들어갑니다. 한 번의 클릭으로 U 디스크를 시작하는 Colour 마더보드의 단축키는 ESC 또는 F11입니다. 먼저 Black Shark 설치 마스터를 사용하여 Black을 만듭니다. Shark U 디스크 부팅 디스크를 켠 후 컴퓨터를 켜면 시작 화면이 나타나면 키보드의 ESC 또는 F11 키를 계속 눌러 시작 항목을 순차적으로 선택할 수 있는 창으로 커서를 "USB. "가 표시된 후

WeChat에서 삭제된 연락처를 복구하는 방법(삭제된 연락처를 복구하는 방법을 알려주는 간단한 튜토리얼) May 01, 2024 pm 12:01 PM

불행하게도 사람들은 어떤 이유로든 실수로 특정 연락처를 삭제하는 경우가 많습니다. WeChat은 널리 사용되는 소셜 소프트웨어입니다. 사용자가 이 문제를 해결할 수 있도록 이 문서에서는 삭제된 연락처를 간단한 방법으로 검색하는 방법을 소개합니다. 1. WeChat 연락처 삭제 메커니즘을 이해하면 삭제된 연락처를 검색할 수 있습니다. WeChat의 연락처 삭제 메커니즘은 연락처를 주소록에서 제거하지만 완전히 삭제하지는 않습니다. 2. WeChat에 내장된 "연락처 복구" 기능을 사용하세요. WeChat은 "연락처 복구"를 제공하여 시간과 에너지를 절약합니다. 사용자는 이 기능을 통해 이전에 삭제한 연락처를 빠르게 검색할 수 있습니다. 3. WeChat 설정 페이지에 들어가서 오른쪽 하단을 클릭하고 WeChat 애플리케이션 "나"를 열고 오른쪽 상단에 있는 설정 아이콘을 클릭하여 설정 페이지로 들어갑니다.

휴대폰에서 글꼴 크기를 설정하는 방법(휴대폰에서 글꼴 크기를 쉽게 조정) May 07, 2024 pm 03:34 PM

휴대폰이 사람들의 일상 생활에서 중요한 도구가 되면서 글꼴 크기 설정은 중요한 개인화 요구 사항이 되었습니다. 다양한 사용자의 요구를 충족하기 위해 이 기사에서는 간단한 조작을 통해 휴대폰 사용 경험을 개선하고 휴대폰의 글꼴 크기를 조정하는 방법을 소개합니다. 휴대폰의 글꼴 크기를 조정해야 하는 이유 - 글꼴 크기를 조정하면 텍스트가 더 명확하고 읽기 쉬워집니다. - 다양한 연령대의 사용자의 읽기 요구에 적합 - 시력이 좋지 않은 사용자가 글꼴 크기를 사용하는 것이 편리합니다. 휴대폰 시스템의 설정 기능 - 시스템 설정 인터페이스에 들어가는 방법 - 찾기에서 설정 인터페이스의 "디스플레이" 옵션을 입력합니다. - "글꼴 크기" 옵션을 찾아 타사를 통해 글꼴 크기를 조정합니다. 애플리케이션 - 글꼴 크기 조정을 지원하는 애플리케이션 다운로드 및 설치 - 애플리케이션을 열고 관련 설정 인터페이스로 진입 - 개인에 따라

Win11에서 관리자 권한을 얻는 방법 요약 Mar 09, 2024 am 08:45 AM

Win11 관리자 권한을 얻는 방법에 대한 요약 Windows 11 운영 체제에서 관리자 권한은 사용자가 시스템에서 다양한 작업을 수행할 수 있도록 하는 매우 중요한 권한 중 하나입니다. 때로는 소프트웨어 설치, 시스템 설정 수정 등과 같은 일부 작업을 완료하기 위해 관리자 권한을 얻어야 할 수도 있습니다. 다음은 Win11 관리자 권한을 얻는 몇 가지 방법을 요약한 것입니다. 도움이 되기를 바랍니다. 1. 단축키를 사용하세요. Windows 11 시스템에서는 단축키를 통해 명령 프롬프트를 빠르게 열 수 있습니다.

모바일 드래곤 알 부화의 비밀이 공개됩니다(모바일 드래곤 알을 성공적으로 부화하는 방법을 단계별로 알려드립니다) May 04, 2024 pm 06:01 PM

모바일 게임은 기술의 발전과 함께 사람들의 삶에 없어서는 안될 부분이 되었습니다. 귀여운 드래곤 알 이미지와 흥미로운 부화 과정으로 많은 플레이어들의 관심을 끌었으며, 특히 주목을 받은 게임 중 하나가 드래곤 알 모바일 버전이다. 플레이어가 게임에서 자신만의 드래곤을 더 잘 육성하고 성장시킬 수 있도록 이 글에서는 모바일 버전에서 드래곤 알을 부화시키는 방법을 소개합니다. 1. 적절한 유형의 드래곤 알을 선택하십시오. 플레이어는 게임에서 제공되는 다양한 유형의 드래곤 알 속성과 능력을 기반으로 자신이 좋아하고 적합한 드래곤 알 유형을 신중하게 선택해야 합니다. 2. 부화기의 레벨을 업그레이드하세요. 플레이어는 작업을 완료하고 소품을 수집하여 부화기의 레벨을 향상시켜야 합니다. 부화기의 레벨에 따라 부화 속도와 부화 성공률이 결정됩니다. 3. 플레이어가 게임에 참여하는데 필요한 자원을 수집하세요.

Oracle 버전 조회 방법에 대한 자세한 설명 Mar 07, 2024 pm 09:21 PM

Oracle 버전 쿼리 방법에 대한 자세한 설명 Oracle은 세계에서 가장 널리 사용되는 관계형 데이터베이스 관리 시스템 중 하나이며 풍부한 기능과 강력한 성능을 제공하며 기업에서 널리 사용됩니다. 데이터베이스 관리 및 개발 과정에서 오라클 데이터베이스의 버전을 이해하는 것은 매우 중요합니다. 이 문서에서는 Oracle 데이터베이스의 버전 정보를 쿼리하는 방법을 자세히 소개하고 구체적인 코드 예제를 제공합니다. 간단한 SQL 문을 실행하여 Oracle 데이터베이스에 있는 SQL 문의 데이터베이스 버전을 쿼리합니다.

빨리 익히세요: Huawei 휴대폰에서 두 개의 WeChat 계정을 여는 방법 공개! Mar 23, 2024 am 10:42 AM

현대 사회에서 휴대폰은 우리 삶에 없어서는 안 될 필수품이 되었습니다. 일상적인 의사소통, 업무, 생활을 위한 중요한 도구로 WeChat이 자주 사용됩니다. 그러나 서로 다른 거래를 처리할 때 두 개의 WeChat 계정을 분리해야 할 수도 있습니다. 이를 위해서는 휴대폰이 동시에 두 개의 WeChat 계정에 로그인하는 기능을 지원해야 합니다. 국내 유명 브랜드인 화웨이 휴대폰은 많은 사람들이 사용하고 있습니다. 그렇다면 화웨이 휴대폰에서 위챗 계정을 2개 개설하는 방법은 무엇일까요? 이 방법의 비밀을 공개해보겠습니다. 우선, Huawei 휴대폰에서 두 개의 WeChat 계정을 동시에 사용해야 합니다.

See all articles

단어 임베딩이 매개변수의 비율을 너무 많이 나타내나요? MorphTE 방식으로 손실 없는 20배 압축 효과

소개

모델

01 단어의 형태소 구성

02 얽힌 텐서 형태의 단어 임베딩 압축 표현

03 형태론이 강화된 텐서 단어 임베딩 압축 표현

실험

결론

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제