Rajah 1: (a) Graf teks (b) Rangkaian saraf graf (c) Model bahasa
Graf ialah struktur data universal yang memodelkan hubungan struktur antara nod. Dalam kehidupan sebenar, banyak nod mengandungi ciri teks yang kaya, dan graf ini dipanggil graf beratribut teks [2]. Sebagai contoh, rangkaian petikan kertas mengandungi teks kertas dan hubungan petikan antara kertas kerja itu mengandungi penerangan teks pengguna dan hubungan interaktif langsung pengguna. Model pembelajaran perwakilan pada graf teks boleh digunakan untuk tugas seperti pengelasan nod dan ramalan pautan, dan mempunyai nilai aplikasi yang luas.
Graf teks mengandungi dua aspek maklumat: maklumat teks nod dan maklumat struktur graf antara nod. Pemodelan graf teks tradisional boleh dibahagikan kepada dua perspektif: pemodelan teks dan pemodelan graf. Antaranya, kaedah pemodelan teks (ditunjukkan dalam Rajah 1.b) biasanya menggunakan model bahasa berasaskan Transformer (LM) untuk mendapatkan perwakilan teks bagi satu nod dan meramalkan tugasan sasaran kaedah pemodelan pemodelan graf (Seperti yang ditunjukkan dalam Rajah 1.c), rangkaian neural graf (GNN) biasanya digunakan untuk memodelkan interaksi antara ciri nod dan meramalkan tugas sasaran melalui mekanisme penyebaran mesej.
Walau bagaimanapun, kedua-dua model hanya boleh memodelkan struktur teks dan graf dalam graf teks masing-masing: model bahasa tradisional tidak boleh mempertimbangkan secara langsung maklumat struktur, dan rangkaian saraf graf tidak boleh mempertimbangkan secara langsung maklumat teks asal. Untuk memodelkan struktur teks dan graf pada masa yang sama, penyelidik cuba mengintegrasikan model bahasa dan rangkaian saraf graf serta mengemas kini parameter kedua-dua model secara serentak. Walau bagaimanapun, kerja sedia ada [2, 3] tidak boleh memodelkan sejumlah besar teks jiran pada masa yang sama, mempunyai kebolehskalaan yang lemah, dan tidak boleh digunakan pada graf teks yang besar.
Untuk menyepadukan rangkaian saraf graf dan model bahasa dengan lebih berkesan, artikel ini mencadangkan Graph dan LPembelajaran bahasa oleh rangka kerja Expectation Maximization (GLEM). Rangka kerja GLEM adalah berdasarkan algoritma maksimum jangkaan variasi (Variational EM) dan secara bergilir-gilir mempelajari rangkaian saraf graf dan model bahasa, sekali gus mencapai kebolehskalaan yang baik.
Rajah 2: Rangka kerja GLEM
Secara khususnya, mengambil tugas pengelasan nod sebagai contoh, dalam E langkah , GLEM melatih model bahasa berdasarkan label sebenar dan label pseudo yang diramalkan oleh rangkaian saraf graf; >M langkah , GLEM melatih rangkaian saraf graf berdasarkan label sebenar dan label pseudo yang diramalkan oleh model bahasa. Dengan cara ini, rangka kerja GLEM secara berkesan melombong maklumat tekstual tempatan dan maklumat interaksi struktur global. Kedua-dua rangkaian saraf graf (GLEM-GNN) dan model bahasa (GLEM-LM) yang dilatih melalui rangka kerja GLEM boleh digunakan untuk meramalkan label nod.
Eksperimen
Bahagian eksperimen kertas terutamanya membincangkan rangka kerja GLEM dari aspek berikut:
Rajah 3: Rangka kerja GLEM memenangi tempat pertama pada set data OGBN-arxiv, products, papers100M
Atas ialah kandungan terperinci Mengintegrasikan model bahasa, rangkaian saraf graf dan rangka kerja latihan graf teks GLEM dengan berkesan untuk mencapai SOTA baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!