Dengan aplikasi dan promosi model pembelajaran mendalam, orang ramai secara beransur-ansur mendapati bahawa model sering menggunakan korelasi palsu (Spurious Correlation) dalam data untuk mendapatkan prestasi latihan yang lebih tinggi. Walau bagaimanapun, oleh kerana korelasi sedemikian sering tidak berlaku pada data ujian, prestasi ujian model tersebut selalunya tidak memuaskan [1]. Intipatinya ialah objektif pembelajaran mesin tradisional (Empirical Risk Minimization, ERM) menganggap ciri pengagihan bebas dan sama bagi set latihan dan ujian, tetapi pada hakikatnya, senario di mana andaian pengagihan bebas dan sama adalah benar selalunya terhad. Dalam banyak senario kehidupan sebenar, pengedaran data latihan dan pengedaran data ujian biasanya menunjukkan ketidakkonsistenan, iaitu, anjakan pengedaran (Distribution Shifts Masalah yang bertujuan untuk meningkatkan prestasi model dalam senario sedemikian biasanya dipanggil out-). masalah generalisasi agihan (out-of-distribution). Kelas kaedah seperti ERM yang menumpukan pada korelasi pembelajaran dan bukannya penyebab dalam data sering bergelut dengan anjakan pengedaran. Walaupun banyak kaedah telah muncul dalam beberapa tahun kebelakangan ini dan telah mencapai kemajuan tertentu dalam masalah Out-of-Distribution dengan menggunakan Prinsip Invarian dalam Inferens Sebab, penyelidikan mengenai data graf masih terhad. Ini kerana pengitlak data graf di luar pengedaran adalah lebih sukar daripada data Eropah tradisional, yang membawa lebih banyak cabaran kepada pembelajaran mesin graf. Kertas kerja ini mengambil tugas pengelasan graf sebagai contoh untuk menerokai generalisasi tambahan bagi taburan graf berdasarkan prinsip invarian sebab.
Dalam beberapa tahun kebelakangan ini, dengan bantuan prinsip invarian sebab, orang telah mencapai kejayaan tertentu dalam masalah generalisasi luar pengedaran data Euclidean, tetapi untuk graf Penyelidikan tentang data masih terhad. Tidak seperti data Euclidean, kerumitan graf menimbulkan cabaran unik untuk menggunakan prinsip invarian sebab dan mengatasi kesukaran generalisasi luar taburan.
Untuk menangani cabaran ini, kami menyepadukan invarian sebab ke dalam pembelajaran mesin graf dalam kerja ini dan mencadangkan rangka kerja pembelajaran graf invarian yang diilhamkan sebab untuk menyelesaikan masalah data graf. Masalah generalisasi luar pengedaran menyediakan teori dan kaedah baru.
Kertas kerja telah diterbitkan di NeurIPS 2022. Kerja ini telah disiapkan dengan kerjasama Universiti China Hong Kong, Universiti Baptist Hong Kong, Tencent AI Lab dan Universiti Sydney.
Di luar pengedaran generalisasi data graf Apakah kesukarannya?
Rangkaian saraf graf telah mencapai kejayaan besar dalam beberapa tahun kebelakangan ini dalam aplikasi pembelajaran mesin yang melibatkan struktur graf, seperti sistem pengesyoran, farmaseutikal berbantukan AI dan bidang lain. Walau bagaimanapun, kerana kebanyakan algoritma pembelajaran mesin graf sedia ada bergantung pada andaian pengagihan data yang bebas dan sama, apabila data ujian dan data latihan mempunyai anjakan (Anjakan Pengedaran), prestasi algoritma akan berkurangan dengan banyak. Pada masa yang sama, disebabkan oleh kerumitan struktur data graf, generalisasi data graf di luar pengedaran adalah lebih biasa dan lebih mencabar daripada data Eropah.
Rajah 1. Contoh anjakan taburan pada graf.
Pertama, anjakan taburan data graf boleh muncul dalam taburan ciri nod graf (Anjakan Tahap Atribut). Sebagai contoh, dalam sistem pengesyoran, produk yang terlibat dalam data latihan mungkin daripada beberapa kategori popular, dan pengguna yang terlibat juga mungkin datang dari kawasan tertentu tertentu Walau bagaimanapun, semasa fasa ujian, sistem perlu mengendalikan pengguna dengan betul daripada semua kategori dan wilayah dan komoditi [2,3,4]. Selain itu, anjakan taburan data graf juga boleh muncul dalam taburan struktur graf (Anjakan Tahap Struktur). Seawal 2019, orang ramai menyedari bahawa rangkaian saraf graf yang dilatih pada graf yang lebih kecil adalah sukar untuk mempelajari pemberat perhatian yang berkesan (Perhatian) untuk digeneralisasikan kepada graf yang lebih besar [5], yang turut menggalakkan Satu siri kerja berkaitan telah dicadangkan [6,7]. Dalam senario kehidupan sebenar, kedua-dua jenis anjakan pengedaran ini mungkin sering muncul pada masa yang sama, dan anjakan pengedaran ini pada tahap yang berbeza juga mungkin mempunyai corak korelasi palsu yang berbeza dengan label yang akan diramalkan. Contohnya, dalam sistem pengesyoran, produk daripada kategori tertentu dan pengguna dari kawasan tertentu sering mempamerkan struktur topologi unik pada graf interaksi pengguna produk [4]. Dalam ramalan sifat molekul dadah, molekul ubat yang terlibat dalam latihan mungkin terlalu kecil, dan keputusan ramalan juga akan dipengaruhi oleh persekitaran pengukuran eksperimen [8].
Selain itu, generalisasi luar pengedaran dalam ruang Euclidean sering mengandaikan bahawa data datang daripada berbilang persekitaran (Persekitaran) atau domain (Domain), dan seterusnya mengandaikan bahawa model boleh memperoleh data latihan semasa latihan Persekitaran yang menjadi milik setiap sampel untuk meneroka invarian merentasi persekitaran. Walau bagaimanapun, mendapatkan label persekitaran untuk data selalunya memerlukan beberapa pengetahuan pakar yang berkaitan dengan data, dan disebabkan sifat abstrak data graf, mendapatkan label persekitaran untuk data graf adalah lebih mahal. Oleh itu, kebanyakan set data graf sedia ada seperti OGB tidak mengandungi maklumat label persekitaran sedemikian Walaupun beberapa set data seperti DrugOOD mempunyai label alam sekitar, terdapat pelbagai tahap hingar.
Bolehkah kaedah sedia ada menyelesaikan masalah generalisasi luar taburan pada graf?
Untuk mempunyai pemahaman intuitif tentang cabaran generalisasi luar pengedaran pada data graf, kami membina data baharu berdasarkan set data Spurious-Motif [9] untuk selanjutnya nyatakan beberapa cabaran utama di atas, dan cuba gunakan kaedah sedia ada seperti sasaran latihan IRM [10] untuk generalisasi luar pengedaran pada data Eropah, atau GNN [11] dengan keupayaan ekspresif yang lebih kukuh, untuk menganalisis sama ada data graf boleh diselesaikan dengan kaedah sedia ada Masalah generalisasi luar pengedaran.
Rajah 2. Contoh set data Motif Palsu.
Tugas Motif Palsu ditunjukkan dalam Rajah 2. Ia terutamanya melabelkan graf berdasarkan sama ada graf input mengandungi subgraf dengan struktur tertentu (seperti House atau Kitaran). Buat pertimbangan, di mana warna nod mewakili atribut nod. Menggunakan set data ini boleh menguji dengan jelas kesan anjakan pengedaran pada tahap yang berbeza pada prestasi rangkaian saraf graf. Untuk model GNN biasa yang dilatih menggunakan ERM:
Selain itu, model tidak boleh mendapatkan sebarang maklumat yang berkaitan dengan label persekitaran semasa latihan, dan keputusan eksperimen ditunjukkan dalam Rajah 3 (lebih banyak keputusan boleh didapati dalam Lampiran D bagi kertas itu).
Rajah 3. Prestasi kaedah sedia ada di bawah anjakan taburan graf yang berbeza.
Seperti yang ditunjukkan dalam Rajah 3, GCN biasa tidak dapat mengatasi anjakan struktur (Struc) graf sama ada ia dilatih menggunakan ERM atau IRM semasa dalam After menambah mengimbangi atribut nod graf (Campuran) dan mengimbangi pengedaran saiz graf (dalam Rajah 3), prestasi model akan dikurangkan lagi, walaupun kGNN dengan keupayaan ekspresi yang lebih kuat digunakan, sukar untuk mengelakkan kehilangan prestasi yang serius (purata prestasi lebih rendah, atau varians yang lebih besar).
Daripada ini, kita secara semula jadi membawa kepada persoalan yang perlu dikaji: Bagaimana untuk mendapatkan model GNN yang boleh mengatasi pelbagai anjakan pengedaran graf?
Untuk menyelesaikan masalah di atas, kita perlu mempelajari sasaran, iaitu Invariant GNN, Definisi, iaitu model yang masih berprestasi baik dalam persekitaran yang paling teruk (lihat kertas untuk definisi yang ketat):
Definisi 1 (Rangkaian Neural Graf Invarian) Diberi satu siri set data klasifikasi Graf yang dikumpul untuk persekitaran berkaitan sebab yang berbeza , di mana Mengandungi sampel i.i.d persekitaran e, pertimbangkan rangkaian neural graf , di mana dan > berada ruang graf dan ruang sampel sebagai input masing-masing, f ialah rangkaian neural graf invarian, jika dan hanya jika , iaitu, meminimumkan maksimum semua persekitaran Risiko empirikal terburuk, di mana ialah kehilangan pengalaman model dalam persekitaran.
Model hanya boleh mendapatkan sebahagian daripada data dalam persekitaran latihan semasa latihan jika tiada andaian dibuat tentang proses data, data akan kekal tidak berubah Keoptimuman minmax yang diperlukan oleh definisi rangkaian saraf graf adalah sukar untuk dicapai. Oleh itu, kami menggunakan Model Sebab Berstruktur untuk memodelkan proses penjanaan graf dari perspektif Inferens Sebab dan mencirikan korelasi antara persekitaran dalam percubaan untuk mentakrifkan invarian sebab pada data graf.
Rajah 4. Model penyebab proses penjanaan data graf.
Tanpa kehilangan sifat umum, kami menggabungkan semua pembolehubah terpendam yang mempengaruhi penjanaan graf ke dalam ruang terpendam dan memodelkan proses penjanaan graf sebagai . Selain itu, untuk pembolehubah pendam , mengikut sama ada ia dipengaruhi oleh persekitaran E, kami membahagikannya kepada pembolehubah pendam invarian dan pembolehubah pendam palsu (pendam palsu pembolehubah). Sejajar dengan itu, pembolehubah pendam C dan S masing-masing akan mempengaruhi penjanaan subgraf tertentu G, yang direkodkan sebagai subgraf invarian dan subgraf palsu , masing-masing, seperti Seperti yang ditunjukkan dalam Rajah 4 (a), dan C terutamanya mengawal label Y graf. Ini juga boleh disimpulkan lagi , iaitu C dan Y mempunyai maklumat bersama yang lebih tinggi daripada S. Proses penjanaan ini sepadan dengan banyak contoh praktikal Contohnya, sifat perubatan molekul biasanya ditentukan oleh kumpulan utama tertentu (subgraf molekul) (seperti keterlarutan air hidroksil-H O kepada molekul).
Selain itu, C mempunyai banyak jenis interaksi dengan Y, S dan E dalam ruang pendam Ia terutamanya mengikut sama ada pembolehubah pendam palsu S dan label Y mempunyai perkaitan tambahan selain pembolehubah pendam malar C, iaitu. ialah boleh diringkaskan kepada dua jenis: FIIF (Ciri Invarian Bermaklumat Penuh) seperti yang ditunjukkan dalam Rajah 4 (b) dan PIIF (Ciri Invarian Separa Bermaklumat) seperti yang ditunjukkan dalam Rajah 4 (c). Antaranya, FIIF bermaksud bahawa label adalah bebas daripada jumlah korelasi palsu yang diberikan maklumat invarian. PIIF adalah sebaliknya. Perlu diingat bahawa untuk menampung sebanyak mungkin anjakan pengedaran graf, model kausal kami berusaha untuk memodelkan pelbagai model penjanaan graf secara meluas. Memandangkan lebih banyak pengetahuan tentang proses penjanaan graf, model kausal yang ditunjukkan dalam Rajah 4 boleh digeneralisasikan lagi kepada contoh yang lebih khusus. Seperti dalam Lampiran C.1, kami menunjukkan bagaimana graf sebab boleh digeneralisasikan kepada kerja sebelumnya oleh Bevilacqua et al [7] untuk menganalisis anjakan taburan saiz graf dengan menambah andaian had graf tambahan (graphon).
Berdasarkan analisis kausal di atas, kita boleh tahu bahawa apabila model hanya menggunakan subgraf invarian untuk ramalan, ia hanya menggunakan subgraf antara Korelasi, ramalan model tidak akan terjejas oleh perubahan dalam persekitaran E sebaliknya, jika ramalan model bergantung pada sebarang maklumat yang berkaitan dengan S atau , keputusan ramalannya akan dipengaruhi oleh perubahan dalam E Perubahan ketara berlaku, mengakibatkan kehilangan prestasi. Oleh itu, matlamat kami boleh diperhalusi lagi daripada mempelajari rangkaian neural graf invarian untuk: a) mengenal pasti subgraf invarian yang berpotensi b) meramalkan Y menggunakan subgraf yang dikenal pasti. Untuk lebih sesuai dengan proses algoritma penjanaan data, kami membahagikan lagi rangkaian saraf graf kepada rangkaian pengecaman subgraf (Featurizer GNN) dan rangkaian pengelasan (GNN Pengelas) dan , dengan ialah ruang subgraf . Kemudian objektif pembelajaran model boleh dinyatakan seperti yang ditunjukkan dalam formula (1):
Antaranya, ialah ramalan subgraf invarian oleh rangkaian pengecaman subgraf; Maklumat bersama dengan Y, secara amnya, memaksimumkan boleh dicapai dengan meminimumkan kehilangan empirikal ramalan Y menggunakan . Walau bagaimanapun, disebabkan kekurangan E, sukar untuk kita menggunakan E secara langsung untuk mengesahkan kemerdekaan Untuk tujuan ini, kita mesti mencari yang lain syarat setara untuk mengenal pasti keperluan Subgraf invarian bagi . Pembelajaran graf invarian yang diilhamkan sebab Untuk menyelesaikan masalah pengenalan subgraf invarian dengan kehadiran unsur yang hilang, berdasarkan kerangka formula (1) , kami berharap untuk mendapatkan syarat kesetaraan yang Mudah dilaksanakan untuk persamaan (1). Khususnya, kami mula-mula mempertimbangkan kes yang lebih mudah di mana saiz subgraf invarian asas ditetapkan dan diketahui, 〈🎜〉〈🎜〉〈🎜〉. Dalam keadaan sedemikian, pertimbangkan untuk memaksimumkan
mempunyai saiz yang sama dengan , tetapi kerana juga berkaitan dengan Y, jadi tanpa sebarang kekangan lain, memaksimumkan boleh menyebabkan anggaran subgraf invarian mengandungi bahagian yang mempunyai maklumat bersama dengan subgraf palsu Y. Untuk "memerah" kemungkinan subgraf palsu dalam , kami akan terus mendapatkan maklumat lanjut tentang Sifat unik. Ambil perhatian bahawa, tanpa mengira jenis korelasi palsu PIIF atau FIIF, untuk subgraf yang memaksimumkan maklumat bersama dengan label Y, kami mempunyai:
Memandangkan sukar untuk kita memerhatikannya secara langsung dalam amalan, kita boleh menggunakannya sebagai proksi dalam formula (2).
Pada masa yang sama, apabila
dan dimaksimumkan pada masa yang sama, akan Meminimumkan secara automatik, jika tidak, ramalan model akan runtuh kepada penyelesaian remeh. Daripada ini, kami memperoleh keadaan kesetaraan subgraf invarian dalam kes mudah Digabungkan dengan formula (1), kami memperoleh versi pertama rangka kerja Graf Invarian Berinspirasikan Kausalitas (Pembelajaran Graf Invarian Berinspirasikan Kausalitas) Iaitu, CIGAv1:
Antaranya, dan , iaitu adalah daripada kategori Y yang sama dengan G. Dalam kertas kerja kami, kami selanjutnya menunjukkan bahawa CIGAv1 boleh berjaya mengenal pasti subgraf invarian yang berpotensi dalam model kausal yang sepadan dengan Rajah 4 apabila saiz graf diketahui. Walau bagaimanapun, kerana andaian sebelumnya terlalu ideal, dalam amalan, saiz subgraf invarian mungkin berubah dan saiz yang sepadan selalunya tidak diketahui. Di bawah andaian tiada saiz subgraf, keperluan CIGAv1 boleh dipenuhi dengan hanya mengenal pasti keseluruhan graf sebagai subgraf invarian. Oleh itu, kami mempertimbangkan untuk mencari lagi sifat tentang subgraf invarian untuk mengalih keluar andaian ini. Perhatikan bahawa apabila memaksimumkan , mungkin muncul berkongsi maklumat bersama yang sama dan berkaitan seperti bahagian subgraf invarian yang dialih keluar. Jadi, bolehkah kita melakukan sebaliknya dan pada masa yang sama memaksimumkan untuk mengalih keluar kemungkinan bahagian subgraf palsu ? Jawapannya ya, kita boleh menggunakan korelasi antara dan Y untuk menjadikannya bersaing dengan anggaran . Perlu diingatkan bahawa apabila memaksimumkan adalah perlu untuk memastikan bahawa tidak akan melebihi , jika tidak akan yang diramalkan akan jatuh ke dalam penyelesaian yang remeh sekali lagi. Digabungkan dengan syarat tambahan ini, kita boleh mengalih keluar andaian tentang saiz subgraf malar daripada formula (3) dan mendapatkan CIGAv2 berikut: Rajah 5. Skema rangka kerja pembelajaran graf invarian yang diilhamkan secara kausal. Pelaksanaan CIGA: Dalam amalan, selalunya sukar untuk menganggarkan maklumat bersama dua subgraf, manakala pembelajaran kontras diselia [11] menyediakan penyelesaian yang Mungkin: di mana sepadan dengan sampel positif dalam formula (4), manakala sepadan dengan Rajah mewakili. Apabila , formula (5) menyediakan penganggar entropi penggantian semula bukan parametrik berdasarkan kepadatan isirong von Mises-Fisher untuk )[13,14]. Pelaksanaan akhir bahagian teras CIGA ditunjukkan dalam Rajah 5, iaitu, dengan mendekatkan perwakilan graf kategori subgraf invarian kategori yang sama dalam ruang perwakilan terpendam, dan pada masa yang sama memaksimumkan perwakilan graf bagi kategori berbeza bagi subgraf invarian untuk memaksimumkan . Di samping itu, untuk satu lagi kekangan dalam formula (4), kita boleh melaksanakannya melalui idea kehilangan engsel, iaitu, Hanya apabila mengoptimumkan ramalan, kerugian empirikal adalah lebih besar daripada invarian sepadan Subgraf palsu subgraf. Dalam percubaan, kami menggunakan 16 set data sintetik atau dunia sebenar untuk menjalankan CIGA di bawah anjakan pengedaran graf yang berbeza. Dalam percubaan, kami melaksanakan prototaip CIGA menggunakan rangka kerja GNN yang boleh ditafsir [9], tetapi sebenarnya CIGA mempunyai lebih banyak cara untuk melaksanakannya. Untuk set data khusus dan butiran percubaan, sila lihat bahagian percubaan artikel. Prestasi anjakan pengedaran struktur dan anjakan pengedaran campuran pada set data sintetik Kami mula-mula berdasarkan Set Data SPMotif [9] membina set data SPMotif-Struc dan SPMotif-Mixed, di mana SPMotif-Struc mengandungi korelasi palsu antara subgraf tertentu dan struktur subgraf lain dalam graf, serta anjakan taburan dalam saiz graf manakala SPMotif-Mixed Berdasarkan SPMotif-Struc , offset pengedaran baharu pada tahap atribut nod graf ditambah. Lajur pertama dalam jadual ialah garis dasar ERM dan GNN yang boleh ditafsir, dan lajur kedua ialah algoritma generalisasi luar pengedaran yang paling maju dalam ruang Euclidean. Ia boleh didapati daripada keputusan bahawa kedua-dua rangka kerja GNN yang lebih baik dan algoritma generalisasi luar pengedaran dalam ruang Euclidean tertakluk kepada anjakan pengedaran pada graf, dan apabila lebih banyak anjakan pengedaran berlaku, kehilangan prestasi (prestasi klasifikasi purata yang lebih kecil. atau varians yang lebih besar) akan dipertingkatkan lagi. Sebaliknya, CIGA mengekalkan prestasi yang baik di bawah anjakan pengedaran dengan kekuatan yang berbeza dan jauh melebihi prestasi asas terbaik. Prestasi pelbagai anjakan pengedaran graf pada set data sebenar Kami kemudian menguji lagi prestasi CIGA pada set data sebenar dan anjakan pengedaran graf yang wujud dalam pelbagai data sebenar, termasuk tiga bahagian persekitaran berbeza dalam DrugOOD (persekitaran eksperimen Assay, molekul) daripada ramalan atribut molekul ubat dalam farmaseutikal berbantukan AI Tiga set data Skeleton (Scaffold, Molecular Size) mengandungi anjakan graf pelbagai senario aplikasi sebenar yang ditukarkan berdasarkan set data imej klasik ColoredMNIST [10] dalam ruang Euclidean terutamanya mengandungi nod graf jenis PIIF; Graph-SST5 dan Twitter [15] ditukar daripada set data klasifikasi emosi bahasa semula jadi SST5 dan Twitter, dan tambahan pengedaran mengimbangi darjah graf ditambah. Selain itu, kami juga menggunakan 4 set data anjakan saiz graf molekul yang telah dikaji sebelumnya [7], Keputusan ujian ditunjukkan dalam jadual di atas. Ia boleh didapati bahawa dalam data sebenar, disebabkan peningkatan dalam kesukaran tugas , GNN dengan seni bina yang lebih baik digunakan Atau prestasi model yang diperoleh dengan melatih sasaran pengoptimuman generalisasi luar pengedaran dalam ruang Euclidean adalah lebih lemah daripada model GNN biasa yang dilatih menggunakan ERM. Fenomena ini juga serupa dengan fenomena yang diperhatikan dalam eksperimen generalisasi luar taburan di bawah tugas yang lebih sukar dalam ruang Euclidean [16], mencerminkan kesukaran generalisasi luar taburan pada data sebenar dan kelemahan kaedah sedia ada. Sebaliknya, CIGA boleh menambah baik pada semua anjakan pengedaran data dan graf sebenar, malah mencapai tahap Oracle optimum secara empirik dalam beberapa set data seperti Twitter dan PROTEIN. Ujian awal pada penanda aras ujian pengitlakan luar taburan graf terkini BAIK pada set data pengelasan graf juga menunjukkan bahawa CIGA pada masa ini ialah algoritma generalisasi luar taburan graf terbaik yang boleh mengatasi pelbagai anjakan taburan graf. Disebabkan penggunaan GNN yang boleh ditafsir sebagai seni bina pelaksanaan prototaip CIGA, kami juga memvisualisasikan DrugOOD yang dikenal pasti oleh model dan mendapati bahawa CIGA telah menemui beberapa pangkalan molekul yang agak konsisten digunakan untuk ramalan sifat molekul. Ini boleh memberikan asas yang lebih baik untuk farmaseutikal dibantu AI berikutnya. Rajah 6. Subgraf invarian separa yang dikenal pasti oleh CIGA dalam DrugOOD. Melalui perspektif inferens sebab, makalah ini memperkenalkan invarian sebab kepada taburan graf di bawah pelbagai anjakan taburan graf untuk yang pertama masa Dalam masalah generalisasi luaran, rangka kerja penyelesaian baharu CIGA dengan jaminan teori dicadangkan. Sebilangan besar percubaan juga telah mengesahkan sepenuhnya prestasi generalisasi luar pengedaran CIGA yang sangat baik. Melihat ke masa hadapan, berdasarkan CIGA, kami boleh meneroka lebih lanjut rangka kerja pelaksanaan yang lebih baik [17], atau memperkenalkan kaedah peningkatan data yang dijamin secara teori yang lebih baik untuk CIGA [3,18], dan secara teorinya memodelkan perkaitan pada graf (Covariate Shift ) [19] untuk meningkatkan lagi keupayaan CIGA untuk mengenal pasti subgraf invarian dan menggalakkan pelaksanaan sebenar rangkaian saraf graf dalam senario aplikasi sebenar seperti farmaseutikal berbantukan AI. Eksperimen dan Perbincangan
Ringkasan dan Tinjauan
Atas ialah kandungan terperinci Kaedah pembelajaran perwakilan sebab yang dicadangkan oleh Hong Kong et al bertujuan untuk masalah generalisasi luaran taburan data ortografik.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!