Rumah > hujung hadapan web > html tutorial > Bercakap tentang cara mengenal pasti aksara melarikan diri html melalui pengeluaran halaman kod_HTML/Xhtml_Web

Bercakap tentang cara mengenal pasti aksara melarikan diri html melalui pengeluaran halaman kod_HTML/Xhtml_Web

WBOY
Lepaskan: 2016-05-16 16:39:17
asal
1973 orang telah melayarinya

Sesekali, anda akan melihat aksara seperti ' dalam data. >Bermula dengan &, dan berada di tengah-tengah aksara yang berakhir dengan

, seperti yang paling biasa     , ia akan melarikan diri mereka kembali, tetapi bagaimana untuk menghantar kod Kenal pasti? org.apache.commons.lang.StringEscapeUtils.unescapeHtml memberikan penjelasan yang baik

Apabila menghadapi situasi pertama di atas, tengah ialah nombor, terus tukar nombor (unicode) kepada char
Sekiranya Dalam kes kedua, terdapat aksara di tengah Anda hanya boleh menyemak jadual pemetaan. Cari nombor yang sepadan dengan aksara daripada jadual pemetaan dan tukarkannya kepada char. Ia akan menjadi jelas sepintas lalu jika anda melihat kod >
Lihat bagaimana HTML40 mentakrifkannya





Salin kod

Kodnya adalah seperti berikut:
statik { HTML40 = new Entiti(); fillWithHtml40Entities(HTML40); 🎜>entiti.addEntities(ISO8859_1_ARRAY);
entiti.addEntities( HTML40_ARRAY); _ARRAY




Salin kod


Kod adalah seperti berikut:


Rentetan akhir statik peribadi[][][][ ] BASIC_ARRAY = {{"quot", "34"}, // " - double-quote
{"amp", "38"}, // & - ampersand
{"lt", "60" }, // < - kurang daripada
{"gt", "62"}, // > - lebih besar daripada
}; 🎜>

Salin kodKod tersebut adalah seperti berikut:

Rentetan akhir statik[][] ISO8859_1_ARRAY = {{"nbsp", "160"}, // ruang tidak putus
{"iexcl", "161"}, // tanda seru terbalik
{"sen", "162"}, // tanda sen
{"paun", "163"}, // tanda paun
{"curren", "164"}, // mata wang tanda
{"yen", "165"}, // tanda yen = tanda yuan
{"brvbar", "166"}, // bar patah = bar menegak patah
{"mazhab", "167"}, // tanda bahagian
{"uml", "168"}, // diaeresis = jarak diaeresis
{"copy", "169"}, // � - tanda hak cipta
{"ordf", "170"}, // penunjuk ordinal feminin
{"laquo", "171"}, // tanda petikan sudut dua hala kiri = guillemet menunjuk kiri
{"bukan", " 172"}, // bukan tanda
{"malu", "173"}, // sempang lembut = sempang budi bicara
{"reg", "174"}, // � - tanda tanda dagangan berdaftar
{"macr", "175"}, // macron = jarak makron = overline = APL overbar
{"deg", "176"}, // tanda darjah
{"plusmn", "177" }, // tanda tambah-tolak = tanda tambah-atau-tolak
{"sup2", "178"}, // superskrip dua = superskrip digit dua = kuasa dua
{"sup3", "179"} , // superskrip tiga = superskrip digit tiga = kiub
{"akut", "180"}, // aksen akut = jarak akut
{"mikro", "181"}, // tanda mikro
{"para", "182"}, // tanda pilcrow = tanda perenggan
{"middot", "183"}, // titik tengah = koma Georgia = titik tengah Yunani
{"cedil", "184"}, // cedilla = jarak cedilla
{"sup1", "185"}, // superskrip satu = superskrip digit satu
{"ordm", "186"}, // penunjuk ordinal maskulin
{"raquo", "187"}, // tanda petikan sudut dua sudut kanan = guillemet menunjuk kanan
{"frac14", "188"}, // pecahan kasar satu perempat = pecahan satu perempat
{"frac12", "189"}, // pecahan kesat satu setengah = pecahan satu separuh
{"frac34", "190"}, // pecahan kesat tiga suku = pecahan tiga suku
{" iquest", "191"}, // tanda soal terbalik = tanda soal bertukar
{"Agrave", "192"}, // � - huruf besar A, loghat kubur
{"Aacute", "193" }, // � - huruf besar A, aksen akut
{"Acirc", "194"}, // � - huruf besar A, circumflex
{"Atilde", "195"}, // � - huruf besar A, tilde
{"Auml", "196"}, // � - huruf besar A, umlaut
{"Aring", "197"}, // � - huruf besar A, cincin
{ "AElig", "198"}, // � - huruf besar AE
{"Ccedil", "199"}, // � - huruf besar C, cedilla
{"Egrave", "200"}, / / � - huruf besar E, loghat kubur
{"Eacute", "201"}, // � - huruf besar E, loghat akut
{"Ecirc", "202"}, // � - huruf besar E, loghat circumflex
{"Euml", "203"}, // � - huruf besar E, umlaut
{"Igrave", "204"}, // � - huruf besar I, loghat kubur
{" Iacute", "205"}, // � - huruf besar I, aksen akut
{"Icirc", "206"}, // � - huruf besar I, aksen circumflex
{"Iuml", "207" }, // � - huruf besar I, umlaut
{"ETH", "208"}, // � - huruf besar Eth, Icelandic
{"Ntilde", "209"}, // � - huruf besar N , tilde
{"Ograve", "210"}, // � - huruf besar O, loghat kubur
{"Oacute", "211"}, // � - huruf besar O, aksen akut
{ "Ocirc", "212"}, // � - huruf besar O, aksen circumflex
{"Otilde", "213"}, // � - huruf besar O, tilde
{"Ouml", "214" }, // � - huruf besar O, umlaut
{"times", "215"}, // tanda darab
{"Oslash", "216"}, // � - huruf besar O, slash
{"Ugrave", "217"}, // � - huruf besar U, loghat kubur
{"Uacute", "218"}, // � - huruf besar U, loghat akut
{"Ucirc", "219"}, // � - huruf besar U, aksen circumflex
{"Uuml", "220"}, // � - huruf besar U, umlaut
{"Yacute", "221"}, // � - huruf besar Y, aksen akut
{"THORN", "222"}, // � - huruf besar THORN, Iceland
{"szlig", "223"}, // � - huruf kecil tajam, Jerman
{"agrave", "224"}, // � - huruf kecil a, loghat kubur
{"aacute", "225"}, // � - huruf kecil a, aksen akut
{"acirc" , "226"}, // � - huruf kecil a, aksen circumflex
{"atilde", "227"}, // � - huruf kecil a, tilde
{"auml", "228"}, / / � - huruf kecil a, umlaut
{"aring", "229"}, // � - huruf kecil a, cincin
{"aelig", "230"}, // � - huruf kecil ae
{"ccedil", "231"}, // � - huruf kecil c, cedilla
{"egrave", "232"}, // � - huruf kecil e, grave accent
{"eacute", "233 "}, // � - huruf kecil e, aksen akut
{"ecirc", "234"}, // � - huruf kecil e, aksen sirkumfleks
{"euml", "235"}, // � - huruf kecil e, umlaut
{"igrave", "236"}, // � - huruf kecil i, loghat kubur
{"iacute", "237"}, // � - huruf kecil i, aksen akut
{"icirc", "238"}, // � - huruf kecil i, aksen circumflex
{"iuml", "239"}, // � - huruf kecil i, umlaut
{"eth", "240"}, // � - huruf kecil eth, Iceland
{"ntilde", "241"}, // � - huruf kecil n, tilde
{"ograve", "242" }, // � - huruf kecil o, loghat kubur
{"oacute", "243"}, // � - huruf kecil o, aksen akut
{"ocirc", "244"}, // � - huruf kecil o, aksen circumflex
{"otilde", "245"}, // � - huruf kecil o, tilde
{"ouml", "246"}, // � - huruf kecil o, umlaut
{"bahagi", "247"}, // tanda pembahagian
{"oslash", "248"}, // � - huruf kecil o, slash
{"ugrave", "249"}, // � - huruf kecil u, loghat kubur
{"uacute", "250"}, // � - huruf kecil u, aksen akut
{"ucirc", "251"}, // � - huruf kecil u, circumflex loghat
{"uuml", "252"}, // � - huruf kecil u, umlaut
{"yacute", "253"}, // � - huruf kecil y, loghat akut
{"duri ", "254"}, // � - huruf kecil duri, Iceland
{"yuml", "255"}, // � - huruf kecil y, umlaut
};

HTML40_ARRAY

复制代码
代码如下>:
Rentetan akhir statik[][] HTML40_ARRAY = {
//
{"fnof", "402"}, // latin kecil f dengan cangkuk = function= florin, U 0192 ISOtech -->
//
{"Alpha", "913"}, // huruf besar Yunani alpha, U 0391 -->
{"Beta", "914"}, // huruf besar Yunani beta, U 0392 -->
{"Gamma", "915"}, // huruf besar greek gamma,U 0393 ISOgrk3 -->
{"Delta", "916"}, // delta huruf besar Yunani,U 0394 ISOgrk3 -->
{"Epsilon", "917"}, // huruf besar Yunani epsilon, U 0395 -->
{"Zeta", "918"}, // huruf besar greek zeta, U 0396 -->
{"Eta", "919"}, // huruf besar Yunani eta, U 0397 -->
{"Theta", "920"}, // huruf besar Yunani theta,U 0398 ISOgrk3 -->
{"Iota", "921"}, // huruf besar greek iota, U 0399 -->
{"Kappa", "922"}, // huruf besar greek kappa, U 039A -->
{"Lambda", "923"}, // huruf besar greek lambda,U 039B ISOgrk3 -->
{"Mu", "924"}, // huruf besar greek mu, U 039C -->
{"Nu", "925"}, // huruf besar Yunani nu, U 039D -->
{"Xi", "926"}, // huruf besar greek xi, U 039E ISOgrk3 -->
{"Omicron", "927"}, // huruf besar greek omicron, U 039F -->
{"Pi", "928"}, // huruf besar Yunani pi, U 03A0 ISOgrk3 -->
{"Rho", "929"}, // huruf besar greek rho, U 03A1 -->
//
{"Sigma", "931"}, // huruf besar Yunani sigma,U 03A3 ISOgrk3 -->
{"Tau", "932"}, // huruf besar greek tau, U 03A4 -->
{"Upsilon", "933"}, // huruf besar greek upsilon,U 03A5 ISOgrk3 -->
{"Phi", "934"}, // huruf besar greek phi,U 03A6 ISOgrk3 -->
{"Chi", "935"}, // huruf besar Yunani chi, U 03A7 -->
{"Psi", "936"}, // huruf besar greek psi,U 03A8 ISOgrk3 -->
{"Omega", "937"}, // huruf besar Yunani omega,U 03A9 ISOgrk3 -->
{"alpha", "945"}, // alfa huruf kecil Yunani,U 03B1 ISOgrk3 -->
{"beta", "946"}, // huruf kecil Yunani beta, U 03B2 ISOgrk3 -->
{"gamma", "947"}, // huruf kecil greek gamma,U 03B3 ISOgrk3 -->
{"delta", "948"}, // delta huruf kecil Greek,U 03B4 ISOgrk3 -->
{"epsilon", "949"}, // huruf kecil Yunani epsilon,U 03B5 ISOgrk3 -->
{"zeta", "950"}, // huruf kecil greek zeta, U 03B6 ISOgrk3 -->
{"eta", "951"}, // huruf kecil Yunani eta, U 03B7 ISOgrk3 -->
{"theta", "952"}, // huruf kecil Yunani theta,U 03B8 ISOgrk3 -->
{"iota", "953"}, // huruf kecil Yunani iota, U 03B9 ISOgrk3 -->
{"kappa", "954"}, // huruf kecil greek kappa,U 03BA ISOgrk3 -->
{"lambda", "955"}, // huruf kecil Yunani lambda,U 03BB ISOgrk3 -->
{"mu", "956"}, // huruf kecil greek mu, U 03BC ISOgrk3 -->
{"nu", "957"}, // huruf kecil Yunani nu, U 03BD ISOgrk3 -->
{"xi", "958"}, // huruf kecil Yunani xi, U 03BE ISOgrk3 -->
{"omicron", "959"}, // huruf kecil Yunani omicron, U 03BF BARU -->
{"pi", "960"}, // huruf kecil Yunani pi, U 03C0 ISOgrk3 -->
{"rho", "961"}, // huruf kecil greek rho, U 03C1 ISOgrk3 -->
{"sigmaf", "962"}, // sigma akhir huruf kecil Yunani,U 03C2 ISOgrk3 -->
{"sigma", "963"}, // sigma huruf kecil Yunani,U 03C3 ISOgrk3 -->
{"tau", "964"}, // huruf kecil greek tau, U 03C4 ISOgrk3 -->
{"upsilon", "965"}, // huruf kecil greek upsilon,U 03C5 ISOgrk3 -->
{"phi", "966"}, // huruf kecil Yunani phi, U 03C6 ISOgrk3 -->
{"chi", "967"}, // huruf kecil greek chi, U 03C7 ISOgrk3 -->
{"psi", "968"}, // huruf kecil Yunani psi, U 03C8 ISOgrk3 -->
{"omega", "969"}, // huruf kecil Yunani omega,U 03C9 ISOgrk3 -->
{"thetasym", "977"}, // simbol theta huruf kecil Yunani,U 03D1 BAHARU -->
{"upsih", "978"}, // greek upsilon dengan simbol cangkuk,U 03D2 BARU -->
{"piv", "982"}, // simbol pi greek, U 03D6 ISOgrk3 -->
//
{"lembu jantan", "8226"}, // peluru = bulatan kecil hitam,U 2022 ISOpub -->
//
{"hellip", "8230"}, // elipsis mendatar = perambut tiga titik,U 2026 ISOpub -->
{"prime", "8242"}, // prime = minit = kaki, U 2032 ISOtech -->
{"Perdana", "8243"}, // perdana berganda = saat = inci,U 2033 ISOtech -->
{"oline", "8254"}, // overline = jarak lebihan skor,U 203E BARU -->
{"frasl", "8260"}, // sengkang pecahan, U 2044 BAHARU -->
//
{"weierp", "8472"}, // modal skrip P = set kuasa= Weierstrass p, U 2118 ISOamso -->
{"imej", "8465"}, // huruf besar I = bahagian khayalan,U 2111 ISOamso -->
{"real", "8476"}, // huruf besar R = simbol bahagian sebenar,U 211C ISOamso -->
{"perdagangan", "8482"}, // tanda tanda dagangan, U 2122 ISOnum -->
{"alefsym", "8501"}, // simbol alef = kardinal transfinite pertama,U 2135 BAHARU -->
//
//
{"larr", "8592"}, // anak panah ke kiri, U 2190 ISOnum -->
{"uarr", "8593"}, // anak panah ke atas, U 2191 ISOnum-->
{"rarr", "8594"}, // anak panah ke kanan, U 2192 ISOnum -->
{"darr", "8595"}, // anak panah ke bawah, U 2193 ISOnum -->
{"harr", "8596"}, // anak panah kiri kanan, U 2194 ISOamsa -->
{"crarr", "8629"}, // anak panah ke bawah dengan penjuru ke kiri= pemulangan gerabak, U 21B5 BAHARU -->
{"lArr", "8656"}, // anak panah berganda ke kiri, U 21D0 ISOtech -->
//
{"uArr", "8657"}, // anak panah berganda ke atas, U 21D1 ISOamsa -->
{"rArr", "8658"}, // anak panah berganda ke kanan, U 21D2 ISOtech -->
//
{"dArr", "8659"}, // anak panah berganda ke bawah, U 21D3 ISOamsa -->
{"hArr", "8660"}, // anak panah berganda kiri kanan,U 21D4 ISOamsa -->
//
{"forall", "8704"}, // untuk semua, U 2200 ISOtech -->
{"bahagian", "8706"}, // pembezaan separa, U 2202 ISOtech -->
{"wujud", "8707"}, // wujud, U 2203 ISOtech -->
{"kosong", "8709"}, // set kosong = set nol = diameter,U 2205 ISOamso -->
{"nabla", "8711"}, // nabla = perbezaan ke belakang,U 2207 ISOtech -->
{"isin", "8712"}, // elemen, U 2208 ISOtech -->
{"notin", "8713"}, // bukan unsur, U 2209 ISOtech -->
{"ni", "8715"}, // mengandungi sebagai ahli, U 220B ISOtech -->
//
{"prod", "8719"}, // n-ary product = tanda produk, U 220F ISOamsb -->
//
{"jumlah", "8721"}, // penjumlahan n-ary, U 2211 ISOamsb -->
//
{"tolak", "8722"}, // tanda tolak, U 2212 ISOtech -->
{"rendah", "8727"}, // pengendali asterisk, U 2217 ISOtech -->
{"radic", "8730"}, // punca kuasa dua = tanda radikal,U 221A ISOtech -->
{"prop", "8733"}, // berkadar dengan, U 221D ISOtech -->
{"infin", "8734"}, // infiniti, U 221E ISOtech -->
{"ang", "8736"}, // sudut, U 2220 ISOamso -->
{"dan", "8743"}, // logik dan = baji, U 2227 ISOtech -->
{"atau", "8744"}, // logik atau = vee, U 2228 ISOtech -->
{"cap", "8745"}, // persimpangan = topi, U 2229 ISOtech -->
{"cup", "8746"}, // kesatuan = cawan, U 222A ISOtech -->
{"int", "8747"}, // integral, U 222B ISOtech -->
{"there4", "8756"}, // oleh itu, U 2234 ISOtech -->
{"sim", "8764"}, // operator tilde = berbeza dengan = serupa dengan,U 223C ISOtech -->
//
{"cong", "8773"}, // lebih kurang sama dengan, U 2245 ISOtech -->
{"asymp", "8776"}, // hampir sama dengan = asymptotic to,U 2248 ISOamsr -->
{"ne", "8800"}, // tidak sama dengan, U 2260 ISOtech -->
{"equiv", "8801"}, // sama dengan, U 2261 ISOtech -->
{"le", "8804"}, // kurang daripada atau sama dengan, U 2264 ISOtech -->
{"ge", "8805"}, // lebih besar daripada atau sama dengan,U 2265 ISOtech -->
{"sub", "8834"}, // subset daripada, U 2282 ISOtech -->
{"sup", "8835"}, // superset daripada, U 2283 ISOtech -->
// // bukan subset daripada, U 2284 ISOamsn -->
{"sube", "8838"}, // subset daripada atau sama dengan, U 2286 ISOtech -->
{"supe", "8839"}, // superset daripada atau sama dengan,U 2287 ISOtech --> tambah dibulatkan = jumlah langsung,U 2295 ISOamsb --> 8869"}, // up tack = ortogon ke = serenjang,U 22A5 ISOtech -->
{"sdot", "8901"}, // pengendali titik, U 22C5 ISOamsb -->
/ /
// , // siling kiri = apl atas, U 2308 ISOamsc -->
{"rceil", "8969"}, // siling kanan, U 2309 ISOamsc --> 8970"}, // tingkat kiri = apl downstile,U 230A ISOamsc -->
{"rfloor", "8971"}, // lantai kanan, U 230B ISOamsc -->
{"lang ", "9001"}, // kurungan sudut tuding kiri = bra,U 2329 ISOtech -->
//
{"rang", "9002"}, // kurungan sudut tuding kanan = ket,U 232A ISOtech -->
//
//
{"loz", "9674"}, // lozenge, U 25CA ISOpub -->
//
{"spades", "9824"}, // sut spade hitam, U 2660 ISOpub -->
//
{"clubs", "9827"}, // suit club hitam = shamrock,U 2663 ISOpub -->
{"hati", "9829"}, // sut hati hitam = valentine,U 2665 ISOpub -->
{"diams", "9830"}, // sut berlian hitam, U 2666 ISOpub -->
//
{"OElig", "338"}, // -- ligatur modal latin OE,U 0152 ISOlat2 -->
{"oelig", "339"}, // -- ligatur kecil latin oe, U 0153 ISOlat2 -->
//
{"Scaron", "352"}, // -- huruf besar latin S dengan caron,U 0160 ISOlat2 -->
{"scaron", "353"}, // -- huruf kecil latin s dengan caron,U 0161 ISOlat2 -->
{"Yuml", "376"}, // -- huruf besar latin Y dengan diaeresis,U 0178 ISOlat2 -->
//
{"circumflex", "710"}, // -- aksen circumflex huruf pengubah suai,U 02C6 ISOpub -->
{"tilde", "732"}, // tilde kecil, U 02DC ISOdia -->
//
{"ensp", "8194"}, // en angkasa, U 2002 ISOpub -->
{"emsp", "8195"}, // em space, U 2003 ISOpub -->
{"thinsp", "8201"}, // ruang nipis, ISOpub U 2009 -->
{"zwnj", "8204"}, // lebar sifar bukan cantum,U 200C RFC 2070 BAHARU -->
{"zwj", "8205"}, // penyambung lebar sifar, U 200D RFC BAHARU 2070 -->
{"lrm", "8206"}, // tanda kiri ke kanan, U 200E BAHARU RFC 2070 -->
{"rlm", "8207"}, // tanda kanan ke kiri, U 200F RFC BAHARU 2070 -->
{"ndash", "8211"}, // en dash, U 2013 ISOpub -->
{"mdash", "8212"}, // em dash, ISOpub U 2014 -->
{"lsquo", "8216"}, // kiri tanda petikan tunggal,U 2018 ISOnum -->
{"rsquo", "8217"}, // tanda petikan tunggal kanan, U 2019 ISOnum -->
{"sbquo", "8218"}, // tanda petikan tunggal rendah-9, U 201A BARU -->
{"ldquo", "8220"}, // tanda petikan berganda kiri, U 201C ISOnum -->
{"rdquo", "8221"}, // tanda petikan dua kanan, U 201D ISOnum -->
{"bdquo", "8222"}, // tanda petikan dua rendah-9, U 201E BARU -->
{"keris", "8224"}, // keris, U 2020 ISOpub -->
{"Dagger", "8225"}, // double pisau, U 2021 ISOpub -->
{"permil", "8240"}, // setiap tanda mille, U 2030 ISOtech -->
{"lsaquo", "8249"}, // tanda petikan sudut tuding kiri tunggal, ISO U 2039 dicadangkan -->
//
{"rsaquo", "8250"}, // tanda petikan sudut tuding kanan tunggal, U 203A ISO dicadangkan -->
//
{"euro", "8364"}, // -- tanda euro, U 20AC BARU -->
};


Kembangkan lagi

Seperti yang anda boleh lihat dari hadapan, nombor di tengah-tengah watak melarikan diri adalah unikod Kemudian watak pemindahan ini boleh dibina secara santai dan tidak terhad kepada definisi di atas contoh, unicode dalam ialah 20013 , kemudian bina aksara pemindahan中, dan ia akan bertukar kembali ke tengah selepas diberikan oleh penyemak imbas Walaupun ia tidak perlu untuk memaparkan aksara seperti ini, ia boleh berguna beberapa senario yang menyusahkan untuk menghantar aksara khas
Label berkaitan:
sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan