开辟过程当中碰到一种新鲜的编码花样:
每日一色|蓝白~
运用decode/unescape/decodeURI解码均无效.研讨一番,总结一下.
实际上上面这类新鲜的编码花样并非编码,而是一种叫做 NCR(Numeric Character Reference) 的标记构造.
Numeric Character Reference
看看维基百科的诠释:
A numeric character reference (NCR) is a common markup construct used in SGML and other SGML-related markup languages such as HTML and XML. It consists of a short sequence of characters that, in turn, represent a single character from the Universal Charact
NCR是一种罕见的标记构造,用于SGML和其他SGML类似的标记言语,如HTML和XML。它由一个短的字符序列构成,代表一个字符(环球的笔墨字符)。
NCR编码是由一个与号(&)随着一个井号(#), 然后随着这个字符的Unicode编码值, 末了随着一个分号构成的, 如:
&#dddd;
&#xhhhh;
&#name;
个中, dddd是字符编码的十进制示意, 而hhhh是字符的16进制示意.
以 HTML 为例,这三种转义序列都称作 character reference:
前两种是 numeric character reference(NCR),数字取值为目的字符的 Unicode code point;以「」开首的后接十进制数字,以「」开首的后接十六进制数字。
后一种是 character entity reference,后接预先定义的 entity 称号,而 entity 声清楚明了本身指代的字符。
从 HTML 4 最先,NCR 以 Unicode 为准,与文档编码无关。
「中国」二字分别是 Unicode 字符 U+4E2D 和 U+56FD,十六进制示意的 code point 数值「4E2D」和「56FD」就是十进制的「20013」和「22269」。所以——
中国
中国
——这两种 NCR 写法都会在显现时转换为「中国」二字。
如何将 NCR 字符转换成实在字符
要领以下:
var regex_num_set = /&#(\d+);/g;
var str = "Here is some text: 每日一色|蓝白~"
str = str.replace(regex_num_set, function(_, $1) {
return String.fromCharCode($1);
});
document.write('<pre>'+JSON.stringify(str,0,3));
以上例子运用了 String.prototype.replace() 和 String.fromCharCode() 要领. 思绪为将字符串中的 NCR 字符逐一获取到 “”和”;”间的 Unicode 字符编码值, 然后应用 String.fromCharCode() 要领, 将 Unicode 编码转为实在字符.
博客文章地点:http://joebon.cc/convert-numeric-chracter-reference-to-actual-character