HTML源代码中这些奇怪的字符是什么？

2023年11月29日 448次阅读

我的朋友经营一个网站并收到来自Google Safesearch的电子邮件,通知他他正在托管网页仿冒页面.事实证明他的cPanel是强制性的(弱密码),他们将一些页面上传到他的服务器上.他告诉了我这件事,我想看看它有多复杂.

在许多文件中,某些文字/部分文字很奇怪.它们在Web浏览器中完美显示,但在HTML中混杂不堪.我想知道是否有人能告诉我这是什么？

例子：

<title>WÐµlÑÐ¾mÐµ tÐ¾ ÐµÐ’Ð°y: Sign in</title>
<span class="txtbox_title">Ð Ð°sswÐ¾rd</span>
<a class="three" href="#">FÐ¾rgÐ¾t yÐ¾ur

值得注意的是,整个页面中的正常文本也能完美显示.

我假设这是为了停止检测页面中的某些单词,但我不确定.任何信息都会很棒.

编辑：最初被标记为PHP.我意识到它可能不应该被删除它.好,孩子们.

编辑编辑：为清楚起见,它是一个针对eBay用户的网页仿冒网页.

我在原帖中发布的示例是(按顺序)：

eBay: Sign In
Your Password
Forgot your [password]

因此,我不认为它是任何类型的恶意软件,而是一种加密文本以在Chrome等浏览器中对抗检测的方法(我假设在其算法中检测到’热’字).

最佳答案他们使用UTF-8编码的西里尔字母以及可能因其与普通拉丁字母的视觉相似性而选择的其他字符.您正在编辑器中查看该页面,该编辑器不会将数据解释为UTF-8,而是将其解释为拉丁语1编码.

例如,您所看到的“Ð¾”实际上是两个字节,0xD0 0xBE.当解释为UTF-8数据(这是浏览器在这里做的)时,它们代表“о”U 043E CYRILLIC SMALL LETTER O.它与视觉外观中的普通拉丁字母“o”相同(任何包含两个字母的字体) ),但由于属于不同的书写系统而被编码为单独的字符.对于任何程序,它们都是截然不同的字符,除非程序已被单独编码以处理“混淆”.

这种混淆通常是出于各种原因故意造成的.您可能正确地假设这里的目的是“停止检测页面中的某些单词”.例如, “忘记”是使用西里尔语(F？rg？t)编写的,正常的搜索操作会在搜索“忘记”时找到它.