根据头数据判断文件类型,非后缀名判断方式

       有人说判断文件类型不是挺简单的吗?直接鼠标右键,点击属性,或者直接看后缀名不就完事了。在项目开发中,许多同行都是直接通过文件后缀的方式进行判断(当然不是我自己开发的,我也不愿意去改,哈哈!!)。不是说这样的方式不行,是有点不安全。
       上传文件如果不做好安全控制的话,攻击者很有可能上传一些恶意攻击脚本,然后再执行,达到不可告人的目的。于是我们需要判断文件的类型,通常情况下我们只是判断了文件的后缀名,根据文件的后缀名的白名单和黑名单来过滤。这种方式非常不可靠,因为后缀名完全可以伪造。例如exe的伪造成jpg。就好比你明明是个男的,你说非要天天要做女装大佬,你再怎么像女生,难免是不是有些东西它是改变不了的,一验明正身是不是就都一目了然。
       那么这里我们也是用这种方式去鉴别的。因为那些大佬在设定这些文件的时候 就已经规定了文件的头数据,有时候我们也称之为文件魔法值。只要得到这些文件魔法值,我们就可以判断出它是什么文件了。

下面的魔法值可以放进自己的项目中或者有需要的时候再放入也可以。

private static void getAllFileType()     
    {      
        FILE_TYPE_MAP.put("ffd8ffe000104a464946", "jpg"); //JPEG (jpg) 
        FILE_TYPE_MAP.put("89504e470d0a1a0a0000", "png"); //PNG (png) 
        FILE_TYPE_MAP.put("47494638396126026f01", "gif"); //GIF (gif) 
        FILE_TYPE_MAP.put("49492a00227105008037", "tif"); //TIFF (tif) 
        FILE_TYPE_MAP.put("424d228c010000000000", "bmp"); //16色位图(bmp) 
        FILE_TYPE_MAP.put("424d8240090000000000", "bmp"); //24位位图(bmp) 
        FILE_TYPE_MAP.put("424d8e1b030000000000", "bmp"); //256色位图(bmp) 
        FILE_TYPE_MAP.put("41433130313500000000", "dwg"); //CAD (dwg) 
        FILE_TYPE_MAP.put("3c21444f435459504520", "html"); //HTML (html)
        FILE_TYPE_MAP.put("3c21646f637479706520", "htm"); //HTM (htm)
        FILE_TYPE_MAP.put("48544d4c207b0d0a0942", "css"); //css
        FILE_TYPE_MAP.put("696b2e71623d696b2e71", "js"); //js
        FILE_TYPE_MAP.put("7b5c727466315c616e73", "rtf"); //Rich Text Format (rtf) 
        FILE_TYPE_MAP.put("38425053000100000000", "psd"); //Photoshop (psd) 
        FILE_TYPE_MAP.put("46726f6d3a203d3f6762", "eml"); //Email [Outlook Express 6] (eml) 
        FILE_TYPE_MAP.put("d0cf11e0a1b11ae10000", "doc"); //MS Excel 注意:word、msi 和 excel的文件头一样 
        FILE_TYPE_MAP.put("d0cf11e0a1b11ae10000", "vsd"); //Visio 绘图 
        FILE_TYPE_MAP.put("5374616E64617264204A", "mdb"); //MS Access (mdb) 
        FILE_TYPE_MAP.put("252150532D41646F6265", "ps");     
        FILE_TYPE_MAP.put("255044462d312e350d0a", "pdf"); //Adobe Acrobat (pdf) 
        FILE_TYPE_MAP.put("2e524d46000000120001", "rmvb"); //rmvb/rm相同 
        FILE_TYPE_MAP.put("464c5601050000000900", "flv"); //flv与f4v相同 
        FILE_TYPE_MAP.put("00000020667479706d70", "mp4"); 
        FILE_TYPE_MAP.put("49443303000000002176", "mp3"); 
        FILE_TYPE_MAP.put("000001ba210001000180", "mpg"); // 
        FILE_TYPE_MAP.put("3026b2758e66cf11a6d9", "wmv"); //wmv与asf相同 
        FILE_TYPE_MAP.put("52494646e27807005741", "wav"); //Wave (wav) 
        FILE_TYPE_MAP.put("52494646d07d60074156", "avi");  
        FILE_TYPE_MAP.put("4d546864000000060001", "mid"); //MIDI (mid) 
        FILE_TYPE_MAP.put("504b0304140000000800", "zip");    
        FILE_TYPE_MAP.put("526172211a0700cf9073", "rar");   
        FILE_TYPE_MAP.put("235468697320636f6e66", "ini");   
        FILE_TYPE_MAP.put("504b03040a0000000000", "jar"); 
        FILE_TYPE_MAP.put("4d5a9000030000000400", "exe");//可执行文件
        FILE_TYPE_MAP.put("3c25402070616765206c", "jsp");//jsp文件
        FILE_TYPE_MAP.put("4d616e69666573742d56", "mf");//MF文件
        FILE_TYPE_MAP.put("3c3f786d6c2076657273", "xml");//xml文件
        FILE_TYPE_MAP.put("494e5345525420494e54", "sql");//xml文件
        FILE_TYPE_MAP.put("7061636b616765207765", "java");//java文件
        FILE_TYPE_MAP.put("406563686f206f66660d", "bat");//bat文件
        FILE_TYPE_MAP.put("1f8b0800000000000000", "gz");//gz文件
        FILE_TYPE_MAP.put("6c6f67346a2e726f6f74", "properties");//bat文件
        FILE_TYPE_MAP.put("cafebabe0000002e0041", "class");//bat文件
        FILE_TYPE_MAP.put("49545346030000006000", "chm");//bat文件
        FILE_TYPE_MAP.put("04000000010000001300", "mxp");//bat文件
        FILE_TYPE_MAP.put("504b0304140006000800", "docx");//docx文件
        FILE_TYPE_MAP.put("d0cf11e0a1b11ae10000", "wps");//WPS文字wps、表格et、演示dps都是一样的
        FILE_TYPE_MAP.put("6431303a637265617465", "torrent");
        
          
        FILE_TYPE_MAP.put("6D6F6F76", "mov"); //Quicktime (mov) 
        FILE_TYPE_MAP.put("FF575043", "wpd"); //WordPerfect (wpd) 
        FILE_TYPE_MAP.put("CFAD12FEC5FD746F", "dbx"); //Outlook Express (dbx) 
        FILE_TYPE_MAP.put("2142444E", "pst"); //Outlook (pst) 
        FILE_TYPE_MAP.put("AC9EBD8F", "qdf"); //Quicken (qdf) 
        FILE_TYPE_MAP.put("E3828596", "pwl"); //Windows Password (pwl) 
        FILE_TYPE_MAP.put("2E7261FD", "ram"); //Real Audio (ram) 
    }                 

那么以下就是楼主平时拿来搞事情判断文件是什么类型的代码,挺好用的

/** *@discrption:魔数工具类 *@user:Gaby *@createTime:2020-01-11 23:58 */
public class MagicNumberUtil { 

    /** * 图片的魔数值 */
    private final static Map<String, String> IMAGE_TYPE = new HashMap(4) { { 
        put("89504e470d", "png");
        put("ffd8ffe000", "jpg");
        put("89504e", "png");
        put("ffd8ff", "jpg");
    }};

    private final static Map<String, String> VIDEO_TYPE = new HashMap(2) { { 
        put("000000", "mp4");
    }};
    private final static Map<String, String> AUDIO_TYPE = new HashMap(2) { { 
        put("000000", "m4a");
        put("232141", "mp3");
        put("7b2265", "amr");
    }};
    
    //取16位的编码
    public static String getHex(byte[] data,int magicNumberLength){ 
        StringBuilder sb = new StringBuilder();
        for (int i = 0; i <magicNumberLength/2; i++) { 
            sb.append(Integer.toHexString(data[i] >> 4 & 0xF));
            sb.append(Integer.toHexString(data[i] & 0xF));
        }
        return sb.toString().toLowerCase();
    }

    /** * 是否是视频格式 * @param data * @return */
    public static boolean isVideoFormat(byte[] data){ 
        //默认取10位作为魔数值
        return VIDEO_TYPE.keySet().contains(getHex(data,6));
    }

    /** * 是否是音频 * @param data * @return */
    public static boolean isAudio(byte[] data) { 
        return isAudio(getHex(data, 6));
    }

    /** * 是否是音频 重载 * @param hex * @return */
    public static boolean isAudio(String hex) { 
        return AUDIO_TYPE.keySet().contains(hex);
    }
	
    //取图片后缀
    public static String getSuffix(String hex) { 
        if (IMAGE_TYPE.containsKey(hex)) { 
            return IMAGE_TYPE.get(hex);
        }
        return null;
    }
	
    //取音频后缀
    public static String getAudioSuffix(String hex) { 
        if (AUDIO_TYPE.containsKey(hex)) { 
            return AUDIO_TYPE.get(hex);
        }
        return null;
    }
}

这样,不管是传入的文件有后缀名,还是无后缀名,或者修改了后缀名,真正获取到的才是该文件的实际类型,这样避免了一些想通过修改后缀名或者Content-type信息来攻击的因素。但是性能与安全永远是无法同时完美的,安全的同时付出了读取文件的代价。本人建议可采用后缀名与读取文件的方式结合校验,毕竟攻击是少数,后缀名的校验能排除大多数用户,在后缀名获取不到时再通过获取文件真实类型校验,这样来适当提高性能。

    原文作者:杰肥啊
    原文地址: https://blog.csdn.net/javaboyweng/article/details/121022428
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞