http协议及url输入后到页面显示发生了什么的问题

2019年3月3日 248次阅读来源: HTTP

之前看过一些关于前端的一个问题，从输入 URL 到页面加载完成的过程中都发生了什么事情？
关于这个问题，也有很多面试的时候，面试官也会经常问，而要把这个问题说的非常详尽，不是一个人或一群人、几句话、一篇文章、一本书可以说清楚，里面牵扯的东西涉及了非常多复杂而庞大的学科知识和系统工程。
我试图尝试着总结一个想让普通人能看的明白些的版本，于是决定写写这篇文章，也算是做个总结吧。
作为一个web开发人员，可能很多东西离我们实际开发很远、但是了解整个过程对于了解互联网是很有益处的。闲话不多说了，开始！

热身：先来个web应用程序比较简单版的，看这张图：
《http协议及url输入后到页面显示发生了什么的问题》

浏览器发送http请求一个页面假设为http://www.xxx.com/index.html,那么web服务器收到请求就会在url路径找到相应的资源返回，如果请求的是纯html静态文件，直接返回html文件。如果请求的页面为index.php或xxx.asp或xxx.jsp那上面的Apache或IIS就会将资源交给php模块或.net模块进行处理，如果需要从数据库取出数据，程序处理语言还会与数据库软件，mysql或oracle等交互取出数据，最后解析成纯html文本文件返回给给客户端浏览器。浏览器再显示其内容。

这是一个比较简单版的日常网络浏览过程，忽略了很多细节，下面尽量用比较通俗的语言详细的说说这些细节，当然是相对的详细，不是绝对详细，重在了解整个过程，不是写科研文章。
大家都知道互联网通信都需要有一些基本的东西，首先你得有设备吧，比如pc电脑，还得有网络吧，比如WI-FI什么的，还要有通信介质吧，比如光纤，还要有处理这些东西的软件应用程序…..等等。这些东西组织在一起还要些个规范好大家统一，就有网络协议这东西啦。

1，首先先解决计算机之间通讯的问题

这里是简单版，方便理解，实际情况复杂了去了。

两个IP之间的通讯可以这样简单的理解：往一个公司打电话找某个人，首先要知道公司总机（充当IP地址），具体的人（相当于某个程序，每个程序又有各自不同端口号，比如服务器默认给浏览器http请求分配的是80端口），有了这两个号码就可以找到你要找的人了。这个就是经常听到的socket,套接字；即“主机+端口”，在此基础上就可以网络应用程序开发了。端口到端口是传输层TCP协议上的，主机IP是网络层IP协议上的，于是TCP/IP的经典名字就出来了。
两个人要沟通的话就是要传输的数据啦，具体谈什么下面讲。

接下来我们在浏览器中敲入www.baidu.com吧

2，请求与返回的基本流程

《http协议及url输入后到页面显示发生了什么的问题》

可能大家会看到，怎么来来回回走了两次？

其实第一次到的服务器应该是DNS服务器，原因是你之前没有访问过这个主机域名，浏览器或者系统或者路由中都没有该主机的DNS缓存，所以只能去最近的DNS服务器去获取，主机所对应的IP地址（DNS服务器可能是运营商的DNS服务器）。具体看下面这段：
导航的第一步是通过访问的域名找出其IP地址。DNS查找过程如下：

浏览器缓存 – 浏览器会缓存DNS记录一段时间。有趣的是，操作系统没有告诉浏览器储存DNS记录的时间，这样不同浏览器会储存个自固定的一个时间（2分钟到30分钟不等）。
系统缓存 –如果在浏览器缓存里没有找到需要的记录，浏览器会做一个系统调用（windows里是gethostbyname）。这样便可获得系统缓存中的记录。
路由器缓存 – 接着，前面的查询请求发向路由器，它一般会有自己的DNS缓存。 ISP DNS 缓存 –
接下来要check的就是ISP缓存DNS的服务器。在这一般都能找到相应的缓存记录。
递归搜索 –你的ISP的DNS服务器从根域名服务器开始进行递归搜索，从.com顶级域名服务器到baidu的域名服务器。一般DNS服务器的缓存中会有.com域名服务器中的域名，所以到顶级服务器的匹配过程不是那么必要了。

(来源于老外的一篇文章，中文翻译的大家网上可以找到，这个是原文《What really happens when you navigate to a URL》)
当然如果本机已经有了主机的DNS缓存，则就会变成这样，省去了服务器获取IP地址的这一步（严格说不是省去了，而是本地找到了，没有发送DNS查询到服务器而已），图片就会是这样的
《http协议及url输入后到页面显示发生了什么的问题》

3，每个步骤相对具体的实现

（1）DNS查询，我们基于这个简单的图，假设本机存在DNS缓存，获取到了域名对应的IP地址。此步参考上面的解释。

（2）请求发出去的信息是什么？（也就是第一根上去的虚线所代表的数据）
难道就是www.baidu.com这几个字符或者对应的二进制数据什么的…..当然不是。
这里涉及到的东西很多很庞大，推荐大家先看看阮一峰老师的篇文章 ( 《互联网协议入门》),我觉得他讲的比较容易理解。
http协议是应用层的协议，他的整个数据部分是TCP主体部分的，加上TCP的标头部分作为TCP数据的整体又是IP协议数据的主体部分，如下图所示：

《http协议及url输入后到页面显示发生了什么的问题》

横过来看就像是阮一峰老师的这张图

《http协议及url输入后到页面显示发生了什么的问题》

其中应用层数据包里就是http请求或返回的数据了，http请求是我们最熟悉的啦，这里也具体讲讲它里面的数据，http请求或响应的数据也是有头信息，和主体的，分为：起始行,首部，和主体（其中主体内容不是必须的，但如果有，主体与首部之间会有一个空行，表示首部结束，主体开始）。如下图所示

《http协议及url输入后到页面显示发生了什么的问题》

查看请求或响应数据的工具，可以fiddler或者firebug或chrome里的network网络部分都可以看到，以下是用fiddler捕获的baidu.com的原始请求信息，是不带主体的

《http协议及url输入后到页面显示发生了什么的问题》

具体的里面各个字段是代表什么，还能再写一篇非常长的文章，这里给大家推荐一篇文章吧，
《HTTP协议详解》，讲的容易理解短小精悍，想更详细的了解，直接看书《http权威指南》写的看完就都明白了。
讲到这里，请求发送出去的数据是什么就搞定了，就是http请求或者响应的数据放进应用层数据包形成的数据整体，类似下面我修改一下的图

《http协议及url输入后到页面显示发生了什么的问题》

至此数据就算有了，该从计算机网卡发出去啦，

（3）请求的过程—-计算机到服务器的过程

至于这个过程也是一个庞大的网络工程，基本上归结为几个步骤：WI-FI路由——运营商路由各种转发——主干网各种传输——-进IDC机房各种处理——到达服务器；

关于网络工程这一块有兴趣的同学可以去翻阅下相关资料

推荐一篇文章，百度里的大神的《从输入 URL 到页面加载完成的过程中都发生了什么事情？》可以简单的了解下其中的过程。
讲到这里就可以大概谈谈整个网络协议啦
互联网的实现的层模型、互联网协议，以下是一些常见的网络协议

物理层：以太网 • 调制解调器 • 电力线通信(PLC) • SONET/SDH • G.709 • 光导纤维 • 同轴电缆 • 双绞线等
数据链路层：Wi-Fi(IEEE 802.11) • WiMAX(IEEE 802.16) •ATM • DTM • 令牌环 • 以太网 • FDDI • 帧中继 • GPRS • EVDO •HSPA • HDLC • PPP • L2TP • PPTP • ISDN•STP 等
网络层协议：IP (IPv4 • IPv6) • ICMP• ICMPv6•IGMP •IS-IS • IPsec • ARP • RARP等
传输层协议：TCP • UDP • TLS • DCCP • SCTP • RSVP • OSPF 等
应用层协议：DHCP •DNS • FTP • Gopher • HTTP• IMAP4 • IRC • NNTP • XMPP •POP3 • SIP • SMTP •SNMP • SSH •TELNET • RPC • RTCP • RTP •RTSP• SDP • SOAP • GTP • STUN • NTP• SSDP • BGP • RIP 等

层模型有很七层或五层、四层的，每一层都有对应的协议规范，

《http协议及url输入后到页面显示发生了什么的问题》

图片来源（略有修改）：阮一峰的博客—《互联网协议入门》
根据以上的讲解，看看这张图就能基本了解整个网络的结构及网络的传输了。（当然仅仅是在宏观的层面上基本了解）

（4）服务器处理的过程，
除了最上面提到的简单版的，webserver处理，交由后端语言处理，查询数据库什么的，还有一些别的，比如，流量非常大的网站，肯定都不止一台服务器，还会涉及到负载均衡：将请求合理地分配到多个服务器上。

（5）处理后的数据响应返回
这个就简单多了，应用层数据变成了http响应数据，在TCP/IP协议下，将请求过程逆过来就差不多了。最后发送到浏览器。浏览器再去解析返回的信息。
这里有一点需要提一下，http协议是无连接的协议，即发送完响应数据后连接关闭。每个请求/应答客户和服务器都要新建一个连接，完成之后立即断开连接。还有一种就是Keep-Alive模式又称持久连接、连接重用，Keep-Alive功能使客户端到服务器端的连接持续有效，当出现对服务器的后继请求时，Keep-Alive功能避免了重新建立连接。http 1.0中默认是关闭的，需要在http头加入”Connection: Keep-Alive”，才能启用Keep-Alive；http 1.1中默认启用Keep-Alive，如果加入”Connection: close “，才关闭。目前大部分浏览器都是用http1.1协议，也就是说默认都会发起Keep-Alive的连接请求了。
（6）浏览器获取到响应数据，进行解析呈现内容。

4，浏览器怎样解析的？浏览器工作原理

关于这个问题，作为前端开发的我是最想深入了解，深入讲讲的，对比完这篇文章后，我把我写的都删了，唉自己看吧…..不多说，前端必看！
老外的英文版《How browsers work》
中文版翻译（网上也有很多转载）： http://blog.sina.com.cn/s/blo…

说明：
本文参考了很多知名的文章，图片引用也多出自源文，有些是经过个人理解后的处理，所有权归原作者，并向其致敬。以下是引用的链接原文。放在一起方便大家查阅。
1，一本书《http权威指南》
2，《互联网协议入门》—阮一峰：http://www.ruanyifeng.com/blo…
3，《从输入 URL 到页面加载完成的过程中都发生了什么事情？》—- 百度nwind：
http://fex.baidu.com/blog/201…
4，《从输入url到显示网页，后台发生了什么？》
英文版原文：http://igoro.com/archive/what…
中文博客：http://blog.chinaunix.net/uid…
5，《HTTP协议详解》http://blog.csdn.net/gueter/a…
6，《浏览器的工作原理》
英文版原文：http://taligarsiel.com/Projec…
中文博客：http://blog.sina.com.cn/s/blo…

    原文作者：HTTP
    原文地址: https://segmentfault.com/a/1190000008788466
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。