>[success] # HTTP 相关技术 ~~~ 1.经常使用的'万维网'(World Wide Web),它基于 HTTP 协议,传输 HTML 等超文本资源, 能力也就被限制在 HTTP 协议之内. 2.HTTP协议并不是互联网的全部,但是现在互联网大部分都被万维网所覆盖,因此也可理解成大部分 被HTTP 覆盖,相比之下还有电子邮件、BT 和 Magnet 点对点下载、FTP 文件下载、SSH 安全登录、 各种即时通信服务等等,它们需要用各自的专有协议来访问。 ~~~ >[danger] ##### 浏览器 -- http请求方 ~~~ 1.浏览器'Web Browser'检索、查看互联网上网页资源的应用程序,Web,实际上指的就是'World Wide Web', 也就是万维网 2.浏览器本质上是一个 HTTP 协议中的请求方,使用 HTTP 协议获取网络上的各种资源 3.在 HTTP 协议里,浏览器的角色被称为'User Agent'即'用户代理',意思是作为访问者的'代理'来发起 HTTP 请求,就是我们常说的'客户端' ~~~ >[danger] ##### Web 服务器 -- 响应方 ~~~ 1.服务器'Web Server',它是 HTTP 协议里响应请求的主体 2.服务器有两个层面的含义'硬件' 和'软件' 2.1.硬件含义就是物理形式或“云”形式的机器 2.2.软件 这里就有常见的'Apache','Nginx','Windows 上的 IIS','Java 的 Jetty/Tomcat' ~~~ >[danger] ##### CDN ~~~ 1.CDN,全称是'Content Delivery Network',翻译过来就是'内容分发网络'。它应用了 HTTP 协议里的 缓存和代理技术,代替源站响应客户端的请求。 2.浏览器通常不会直接连到服务器,中间会经过其中的一个就是'cdn' 3.增加了'CDN'的好处 3.1.它可以缓存源站的数据,让浏览器的请求不用到达源站服务器,直接在'半路'就可以获取响应,就好比我的 服务器在美国,我本人在中国,我可以利用国内的cdn获取资源,就不用将一些资源需要访问美国的服务器 3.2.供负载均衡、安全防护、边缘计算、跨运营商网络等功能 ~~~ >[danger] ##### 爬虫 ~~~ 1.爬虫可以理解成非'人'用户,一把就是通过代码来模仿'用户'在浏览器的操作,来获取网页资源 2.爬虫的缺点它会过度消耗网络资源,占用服务器和带宽,影响网站对真实数据的分析,甚至导致敏感信息泄漏, 一般网站会规定'robots.txt,约定哪些该爬,哪些不该爬' ~~~