服务端渲染(CSR)页面抓取方法 · 虫师de江湖

[TOC] # Python爬虫抓取之服务端渲染页面抓取方法服务端渲染页面的数据内容通常分为两种格式： - 结构化数据： XML、JSON、csv等 - 半结构化数据：主要为HTML文本为主。 ## 半结构化数据对于这类半结构化的HTML数据我们在`入门篇`中已经掌握了提取数据的方法，因此这里就不再详细说明。学到了这里，相信你已经可以使用`XPath`、`正则表达式`和`CSS选择器`提取网页数据了。 ## 结构化数据处理 ### JSON数据处理以我们爬取百度贴吧热议榜的为例，这个例子我们之前已经学习过了，可以再复习一下。 [实战练习_百度贴吧热议榜](../入门篇/实战练习_百度贴吧热议榜.md) ### XML文件格式解析 > 博客的RSS文件就是`xml`格式数据，我们来解析下博客RSS文件使用`XPath`提取文章标题列表信息： ```Python import requests as req from lxml import etree url='https://www.learnhard.cn/feed' resp = req.get(url) doc = etree.HTML(resp.content) item = doc.xpath('//item/title/text()') print(item) ``` 关于结构化数据的解析示例就到这里，对于服务端渲染页面我们爬取数据的难度相对很小。可能多出情况会因为登录验证、频繁访问弹出的验证码而增加难度。目前我们暂时不考虑验证码问题。 ---