[TOC] # Python爬虫抓取之服务端渲染页面抓取方法 服务端渲染页面的数据内容通常分为两种格式: - 结构化数据: XML、JSON、csv等 - 半结构化数据: 主要为HTML文本为主。 ## 半结构化数据 对于这类半结构化的HTML数据我们在`入门篇`中已经掌握了提取数据的方法,因此这里就不再详细说明。 学到了这里,相信你已经可以使用`XPath`、`正则表达式`和`CSS选择器`提取网页数据了。 ## 结构化数据处理 ### JSON数据处理 以我们爬取百度贴吧热议榜的为例,这个例子我们之前已经学习过了,可以再复习一下。 [实战练习_百度贴吧热议榜](../入门篇/实战练习_百度贴吧热议榜.md) ### XML文件格式解析 > 博客的RSS文件就是`xml`格式数据,我们来解析下博客RSS文件 使用`XPath`提取文章标题列表信息: ```Python import requests as req from lxml import etree url='https://www.learnhard.cn/feed' resp = req.get(url) doc = etree.HTML(resp.content) item = doc.xpath('//item/title/text()') print(item) ``` 关于结构化数据的解析示例就到这里,对于服务端渲染页面我们爬取数据的难度相对很小。可能多出情况会因为登录验证、频繁访问弹出的验证码而增加难度。目前我们暂时不考虑验证码问题。 ---