PHP数据采集指南

数据采集对于后端开发者来说是一项必不可少的技能,对于PHP开箱即用的框架便是QueryList,上手比较容易,可以很方便的集成到框架中。此教程可以帮你解决以下一些采集难点:

  1. 有防采集,例如开启了cc(采集需要持续访问目标网站,也是属于cc的一种);
  2. 目标网站使用了自定义字体文字(woff等),更有甚者使用了动态字体文字,直接采集那就是乱码;
  3. 目标网站有IP访问限制,频率限制等,此时我们应该如何保证采集到数据,而不是拒绝访问;
  4. 利用专业的采集工具Puppeteer采集我们想要的数据,包括屏幕截图,自动登录,自动填表,自定义样式和js,采集异步加载的数据等;
  5. 有些网站数据是用图片展示的,我们不能直接获得文本信息,利用Tesseract OCR帮我们做图片文本识别;
  6. 图片的处理,使用ImageMagick处理图片(主要针对命令行处理),灰度处理,裁剪,颜色转换等;
  7. 高阶技能增加IP代理池,突破目标网站IP限制,这里包含付费的代理和免费,根据各自情况取舍;

此教程可能使用到的技能:PHP,swoole,linux,shell,python,node,npm,js,css等。

1.本教程采集的目标网址均是互联网公开数据,仅用作教学演示使用,如有侵权,请及时联系我;

2.对于彩票开奖数据的采集说明:不销售彩票、不提供任何技术支持、不接触用户的APP或业务;不提供任何的咨询服务、不接触任何违反法律的内容;不提供任何广告业务、不提供中介合作桥梁等;

3.所有实例仅作为教学演示,不保证采集数据正确性。
4.教程持续更新,如果有教程方面的需求可以邮件发给我,我会抽时间更新。