## PHP数据采集指南 数据采集对于后端开发者来说是一项必不可少的技能,对于PHP开箱即用的框架便是[QueryList](https://querylist.cc/),上手比较容易,可以很方便的集成到框架中。此教程可以帮你解决以下一些采集难点: 1. 有防采集,例如开启了cc(采集需要持续访问目标网站,也是属于cc的一种); 2. 目标网站使用了自定义字体文字(woff等),更有甚者使用了动态字体文字,直接采集那就是乱码; 3. 目标网站有IP访问限制,频率限制等,此时我们应该如何保证采集到数据,而不是拒绝访问; 4. 利用专业的采集工具[Puppeteer](https://github.com/puppeteer/puppeteer)采集我们想要的数据,包括屏幕截图,自动登录,自动填表,自定义样式和js,采集异步加载的数据等; 5. 有些网站数据是用图片展示的,我们不能直接获得文本信息,利用[Tesseract OCR](https://github.com/tesseract-ocr/tesseract)帮我们做图片文本识别; 6. 图片的处理,使用[ImageMagick](https://imagemagick.org/)处理图片(主要针对命令行处理),灰度处理,裁剪,颜色转换等; 7. 高阶技能增加IP代理池,突破目标网站IP限制,这里包含付费的代理和免费,根据各自情况取舍; > 此教程可能使用到的技能:PHP,swoole,linux,shell,python,node,npm,js,css等。 > 1.本教程采集的目标网址均是互联网公开数据,仅用作教学演示使用,如有侵权,请及时联系我; > > 2.对于彩票开奖数据的采集说明:不销售彩票、不提供任何技术支持、不接触用户的APP或业务;不提供任何的咨询服务、不接触任何违反法律的内容;不提供任何广告业务、不提供中介合作桥梁等; > > 3.所有实例仅作为教学演示,不保证采集数据正确性。 > 4.教程持续更新,如果有教程方面的需求可以邮件(menzhulily@gmail.com)发给我,我会抽时间更新。