合肥新闻网

Python 爬虫没有思路?可以看看这篇文章

件。当我们能够独立地写出第一个完整的爬行动物时,我们已经迈出了一大步。因为在这个过程中,我们学习了如何查看文档、如何使用与python相关的库、如何使用chrome的开发工具(相关工具)以及如何将捕获的数据保存到数据库等,当然,收获最重要的是学习python的自信。

让我们以抓取图像为例,并给出我们自学的python答案。手动保存表达式是不现实的,所以使用爬行器来帮助我们完成工作。

我们要做的第一件事就是收集这些问题。获取问题的ID(URL中问题后的ID)并构建一个爬虫任务池。收集问题的工作可以移交给爬虫,但为了按预期捕获图像,建议手动收集这些问题。然后问题的ID存储在数据库中,爬行器运行时读取库以获取需要爬行的目标贴纸。通过写入爬虫程序生成对任务池的多线程调用。清除获得的答案数据,只收集答案中的图片。在这种情况下,我们使用Mongo数据库,因为Mongo数据库简单方便,并且便于我们以后增加或减少字段。

具体类似这种结构:

0x251C

qid_列表从库中获取所有公布的ID。使用concurrent.futures库并行执行任务,代码中使用threadpoolexecutor,该库使用线程池异步执行调用。Max_Workers控制大多数线程的使用,在这种情况下,最多使用4个线程来执行任务。ThreadPoolExecutor使多线程的使用更加容易。有关特定文档,请参阅线程池执行器。

总结

该项目的完整代码可以在Github:

中找到

代码相对简单。只要项目明确,分而治之,实现所有小部件,它将实现整个项目的大部分。

最后,总结一下总体思路:我们首先将需要爬网的ID保存到数据库中,作为任务池,爬虫检索任务池中的ID并将爬网结果保存到数据库中。

当我们学习Python爬虫,然后学习Web开发时,我们也可以显示我们的爬行结果,并制作一个表情符号网站。我不小心学了Python Web开发,有多好。

——