主题互联网爬虫关注与主题有关页面,更多应用于垂直搜索范围。 通用互联网爬虫是以完成采集更多的网页信息为目的的,合适不关心主题而针对指定的一个或几个网站进行爬取具备较好的成效,特别当有需要从一些官方权威大型网站爬取数据时,在网站内部使用通用互联网爬虫,就能采集到与该网站有关的很多网页和信息。 在需要特定数据源背景下,比如需要采集空风韵量监测指数、疾病预防控制状况数据等信息,为云数据处置的剖析预测进行筹备时,就能使用通用爬虫的网页爬取方案。