列出一些常见spider,稍后在一个查是哪个搜索引擎的。
- 1 Wget
- 2 Raw Spider
- 3 Googlebot(Google)
- 4 Inktomi
- 5 BaiduSpider(Baidu)
- 6 Unknown Spider
- 7 MSN Bot
- 8 WhatsUp_Gold
- 9 Webdup
- 10 MSIECrawler
- 11 ia_archiver
- 12 Microsoft_FrontPage
- 13 WebZIP
- 14 NetAnts
- 15 WebTrends
- 16 SohuSpider
- 17 WE_Spider
- 18 Scooter
- 19 WISEnutbot(www.WISEnutbot.com)
- 20 FlashGet
- 21 sitecheck
一般来说,好的爬虫要满足两个条件:(1)首先爬比较著名的网_站,比如sina,qq,啥的(2)在更新的时候,首先更新比较著名的网_站,比如sina,qq啥的。这两个条件很容易理解,因为这些网_站受到很多用户的注意,所以先爬先更新是应该的。
了解下怎么做个好的爬虫>> a) 如何描述或定义感兴趣的主题( 即抓取目标) ?
b) 怎样决定待爬行URL的访问次序?
c) 如何判断一个网_页是否与主题相关?
d) 怎样提高主题网_络爬虫的覆盖度?
什么是主题爬虫?开发主题爬虫需要考虑什么?
查看详细>>