常见爬虫(spider)

bomny,2009年12月8日

  列出一些常见spider,稍后在一个查是哪个搜索引擎的。

  
  •   1 Wget
  •   2 Raw Spider
  •   3 Googlebot(Google)
  •   4 Inktomi
  •   5 BaiduSpider(Baidu)
  •   6 Unknown Spider
  •   7 MSN Bot
  •   8 WhatsUp_Gold
  •   9 Webdup
  •   10 MSIECrawler
  •   11 ia_archiver
  •   12 Microsoft_FrontPage
  •   13 WebZIP
  •   14 NetAnts
  •   15 WebTrends
  •   16 SohuSpider
  •   17 WE_Spider
  •   18 Scooter
  •   19 WISEnutbot(www.WISEnutbot.com)
  •   20 FlashGet
  •   21 sitecheck

  一般来说,好的爬虫要满足两个条件:(1)首先爬比较著名的网_站,比如sina,qq,啥的(2)在更新的时候,首先更新比较著名的网_站,比如sina,qq啥的。这两个条件很容易理解,因为这些网_站受到很多用户的注意,所以先爬先更新是应该的。了解下怎么做个好的爬虫>>

  a) 如何描述或定义感兴趣的主题( 即抓取目标) ?
  b) 怎样决定待爬行URL的访问次序?
  c) 如何判断一个网_页是否与主题相关?
  d) 怎样提高主题网_络爬虫的覆盖度?
  什么是主题爬虫?开发主题爬虫需要考虑什么?查看详细>>

Tags: 搜索引擎 spider 爬虫  

分类: 他山之石 | 评论:0 | 浏览:

相关文章:

发表评论