标签归档:红黑树

基于WebView的网络爬虫

网络爬虫,又称网络蜘蛛,就是按照特定规则自动获取网站或者网页信息的程序。它是互联网数据挖掘的最基本组成部分,比较常见的应用就是搜索引擎。

将近一年以前,开始在业余时间编写一个自动下载图片的Android软件。到现在基本实现了网络爬虫部分。

在最近的测试中最多的几次花了十几个小时扫描了一个网站中全部的32.5万个网页URL,共扫描到23.5万张图片URL。软件运行环境是一台两百多¥的Android平板(七彩虹 E708 Q2),CPU是全志A31,内存768M。软件在上面那次扫描完毕后占有的内存在50M左右。
继续阅读