一:
Recrawl
nutch wiki上有现成的script,我们只需要拿来用用即可
http://wiki.apache.org/nutch/IntranetRecrawl#head-e58e25a0b9530bb6fcdfb282fd27a207fc0aff03
把它放在nutch-0.8.1/bin/recrawl.sh
martin@martinx:~/workspace/doc/nutch-0.8.1$ sudo bin/recrawl.sh ../tomcat5/webap ps/ROOT xici/
10 1 5
wiki中对参数的说明已经很详细了,没有必要再多说了。这里有个参数../tomcat5/webap你可以看到脚本中只是
touch $tomcat_dir/WEB-INF/web.xml
让tomcat重新加载webapp,如果你没有使用tomcat,只是crawl,你修改一下脚本,就把这个参数给去掉吧。
二:
Crawl more urls and merge
我们上面只是抓取了一个xici的页面,但是我们的目标不仅仅是一个,而是一系列的,所有我们必须增加新的url进行抓取。
新增news.163.com
mkdir url2
echo http://news.163.com>url2/163
重新执行我们上面提到的crawl
martin@martinx:~/workspace/doc/nutch-0.8.1$ sudo bin/nutch crawl url2 -dir 163 -depth 10 -topN 50
note:
这个时间会很长,如果你愿意可以用别的资讯很少的网站代替
合并我们采用nutch wiki上的脚本http://wiki.apache.org/nutch/MergeCrawl保存到bin/mergecrawl.sh。
martin@martinx:~/workspace/doc/nutch-0.8.1$ bin/mergecrawl.sh newpath 163/ xici/
传递的两个参数分别是两次crawl的目录
修改tomcat目录下的classes/nutch-site.xml文件,将searcher.dir修改为新的索引目录
perl -pi -e 's|xici|newpath|' ../tomcat5/webapps/ROOT/WEB-INF/classes/nutch-site.xml
重新加载webapp
touch ../tomcat5/webapps/ROOT/WEB-INF/web.xml
以下是截图
这个是163的
这个是xici的
分享到:
相关推荐
NULL 博文链接:https://chenhua-1984.iteye.com/blog/380779
nutch一款开源搜索引擎,recrawl是实现索引更新的脚本 mergecrawl是合并多个网站查询的bash脚本。
Nutch开源搜索引擎增量索引recrawl的终极解决办法
nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling
Nutch开源搜索引擎增量索引recrawl的终极解决办法续
我们需要去抓取网页数据的时候我们就用nutch来爬取,我们对它进行二次开发使其更加符合我们的需求
## Nutch2.3.1新闻分类爬虫内容项目介绍本项目基于https://github.com/xautlx/nutch-ajax.git的nutch-ajax项目功能很强大,本项目在此基础上,对nutch-ajax项目做了一些精简和优化,对Nutch版本进行升级,♡Mybatis...
Nutch AJAX page Fetch, Parse, Index Plugin项目简介基于Apache Nutch 2.3和Htmlunit, Selenium WebDriver等组件扩展,实现对于AJAX加载类型页面的完整页面内容抓取,以及特定数据项的解析和索引。According to the...
坚果桂Apache Nutch Web UI 源代码首先从Apache Nutch 2.3版签出。
纳奇爬行者 BCube Crawler 是 Apache Nutch 项目(1.9 版)的一个分支,经过调整后可以在 Amazon 的 ElasticMapReduce 上运行,并... 如果我们尝试使用 EMR API 运行 Nutch,那么自 Nutch 1.7 以来,“多合一” Craw
Nutch1.7二次开发培训讲义,非常详细
初学NUTCHLUCENCENUTCH可以看
Nutch 1.3 学习笔记,讲的比较清楚的文档
Nutch1.7二次开发培训讲义 之 腾讯微博抓取分析
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2....
Nutch 解析器parse部分代码笔记
( Nutch,第1部分:爬行(译文) ( Nutch,第1部分:爬行(译文)
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
Nutch,第2部分:搜索(译文) Nutch,第2部分:搜索(译文)