www.pryy.net > 请问nutCh hEritrix是不是都是构建在LuCEnE之上啊

请问nutCh hEritrix是不是都是构建在LuCEnE之上啊

nutch 是构建在lucene之上的,是一个完整的搜索引擎, 而heritrix只是一个网络蜘蛛,用来抓取网页 刚好我最近在开发站内搜索,也用到lucene

个人建议用lucene3.0或3.1稳定版本。lucene可根据自己的需要定制性比nutch强,nutch主要是封装了lucene,可以直接拿来做搜索,如何要自行设计的话,nutch会显得傻瓜。 lucene3.1下载:http://mirror.bjtu.edu.cn/apache/lucene/java/3.1.0/ nutc...

索引与查询这么难搞的东西, 你都搞定了. 那这爬虫就太简单了吧. 哪怕用PHP都可以写得出来. 同时推荐 curl 是个不错的东东. 用Lucene搞索引和查询很方便简单啊,数据库里面取出数据,封装成Lucene doc,用IKAnalyzer分词,建立索引啥的都给Lucene...

1.可以用lucene,lucene现在已经发展到1.9.1版了,相当稳定,网上中英文资源很丰富,甚至关于这个工具包的书(lucene in action)都有了.如果只是做站内搜索,可以直接从读数据库中读数据,调用lucene做索引.再写一个前台查询界面,调用lucene查询索引并...

登录的,建议你用jsoup带着cookie进去。 动态的,建议你用htmlunit。 webmagic和jsoup都很好学。有时间学学,虽然不是必会,但是这种小工具说不定什么时候就用得上。

1.可以用lucene,lucene现在已经发展到1.9.1版了,相当稳定,网上中英文资源很丰富,甚至关于这个工具包的书(lucene in action)都有了.如果只是做站内搜索...

网站地图

All rights reserved Powered by www.pryy.net

copyright ©right 2010-2021。
www.pryy.net内容来自网络,如有侵犯请联系客服。zhit325@qq.com