mg4377娱乐娱城官网_mg4377娱乐手机版_www.mg4377.com

mg4377娱乐娱城官网:寻觅引擎,Nutch的日志系统

时间:2019-06-17 13:06来源:mg4377娱乐娱城官网
一、Nutch日志达成格局 Nutch寻找引擎(第1期)_Nutch简要介绍及安装 Nutch 是三个开源Java 达成的检索引擎。它提供了我们运转自个儿的寻觅引擎所需的整套工具。包含全文字笔迹核准索

一、Nutch日志达成格局

Nutch寻找引擎(第1期)_ Nutch简要介绍及安装

Nutch 是三个开源Java 达成的检索引擎。它提供了我们运转自个儿的寻觅引擎所需的整套工具。包含全文字笔迹核准索和Web爬虫。

1、Nutch使用slf4j作为日志接口,使用log4j作为具体完毕。关于双方的底子,请参照他事他说加以考察

纵然Web找出是出境游Internet的主干须要, 但是水保web找出引擎的数码却在下落. 并且那很有希望更进一步衍形成为二个商厦操纵了差非常的少具有的web寻觅为其谋取商业受益.这明确不低价广大Internet用户。

mg4377娱乐娱城官网:寻觅引擎,Nutch的日志系统。http://www.linuxidc.com/Linux/2015-03/114637.htm

Nutch为大家提供了这么一个不一样的选择. 相对于这几个商用的搜求引擎, Nutch作为开放源代码 搜索引擎将会愈发透明, 从而更值得大家信赖. 现在有所首要的搜索引擎都采纳私有的排序算法, 而不会解释为何贰个网页会排在二个一定的地方. 除却, 有的搜寻引擎依照网址所付的 开销, 而不是凭借它们本身的股票总值举行排序. 与它们分化, Nucth没有啥样供给隐瞒, 也从没 动机去扭曲寻找的结果. Nutch将尽本身最大的鼎力为用户提供最佳的研究结果。

2、在java类文件中,通过以下措施出口日志音讯:

Nutch 致力于让各类人能很轻便, 同期费用相当少就足以安插世界头号的Web寻觅引擎. 为了实现那一千军万马的靶子, Nutch必须能够不辱义务:

(1)获取Logger对象

  • 各种月取几十亿网页
  • 为那些网页维护三个目录
  • 对索引文件实行每秒上千次的寻觅
  • 提供高水平的搜寻结果
  • 以细小的老本运营

  public static final Logger LOG = LoggerFactory.getLogger(InjectorJob.class);

mg4377娱乐娱城官网 1

(2)使用Logger进行输出

    SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
    long start = System.currentTimeMillis();
    LOG.info("InjectorJob: starting at " sdf.format(start));

3、在log4j.properties中定义种种属性

# Define some default values that can be overridden by system properties
Hadoop.log.dir=.
hadoop.log.file=hadoop.log

# RootLogger - DailyRollingFileAppender
log4j.rootLogger=INFO,DRFA

# Logging Threshold
log4j.threshold=ALL

#special logging requirements for some commandline tools
log4j.logger.org.apache.nutch.crawl.Crawl=INFO,cmdstdout
log4j.logger.org.apache.nutch.crawl.InjectorJob=INFO,cmdstdout
log4j.logger.org.apache.nutch.host.HostInjectorJob=INFO,cmdstdout
log4j.logger.org.apache.nutch.crawl.GeneratorJob=INFO,cmdstdout
log4j.logger.org.apache.nutch.crawl.DbUpdaterJob=INFO,cmdstdout
log4j.logger.org.apache.nutch.host.HostDbUpdateJob=INFO,cmdstdout
log4j.logger.org.apache.nutch.fetcher.FetcherJob=INFO,cmdstdout
log4j.logger.org.apache.nutch.parse.ParserJob=INFO,cmdstdout
log4j.logger.org.apache.nutch.indexer.IndexingJob=INFO,cmdstdout
log4j.logger.org.apache.nutch.indexer.DeleteDuplicates=INFO,cmdstdout
log4j.logger.org.apache.nutch.indexer.CleaningJob=INFO,cmdstdout
log4j.logger.org.apache.nutch.crawl.WebTableReader=INFO,cmdstdout
log4j.logger.org.apache.nutch.host.HostDbReader=INFO,cmdstdout
log4j.logger.org.apache.nutch.parse.ParserChecker=INFO,cmdstdout
log4j.logger.org.apache.nutch.indexer.IndexingFiltersChecker=INFO,cmdstdout
log4j.logger.org.apache.nutch.plugin.PluginRepository=WARN
log4j.logger.org.apache.nutch.api.NutchServer=INFO,cmdstdout

编辑:mg4377娱乐娱城官网 本文来源:mg4377娱乐娱城官网:寻觅引擎,Nutch的日志系统

关键词: