详解如何使用Spark和Scala分析Apache访问日志

// get the `request` field from an access log record
def getRequest(rawAccessLogString: String): Option[String] = {
 val accessLogRecordOption = p.parseRecord(rawAccessLogString)
 accessLogRecordOption match {
  case Some(rec) => Some(rec.request)
  case None => None
 }
}

将这些代码贴入Spark REPL，再运行如下代码：

log.filter(line => getStatusCode(p.parseRecord(line)) == "404").map(getRequest(_)).count
val recs = log.filter(line => getStatusCode(p.parseRecord(line)) == "404").map(getRequest(_))
val distinctRecs = log.filter(line => getStatusCode(p.parseRecord(line)) == "404").map(getRequest(_)).distinct
distinctRecs.foreach(println)

总结

对于访问日志简单分析当然是要grep比较好，但是更复杂的查询就需要Spark了。很难判断 Spark在单个系统上的性能。这是因为Spark是针对分布式系统大文件。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持易采站长站。

2/2 首页上一页 1 2

详解如何使用Spark和Scala分析Apache访问日志

格林财务软件产品功能特点详解

HP4LC激光打印机排版格式错乱解决办法

彩色激光打印机出现黑道怎么办

格式工厂怎么合并音乐格式工厂合并音乐教程

用汇编去除Autoplay Menu Builder闪屏方法

猎豹免费wifi怎么卸载猎豹免费wifi如何卸载

解开被锁注册表的四种方

真正实现全屏幕IE

如何用winrar生成ZIP压缩文件

Yummy教你用美图秀秀做胶片反转片

格林财务软件产品功能特点详解

HP4LC激光打印机排版格式错乱解决办法

彩色激光打印机出现黑道怎么办

格式工厂怎么合并音乐格式工厂合并音乐教程

用汇编去除Autoplay Menu Builder闪屏方法

猎豹免费wifi怎么卸载猎豹免费wifi如何卸载

解开被锁注册表的四种方

真正实现全屏幕IE

如何用winrar生成ZIP压缩文件

Yummy教你用美图秀秀做胶片反转片

详解如何使用Spark和Scala分析Apache访问日志

格林财务软件产品功能特点详解

HP4LC激光打印机排版格式错乱解决办法

彩色激光打印机出现黑道怎么办

格式工厂怎么合并音乐 格式工厂合并音乐教程

用汇编去除Autoplay Menu Builder闪屏方法

猎豹免费wifi怎么卸载 猎豹免费wifi如何卸载

解开被锁注册表的四种方

真正实现全屏幕IE

如何用winrar生成ZIP压缩文件

Yummy教你用美图秀秀做胶片反转片

格林财务软件产品功能特点详解

HP4LC激光打印机排版格式错乱解决办法

彩色激光打印机出现黑道怎么办

格式工厂怎么合并音乐 格式工厂合并音乐教程

用汇编去除Autoplay Menu Builder闪屏方法

猎豹免费wifi怎么卸载 猎豹免费wifi如何卸载

解开被锁注册表的四种方

真正实现全屏幕IE

如何用winrar生成ZIP压缩文件

Yummy教你用美图秀秀做胶片反转片

格式工厂怎么合并音乐格式工厂合并音乐教程

猎豹免费wifi怎么卸载猎豹免费wifi如何卸载

格式工厂怎么合并音乐格式工厂合并音乐教程

猎豹免费wifi怎么卸载猎豹免费wifi如何卸载