好程序员大数据教程分享Scala系列之文件以及正则表达式

好程序员大数据教程分享Scala系列之文件以及正则表达式

读取行

导入scala.io.Source后,即可引用Source中的方法读取文件信息。

import scala.io.Source
object FileDemo  extends App{
   val source = Source.fromFile(“C:/Users/admin/res.txt”)
     // 返回一个迭代器
   val lines = source.getLines()
   for(i <- lines)
    println(i)
      // 内容也可以放到数组中 
//  val arr = source.getLines().toArray
//  for(elem <- arr)
//    println(elem)
      // 文件内容直接转换成一个字符串 
//  val contents = source.mkString
//  println(contents)
}

读取字符

按字符读取文件中的内容

import scala.io.Source
object FileDemo  extends App{
   val source = Source.fromFile(“C:/Users/admin/res.txt”)
   for(c <- source)
    println(c)
}

读取单词

把文件中的内容,转换成一个单词的数组

import scala.io.Source
object FileDemo  extends App{
   val source = Source.fromFile(“C:/Users/admin/res.txt”)
   val contents = source.mkString.split(” “)
   for(word <- contents)
  println(word)
}

读取网络文件

Source可以直接读取来自URL等非文件源的内容

import scala.io.Source
object FileDemo  extends App{
   val source = Source.fromURL(“http://www.baidu.com”)
   val lines = source.getLines()
   for(i <- lines)
    println(i)
}

写文件

scala 没有内建的对写入文件的支持,要写入文件,使用Java.io.PrintWriter

val out =  new PrintWriter(“numbers.txt”)
for(i <- 1 to 100) out.println(i)
out.close

正则表达式

构造一个Regex对象,用String类的r方法或者使用new Regex(” “)

如果正则表达式中包含反斜杠或者引号的化,可以使用””” “””

object RegexDemo  extends App{
     // 构建一个正则表达式
   val numPattern =”[0-9]+”.r
     //val numPattern = new Regex(“abl[ae]\\d+”)
     // 构建一个字符串
   val matchStr =”98 bottles,99bottles”
     // 使用 findAllIn 方法返回所有匹配项的迭代器
   for (matchStr <- numPattern.findAllIn(matchStr))
    println(matchStr) //98 99
     // 使用 “”” “””” 构造含有特殊字符的正则表达式
   val wsnumPattern =”””\s+[0-9]+\s+”””
     // 调用 findFirstIn 方法返回首个匹配项
   val first = numPattern.findFirstIn(matchStr)
  println(first)  //Some(98)
     // 调用 findPrefixOf 方法返回字符串的开始部分是否能匹配
   val ifStartMatch = numPattern.findPrefixOf(matchStr)
  println(ifStartMatch) //Some(98)
     // 调用 replaceFirstIn 使用特定的字符串替换首个匹配项
   val res1 = numPattern.replaceFirstIn(matchStr,”xx”)
  println(res1) //xx bottles,99bottles
      // 调用 replaceAllIn 使用特定的字符串替换所有的匹配项
   val res2 = numPattern.replaceAllIn(matchStr,”xx”)
  println(res2) //xx bottles,xxbottles
}

正则表达式组

分组可以让我们方便地获取正则表达式的子表达式。在你想要提取的子表达式两侧加上圆括号

object RegexDemo  extends App{
   // 数字和字母的组合正则表达式
   val numitemPattern=”””([0-9]+) ([a-z]+)”””.r
   val line=”666 spark”
   for(numitemPattern(num,item) <- numitemPattern.findAllIn(line)){
    println(num+”\t”+item) 
  }
  line  match{
     case numitemPattern(num,item)=> println(num+”\t”+item)
     case _=>println(“Nothing matched”)
  }
}

 

    原文作者:好程序员IT
    原文地址: http://blog.itpub.net/69913892/viewspace-2660514/
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞