Stream是java 8的新特性,Stream是对集合功能的增强
Stream不是集合元素它不是数据结构,不能用于保存数据,它是有关于算法和计算的
Stream 就如同一个迭代器(Iterator),单向,不可往复,数据只能遍历一次,遍历过一次后即用尽了,就好比流水从面前流过,一去不复返。
和迭代器又不同的是,Stream 可以并行化操作,迭代器只能命令式地、串行化操作。顾名思义,当使用串行方式去遍历时,每个 item 读完后再读下一个 item。而使用并行去遍历时,数据会被分成多个段,其中每一个都在不同的线程中处理,然后将结果一起输出。
生成Stream的API
利用集合和数组
– Collection.stream()
– Collection.parallelStream()
– Arrays.stream(T array) or Stream.of()
IO中生成
- java.io.BufferedReader.lines()
静态工厂
- java.util.stream.IntStream.range()
- java.nio.file.Files.walk()
自己构建
– java.util.Spliterator
其它
– Random.ints()
– BitSet.stream()
– Pattern.splitAsStream(java.lang.CharSequence)
– JarFile.stream()
构造流
1.利用数组
Stream stream = Stream.of("a", "b", "c", "d", "e");
//或者
String[] strArray = new String[]{"a", "b", "c", "d", "e"};
stream = Stream.of(strArray);
2.集合转换
List<String> list = Arrays.asList(strArray);
stream = list.stream();
3.构造数值流
对于数值流特殊一点
对于基本数值型,目前有三种对应的包装类型Stream
IntStream、LongStream、DoubleStream
对于包装类型有
Stream、Stream >、Stream
因为数值型的拆箱和装箱耗时,所以jdk为这三个Stream提供专门的Stream类型
构造数值流
IntStream.of(new int[]{1, 2, 3}).forEach(System.out::print);
System.out.println();
IntStream.range(1, 3).forEach(System.out::print);
System.out.println();
IntStream.rangeClosed(1, 3).forEach(System.out::print);
流的转换
将流转化为数组
Stream stream = Stream.of("a", "b", "c");
String[] strArray1 = (String[]) stream.toArray(String[]::new);
将流转化为集合
List<String> list1 = (List<String>) stream.collect(Collectors.toList());
List<String> list2 = (List<String>) stream.collect(Collectors.toCollection(ArrayList::new));
将流转化为栈
Stack stack = (Stack) stream.collect(Collectors.toCollection(Stack::new));
将流转化为字符串
String str = stream.collect(Collectors.joining()).toString();
流的常用操作
jdk8对流的操作与scalar集合操作或者spark算子操作很像
- Intermediate
Intermediate操作指一个流可以后面跟随零个或多个 intermediate 操作。其目的主要是打开流,做出某种程度的数据映射/过滤,然后返回一个新的流,交给下一个操作使用。这类操作都是惰性化的(lazy),就是说,仅仅调用到这类方法,并没有真正开始流的遍历。
map (mapToInt, flatMap 等)、 filter、 distinct、 sorted、 peek、 limit、 skip、 parallel、 sequential、 unordered
- Terminal:
Terminal操作指的是terminal操作进行过一次之后Stream的元素就被消费掉了,不能对一个Stream进行两次terminal晕眩
forEach、 forEachOrdered、 toArray、 reduce、 collect、 min、 max、 count、 anyMatch、 allMatch、 noneMatch、 findFirst、 findAny、 iterator
- Short-circuiting
short-circuiting操作指,对于一个intermediate操作如果接受的是一个无限大的Stream,但返一个有限大的Stream,返回的对象是新的Stream或者对于一个 terminal 操作,如果它接受的是一个无限大的 Stream,但能在有限的时间计算出结果。
anyMatch、 allMatch、 noneMatch、 findFirst、 findAny、 limit
常用操作如下
map/flatMap
转换大写
List<String> output = wordList.stream().
map(String::toUpperCase).
collect(Collectors.toList());
平方数
List<Integer> nums = Arrays.asList(1, 2, 3, 4);
List<Integer> squareNums = nums.stream().
map(n -> n * n).
collect(Collectors.toList());
扁平化
Stream<List<Integer>> inputStream = Stream.of(
Arrays.asList(1),
Arrays.asList(2, 3),
Arrays.asList(4, 5, 6)
);
Stream<Integer> outputStream = inputStream.
flatMap((childList) -> childList.stream());
flatMap 把 input Stream 中的层级结构扁平化,就是将最底层元素抽出来放到一起,最终 output 的新 Stream 里面已经没有 List 了,都是直接的数字。
filter
用于筛选数据
筛选出偶数
Integer[] sixNums = {1, 2, 3, 4, 5, 6};
Integer[] evens =
Stream.of(sixNums).filter(n -> n%2 == 0).toArray(Integer[]::new);
取出一片文章的全部单词
List<String> output = reader.lines().
flatMap(line -> Stream.of(line.split(REGEXP))).
filter(word -> word.length() > 0).
collect(Collectors.toList());
这段代码首先把每行的单词用 flatMap 整理到新的 Stream,然后保留长度不为 0 的,就是整篇文章中的全部单词了。
forEach
roster.stream()
.filter(p -> p.getGender() == Person.Sex.MALE)
.forEach(p -> System.out.println(p.getName()));
当数据量比较大需要借助多线程进行遍历的时候可以利用
parallelStream().forEach()
forEach不能修改自己包含的本地变量值也不能用于break/return之类的关键字提前结束循环
findFirst
这里的重点是返回值类型
Stream<String> stream = Stream.of("abc", "def", "ghi", "opq", "rst");
System.out.println(stream.findFirst().get());
findFirst返回值类型是Optional,Optional是一个容器它可能含有某只也可能不含有使用它的目的是避免NullPointerException
在java8之前判断值是否为空使用如下代码
return text == null ? -1 : text.length();
在java8之后使用如下代码
return Optional.ofNullable(text).map(String::length).orElse(-1);
在更复杂的语句判空当中使用 Optional 代码的可读性更好,而且它提供的是编译时检查,能极大的降低 NPE 这种 Runtime Exception 对程序的影响,或者迫使程序员更早的在编码阶段处理空值问题,而不是留到运行时再发现和调试。
Stream 中的 findAny、max/min、reduce 等方法等返回 Optional 值。还有例如 IntStream.average() 返回 OptionalDouble 等等。
reduce
这个方法的主要作用是把 Stream 元素组合起来。它提供一个起始值(种子),然后依照运算规则(BinaryOperator),和前面 Stream 的第一个、第二个、第 n 个元素组合。从这个意义上说,字符串拼接、数值的 sum、min、max、average 都是特殊的 reduce。例如 Stream 的 sum 就相当于
// 字符串连接,concat = "ABCD"
String concat = Stream.of("A", "B", "C", "D").reduce("", String::concat);
// 求最小值,minValue = -3.0
double minValue = Stream.of(-1.5, 1.0, -3.0, -2.0).reduce(Double.MAX_VALUE, Double::min);
// 求和,sumValue = 10, 有起始值
int sumValue = Stream.of(1, 2, 3, 4).reduce(0, Integer::sum);
// 求和,sumValue = 10, 无起始值
sumValue = Stream.of(1, 2, 3, 4).reduce(Integer::sum).get();
// 过滤,字符串连接,concat = "ace"
concat = Stream.of("a", "B", "c", "D", "e", "F").
filter(x -> x.compareTo("Z") > 0).
reduce("", String::concat);
limit和skip
limit 返回 Stream 的前面 n 个元素;skip 则是扔掉前 n 个元素(它是由一个叫 subStream 的方法改名而来)。
public void testLimitAndSkip() {
List<Person> persons = new ArrayList();
for (int i = 1; i <= 10000; i++) {
Person person = new Person(i, "name" + i);
persons.add(person);
}
List<String> personList2 = persons.stream().
map(Person::getName).limit(10).skip(3).collect(Collectors.toList());
System.out.println(personList2);
}
private class Person {
public int no;
private String name;
public Person (int no, String name) {
this.no = no;
this.name = name;
}
public String getName() {
System.out.println(name);
return name;
}
}
运行结果
name1
name2
name3
name4
name5
name6
name7
name8
name9
name10
[name4, name5, name6, name7, name8, name9, name10]
Stream.iterate
利用iterate生成等差数列
Stream.iterate(0, n -> n + 3).limit(10).forEach(x -> System.out.println(x));
自定义生成流
通过实现Supplier接口可以控制流的生成.这种情况用于随机数、常量的Stream或者需要前后元素减维持这某种状态信息的Stream。把 Supplier 实例传递给 Stream.generate() 生成的 Stream,默认是串行(相对 parallel 而言)但无序的(相对 ordered 而言)。由于它是无限的,在管道中,必须利用 limit 之类的操作限制 Stream 大小。
Random seed = new Random();
Supplier<Integer> random = seed::nextInt;
Stream.generate(random).limit(10).forEach(System.out::println);
利用lambda语法
Stream.generate()还能接受自己实现的Supplier用某种自动的规则给每一个变量赋值;或者依据公式计算 Stream 的每个元素值。这些都是维持状态信息的情形。
IntStream.generate(() -> (int) (System.nanoTime() % 100)).limit(10).forEach(System.out::println);
自定义Supplier
public class UDFSupplier {
private static class People {
private int id;
private String name;
private int age;
public People(int id, String name, int age) {
this.id = id;
this.name = name;
this.age = age;
}
public int getId() {
return id;
}
public void setId(int id) {
this.id = id;
}
public String getName() {
return name;
}
public void setName(String name) {
this.name = name;
}
public int getAge() {
return age;
}
public void setAge(int age) {
this.age = age;
}
}
private static class PersonSupplier implements Supplier<People> {
private int index = 0;
private Random random = new Random();
@Override
public People get() {
return new People(index++, "user-" + index, random.nextInt(100));
}
}
public static void main(String[] args) {
Stream.generate(new PersonSupplier()).limit(10).forEach(p -> System.out.println(p.getName() + " -> " + p.getAge()));
}
}
用 Collectors 来进行 reduction 操作
java.util.stream.Collectors 类的主要作用就是辅助进行各类有用的 reduction 操作,例如转变输出为 Collection,把 Stream 元素进行归组。
groupingBy/partitioningBy
//按照年龄归组
Map<Integer, List<Person>> personGroups = Stream.generate(new PersonSupplier()).
limit(100).
collect(Collectors.groupingBy(Person::getAge));
Iterator it = personGroups.entrySet().iterator();
while (it.hasNext()) {
Map.Entry<Integer, List<Person>> persons = (Map.Entry) it.next();
System.out.println("Age " + persons.getKey() + " = " + persons.getValue().size());
}
上面的 code,首先生成 100 人的信息,然后按照年龄归组,相同年龄的人放到同一个 list 中,可以看到如下的输出:
Age 0 = 2 Age 1 = 2 Age 5 = 2 Age 8 = 1 Age 9 = 1 Age 11 = 2
Map<Boolean, List<Person>> children = Stream.generate(new PersonSupplier()).
limit(100).
collect(Collectors.partitioningBy(p -> p.getAge() < 18));
System.out.println("Children number: " + children.get(true).size());
System.out.println("Adult number: " + children.get(false).size());
Children number: 23
Adult number: 77
在使用条件“年龄小于 18”进行分组后可以看到,不到 18 岁的未成年人是一组,成年人是另外一组。partitioningBy 其实是一种特殊的 groupingBy,它依照条件测试的是否两种结果来构造返回的数据结构,get(true) 和 get(false) 能即为全部的元素对象。
总结
Stream特性总结
1. 不是数据结构
2. 它没有内部存储,它只是用操作管道从 source(数据结构、数组、generator function、IO channel)抓取数据。
3. 它也绝不修改自己所封装的底层数据结构的数据。例如 Stream 的 filter 操作会产生一个不包含被过滤元素的新 Stream,而不是从 source 删除那些元素。
4. 所有 Stream 的操作必须以 lambda 表达式为参数
5. 不支持索引访问
6. 很容易生成数组或者 List
7. 惰性化
8. 很多 Stream 操作是向后延迟的,一直到它弄清楚了最后需要多少数据才会开始
9. Intermediate 操作永远是惰性化的。
10. 集合有固定大小,Stream 则不必。limit(n) 和 findFirst() 这类的 short-circuiting 操作可以对无限的 Stream 进行运算并很快完成。
11. 当一个 Stream 是并行化的,就不需要再写多线程代码,所有对它的操作会自动并行进行的。
总结自https://www.ibm.com/developerworks/cn/java/j-lo-java8streamapi/