java8 Stream简述

Stream是java 8的新特性,Stream是对集合功能的增强

Stream不是集合元素它不是数据结构,不能用于保存数据,它是有关于算法和计算的

Stream 就如同一个迭代器(Iterator),单向,不可往复,数据只能遍历一次,遍历过一次后即用尽了,就好比流水从面前流过,一去不复返。

和迭代器又不同的是,Stream 可以并行化操作,迭代器只能命令式地、串行化操作。顾名思义,当使用串行方式去遍历时,每个 item 读完后再读下一个 item。而使用并行去遍历时,数据会被分成多个段,其中每一个都在不同的线程中处理,然后将结果一起输出。

生成Stream的API

利用集合和数组
– Collection.stream()
– Collection.parallelStream()
– Arrays.stream(T array) or Stream.of()

IO中生成

  • java.io.BufferedReader.lines()

静态工厂

  • java.util.stream.IntStream.range()
  • java.nio.file.Files.walk()

自己构建
– java.util.Spliterator

其它
– Random.ints()
– BitSet.stream()
– Pattern.splitAsStream(java.lang.CharSequence)
– JarFile.stream()

构造流

1.利用数组

Stream stream = Stream.of("a", "b", "c", "d", "e");
//或者
String[] strArray = new String[]{"a", "b", "c", "d", "e"};
stream = Stream.of(strArray);

2.集合转换

List<String> list = Arrays.asList(strArray);
stream = list.stream();

3.构造数值流

对于数值流特殊一点

对于基本数值型,目前有三种对应的包装类型Stream

IntStream、LongStream、DoubleStream

对于包装类型有

Stream、Stream >、Stream

因为数值型的拆箱和装箱耗时,所以jdk为这三个Stream提供专门的Stream类型

构造数值流

IntStream.of(new int[]{1, 2, 3}).forEach(System.out::print);
System.out.println();
IntStream.range(1, 3).forEach(System.out::print);
System.out.println();
IntStream.rangeClosed(1, 3).forEach(System.out::print);

流的转换

将流转化为数组

Stream stream = Stream.of("a", "b", "c");
String[] strArray1 = (String[]) stream.toArray(String[]::new);

将流转化为集合

List<String> list1 = (List<String>) stream.collect(Collectors.toList());
List<String> list2 = (List<String>) stream.collect(Collectors.toCollection(ArrayList::new));

将流转化为栈

Stack stack = (Stack) stream.collect(Collectors.toCollection(Stack::new));

将流转化为字符串

String str = stream.collect(Collectors.joining()).toString();

流的常用操作

jdk8对流的操作与scalar集合操作或者spark算子操作很像

  • Intermediate

Intermediate操作指一个流可以后面跟随零个或多个 intermediate 操作。其目的主要是打开流,做出某种程度的数据映射/过滤,然后返回一个新的流,交给下一个操作使用。这类操作都是惰性化的(lazy),就是说,仅仅调用到这类方法,并没有真正开始流的遍历。

map (mapToInt, flatMap 等)、 filter、 distinct、 sorted、 peek、 limit、 skip、 parallel、 sequential、 unordered

  • Terminal:
    Terminal操作指的是terminal操作进行过一次之后Stream的元素就被消费掉了,不能对一个Stream进行两次terminal晕眩

forEach、 forEachOrdered、 toArray、 reduce、 collect、 min、 max、 count、 anyMatch、 allMatch、 noneMatch、 findFirst、 findAny、 iterator

  • Short-circuiting
    short-circuiting操作指,对于一个intermediate操作如果接受的是一个无限大的Stream,但返一个有限大的Stream,返回的对象是新的Stream或者对于一个 terminal 操作,如果它接受的是一个无限大的 Stream,但能在有限的时间计算出结果。
    anyMatch、 allMatch、 noneMatch、 findFirst、 findAny、 limit

常用操作如下

map/flatMap

转换大写

List<String> output = wordList.stream().
map(String::toUpperCase).
collect(Collectors.toList());

平方数

List<Integer> nums = Arrays.asList(1, 2, 3, 4);
List<Integer> squareNums = nums.stream().
map(n -> n * n).
collect(Collectors.toList());

扁平化

Stream<List<Integer>> inputStream = Stream.of(
 Arrays.asList(1),
 Arrays.asList(2, 3),
 Arrays.asList(4, 5, 6)
 );
Stream<Integer> outputStream = inputStream.
flatMap((childList) -> childList.stream());

flatMap 把 input Stream 中的层级结构扁平化,就是将最底层元素抽出来放到一起,最终 output 的新 Stream 里面已经没有 List 了,都是直接的数字。

filter

用于筛选数据

筛选出偶数

Integer[] sixNums = {1, 2, 3, 4, 5, 6};
Integer[] evens =
Stream.of(sixNums).filter(n -> n%2 == 0).toArray(Integer[]::new);

取出一片文章的全部单词

List<String> output = reader.lines().
flatMap(line -> Stream.of(line.split(REGEXP))).
filter(word -> word.length() > 0).
collect(Collectors.toList());

这段代码首先把每行的单词用 flatMap 整理到新的 Stream,然后保留长度不为 0 的,就是整篇文章中的全部单词了。

forEach

roster.stream()
 .filter(p -> p.getGender() == Person.Sex.MALE)
 .forEach(p -> System.out.println(p.getName()));

当数据量比较大需要借助多线程进行遍历的时候可以利用

parallelStream().forEach()

forEach不能修改自己包含的本地变量值也不能用于break/return之类的关键字提前结束循环

findFirst

这里的重点是返回值类型

Stream<String> stream = Stream.of("abc", "def", "ghi", "opq", "rst");
System.out.println(stream.findFirst().get());

findFirst返回值类型是Optional,Optional是一个容器它可能含有某只也可能不含有使用它的目的是避免NullPointerException

在java8之前判断值是否为空使用如下代码

return text == null ? -1 : text.length();

在java8之后使用如下代码

return Optional.ofNullable(text).map(String::length).orElse(-1);

在更复杂的语句判空当中使用 Optional 代码的可读性更好,而且它提供的是编译时检查,能极大的降低 NPE 这种 Runtime Exception 对程序的影响,或者迫使程序员更早的在编码阶段处理空值问题,而不是留到运行时再发现和调试。

Stream 中的 findAny、max/min、reduce 等方法等返回 Optional 值。还有例如 IntStream.average() 返回 OptionalDouble 等等。

reduce

这个方法的主要作用是把 Stream 元素组合起来。它提供一个起始值(种子),然后依照运算规则(BinaryOperator),和前面 Stream 的第一个、第二个、第 n 个元素组合。从这个意义上说,字符串拼接、数值的 sum、min、max、average 都是特殊的 reduce。例如 Stream 的 sum 就相当于

// 字符串连接,concat = "ABCD"
String concat = Stream.of("A", "B", "C", "D").reduce("", String::concat); 
// 求最小值,minValue = -3.0
double minValue = Stream.of(-1.5, 1.0, -3.0, -2.0).reduce(Double.MAX_VALUE, Double::min); 
// 求和,sumValue = 10, 有起始值
int sumValue = Stream.of(1, 2, 3, 4).reduce(0, Integer::sum);
// 求和,sumValue = 10, 无起始值
sumValue = Stream.of(1, 2, 3, 4).reduce(Integer::sum).get();
// 过滤,字符串连接,concat = "ace"
concat = Stream.of("a", "B", "c", "D", "e", "F").
 filter(x -> x.compareTo("Z") > 0).
 reduce("", String::concat);

limit和skip

limit 返回 Stream 的前面 n 个元素;skip 则是扔掉前 n 个元素(它是由一个叫 subStream 的方法改名而来)。

public void testLimitAndSkip() {
 List<Person> persons = new ArrayList();
 for (int i = 1; i <= 10000; i++) {
 Person person = new Person(i, "name" + i);
 persons.add(person);
 }
List<String> personList2 = persons.stream().
map(Person::getName).limit(10).skip(3).collect(Collectors.toList());
 System.out.println(personList2);
}
private class Person {
 public int no;
 private String name;
 public Person (int no, String name) {
 this.no = no;
 this.name = name;
 }
 public String getName() {
 System.out.println(name);
 return name;
 }
}

运行结果

name1
name2
name3
name4
name5
name6
name7
name8
name9
name10
[name4, name5, name6, name7, name8, name9, name10]

Stream.iterate

利用iterate生成等差数列

Stream.iterate(0, n -> n + 3).limit(10).forEach(x -> System.out.println(x));

自定义生成流

通过实现Supplier接口可以控制流的生成.这种情况用于随机数、常量的Stream或者需要前后元素减维持这某种状态信息的Stream。把 Supplier 实例传递给 Stream.generate() 生成的 Stream,默认是串行(相对 parallel 而言)但无序的(相对 ordered 而言)。由于它是无限的,在管道中,必须利用 limit 之类的操作限制 Stream 大小。

Random seed = new Random();
Supplier<Integer> random = seed::nextInt;
Stream.generate(random).limit(10).forEach(System.out::println);

利用lambda语法

Stream.generate()还能接受自己实现的Supplier用某种自动的规则给每一个变量赋值;或者依据公式计算 Stream 的每个元素值。这些都是维持状态信息的情形。

IntStream.generate(() -> (int) (System.nanoTime() % 100)).limit(10).forEach(System.out::println);

自定义Supplier

public class UDFSupplier {

    private static class People {
        private int id;
        private String name;
        private int age;

        public People(int id, String name, int age) {
            this.id = id;
            this.name = name;
            this.age = age;
        }

        public int getId() {
            return id;
        }

        public void setId(int id) {
            this.id = id;
        }

        public String getName() {
            return name;
        }

        public void setName(String name) {
            this.name = name;
        }

        public int getAge() {
            return age;
        }

        public void setAge(int age) {
            this.age = age;
        }
    }

    private static class PersonSupplier implements Supplier<People> {
        private int index = 0;
        private Random random = new Random();

        @Override
        public People get() {
            return new People(index++, "user-" + index, random.nextInt(100));
        }
    }

    public static void main(String[] args) {
        Stream.generate(new PersonSupplier()).limit(10).forEach(p -> System.out.println(p.getName() + " -> " + p.getAge()));
    }

}

用 Collectors 来进行 reduction 操作

java.util.stream.Collectors 类的主要作用就是辅助进行各类有用的 reduction 操作,例如转变输出为 Collection,把 Stream 元素进行归组。

groupingBy/partitioningBy

//按照年龄归组

Map<Integer, List<Person>> personGroups = Stream.generate(new PersonSupplier()).
 limit(100).
 collect(Collectors.groupingBy(Person::getAge));
Iterator it = personGroups.entrySet().iterator();
while (it.hasNext()) {
 Map.Entry<Integer, List<Person>> persons = (Map.Entry) it.next();
 System.out.println("Age " + persons.getKey() + " = " + persons.getValue().size());
}

上面的 code,首先生成 100 人的信息,然后按照年龄归组,相同年龄的人放到同一个 list 中,可以看到如下的输出:

Age 0 = 2 Age 1 = 2 Age 5 = 2 Age 8 = 1 Age 9 = 1 Age 11 = 2
Map<Boolean, List<Person>> children = Stream.generate(new PersonSupplier()).
 limit(100).
 collect(Collectors.partitioningBy(p -> p.getAge() < 18));
System.out.println("Children number: " + children.get(true).size());
System.out.println("Adult number: " + children.get(false).size());
Children number: 23 
Adult number: 77

在使用条件“年龄小于 18”进行分组后可以看到,不到 18 岁的未成年人是一组,成年人是另外一组。partitioningBy 其实是一种特殊的 groupingBy,它依照条件测试的是否两种结果来构造返回的数据结构,get(true) 和 get(false) 能即为全部的元素对象。

总结

Stream特性总结
1. 不是数据结构
2. 它没有内部存储,它只是用操作管道从 source(数据结构、数组、generator function、IO channel)抓取数据。
3. 它也绝不修改自己所封装的底层数据结构的数据。例如 Stream 的 filter 操作会产生一个不包含被过滤元素的新 Stream,而不是从 source 删除那些元素。
4. 所有 Stream 的操作必须以 lambda 表达式为参数
5. 不支持索引访问
6. 很容易生成数组或者 List
7. 惰性化
8. 很多 Stream 操作是向后延迟的,一直到它弄清楚了最后需要多少数据才会开始
9. Intermediate 操作永远是惰性化的。
10. 集合有固定大小,Stream 则不必。limit(n) 和 findFirst() 这类的 short-circuiting 操作可以对无限的 Stream 进行运算并很快完成。
11. 当一个 Stream 是并行化的,就不需要再写多线程代码,所有对它的操作会自动并行进行的。

总结自https://www.ibm.com/developerworks/cn/java/j-lo-java8streamapi/

    原文作者:光与热
    原文地址: https://blog.csdn.net/JavaMoo/article/details/78781671
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞