2014
Data munging in Perl 6 vs Perl 5
案例学习: 生成成绩报告单
example.txt
STDOUT
Peter B
Celine A-
Zsófia B+
João F
Maryam B+
秀英 B-
Finn D+
Aarav A
Emma F
Omar B
输出报告单:
Zsófia's grade: B+
List of students with a failing grade:
João, Emma
Distribution of grades by letter:
A: 2 students
B: 5 students
D: 1 student
F: 2 students
example.txt 是一个文本文件, 每行一个学生姓名和分数,中间用空格分割。
我们希望我们的脚本能解析这样的文件并打印含有如下信息的报告:
学生名为 “Zsófia”的成绩
所有不及格学生的名字 (i.e. worse than D-),
根据字母( 不带 +/- ) 把成绩分组。得到学生成绩的分布。
让我们一步步来:
Part 1: 样板
Perl 5
#!/usr/bin/env perluse warnings;
use strict;use feature 'say';
use utf8;
binmode STDOUT, ':utf8';
Perl 6
#!/usr/bin/env perl6
在 Perl 6 中所有这些都为我们做好了。
Part 2: 读取并解析输入
Perl 5
open my $fh, '<:utf8', "grades.txt"
or die "Failed to open file: $!";
my %grade;
while (<$fh>) {
m/^(\w+) \s+ ([A-F][+-]?)$/x
or die "Can't parse line '$_'";
$grade{$1} = $2;
};
Perl 6
my %grade = "grades.txt".IO.lines.map: {
m:s/^(\w+) (<[A..F]><[+-]>?)$/
or die "Can't parse line '$_'";
~$0 => ~$1
};
在 Perl 6 中, 对文件名字符串调用 .IO 方法会返回一个代表文件系统路径的对象, 我们可以继续在这个对象上调用 .lines 方法,得到文件的所有行的一个惰性列表。 “Lazy” 意味着它只会从磁盘中按需读取新行,当我们使用 .map 方法遍历列表元素的时候, 这样能使用单个赋值操作就能优雅地初始化一个散列。
我们不需要让文件句柄识别 Unicode ,也不用管文件句柄是否正确关闭, 这在 Perl 6 中都是默认发生的。
.method: … 语法也可以写为 .method(…), 前者使 map 看起来更像一个 block 语句,并减少了括号凌乱。
:s (“sigspace”) 正则修饰符使解析 tokens 间的空白更优雅。 但 Perl 6 中的字符类比 Perl 5 复杂了一丢丢。
正则捕获结果变量($0, $1, …) 返回一个完整的 Match 对象 – 它为复杂使用场景增加了很多灵活性, 但是这里我们只想保留字符串, 所以使用 ~ 前置操作符字符串化了匹配对象。
Part 3: 查看数据的特定项
Perl 5
say "Zsófia's grade: $grade{Zsófia}";
Perl 6
say "Zsófia's grade: %grade<Zsófia>";
Perl 6 总是把散列中的 { }
中的东西解析为表达式, 使用 < >
表示字面值。
Part 4: 过滤数据
Perl 5
say "List of students with a failing grade:";
say " " . join ", ", grep { $grade{$_} ge "E" } keys %grade;
Perl 6
say "List of students with a failing grade:";
say " " ~ %grade.grep(*.value ge "E")».key.join(", ");
Perl 6 中允许我们按执行顺序把一些列方法写为链式操作。有一个重要区别:Perl 6 能让我们直接遍历散列的项, 散列中每一项都是一个 Pair 对象(Pair 对象能使用 .key 和.value 方法)。
The *
Whatever star 用于定义一个简单的回调,而不用写一个花括号块。
The ».
hyper operator 用于对 .grep 返回的 Pairs 的每个 Pair 上调用 一次 .key 方法,得出姓名列表
Part 5: 从数据中创建频率分布
Perl 5
say "Distribution of grades by letter:";
my %freq;
$freq{substr $grade{$_}, 0, 1}++ for keys %grade;
say " $_: $freq{$_} student".($freq{$_} != 1 ? "s" : "") for sort keys %freq;
Perl 6
say "Distribution of grades by letter:";
say " {.key}: {+.value} student{"s" if .value != 1}"
for %grade.classify(*.value.comb[0]).sort(*.key);
计数和分组实在太常见了, Perl 6 提供了 .classify
方法。
classify 方法里需要指定要分组的项(这里是 代表 %grade
条目的 Pair 对象 ), 这些项应该根据什么规则进行分组(这里是根据第一个字母的值, 它代表分数(没有 +/-))。
这生成一个匿名的散列,散列的值是匿名数组。
%("B" => ["Peter" => "B", "Zsófia" => "B+", "Maryam" => "B+",
"秀英" => "B-", "Omar" => "B"], "A" => ["Celine" => "A-", "Aarav" => "A"], "F" => ["João" => "F", "Emma" => "F"], "D" => ["Finn" => "D+"])
因为我们只对每组元素的个数感兴趣, 我们使用 + 前置操作符数字化每个值然后打印它, 在数组前面添加 + 符号会得到数组元素的个数。
在 term 位置上一个 单独的 .method 方法等价于 $_.method
, 意思是对当前循环变量调用该方法。
任意代码的返回值能使用花括号 {} 插值到字符串中。
if 语句能被用作表达式 – 当条件为 false 时,返回空列表,然后被字符串化为空字符串。
对字符串调用不带参数的 .comb
会生成该字符串的一个字符列表。