sql – Matlab：使用表VariableNames显式或命名`splitapply`参数的关联

2019年7月28日 261次阅读

我一直在苦苦寻找Matlab中执行常见SQL操作所需的额外代码和簿记.以下是用于生成汇总数据表tDat的度量的典型SQL代码模式的示例：

SELECT vGrouping, MEAN( x - y ) AS rollup1, VAR(y+z) AS rollup2
INTO tRollups FROM tDat GROUP BY vGrouping

我的SQL有点生疏,但SQLers应该清楚一般的想法.这是Matlab的等价物：

% Create test data
tDat = array2table( floor(10*rand(5,3)) , ...
                    'VariableNames',{'x','y','z'} );
tDat.vGrouping = ( rand(5,1) > 0.5 )

% Calculate summary metrics for each group of data
[vGroup,grps] = findgroups(tDat.vGrouping)
fRollup = @(a,b,c)[ mean(a-b) var(b+c) ] % Calculates summary metric
rollups = splitapply( fRollup, tDat(:,{'x','y','z'}), vGroup )

% Code pattern 1 to assemble results
tRollups = [ array2table( grps , 'VariableNames',{'group'} ) ...
             array2table( rollups , ...
                          'VariableNames',{'rollup1','rollup2'} ) ]

% Code pattern 2 to assemble results
tRollups = array2table( [grps rollups], ...
                        'VariableNames',{'group','rollup1','rollup2'} )

这不是一个公平的比较,因为Matlab代码包含数据设置,以及用于汇总汇总度量的两种可能的代码模式.此外,我添加了评论 – 不是为了使Matlab代码更加庞大,而是因为它更加繁忙,需要一些认知路标来帮助阅读.

但是,除了代码卷之外,让我感到困惑的一件事是fRollup中的汇总表达式没有明确地与输入或输出数据列的名称相关联.参数是伪参数,tDat中的实际输入数据列在splitapply调用中指定.与fRollup参数的关联是位置的,因此字段/变量名称本身无法强制执行正确的关联.同样,tRollups中的输出列在array2table调用中指定,再次与fRollup输出位置关联.

这使得在Matlab代码中很难看到SQL语句中相当简单的关系.是否存在一种没有这种缺点的替代模式或设计习惯用语,但希望不会产生其他缺点？

AFTERNOTE：由于某种原因,即使以下内容没有解决splitapply输入/输出参数与实际输入/输出变量的命名/显式关联,我仍然发现更容易看到关系.代码肯定看起来不那么吵闹.关键是用于生成数据汇总度量的函数fRollup现在返回多个输出,而不是将它们捆绑到单个阵列输出中.这允许我明确地将标量struct ssRollups的属性命名为赋值的目标.我不需要对表进行各种转换,使用额外的代码来指定VariableNames,只是为了将结果与标识的组连接起来.相反,组标识开始于同一结构中的另一个属性grps(ssRollups)和splitapply结果 – 事实上,它是第一个使结构存在的属性.

% File tmp.m
%-----------
function tmp

   % Create test data
   tDat = array2table( floor(10*rand(5,3)) , ...
                       'VariableNames',{'x','y','z'} );
   tDat.vGrouping = ( rand(5,1) > 0.5 )

   % Find the groups
   [ vGroup, ssRollups.grps ] = findgroups(tDat.vGrouping)

   % Calculate summary metrics for each group of data
   [ ssRollups.rollup1 ssRollups.rollup2 ] = ...
      splitapply( @fRollup, tDat(:,{'x','y','z'}), vGroup );

   % Display use nice table formatting
   struct2table( ssRollups )

end % function tmp

function [rollup1 rollup2] = fRollup(a,b,c)
   rollup1 = mean(a-b);
   rollup2 = var(b+c);
end % function fRollup

但是,作为多输出函数,fRollup似乎更适合非匿名函数.对我来说,它实际上似乎更好地记录了多个输出,尽管代码不那么紧凑.它可能只是其中一种情况,其中更紧凑的可读性更低,导致数据关系更难以看到.但是,它确实需要将整个代码段转换为函数(在这种情况下为tmp),除非你不介意将fRollup分解为它自己的函数和m文件.我不喜欢在我的文件系统中丢弃那些意味着在一个地方使用的小片段功能.

最佳答案这个“答案”并不直接处理实际输入/输出变量与提供给splitapply的函数句柄的参数之间的显式命名关联.但是,它显着简化了初始示例中的代码,希望能够更清楚地看到函数参数和输入/输出变量之间的关系.该解决方案最初包含在问题中的AFTERNOTE中.由于更好的答案似乎不会很快到来,我决定将其作为答案.它使用deal实现一个匿名多输出函数,用于splitapply,用于由其分组参数描述的数据组.

% Create test data
tDat = array2table( floor(10*rand(5,3)) , ...
                    'VariableNames',{'x','y','z'} );
tDat.vGrouping = ( rand(5,1) > 0.5 )

% Find the groups
[ vGroup, ssRollups.grps ] = findgroups(tDat.vGrouping)

% Calculate summary metrics for each group of data
fRollup = @(a,b,c) deal( mean(a-b), var(b+c) )
[ ssRollups.rollup1 ssRollups.rollup2 ] = ...
   splitapply( fRollup, tDat(:,{'x','y','z'}), vGroup );

% Display use nice table formatting
struct2table( ssRollups )

在出现更好的解决方案之前,这种方法将成为我对于splitapply的成语.

这是一个变量,它使用表变量来输出splitapply.使用多个分组变量时这可能更方便,因为findgroups会将分组变量名称传递给LHS上的输出变量tRollups：

% Create test data
tDat = array2table( floor(10*rand(8,3)) , ...
                    'VariableNames',{'x','y','z'} );
tDat = [ tDat ...
         array2table( rand(8,2)>0.5 , ...
                      'VariableNames',{'vGrpng1','vGrpng2'} ) ];

% Find the groups
[ vGroup, tRollups ] = findgroups(tDat(:,{'vGrpng1','vGrpng2'}));

% Calculate summary metrics for each group of data
fRollup = @(a,b,c) deal( mean(a-b), var(b+c) )
[ tRollups.rollup1 tRollups.rollup2 ] = ...
   splitapply( fRollup, tDat(:,{'x','y','z'}), vGroup );

tRollups

这是一个使用多个分组变量的版本,并使用标量结构而不是表来查找findgroup和splitapply的输出：

% Create test data
tDat = array2table( floor(10*rand(8,3)) , ...
                    'VariableNames',{'x','y','z'} );
tDat.vGrpng1 = rand(8,1)>0.5 ;
tDat.vGrpng2 = rand(8,1)>0.5

% Find the groups
[ vGroup, ssRollups.vGrpng1, ssRollups.vGrpng2 ] = ...
    findgroups( tDat.vGrpng1, tDat.vGrpng2 );

% Calculate summary metrics for each group of data
fRollup = @(a,b,c) deal( mean(a-b), var(b+c) )
[ ssRollups.rollup1 ssRollups.rollup2 ] = ...
   splitapply( fRollup, tDat(:,{'x','y','z'}), vGroup );

% Display using nice table formatting
struct2table( ssRollups )