Perl 超几何分布计算

1. 超几何分布公式

超几何分布检验在生信中使用是比较多的,典型的就是 GO 和 KEGG Pathway 的富集分析。

超几何分布常用来表示在 N 个物品中有指定商品 M 个,不放回抽取 n 个,抽中指定商品的个数,即X~H(N, n, M),则抽中 k 件 M 商品的概率为:

《Perl 超几何分布计算》 超几何分布

也可以写作: f(k; n, m, N) = C(m, k) * C(N-m, n-k) / C(N, n)

若 n = 1, 则超几何分布还原为 伯努利分布。
若 N 接近 ∞, 则超几何分布可视为二项式分布

《Perl 超几何分布计算》 不放回抽样概率

2. 排列的定义

排列的定义:从 n 个不同元素中,任取 m ( m ≤ n, m 与 n 均为自然数,下同) 个元素按照一定的顺序排成一列,叫做从 n 个不同元素中取出 m 个元素的一个排列;从 n 个不同元素中取出 m(m≤n) 个元素的所有排列的个数,叫做从 n 个不同元素中取出 m 个元素的排列数,用符号 A(n,m) 表示。
计算公式:

《Perl 超几何分布计算》 排列
《Perl 超几何分布计算》 排列阶乘

3. 组合的定义

组合的定义:从 n 个不同元素中,任取 m( m ≤ n ) 个元素并成一组,叫做从 n 个不同元素中取出 m 个元素的一个组合;从 n 个不同元素中取出 m ( m ≤ n ) 个元素的所有组合的个数,叫做从 n 个不同元素中取出 m 个元素的组合数。用符号 C(n, m) 表示。

计算公式:

《Perl 超几何分布计算》 阶乘计算

C(n, m) = C(n, n-m), (n ≥ m);

4. 超几何分布概率计算

计算超几何分布 P-value 计算 Perl 代码的实现:

#!/usr/bin/perl -w
use strict;

# my $out = &Fac(5);
# my $out = &Factorial(5);
# my $out = &Combination(5, 2);

my $out = &Pvalue(5, 30, 70, 100);
print "$out\n";

sub Factorial {
    ## n! = n * (n-1) * (n-2) * ... * 2 * 1
    my $n = shift @_;
    if ($n == 1){
        return 1;
    }else{
        return ($n * &Factorial($n-1));
    }
}

## or
sub Factorial {
    ## n! = n * (n-1) * (n-2) * ... * 2 * 1
    ## n! = &Factorial(n);
    my $n = shift @_;
    my $acc;

    if ($n == 1){
        $acc = 1;
    }else{
        $acc *= $_ for 2..$n;
    }
    return $acc;
}

sub Combination {
    ## C(n, m) = n! / (m! * (n - m)!)
    my ($n, $m) = @_;
    my $out = 1;
    if ($n == $m){
        return 1;
    }elsif($n > $m){
        return &Factorial($n) / (&Factorial($m) * &Factorial($n-$m));
    }else{
        print STDERR "Erro! Combination($n, $m) \n";
        exit 1;
    };
}

sub Pvalue {
    ## Total: N 
    ## Spacial: M
    ## SelectNUm: n
    ## P(x=k) = C(M, k) * C(N-M, n-k) / C(N, n)
    ## f(k; n, M, N) = C(M, k) * C(N-M, n-k) / C(N, n)

    ## C(n, m) = n! / m!*(n-m)!
    
    my ($k, $n, $M, $N ) = @_;
    my $pvalue = &Combination($M, $k) * &Combination($N-$M, $n-$k) / &Combination($N, $n);
    return $pvalue;
}
__END__

一些其他分布

伯努利分布:

p(x)=p x ∗ (1−p) 1−x

二项式分布

几何分布

泊松分布

参考连接:
排列组合:https://baike.baidu.com/item/%E6%8E%92%E5%88%97%E7%BB%84%E5%90%88/706498
不放回抽样:https://baike.baidu.com/item/%E4%B8%8D%E6%94%BE%E5%9B%9E%E6%8A%BD%E6%A0%B7
不同分布区别:http://grid.hust.edu.cn/yangsirui/res/distribution.htm

    原文作者:正踪大米饭儿
    原文地址: https://www.jianshu.com/p/1646afff95b3
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞