Perl文本处理

2019年6月13日 253次阅读来源: Forfunnys

Perl文本处理

前几天有个同事请教我安装R的事，然后我甩给他一个R包让他自己去安装。最后因为服务器权限不足，没有安装成功。然后我问了一下是需要什么功能，原来是需要将几个文件整合到一起，我一想，这个perl不就可以解决了。接下来我要安利一下perl强大的文本处理能力了。

首先，假设我有很多个文件，格式如下：

《Perl文本处理》

现在我需要整合这几个文件，最终格式如下：

0和1分别表示在对应文件中存在与否（当然也可以是对应文件中的表达值）。

《Perl文本处理》

大家第一时间肯定会想到用哈希表，但是怎么用呢？每个文件设置一个哈希？这个太傻了，而且如果文件很多，那可怎么办….那么用数组，但是数组怎么区分每一行呢？说到这里，可能大家都知道了，没错，用哈希数组。

大概思路是这样的，每当第i个文件的某一行时，检测是否有name对应的哈希key，如果没有，设置以这个name为哈希key的哈希数组为0数组。然后将这个数组的第i个值设置为1就好了。

闲话少说，看代码（注意加粗字体）：

use warnings;

use strict;

my %hash=();

my @tmp=(0)x@ARGV;

for(my $i=0;$i<@ARGV;$i++){

open IN,$ARGV[$i];

while(){

chomp;

my @sArr=split(/\t/,$_);

unless(exists $hash{$sArr[0]}){

@{$hash{$sArr[0]}}=@tmp;

}

$hash{$sArr[0]}[$i]=1; }

close IN;

}

foreach my $key(keys %hash){

print join(“\t”,$key,@{$hash{$key}}).”\n”; }

是不是很简单，所以一般涉及到文本处理我一般都是先用perl处理好，之后再用R进行其它计算或者画图。

下面再安利一段添加千分符的程序，

use strict;

use warnings;

my $input =shift;

my $output=shift;

open IN,$input;

open OUT,”>$output”;

while(my $line=){

if($line=~s/(\d+.{0,1}\d+)/&separate($1)/eg);

print OUT $line;

}

sub separate{

my $number=$1;

if(substr($number,0,1)==0){return $number;}

if($number=~m/./){

return $number;

}

if(length($number)>3){

my $l=length($number);

my $i=int $l/3;

my $j=$l%3;

my $newnum=””;

my $h=substr($number,0,$j);

for(;$i>0;$i–){

if($j!=0){$newnum=$newnum.$h.”,”;}

$h=substr($number,$j,3);

$j+=3;

}

$newnum=$newnum.$h;

return $newnum;

}

else{return $number;}

}

close(IN);

close(OUT);

这个代码是我刚做生信的时候做的，思路也不难，首先通过这一段程序识别数字序列（纯数字或带小数点）,然后对是别人到的数字系列进行处理（也就是添加千分符），先得到数字系列长度对3取模（字符处理位置）和取余数（循环次数），最后就是在循环里面用substr把千分符加进去而已，思路很简单，具体还是看代码吧。

perl强大的模式匹配以及好用的哈希结构，是很好的数据处理语言，特别是生信分析中涉及到的大量的匹配和数据提取整合等工作。

    原文作者：Forfunnys
    原文地址: https://www.jianshu.com/p/b6e51e5e4e5a
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。