• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

(转载)CSV文件处理PERL

原作者: [db:作者] 来自: [db:来源] 收藏 邀请
  1. http://cn.perlmaven.com/how-to-read-a-csv-file-using-perl
  2. http://search.cpan.org/~hmbrand/Text-CSV_XS-1.09/CSV_XS.pm
  3. 读取并处理文本是 Perl 的强项。有时候你有一个CSV (Comma-separated values)文件,需要从中提取信息,该怎么办呢?
  4. 本节给出三个解决方案。
  5. 如果你的CSV文件比较简单,简单的Perl脚本就能轻松搞定。这里是我们的方案一。
  6. 第二个方案能够对付稍微复杂的CSV文件。
  7. 第三个方案,能够处理所有的情况,不过,需要用CPAN上的模块。
  8. 假设我们有一文件,内容如下:
  9. Tudor,Vidor,10,Hapci
  10. Szundi,Morgo,7,Szende
  11. Kuka,Hofeherke,100,Kiralyno
  12. Boszorkany,Herceg,9,Meselo
  13. 这就是一个基本的CSV文件。每个数据项由逗号隔开(Comma-separated values),多行构成一个文件。
  14. 当然,分隔符不一定是逗号,只要保持一致就好了。不过通常是逗号隔开,也有是用 TAB 或者 | 键隔开。
  15. 我们要做的是算出第三列所有数字之和。
  16. 思路
  17.     按行读取文件
  18.     从读取的行中,取出第三列的值
  19.     累加
  20. 我们在以前的章节中学过怎样按行读取文件。下面我们来看怎样提取第三列的值。
  21. 你可能想到直接用substr(),不过,因为第三列的位置在每一行中不是固定的。那什么是不变的呢? 第三列的值总是在第二个逗号与第三个逗号之间。基于此,我们可以用index() 来得到每一行, 第二个和与第三个逗号的位置。然后再用substr()。不过,Perl中,有更好的方法。
  22. 用 split
  23. split() 的中文意思是分隔。要实现分隔的操作,你需要分隔符和要分的字符串。 分隔符可以是字符串,甚至是正则式。简单起见,我们只用字符串。
  24. 如果你有一个字符串$str = "Tudor:Vidor:10:Hapci",执行@fields = split(":" , $str);, @fields中将会有四个值, "Tudor", "Vidor", "10" and "Hapci"。print $fields[2]将会得到 10。 不要忘了,Perl 数组从 0 开始索引的。
  25. 对于我们的问题,用 @fields = split("," , $str); 就可以了。当然,split 后的 () 通常省略。
  26. 所以,完整的程序可以这样写:
  27.     #!/usr/bin/perl
  28.     use strict;
  29.     use warnings;
  30.      
  31.     my $file = $ARGV[0] or die "Need to get CSV file on the command line\n";
  32.      
  33.     my $sum = 0;
  34.     open(my $data, '<', $file) or die "Could not open '$file' $!\n";
  35.      
  36.     while (my $line = <$data>) {
  37.     chomp $line;
  38.      
  39.     my @fields = split "," , $line;
  40.     $sum += $fields[2];
  41.     }
  42.     print "$sum\n"; 
  43. 保存为csv.pl,在终端输入 perl csv.pl data.csv 就可以得到结果了。
  44. 万一有数据项中带逗号怎么办?
  45. 显然,我们的程序不能用了。
  46. 比如这个文件,完全符合CSV的格式规定。
  47. Tudor,Vidor,10,Hapci
  48. Szundi,Morgo,7,Szende
  49. Kuka,"Hofeherke, alma",100,Kiralyno
  50. Boszorkany,Herceg,9,Meselo
  51. 第三行,split后,第三列的值是 alma"。
  52. Text::CSV
  53. 好像有点复杂了,是吧,那好,求助 CPAN。幸运的是,Text::CSV 能够帮助我们。
  54. 解决上个问题的代码:
  55.     #!/usr/bin/perl
  56.     use strict;
  57.     use warnings;
  58.      
  59.     use Text::CSV;
  60.     my $csv = Text::CSV->new({ sep_char => ',' });
  61.      
  62.     my $file = $ARGV[0] or die "Need to get CSV file on the command line\n";
  63.      
  64.     my $sum = 0;
  65.     open(my $data, '<', $file) or die "Could not open '$file' $!\n";
  66.     while (my $line = <$data>) {
  67.     chomp $line;
  68.      
  69.     if ($csv->parse($line)) {
  70.      
  71.     my @fields = $csv->fields();
  72.     $sum += $fields[2];
  73.      
  74.     } else {
  75.     warn "Line could not be parsed: $line\n";
  76.     }
  77.     }
  78.     print "$sum\n"; 
  79. Text::CSV 是Perl的第三方扩展,帮助我们读写 CSV 文件。Perl 程序员把第三方扩展称为模块,有些语言中称为类库。
  80. 使用模块之前,需要先安装。我们已经讲过怎样安装模块,在这里不做赘述。
  81. 安装了模块以后,用use Text::CSV;来加载。
  82. Text::CSV 实际是一个类,可以用new来创建这个类的实例。-> 是调用的意思。
  83. my $csv = Text::CSV->new({ sep_char => ',' }); 创建了一个类的实例,通常称为对象。 Perl 中对象也是一个标量。事实上,可以省略 { sep_char => ',' } 因为,默认的分隔符(sep_char) 是逗号。
  84. 接下来,说说 split 和 $sum 所在的行。
  85. Text::CSV 模块没有split 函数,而是提供了 “parse 函数” ————在面向对象编程中,称为"parse 方法"。用箭头(->)来调用
  86. $csv->parse($line) 的意思是,解析 $line, 它并不直接返回解析的内容,而是告诉你解析是否成功, 比如,如果 $line 的内容是 Kuka,"Hofeherke, alma,100,Kiralyno,解析就会失败,因为这行的内容不符合 CSV的格式。
  87. 如果解析成功,我们可以调用 fields 方法,来取得解析的值。然后取出我们想要的那个。
  88. 一个数据项占据多行
  89. 比如:
  90. Tudor,Vidor,10,Hapci
  91. Szundi,Morgo,7,Szende
  92. Kuka,"Hofeherke,
  93. alma",100,Kiralyno
  94. Boszorkany,Herceg,9,Meselo
  95. 我们的上个解决方案又不行了。不过 Text::CSV 是可以解决这个问题的。
  96. 以下代码基于Text::CSV_XS 模块现任维护者的评论:
  97.     #!/usr/bin/perl
  98.     use strict;
  99.     use warnings;
  100.      
  101.     use Text::CSV;
  102.      
  103.     my $file = $ARGV[0] or die "Need to get CSV file on the command line\n";
  104.      
  105.     my $csv = Text::CSV->new ({
  106.     binary => 1,
  107.     auto_diag => 1,
  108.     sep_char => ',' # not really needed as this is the default
  109.     });
  110.      
  111.     my $sum = 0;
  112.     open(my $data, '<:encoding(utf8)', $file) or die "Could not open '$file' $!\n";
  113.     while (my $fields = $csv->getline( $data )) {
  114.     $sum += $fields->[2];
  115.     }
  116.     if (not $csv->eof) {
  117.     $csv->error_diag();
  118.     }
  119.     close $data;
  120.     print "$sum\n"; 
  121. 上例中,我们不再按行读取文件,而是打开文件后,交给Text::CSV 模块处理,我们通过 getline 来 得到需要的行。Text::CSV 会把占据多个行的数据项当作一个数据正确处理,而不是当作多行。
  122. 另外,getline 返回的并不是我们期望的数组,而是数组的引用。想要从数组的引用中得到第三项,用 $fields->[2]。我们以后会更详细的学习引用相关的知识。
  123. 如果读完CSV的数据项,正常情况下,应该是到了文件末尾。如果不是,那就是有问题,我们让程序输出诊断信息。

鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
perl学习笔记之:模式匹配,模块,文档发布时间:2022-07-22
下一篇:
PerlFASTA文件拆分合并发布时间:2022-07-22
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap