Python CSV阅读器在输入错误时会引发错误

2019年8月6日 175次阅读

我有一个名为group_data的字符串,我想用
Python的csv.reader读取它.这是我正在打电话.

group = csv.reader(group_data.split('\n'), delimiter=';', 
                   doublequote=True, quoting=csv.QUOTE_ALL, strict=True)

我希望无论何时出现以下情况,都会引发异常：

>有一个引号：“A”;“B”bb“B”;“C”代替
“A”;“B”“bb”“B”;“C”)
>任何字段都不是
引用：A; B; C而不是“A”;“B”;“C”

但是,上面的摘录接受两行都是正确的,即使doublequote = True,quoting = csv.QUOTE_ALL和strict = True设置也是如此.我应该设置另一个选项让它失败吗？如果这是不可能的,有没有其他方法可以快速注意到是否有单引号或不带引号的字段？

最佳答案对于它的价值,看起来Python 3.4拒绝你的第一个例子：

In [8]: mkreader = lambda x: csv.reader(x.split("\n"), delimiter=";", doublequote=True, quoting=csv.QUOTE_ALL, strict=True)
In [11]: for l in mkreader('''"A";"B ""bb"" B";"C"'''): print(l)
['A', 'B "bb" B', 'C']
In [12]: for l in mkreader('''"A";"B "bb" B";"C"'''): print(l)
...
Error: ';' expected after '"'

虽然它允许第二个：

In [13]: for l in mkreader('''A;B;C'''): print(l)
['A', 'B', 'C']

看看docs,看起来这是因为QUOTE_ALL严格来说是一个编写器设置,而不是读者设置：

csv.QUOTE_ALL
    Instructs writer objects to quote all fields.

相比于：

csv.QUOTE_NONNUMERIC

    Instructs writer objects to quote all non-numeric fields.

    Instructs the reader to convert all non-quoted fields to type float.

所以看起来你需要自己做这个,如果你想要它.如果你知道的话,这很简单;将永远不会出现在您的行内(似乎是这种情况,因为您没有设置escapechar)：

In [19]: def check_line(line):
    for word in line.split(';'):
        if word[0] != '"' or word[-1] != '"':
            raise csv.Error("Bad input.")
In [20]: check_line("A;B;C")
...
Error: Bad input.