Python正则表达式非贪婪表现得像贪婪

2019年8月4日 59次阅读

我正在处理成绩单,并且在以非贪婪的方式匹配模式方面遇到困难.它仍然抓得太多,看起来像在做贪婪的比赛.

成绩单如下：

>> John doe：您好,我是John Doe.

>>你好,我是Jane Doe.

>>感谢您的光临,我们将在两分钟后开始.

>>山姆史密斯：[没有音频]大家早上好.

要在>>中找到发言人的姓名(无论名称)：我写道

pattern=re.compile(r'>>(.*?):')
transcript='>> John doe: Hello, I am John Doe. >> Hello, I am Jane Doe. >> Thank you for coming, we will start in two minutes. >> Sam Smith: [no audio] Good morning, everyone.'
re.findall(pattern, transcript)

我期待’John Doe’和’Sam Smith’,但它给了我’John Doe’和’你好,我是Jane Doe. >>感谢您的光临,我们将在两分钟后开始. >>山姆史密斯’

我很困惑因为.*？是非贪婪的,我认为应该能够抓住’Sam Smith’.我该如何修复代码,以便它只能抓取任何内容
>> (无论名称)：？另外,我使用的是Python 3.6.

谢谢！

最佳答案你真的需要正则表达式吗？您可以拆分>>提示然后过滤掉你的名字.

>>> [i.split(':')[0].strip() for i in transcript.split('>>') if ':' in i]
['John doe', 'Sam Smith']