使用python的正则表达式抽取文本中的年月日信息,如2020年5月19日。
def find_time(yanbao_txt, entity):
paras = [para.strip() for para in yanbao_txt.split('\n') if para.strip()][:5]
for para in paras:
ret = re.findall(r'(\d{4})\s*[\./年-]\s*(\d{1,2})\s*[\./月-]\s*(\d{1,2})\s*日?', para)
if ret:
year, month, day = ret[0]
time = '{}/{}/{}'.format(year, month.lstrip(), day.lstrip())
return time
return None