我试图将一堆页面保存在创建它们的py文件旁边的文件夹中。我在windows上,所以当我试图在文件路径后面加反斜杠时,它会生成一个特殊字符。在
我说的是:from bs4 import BeautifulSoup
import urllib2, urllib
import csv
import requests
from os.path import expanduser
print “yes”
with open(‘intjpages.csv’, ‘rb’) as csvfile:
pagereader = csv.reader(open(“intjpages.csv”,”rb”))
i=0
for row in pagereader:
print row
agentheader = {‘User-Agent’: ‘Nerd’}
request = urllib2.Request(row[0],headers=agentheader)
url = urllib2.urlopen(request)
soup = BeautifulSoup(url)
for div in soup.findAll(‘div’, {“class” : “side”}):
div.extract()
body = soup.find_all(“div”, { “class” : “md” })
name = “page” + str(i) + “.html”
path_to_file = “\cleanishdata\”
outfile = open(path_to_file + name, ‘w’)
#outfile = open(name,’w’) #this works fine
body=str(body)
outfile.write(body)
outfile.close()
i+=1
我可以将文件保存到.py文件所在的同一个文件夹中,但当我使用rapidminer处理这些文件时,它也包含了该程序。如果我能把它保存在一个目录里,它会更整洁。在
我很惊讶这个问题还没有在整个互联网上得到回应。在
编辑:非常感谢!最后我使用了你们两个答案的信息。IDLE让我使用r’\string\’将字符串与反斜杠连接起来。我需要使用abamert的path_to_脚本技术来解决在py文件所在的位置创建新文件夹的问题。再次感谢!以下是相关的编码更改:
^{pr2}$