data文件数据转换为csv文件
前言
因为现在大部分提供的数据集是data类型的,而python无法直接使用data类数据进行处理。试了很多方法,但都没成功,所以试了这个很麻烦的方法
1.将.data文件后缀改为.txt
如图(示例):
2.利用python将生成xlsx文件
代码如图(示例):
import openpyxl
txtname = 'E:\german.txt'
excelname = 'E:\germanDTA.xlsx'
#读取 txt 文档:防止读取错误,读取时需要指定编码
fopen = open(txtname, 'r',encoding='utf-8')
lines = fopen.readlines()
#写入 excel表
file = openpyxl.Workbook()
sheet = file.active
# 新建一个sheet
sheet.title = "data"
i = 0
for line in lines:
# strip 移出字符串头尾的换行
line = line.strip('\n')
# 用','替换掉'\t',很多行都有这个问题,导致不能正确把各个特征值分开
line = line.replace("\t",",")
line = line.split(',')
for index in range(len(line)):
sheet.cell(i+1, index+1, line[index])
# 行数递增
i = i + 1
file.save(excelname)
然后就生成了xlsx文件。
3.生成csv文件
此时虽然已经生成了xlsx文件,但是会发现,他的列并没有分开,然后需要在excel表中将其分列。
最后将xlsx文件另存为csv文件,完成。需要注意的是,不可以偷懒直接将后缀改为csv,不然python
无法读取文件。
代码来自:https://blog.csdn.net/pursuit_zhangyu/article/details/83957977