12306抢票脚本开发(五)中文火车站名到火车站代号的转换

文章地址 :

12306抢票脚本开发(一)提纲
12306抢票脚本开发(二)解析火车站代号并分析查询的HTTP请求
12306抢票脚本开发(三)实现一个简单的查询脚本
12306抢票脚本开发(四)完善上节课的代码并面向对象
12306抢票脚本开发(五)更友好的使用方式
12306抢票脚本开发(六)更友好的时间输入方式
12306抢票脚本开发(七)将前几节课的成果结合起来实现一个完整的工具

简介 :

为了能让上节课的代码能适合更多的人使用 , 这里需要做几件事 :

1. 能解析火车站中文名
2. 能解析更友好的时间
3. 默认查询的是成人票 , 当用户指定要查询学生票的时候才查询学生票
4. 将交互的方式做以调整 (接收命令行参数)

首先看第一个功能 : 解析火车站的中文名

我们首先将之前分析中用到的那个保存中文名和代号的文件下载到本地
然后尝试解析这个文件 , 并和用户的输入进行匹配 , 这里为了方便就先编写一个简单的函数

下载这个文件 : 
https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.8997
我们可以看到这个 URL 是带参数的 , 就是说 , 随着时间的推移
火车站的数据可能会有更新 , 因此这里需要用一个版本信息来控制下载的文件
这里的版本是 station_version=1.8997
那么我们将来的程序运行的时候应该要保证每一次的这个文件都是最新的
因此我们首先要获取最新的版本号 , 然后再根据版本号去下载这个文件
我们知道 HTML 中可以引用外部的 JS 代码 , 需要将这个 JS 文件的 URL 填写在 : 
<script>标签的 src 属性中 , 当浏览器解析到这个标签的时候 , 就会发起一个 HTTP 请求来向服务器请求这个文件
那么只要我们能得到主页的 HTML , 解析这个 HTML 文档 , 去寻找链接 station_name.js 的 script 标签
这个标签的 src 属性就是我们要请求的文件 , 这个时候就可以保证使用的火车站的信息是和 12306 官网是一致的了

tools.py

#!/usr/bin/env python
# encoding:utf-8

import requests
import bs4
import logging

def getStationNamesVersion():
    '''
    获取 station_names.js 这个文件最新的版本号
    '''
    logging.captureWarnings(True)
    url = "https://kyfw.12306.cn/otn/"
    station_name_version = "" # 先初始化为 0 , 防止没有获取到的时候不能正常返回
    response = requests.get(url, verify=False)
    content = response.text.encode("UTF-8")
    soup = bs4.BeautifulSoup(content, "html.parser")
    scripts = soup.findAll("script")
    srcs = [] # 保存 HTML 中所有的 script 标签的 src 属性
    for i in scripts:
        try: # 这里使用 try 是因为有的 script 标签并没有 src 这个属性
            src = i['src']
            srcs.append(src)
        except:
            pass
    for i in srcs: # 这里设计地比较有扩展性 , 如果还要获取别的某个文件的版本 , 只需要在循环中添加判断即可
        if "station_name" in i: # 找到含有 station_names 的一条 src
            station_name_version = i.split("station_version=")[1] # 截取版本号
            # print "成功获取到车站信息版本 :" , station_name_version # 打印日志
    return station_name_version

def getUrlForStationNames(station_name_version):
    '''
    构建用于下载 station_names.js 这个文件的地址
    '''
    return "https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=" + station_name_version

def downloadFile(url, filename):
    '''
    下载文件并保存到本地
    '''
    logging.captureWarnings(True)
    f = open(filename, "a");
    f.write(requests.get(url, verify=False).text.encode("UTF-8"))
    f.close()

然后我们来实现一个测试上述函数的脚本 :

#!/usr/bin/env python
# encoding:utf-8

import tools
import os


# 获取官网的这个文件的版本
print "正在获取官网的火车站信息文件版本..."
station_names_version = tools.getStationNamesVersion()
print "获取成功 !"
print "官网版本号 : [",(station_names_version),"]"

# 比对本地文件
print "正在获取本地缓存文件文件名..."
local_file_name = ""
local_file_version = ""
for filename in os.listdir("./"):
    if filename.endswith("_station_names.dat"):
        local_file_name = filename
if local_file_name != "":
    print "获取成功 ! 本地文件名 : [", local_file_name, "]"
    print "正在解析本地文件版本号..."
    local_file_version = local_file_name.split("_")[0]
    print "本地版本号 : [", local_file_version, "]"
else:
    print "本地没有缓存文件 , 准备开始下载..."

# 下载文件 , 保存文件名以版本开始 (便于下次运行的时候比对)
if local_file_version == "":
        print "官网火车站文件更新 , 正在下载..."
        tools.downloadFile(tools.getUrlForStationNames(tools.getStationNamesVersion()), station_names_version+"_"+"station_names.dat")
else:
    if local_file_version != station_names_version:
        print "官网火车站文件更新 , 正在下载..."
        tools.downloadFile(tools.getUrlForStationNames(tools.getStationNamesVersion()), station_names_version+"_"+"station_names.dat")
    else:
        print "本地文件已最新 , 直接使用!"

# 读取文件
print "正在读取文件..."
station_names = open("./" + station_names_version + "_" + "station_names.dat", "r")
content = station_names.read()
content = content[20:-2] # 去掉多余的 js 关键字 , 只提取出字符串内容
print "正在解析站点信息..."
stations = content.split("@")
print "解析成功 ! 总站点数 : [ " + str(len(stations)) + " ]"

运行效果 :

《12306抢票脚本开发(五)中文火车站名到火车站代号的转换》 Paste_Image.png

现在我们已经能下载这个文件了 , 我们接下来就要解析这个文件 :
根据上几节课的分析 , 我们已经知道了 :

1. 这是一个 js 文件 , 其中只定义了一个字符串变量 , 而我们只需要关注这个字符串 , 因此需要对这个 js 文件的内容进行处理
2. 所有的火车站之间用 '@' 分隔
3. 每一单独的火车站的字段应该是有 6 个 , 每一个之间都以 '|' 分隔
4. 其中 : ("@bjb|北京北|VAP|beijingbei|bjb|0")
    字段0 : 火车站名称汉语拼音首字母
    字段1 : 火车站名称汉语
    字段2 : 在查票的时候火车站的代码 (比如说 : 上海的代码即为 SHH)
    字段3 : 火车站名称汉语拼音
    字段4 : 火车站名称汉语拼音首字母 (模糊匹配 : 比如说输入 北京南站 , 那么有可能也有 北京站 的信息)
    字段5 : 火车站编号(数字的序号 , 应该是铁道部或者网站自己定义的 , 应该是用于唯一标识某一个火车站)

那么我们接下来要实现的代码的功能就是 : 输入火车站名称汉语(字段1) , 能返回火车站查询时用的代码(字段2)
开始写吧~

#!/usr/bin/env python
# encoding:utf-8

import tools
import os


# 获取官网的这个文件的版本
print "正在获取官网的火车站信息文件版本..."
station_names_version = tools.getStationNamesVersion()
print "获取成功 !"
print "官网版本号 : [",(station_names_version),"]"

# 比对本地文件
print "正在获取本地缓存文件文件名..."
local_file_name = ""
local_file_version = ""
for filename in os.listdir("./"):
    if filename.endswith("_station_names.dat"):
        local_file_name = filename
if local_file_name != "":
    print "获取成功 ! 本地文件名 : [", local_file_name, "]"
    print "正在解析本地文件版本号..."
    local_file_version = local_file_name.split("_")[0]
    print "本地版本号 : [", local_file_version, "]"
else:
    print "本地没有缓存文件 , 准备开始下载..."

# 下载文件 , 保存文件名以版本开始 (便于下次运行的时候比对)
if local_file_version == "":
        print "官网火车站文件更新 , 正在下载..."
        tools.downloadFile(tools.getUrlForStationNames(station_names_version), station_names_version+"_"+"station_names.dat")
else:
    if local_file_version != station_names_version:
        print "官网火车站文件更新 , 正在下载..."
        tools.downloadFile(tools.getUrlForStationNames(station_names_version), station_names_version+"_"+"station_names.dat")
    else:
        print "本地文件已最新 , 直接使用!"


def getStationCode(station_name):
    result = ""
    # 读取文件
    print "正在读取文件..."
    station_names = open("./" + station_names_version + "_" + "station_names.dat", "r")
    content = station_names.read()
    station_names.close()
    content = content[20:-2] # 去掉多余的 js 关键字 , 只提取出字符串内容
    print "正在解析站点信息..."
    stations = content.split("@")[1:] # 由于这个文件开头就是 '@' , 因此需要去掉第一个元素
    print "解析成功 ! 总站点数 : [ " + str(len(stations)) + " ]"
    for station in stations:
        fields = station.split("|")
        # station_name_pinyin_simple = fields[0] 
        station_name_standard = fields[1] 
        station_code = fields[2] 
        # station_name_pinyin = fields[3] 
        # station_name_pinyin_simple_fuzz = fields[4] 
        # station_num = fields[5]
        if station_name == station_name_standard:
            result = station_code
            return result
    return result


print "[ 北京 ] -> [" + getStationCode("北京") + "]"
print "[ 上海 ] -> [" + getStationCode("上海") + "]"
print "[ 广州 ] -> [" + getStationCode("广州") + "]"
print "[ 深圳 ] -> [" + getStationCode("深圳") + "]"
print "[ 成都 ] -> [" + getStationCode("成都") + "]"
print "[ 哈尔滨 ] -> [" + getStationCode("哈尔滨") + "]"
print "[ 西安 ] -> [" + getStationCode("西安") + "]"

运行效果

《12306抢票脚本开发(五)中文火车站名到火车站代号的转换》 Paste_Image.png

这里其实还有可以优化的地方
比如说 :

1. 函数每调用一次就有一次 IO , 应该优化成只进行一次 IO
2. 暂时不支持模糊查询
3. 暂时不支持通过拼音首字母查询

关于问题 2 , 我们可以这样解决 :

如果一个城市有好多个火车站 , 那么它们的命名一定是这样的 : (例如 北京)
北京站
北京北站
北京南站
北京东站
北京西站
哈 , 有规律了吧 , 都是以北京开头的
那么我们要实现这样的查询 , 只需要很简单地将上述代码中判断函数参数和文件中的火车站名是否相等的函数改成 startswith
这样就可以进行模糊查询 , 但是这样做的话 , 就需要遍历完整个文件
而且需要返回一个列表

完整的代码在下方 , 运行结果为 :

《12306抢票脚本开发(五)中文火车站名到火车站代号的转换》 Paste_Image.png

代码 :

tools.py

#!/usr/bin/env python
# encoding:utf-8

import requests
import bs4
import logging

def getStationNamesVersion():
    '''
    获取 station_names.js 这个文件最新的版本号
    '''
    logging.captureWarnings(True)
    url = "https://kyfw.12306.cn/otn/"
    station_name_version = "" # 先初始化为 0 , 防止没有获取到的时候不能正常返回
    response = requests.get(url, verify=False)
    content = response.text.encode("UTF-8")
    soup = bs4.BeautifulSoup(content, "html.parser")
    scripts = soup.findAll("script")
    srcs = [] # 保存 HTML 中所有的 script 标签的 src 属性
    for i in scripts:
        try: # 这里使用 try 是因为有的 script 标签并没有 src 这个属性
            src = i['src']
            srcs.append(src)
        except:
            pass
    for i in srcs: # 这里设计地比较有扩展性 , 如果还要获取别的某个文件的版本 , 只需要在循环中添加判断即可
        if "station_name" in i: # 找到含有 station_names 的一条 src
            station_name_version = i.split("station_version=")[1] # 截取版本号
            # print "成功获取到车站信息版本 :" , station_name_version # 打印日志
    return station_name_version

def getUrlForStationNames(station_name_version):
    '''
    构建用于下载 station_names.js 这个文件的地址
    '''
    return "https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=" + station_name_version

def downloadFile(url, filename):
    '''
    下载文件并保存到本地
    '''
    logging.captureWarnings(True)
    f = open(filename, "a");
    f.write(requests.get(url, verify=False).text.encode("UTF-8"))
    f.close()

test.py

#!/usr/bin/env python
# encoding:utf-8

import tools
import os


# 获取官网的这个文件的版本
print "正在获取官网的火车站信息文件版本..."
station_names_version = tools.getStationNamesVersion()
print "获取成功 !"
print "官网版本号 : [",(station_names_version),"]"

# 比对本地文件
print "正在获取本地缓存文件文件名..."
local_file_name = ""
local_file_version = ""
for filename in os.listdir("./"):
    if filename.endswith("_station_names.dat"):
        local_file_name = filename
if local_file_name != "":
    print "获取成功 ! 本地文件名 : [", local_file_name, "]"
    print "正在解析本地文件版本号..."
    local_file_version = local_file_name.split("_")[0]
    print "本地版本号 : [", local_file_version, "]"
else:
    print "本地没有缓存文件 , 准备开始下载..."

# 下载文件 , 保存文件名以版本开始 (便于下次运行的时候比对)
if local_file_version == "":
        print "官网火车站文件更新 , 正在下载..."
        tools.downloadFile(tools.getUrlForStationNames(station_names_version), station_names_version+"_"+"station_names.dat")
else:
    if local_file_version != station_names_version:
        print "官网火车站文件更新 , 正在下载..."
        tools.downloadFile(tools.getUrlForStationNames(station_names_version), station_names_version+"_"+"station_names.dat")
    else:
        print "本地文件已最新 , 直接使用!"


def getStationCodes(station_name):
    results = []
    # 读取文件
    print "正在读取文件..."
    station_names = open("./" + station_names_version + "_" + "station_names.dat", "r")
    content = station_names.read()
    station_names.close()
    content = content[20:-2] # 去掉多余的 js 关键字 , 只提取出字符串内容
    print "正在解析站点信息..."
    stations = content.split("@")[1:] # 由于这个文件开头就是 '@' , 因此需要去掉第一个元素
    print "解析成功 ! 总站点数 : [ " + str(len(stations)) + " ]"
    for station in stations:
        fields = station.split("|")
        # station_name_pinyin_simple = fields[0] 
        station_name_standard = fields[1] 
        station_code = fields[2] 
        # station_name_pinyin = fields[3] 
        # station_name_pinyin_simple_fuzz = fields[4] 
        # station_num = fields[5]
        if station_name_standard.startswith(station_name):
            
            results.append({"station_code":station_code, "station_name":station_name_standard})
    return results

def printStationInfo(station_info):
    for result in station_info:
        print "[ %s ] -> [ %s ]" % (result["station_name"], result["station_code"])

print "=" * 18 + " [ 北京 ] " + "=" * 18
printStationInfo(getStationCodes("北京"))

print "=" * 18 + " [ 上海 ] " + "=" * 18
printStationInfo(getStationCodes("上海"))

print "=" * 18 + " [ 天津 ] " + "=" * 18
printStationInfo(getStationCodes("天津"))

print "=" * 18 + " [ 成都 ] " + "=" * 18
printStationInfo(getStationCodes("成都"))

print "=" * 18 + " [ 哈尔滨 ] " + "=" * 18
printStationInfo(getStationCodes("哈尔滨"))

print "=" * 18 + " [ 西安 ] " + "=" * 18
printStationInfo(getStationCodes("西安"))

现在我们已经可以完成从中文的火车站名到火车站代号的转换了
也就是说 , 我们最开始提出的问题中的问题 1 已经解决
这样的话 , 其实我们大部分的内容已经完成了, 这就已经可以制作成一个很友好的小工具了
如果再能配合 Linux 的定时任务就可以实现对火车票进行轮询的功能
当然在查到火车票的时候要对用户进行通知 , 这我们会在以后的课程中进行介绍

总结 :

本节课我们主要实现了 : 中文火车站名到火车站代号的转换
既可以进行精确的查询
也可以进行模糊的查询

预告 :

下节课我们来实现让程序能接受更多格式的时间输入 , 感谢大家的支持~

    原文作者:王一航
    原文地址: https://www.jianshu.com/p/ae01b7532db5
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞