本地化读取 hive库做模型训练

我们在做模型训练的时候,大多时候,数据样本可能是离线的 excel 文件 csv文件或者是txt文件,也或者是放在 HDFS上的文件 或者是hive库 更或者是 mysql redis MongoDB里,我们这次简单说一下 假如你的数据放在 HDFS 或者hive中 怎么操作。

大多数公司 运维为了系统安全 ,在自家的服务器上都有跳板机 ,限制大家的操作权限,也正是因为跳板机的存在导致 大家与 hive HDFS 的“一墙之隔” 按照普通方法不能直接连接。导致 大家经常要登录服务器 又是从hive库中导出,再上传ftp,再下载到本地来,其实这样一来,操作就比较麻烦了。如果,我们在本地连接hive库,并把数据读取到 pandas ,然后训练 ,这就非常爽了。这个时候需要应用的一项技术
SSH 隧道技术
通过它 做到本地 跳过跳板机连接上服务器上的hive,进行操作。
然后在python程序中 把hive中的读取数据加载到pandas的Dataframe中
然后作为 模型的喂料 开始进行训练。

具体的 SSH 隧道技术 我会在 之后 告诉大家

    原文作者:Helen_Cat
    原文地址: https://www.jianshu.com/p/e3549ed17c46
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞