数据治理中的元数据就是数据的数据,讲究从数据的全生命周期:产生/采集、存储、加工和展现等环节进行描述与分析。元数据体现数据的各类关系和属性,可从技术、业务、管理3个维度对元数据进行划分,从而帮助用户对整个系统内数据资…
分类:数据分析
城市大数据的采集与分析处理
面对日益增长的城市人口所带来的交通压力,环境污染、城市安全、管理漏洞、信息孤岛等,对城市大数据的采集与分析处理,构建一个智慧城市显得更加迫切。 智慧城市亟需构建一张完整的城市数据信息图,立足核心指标…
云计算给大数据分析工具带来了什么
如果大数据是一块蛋糕,那么大数据分析工具就是切蛋糕的刀叉。人们都期待着能用“刀叉”从大数据中挖出自己想要的“价值”,因此大数据分析工具被人们寄予厚望。而云计算技术的兴起似乎又给大数据注入了新的推进剂,那么大数据和云计…
企业数字化转型需重视哪些问题
大数据可以帮助企业制定可行的战略规划,获取客户洞察力,支持客户购买行为,建立新的商业模式,从而赢得竞争优势。成功的企业数字案例显然有自己的共同点:重视数据质量,重视数据环境,建立有效的数据管理系统。然而,失败的企业也…
大数据如何改变商业?浅谈大数据给商业(企业)带来的影响
在20世纪,价值已经从有形基础设施变成了无形财产,从土地和工厂变成了品牌和产权。而现在进入21世纪,新的变革正在进行中,也就是说,计算机存储和数据分析方法已经取代计算机硬件成为一种新的价值来源。数据已成为宝贵的公司资产,…
Pandas日期时间列(Python)中仅提取月份和年份
年份和月份合并的一种方法是对它们进行整数编码,如2014年8月的201408。 df['YearMonth'] = df['ArrivalDate'].map(lambda x: 1000*x.year + x.mont…
Python读取csv文件的某一行
Python读取csv文件的某一行 reader函数 DictReader 站长用Python写了一个可以提取csv任一列的代码,欢迎使用。Github链接 csv是Comma-Separated Values的缩写,是…
Python合并有相同列的两个表格
问题是有相同列的两个表格合并,但是列中的值顺序不一样,所以需要用到merge函数。 import pandas as pd import os print(os.getcwd()) #打印出当前工作路径 df…
利用pandas提取某个列中不重复项目
假设存在以下数据: user_id age gender occupation zip_code 1 24 M technician 85711 2 53 F other 94043 3 23 M writer 3206…
大数据的主要分析模式与技术
作为全球互联网的前沿概念,大数据主要包括两方面特征:一方面整个社会的信息量急剧增长,另一方面个人可获取的信息也呈指数增长。从科技发展的角度来看,“大数据”是“数据化”趋势下的必然产物!并且随着这一趋势的不断深入,在不…
数据清洗:缺失值,异常值和重复值的处理
在数据清洗过程中,主要处理的是缺失值,异常值和重复值。所谓清洗,是对数据进行丢弃,填充,替换,去重等操作,实现去除异常,纠正错误,补足缺失的目的。 1. 数据列缺失的4种处理方法 数据缺失分为2种: 行记录的缺失,这…
大数据平台安全性需求分析
大数据平台建设应在满足安全需求这一总目标指导下,结合项目实际,基于现代信息安全理论,遵循国家标准,采用目前国内外先进的信息安全技术,采取有效的安全策略和技术手段,建立覆盖硬件网络、操作系统、数据库、应用软件和管理等各…