爬取的过程 爬取网站前首先要对其网站的url结构进行分析,遇到已经爬取过的网址会将其加入已经爬取的列表中,避免重复爬取。 Scrapy是基于第归算法实现的深度优先算法爬取数据 eg def level_queue(roo…
标签:node
搭建Hadoop-HA + ZooKeeper环境
前提:搭建Hadoop-HA环境 node01 node02 node03 node04 NameNode01 NameNode02 NameNode03 DataNode01 DataNode02 DataNode03…
Node.js+Express+MongoDB 建站实例
本项目为系列博客,目前有以下系列 [ Node.js+Express+MongoDB 建站实例(1)– 网站初始化] Node.js+Express+MongoDB 建站实例(2)– 登录模块 N…
Spark运行模式
2018/04/07 自己知道的spark运行的四种模式,以一个计算hdfs中某文件(20G大小)的行数为例,这个文件的块集中在node3上。 我的spark集群work是node1-3,master是node1。 (具…
解决Jenkins自动构建nodejs项目无法完成的问题
需求描述 最近添置服务器 之前只有一个的时候使用比较原始的方式: 手动ftp上传文件 ps -ef|grep node* 找到在后台运行的node项目 kill这个进程 进入项目目录 nohup npm start &a…
缓存架构之06:redis主从复制原理、断点续传、无磁盘化复制、过期key处理
课程大纲 1、主从架构的核心原理 当启动一个slave node的时候,它会发送一个PSYNC命令给master node 如果这是slave node重新连接master node,那么master node仅仅会复制…
node.js + mongodb在mac环境开发初探
demo素材 在github上搜了一个node的demo,来自 (https://github.com/hubwiz/example-node) 是一个线上学习和练习编程的网站,汇智网。 此demo使用了node.js的…
nodeJS简单介绍及使用nodeJS操纵数据库
NodeJS的基本概念 NodeJS是什么? `官网: https://nodejs.org/en/ Node.js® is a JavaScript runtime built on Chrome’s V8…
Node.js+Express.js+Redis+MySQL=Restful Server
目录 几点杂谈 Node + Express 环境配置略述+开源库的选择 Express.js 框架 Node + MySQL 实例 (换成了mongodb) Node + Redis 实例 Node的同步实现 (希望有…
黑猴子的家:Hadoop 完全分布式,集群基础性能测试
1、上传文件到集群 小文件 [victor@node1 hadoop-2.8.2]$ bin/hdfs dfs -mkdir -p /user/victor/conf [victor@node1 hadoop-2.8.2…
安装git,nodejs,npm,forever,mongodb。
安装node npm git。 1.安装node.js环境 sudo apt-get install g++ curl libssl-dev apache2-utils 要确保安装了git sudo apt-get -y…
jenkins pipeline初见
Pipeline支持两种语法:Declarative(在Pipeline 2.5中引入)和Scripted Pipeline 语法: pipeline { /* insert Declarative Pipeline h…