完整工程用例 最近一直在用directstream方式消费kafka中的数据,特此总结,整个代码工程分为三个部分 一. 完整工程代码如下(某些地方特意做了说明, 这个代码的部分函数直接用的是spark-streaming…
标签:import
Android打电话后跳转到指定界面
import android.Manifest; import android.app.Activity; import android.content.Context; import android.content.I…
python scrapy selenium phantomJS爬取动态网页
之前用selenium和phantomJS单线程爬取tyc的对外投资信息,无奈爬取速度太慢,单个企业抓取速度大概在>30-60s,这还不是最关键的,最令人崩溃的是刚抓取一会就有bug,导致程序中断,程序中断的原因大…
python-3.x – 递归导入所有文件夹中的所有.py文件
参见英文答案 > How to import other Python files?  …
一段读取 excel 自动生成 hive load shell 脚本的代码
自动化是程序员的天性,这里是一段小代码自动化手工重复的工作。 package collect; import com.google.common.base.Charsets; import com.google.comm…
OC基础学习1:对C的扩展
分析最简单的Hello Objective-C程序 #import <Foundation/Foundation.h> int main(int argc, const char * argv[]) { NS…
Sqlite之删除超过N条的数据
历史记录,搜索历史记录等,这些记录又不能无限的存储,只需要记录最新的N条就可以。 bean对象 import com.lidroid.xutils.db.annotation.Column; import com.lid…
初学scrapy的坑
爬取腾讯招聘,scrapy项目 items配置 import scrapy class TencentItem(scrapy.Item): positionName = scrapy.Field() spider配置 #…
Python Scrapy 登录获取cookies
# -*- coding: utf-8 -*- import scrapy from scrapy.http import Request,FormRequest import re class PachSpider(s…
Scrapy爬虫中获取正常json格式的方法
管道中数据保存成json格式,但是文件每一行是独立的{} 字典结构,整个文件不是标准的json结构。 需要在每一行的末尾加上’,’和换行,整个文件需要用[]包括起来,这样文件才是标准的json格式…
pymongo 入门
Pymongo 使用流程 使用语言: python3.6 环境 : Windows 10,Docker(Mongodb) 0 安装## pip install pymongo 1.链接 import pymongo fr…
Kafka+Spark Streaming进行网站黑名单实时过滤
开发环境: spark 2.3 kafka 1.1.1 黑名单数据是从mysql中获取的。源数据是从kafka中获取的,数据格式就是简单的姓名,为了与黑名单数据做join,源数据和黑名单数据都需要转换成键值对的形式。 J…