随着银行卡用卡环境的不断改善,以及各商业银行服务的改进,人们越来越多地接受并习惯于使用银行卡,各商业银行也积累了大量与使用银行卡相关的数据。过去这些数据仅用来核对账务和打印留作凭证,数据内部包含的各种信息对银行经营工作的作用没有得到重视,或者由于技术条件限制难以对其进行分析。近年来,随着数据挖掘技术的发展,如何对这些数据进行有效利用,挖掘用卡行为中潜在的对银行经营管理有益的信息,已引起各家银行的高度重视。银行信息的数据挖掘也因此成为非常活跃的应用领域。
一、数据挖掘技术概述
数据挖掘是20世纪末期产生的信息技术,是从大量数据中抽取隐含、潜在、有用的信息的方法和过程。最终目的是发现和推导出有价值的知识,包括概念、规则、模式和模型等,为管理和决策提供参考和支持。这项技术融合了数理统计、数据库技术、机器学习、人工智能、神经网络、计算技术、可视化技术等多领域的理论和技术,是对数据由感性认识到理性认识的升华。
1.数据挖掘的功能
数据挖掘的功能包括发现概念类描述、关联规则、分类和预测、聚类、趋势分析、偏差分析和类似性分析。其中,在银行业务的数据挖掘中运用较多的是关联规则、分类和预测、聚类分析。关联规则主要用于发现大量数据中项集之间的关联和相互关系,主要指标是最小支持度阀值和最小置信度阀值;分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未来数据趋势,是一种有指导的学习过程;聚类分析是将数据分成多个类或簇,在同一个簇中对象之间高度相似。与分类不同,聚类分析要划分的类或簇是未知的,是无指导的学习过程。
2.数据挖掘主要采用的技术和方法
数据挖掘主要采用的技术和方法包括决策树、神经网络技术、遗传算法、粗糙与模糊集方法。
(1)决策树。这一方法需要建立分类向导模型,并使模型看起来像树状。把问题分成若干子问题,按规则分配到树的不同结点,然后对树进行分析。决策树常用于分类和预测。
(2)神经网络技术。神经网络技术具有非线性数据的快速拟合能力,被广泛应用于数据挖掘中,是聚类分析的有力工具。
(3)遗传算法。它模仿自然进化的思想,从一个初始数据群体开始,采用适者生存的原则,通过迭代交换成员,最终得到优化的知识集,主要应用于关联规则和分类挖掘。
(4)粗糙与模糊集方法。主要应用粗糙集和模糊集理论进行分类和预测。
3.数据挖掘的主要过程
数据挖掘的主要过程包括数据预处理、数据分析与建模、结果解释与评价等步骤。
(1)数据预处理。根据挖掘目标,收集需要使用的原始数据,并对这些数据进行清洗、转换和集成处理,产生样本数据。
(2)数据分析与建模。主要根据分类和预测挖掘、聚类挖掘、关联规则挖掘等任务的不同要求,选择相应的挖掘算法和模型以及具体的编程。这个步骤是挖掘工作的重点和难点,需要行业经验的支持。
(3)结果解释与评价。通过可视化工具将分析结果展示为图表、文字、报表等。此外,通过测试数据集进行检验,重新优化调整分析和建模过程,以提高挖掘的准确率和运行效率。
以上各个步骤可以经过反复实验和改进,直到得出满意的结果。
二、银行卡用卡行为的数据挖掘
1.对银行卡用卡行为进行数据挖掘的作用
(1)发掘银行黄金客户群体;
(2)制定不同客户群体的服务和产品营销策略;
(3)发现及预防银行卡欺诈行为和洗钱行为;
(4)辅助评估客户的信用等级;
(5)辅助管理和决策支持。
2.银行卡用卡行为数据挖掘涉及的银行数据
用卡行为数据挖掘主要涉及两个方面的数据信息:①持卡人特征信息,包括卡号、性别、年龄、学历、收入、职业、职务、从事行业等属性;②卡交易信息,包括卡号、交易类型(查询、改密码、取款、存款、转账、缴费、消费购物、授权/预授权、理财等)、交易方式(柜台、ATM、POS、电话、互联网等)、交易金额、交易笔数等属性。
这两方面的信息可以通过卡号关联。同时,根据挖掘的需要也可以增加原始数据,如卡种类信息、商户信息等。原始数据来源既可以是银行联机系统的数据库表,也可以是后台支持系统的数据仓库,甚至可以是文本或表格等形式。原始数据经过预处理后,形成统一的样本数据集,可将样本数据集70%左右作为训练集,用于挖掘,其余30%左右作为测试集,用于检验挖掘结果。
3.用卡行为数据挖掘的内容
用卡行为数据挖掘的内容实际上涉及很多内容,本文选取其中具有代表性的几个方面,以起到抛砖引玉的作用。
(1)挖掘不同客户群体的用卡习惯
①挖掘持卡人的特征属性与交易行为之间的关联规则,以及用卡习惯的聚类分析。包括挖掘不同年龄段、不同受教育程度、不同收入、不同职业和职务的持卡人群用卡习惯有何不同。用卡习惯包括习惯用何种交易方式、何种交易类型、平均交易金额和交易笔数、卡支出与收入的占比、卡内存款的沉淀与支出占比等。②按交易类型或交易方式进行的专项内容的分类或聚类挖掘。例如,可以采用多项聚类挖掘技术挖掘什么人喜欢网上购物,什么人习惯持卡消费,什么人习惯采用自助方式交易;采用关联规则、分类和预测挖掘技术在使用挖掘中间业务产品的客户接受情况;挖掘客户在使用ATM取款交易前后与查询余额习惯是否存在强关联规则,以及是否存在某些客户群体对某种交易方式的偏爱等。
(2)银行卡用卡行为与银行贡献度的挖掘
以往银行划分优质持卡客户的标准往往是卡存款数额,卡内余额较高的客户固然是重点客户,但“有卡不用”是不能给银行带来更大效益的,而“用卡适度”却可以在规避风险的前提下,给银行带来效益的最大化。因此通过用卡行为的数据挖掘,可以拓展我们的视野,找出更多的对银行贡献度较高的客户群体。例如,可以用关联分类方法,通过分别设定卡支出与收入的占比、卡内存款的沉淀与支出占比范围等约束条件,只要满足最小支持度和可信度,则建立收入属性与交易金额等属性的关联规则,并赋予一个分类属性C,C={高收入用卡习惯良好人群,高收入用卡习惯一般人群,高收入用卡习惯差人群,一般收入用卡习惯良好人群,一般收入用卡习惯一般人群,一般收入用卡习惯差人群,低收入用卡习惯良好人群,低收入用卡习惯一般人群,低收入用卡习惯差人群},从而可以更加细分客户群体,从一个侧面反映客户对银行的贡献度,并针对不同群体进行金融产品营销或差异化服务。
(3)用卡行为挖掘结果指导客户信用等级的动态评估
目前,对信用卡申请人信用等级的评判,主要依据申请人填写的申请表中的几个静态指标来决定,而且持卡人的授权额度和还款时间只按金卡和普通卡“一刀切”,没有因人而异,在信用卡有效期内,一般也不会再做调整。一般情况下,申请信用卡的人基本上已经持有各种借记卡,如果银行能通过对申请人以往借记卡的用卡行为进行分析,结合静态指标,动态调整申请人的信用卡授权额度和还款时间,则可在保障银行资金安全运作的基础上,带来尽可能高的收益。
例如:可以在采用神经网络进行信用评估模型的输入层节点上,将用卡行为与贡献度挖掘的分类结果,即收入与用卡习惯的分类属性C和其他目前采用的评估要素作为输入变量,并进一步转换输入样本值,将输出层设置为3个节点,即(1,1,1)代表金卡用户可上调授信额度和还款周期;(1,1,0)或(1,0,1)代表金卡用户可不调整授信额度和还款周期;(1,0,0)代表金卡用户可下调授信额度和还款周期;(0,1,1)代表普通卡用户可上调授信额度和还款周期;(0,1,0)或(0,0,1)代表普通卡用户可不调整调授信额度和还款周期;(0,0,0)代表普通卡用户可下调授信额度和还款周期。利用BP算法的自主学习性,反馈调整隐藏层节点数和权值,通过反复训练建立评估模型,并给出相应的准确率。通过评估,在原金卡和普通卡持卡人授权额度和还款时间分类的基础上,赋予每个人不同的授权额度和还款时间的调整系数(表示为权w),动态微调每个持卡人的授权额度和还款时间。
(4)银行卡用卡行为挖掘在风险预警中的应用
过去,信用卡恶意透支行为或洗钱行为一般只能通过事后监督或大额交易事后申报来掌握。而这些行为数据一般都被淹没在大量的联机卡交易数据中,粗看起来与普通交易无法区分,但如果结合持卡人的特征属性和同类人群用卡习惯分析,借助聚类挖掘中对孤立点的检测技术,挖掘以往交易数据中信用卡恶意透支行为或洗钱行为的交易特征,然后建立预警模型,就可以及时发现和防范此类事件的发生,这也是未来防范金融风险的技术手段之一。
(5)其他综合数据挖掘和分析
银行卡用卡行为挖掘与其他技术和数据结合还可以进行持卡人消费观念分析;持卡人理财观念分析;银行客户忠诚度分析;银行卡品牌知名度分析;银行网点和自助设备布局分析;甚至可以利用用卡行为挖掘结果,调整不同持卡群体的ATM取款额度和网上银行的页面,更好地体现差异化服务。
4.银行在数据挖掘过程中应注意的几个问题
(1)技术与行业经验的结合
数据挖掘过程固然需要选用合理和优化的算法或模型,但还必须与银行背景知识结合,有利于提高挖掘的准确性和效率。例如,在建模阶段概念分层的过程就是银行背景知识的运用。这直接关系到模型的好坏,因此应尽量采用基于行业经验约束的挖掘。在挖掘结果的分析和评估中也要用到行业经验,去除无用的挖掘结果。
(2)对挖掘结果的理解
挖掘结果往往反映的是群体特征、发展趋势,或者潜在规则,这里强调的是“群体”,不意味着挖掘结果会适应于所有个体。例如,在信用卡恶意透支行为和洗钱行为挖掘中,恶意透支行为或洗钱行为是通过孤立点检测发现的,但并不代表是孤立点就是信用卡恶意透支行为或洗钱行为。关联规则不应当直接应用而不做进一步分析,而且这一规则不必指出因果关系,只是代表一个较大的可能性。因此,银行的管理决策部门应正确理解数据挖掘的作用,将其作为辅助决策手段,而不要片面认为数据挖掘应该是绝对准确的,或者发现某些个体特征与挖掘结果不符合,就一概否定数据挖掘的作用和结果。