最近在工作中遇到了从一段有一定规则文本中提取姓名、身份证、电话、地址得需求,本来想使用Hanlp分完词后,使用动态规划分离出语义词,在通过机器学习得方式提取,但考虑到实际工作量较大,故采用了一种比较简单得方式,废话不多说贴代码
1、提取操作工具类
package com.hyt.ima.alarmschedule.utils;
import com.hyt.ima.alarmschedule.bean.po.PersonInfo;
import org.apache.commons.lang.StringUtils;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class ExtractionTools {
/**
* 提取text中的身份证
* @param text
* @return
*/
public static String pickUpCardNo(String text) {
List<String> list = new ArrayList<String> ();
//身份证号正则
String reg = "\\d{17}[\\d|x|X]|\\d{15}";
Pattern pattern=Pattern.compile(reg);
Matcher matcher = pattern.matcher(text);
while (matcher.find()) {
String cardNo = matcher.group();
if(CheckIdCardUtils.check(cardNo)){
return matcher.group();
}
}
return null;
}
/**
* 提取text中的手机号码
* @param text
* @return
*/
public static String pickUpPhoneNo(String text) {
//手机号正则
String regExp = "(1[3-9]\\d{9})";
Pattern phonePattern = Pattern.compile(regExp);
Matcher matcher = phonePattern.matcher(text);
while (matcher.find()) {
return matcher.group();
}
return null;
}
/**
*
* @author mxf
* @Date 2019/10/28
* @param str
* @return 提取人名
*/
public static String getStrName(String str){
String regEx = "(王|李|张|刘|陈|杨|黄|赵|吴|周|徐|孙|马|朱|胡|郭|何|高|林|罗|郑|梁|谢|宋|唐|许|韩|冯|邓|曹|彭|曾" +
"|肖|田|董|袁|潘|于|蒋|蔡|余|杜|叶|程|苏|魏|吕|丁|任|沈|姚|卢|姜|崔|钟|谭|陆|汪|范|金|石|廖|贾|夏|韦|傅" +
"|方|白|邹|孟|熊|秦|邱|江|尹|薛|闫|段|雷|侯|龙|史|黎|贺|顾|毛|郝|龚|邵|万|钱|覃|武|戴|孔|汤|庞|樊|兰|殷" +
"|施|陶|洪|翟|安|颜|倪|严|牛|温|芦|季|俞|章|鲁|葛|伍|申|尤|毕|聂|柴|焦|向|柳|邢|岳|齐|沿|梅|莫|庄|辛|管" +
"|祝|左|涂|谷|祁|时|舒|耿|牟|卜|路|詹|关|苗|凌|费|纪|靳|盛|童|欧|甄|项|曲|成|游|阳|裴|席|卫|查|屈|鲍|位" +
"|覃|霍|翁|隋|植|甘|景|薄|单|包|司|柏|宁|柯|阮|桂|闵|欧阳|解|强|丛|华|车|冉|房|边|辜|吉|饶|刁|瞿|戚|丘" +
"|古|米|池|滕|晋|苑|邬|臧|畅|宫|来|嵺|苟|全|褚|廉|简|娄|盖|符|奚|木|穆|党|燕|郎|邸|冀|谈|姬|屠|连|郜|晏" +
"|栾|郁|商|蒙|计|喻|揭|窦|迟|宇|敖|糜|鄢|冷|卓|花|艾|蓝|都|巩|稽|井|练|仲|乐|虞|卞|封|竺|冼|原|官|衣|楚" +
"|佟|栗|匡|宗|应|台|巫|鞠|僧|桑|荆|谌|银|扬|明|沙|薄|伏|岑|习|胥|保|和|蔺|水|云|昌|凤|酆|常|皮|康|元|平" +
"|萧|湛|禹|无|贝|茅|麻|危|骆|支|咎|经|裘|缪|干|宣|贲|杭|诸|钮|嵇|滑|荣|荀|羊|於|惠|家|芮|羿|储|汲|邴|松" +
"|富|乌|巴|弓|牧|隗|山|宓|蓬|郗|班|仰|秋|伊|仇|暴|钭|厉|戎|祖|束|幸|韶|蓟|印|宿|怀|蒲|鄂|索|咸|籍|赖|乔" +
"|阴|能|苍|双|闻|莘|贡|逢|扶|堵|宰|郦|雍|却|璩|濮|寿|通|扈|郏|浦|尚|农|别|阎|充|慕|茹|宦|鱼|容|易|慎|戈" +
"|庚|终|暨|居|衡|步|满|弘|国|文|寇|广|禄|阙|东|殴|殳|沃|利|蔚|越|夔|隆|师|厍|晃|勾|融|訾|阚|那|空|毋|乜" +
"|养|须|丰|巢|蒯|相|后|红|权逯|盖益|桓|公|万俟|司马|上官|夏侯|诸葛|闻人|东方|赫连|皇甫|尉迟|公羊|澹台" +
"|公冶|宗政|濮阳|淳于|单于|太叔|申屠|公孙|仲孙|轩辕|令狐|钟离|宇文|长孙|慕容|鲜于|闾丘|司徒|司空|亓官" +
"|司寇|仉|督|子车|颛孙|端木|巫马|公西|漆雕|乐正|壤驷|公良|拓跋|夹谷|宰父|谷粱|法|汝|钦|段干|百里|东郭" +
"|南门|呼延|归海|羊舌|微生|帅|缑|亢|况|郈|琴|梁丘|左丘|东门|西门|佘|佴|伯|赏|南宫|墨|哈|谯" +
"|笪|年|爱|仝|代)[\u4E00-\u9FA5]{1,6}\\(";
Pattern p=Pattern.compile(regEx);
Matcher m=p.matcher(str);
while(m.find()) {
String personName = m.group().replace("(","");
return personName;
}
return null;
}
public static String getAddress(String str){
String regex = "([\\u4E00-\\u9FA5A-Za-z0-9_]+(省|市|区|县|道|路|街|号)){2,}";
Pattern phonePattern = Pattern.compile(regex);
Matcher matcher = phonePattern.matcher(str);
while (matcher.find()) {
return matcher.group();
}
return null;
}
/**
* 将初始数据进行分组解析
* @param str
* @return
*/
public static List<PersonInfo> getRealName(String str){
str = str.replace("(","(").replace(")",")");
String[] a = str.split(")");
List<PersonInfo> infos = new ArrayList<>();
for(String b:a){
String cardNo = pickUpCardNo(b);
if(StringUtils.isEmpty(cardNo)){
continue;
}
b = b.replace(cardNo,"");
String phoneNo = pickUpPhoneNo(b);
/* if(StringUtils.isEmpty(phoneNo)){
continue;
}*/
String name = getStrName(b);
if(StringUtils.isEmpty(name)){
continue;
}
PersonInfo personInfo = new PersonInfo();
personInfo.setCardNo(cardNo);
personInfo.setPhoneNo(phoneNo);
personInfo.setPersonName(name);
infos.add(personInfo);
}
return infos;
}
public static void main(String[] args) {
String text = "民警张**带辅警张**和郭**到顺坝村卫生所门口现场系报警人贾峰国(***,****)称其老表张大顺(372522195710100019,135123123123)被人打了,故报警,因对方不在现场,民警让其老板先去医院看伤,后到我所来做材料(警务通)倪峰\n" +
"后双方在宁围派出所达成调解协议,韩有(371521198411051559,*******)赔偿张大顺3500元,事态平息。";
List<PersonInfo> phones = getRealName(text);
for(PersonInfo personInfo:phones) {
System.out.println(personInfo.getPersonName()+"|"+personInfo.getCardNo()+"|"+personInfo.getPhoneNo());
}
}
}
2、身份证号码校验类
package com.hyt.ima.alarmschedule.utils;
import java.text.SimpleDateFormat;
import java.util.Date;
public class CheckIdCardUtils {
private final static String BIRTH_DATE_FORMAT = "yyyyMMdd"; // 身份证号码中的出生日期的格式
private final static Date MINIMAL_BIRTH_DATE = new Date(-2209017600000L); // 身份证的最小出生日期,1900年1月1日
private final static int NEW_CARD_NUMBER_LENGTH = 18;
private final static int OLD_CARD_NUMBER_LENGTH = 15;
// 18位身份证中最后一位校验码
private final static char[] VERIFY_CODE = { '1', '0', 'X', '9', '8', '7',
'6', '5', '4', '3', '2' };
// 18位身份证中,各个数字的生成校验码时的权值
private final static int[] VERIFY_CODE_WEIGHT = { 7, 9, 10, 5, 8, 4, 2, 1,
6, 3, 7, 9, 10, 5, 8, 4, 2 };
/**
* 如果是15位身份证号码,则自动转换为18位
*
* @param cardNumber
* @return
*/
public static boolean check(String cardNumber){
if (null != cardNumber){
cardNumber = cardNumber.trim();
if (OLD_CARD_NUMBER_LENGTH == cardNumber.length()){
cardNumber = contertToNewCardNumber(cardNumber);
}
return validate(cardNumber);
}
return false;
}
public static boolean validate(String cardNumber){
boolean result = true;
result = result && (null != cardNumber); // 身份证号不能为空
result = result && NEW_CARD_NUMBER_LENGTH == cardNumber.length(); // 身份证号长度是18(新证)
// 身份证号的前17位必须是阿拉伯数字
for (int i = 0; result && i < NEW_CARD_NUMBER_LENGTH - 1; i++){
char ch = cardNumber.charAt(i);
result = result && ch >= '0' && ch <= '9';
}
// 身份证号的第18位校验正确
result = result
&& (calculateVerifyCode(cardNumber) == cardNumber
.charAt(NEW_CARD_NUMBER_LENGTH - 1));
// 出生日期不能晚于当前时间,并且不能早于1900年
try{
Date birthDate = new SimpleDateFormat(BIRTH_DATE_FORMAT)
.parse(getBirthDayPart(cardNumber));
result = result && null != birthDate;
result = result && birthDate.before(new Date());
result = result && birthDate.after(MINIMAL_BIRTH_DATE);
/**
* 出生日期中的年、月、日必须正确,比如月份范围是[1,12],
* 日期范围是[1,31],还需要校验闰年、大月、小月的情况时,
* 月份和日期相符合
*/
String birthdayPart = getBirthDayPart(cardNumber);
String realBirthdayPart = new SimpleDateFormat(BIRTH_DATE_FORMAT)
.format(birthDate);
result = result && (birthdayPart.equals(realBirthdayPart));
}catch(Exception e){
result = false;
}
return result;
}
private static String getBirthDayPart(String cardNumber){
return cardNumber.substring(6, 14);
}
/**
* 校验码(第十八位数):
*
* 十七位数字本体码加权求和公式 S = Sum(Ai * Wi), i = 0...16 ,先对前17位数字的权求和;
* Ai:表示第i位置上的身份证号码数字值 Wi:表示第i位置上的加权因子 Wi: 7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4
* 2; 计算模 Y = mod(S, 11)< 通过模得到对应的校验码 Y: 0 1 2 3 4 5 6 7 8 9 10 校验码: 1 0 X 9
* 8 7 6 5 4 3 2
*
* @param cardNumber
* @return
*/
private static char calculateVerifyCode(CharSequence cardNumber){
int sum = 0;
for (int i = 0; i < NEW_CARD_NUMBER_LENGTH - 1; i++){
char ch = cardNumber.charAt(i);
sum += ((int) (ch - '0')) * VERIFY_CODE_WEIGHT[i];
}
return VERIFY_CODE[sum % 11];
}
/**
* 把15位身份证号码转换到18位身份证号码<br>
* 15位身份证号码与18位身份证号码的区别为:<br>
* 1、15位身份证号码中,"出生年份"字段是2位,转换时需要补入"19",表示20世纪<br>
* 2、15位身份证无最后一位校验码。18位身份证中,校验码根据根据前17位生成
*
* @param oldCardNumber
* @return
*/
private static String contertToNewCardNumber(String oldCardNumber){
StringBuilder buf = new StringBuilder(NEW_CARD_NUMBER_LENGTH);
buf.append(oldCardNumber.substring(0, 6));
buf.append("19");
buf.append(oldCardNumber.substring(6));
buf.append(CheckIdCardUtils.calculateVerifyCode(buf));
return buf.toString();
}
}
3、电话号码校验类
package com.hyt.ima.alarmschedule.utils;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.util.regex.PatternSyntaxException;
public class CheckPhoneUtils {
public static boolean check(String str) throws PatternSyntaxException {
// ^ 匹配输入字符串开始的位置
// \d 匹配一个或多个数字,其中 \ 要转义,所以是 \\d
// $ 匹配输入字符串结尾的位置
String regExp = "^(1[3-9]\\d{9}$)";
Pattern p = Pattern.compile(regExp);
Matcher m = p.matcher(str);
return m.matches();
}
}
注:由于我实际业务要提取人民的文本中,人名后都跟有一段括号,括号中带有人的身份证号和电话号码,故采用)分组的形式分段提取,准确率达到了95%以上,比使用hanLp的方式精确率更高