java从文本中提取姓名、身份证、电话、地址

        最近在工作中遇到了从一段有一定规则文本中提取姓名、身份证、电话、地址得需求,本来想使用Hanlp分完词后,使用动态规划分离出语义词,在通过机器学习得方式提取,但考虑到实际工作量较大,故采用了一种比较简单得方式,废话不多说贴代码

1、提取操作工具类

package com.hyt.ima.alarmschedule.utils;

import com.hyt.ima.alarmschedule.bean.po.PersonInfo;
import org.apache.commons.lang.StringUtils;

import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class ExtractionTools {

    /**
     * 提取text中的身份证
     * @param text
     * @return
     */
    public static String pickUpCardNo(String text) {
        List<String> list = new ArrayList<String> ();
        //身份证号正则
        String reg = "\\d{17}[\\d|x|X]|\\d{15}";
        Pattern pattern=Pattern.compile(reg);
        Matcher matcher = pattern.matcher(text);
        while (matcher.find()) {
            String cardNo = matcher.group();
            if(CheckIdCardUtils.check(cardNo)){
                return matcher.group();
            }
        }
        return null;
    }


    /**
     * 提取text中的手机号码
     * @param text
     * @return
     */
    public static String pickUpPhoneNo(String text) {
        //手机号正则
        String regExp = "(1[3-9]\\d{9})";
        Pattern phonePattern = Pattern.compile(regExp);
        Matcher matcher = phonePattern.matcher(text);
        while (matcher.find()) {
            return matcher.group();
        }
        return null;
    }
    /**
     *
     * @author mxf
     * @Date  2019/10/28
     * @param str
     * @return 提取人名
     */
    public static String getStrName(String str){
        String regEx = "(王|李|张|刘|陈|杨|黄|赵|吴|周|徐|孙|马|朱|胡|郭|何|高|林|罗|郑|梁|谢|宋|唐|许|韩|冯|邓|曹|彭|曾" +
                "|肖|田|董|袁|潘|于|蒋|蔡|余|杜|叶|程|苏|魏|吕|丁|任|沈|姚|卢|姜|崔|钟|谭|陆|汪|范|金|石|廖|贾|夏|韦|傅" +
                "|方|白|邹|孟|熊|秦|邱|江|尹|薛|闫|段|雷|侯|龙|史|黎|贺|顾|毛|郝|龚|邵|万|钱|覃|武|戴|孔|汤|庞|樊|兰|殷" +
                "|施|陶|洪|翟|安|颜|倪|严|牛|温|芦|季|俞|章|鲁|葛|伍|申|尤|毕|聂|柴|焦|向|柳|邢|岳|齐|沿|梅|莫|庄|辛|管" +
                "|祝|左|涂|谷|祁|时|舒|耿|牟|卜|路|詹|关|苗|凌|费|纪|靳|盛|童|欧|甄|项|曲|成|游|阳|裴|席|卫|查|屈|鲍|位" +
                "|覃|霍|翁|隋|植|甘|景|薄|单|包|司|柏|宁|柯|阮|桂|闵|欧阳|解|强|丛|华|车|冉|房|边|辜|吉|饶|刁|瞿|戚|丘" +
                "|古|米|池|滕|晋|苑|邬|臧|畅|宫|来|嵺|苟|全|褚|廉|简|娄|盖|符|奚|木|穆|党|燕|郎|邸|冀|谈|姬|屠|连|郜|晏" +
                "|栾|郁|商|蒙|计|喻|揭|窦|迟|宇|敖|糜|鄢|冷|卓|花|艾|蓝|都|巩|稽|井|练|仲|乐|虞|卞|封|竺|冼|原|官|衣|楚" +
                "|佟|栗|匡|宗|应|台|巫|鞠|僧|桑|荆|谌|银|扬|明|沙|薄|伏|岑|习|胥|保|和|蔺|水|云|昌|凤|酆|常|皮|康|元|平" +
                "|萧|湛|禹|无|贝|茅|麻|危|骆|支|咎|经|裘|缪|干|宣|贲|杭|诸|钮|嵇|滑|荣|荀|羊|於|惠|家|芮|羿|储|汲|邴|松" +
                "|富|乌|巴|弓|牧|隗|山|宓|蓬|郗|班|仰|秋|伊|仇|暴|钭|厉|戎|祖|束|幸|韶|蓟|印|宿|怀|蒲|鄂|索|咸|籍|赖|乔" +
                "|阴|能|苍|双|闻|莘|贡|逢|扶|堵|宰|郦|雍|却|璩|濮|寿|通|扈|郏|浦|尚|农|别|阎|充|慕|茹|宦|鱼|容|易|慎|戈" +
                "|庚|终|暨|居|衡|步|满|弘|国|文|寇|广|禄|阙|东|殴|殳|沃|利|蔚|越|夔|隆|师|厍|晃|勾|融|訾|阚|那|空|毋|乜" +
                "|养|须|丰|巢|蒯|相|后|红|权逯|盖益|桓|公|万俟|司马|上官|夏侯|诸葛|闻人|东方|赫连|皇甫|尉迟|公羊|澹台" +
                "|公冶|宗政|濮阳|淳于|单于|太叔|申屠|公孙|仲孙|轩辕|令狐|钟离|宇文|长孙|慕容|鲜于|闾丘|司徒|司空|亓官" +
                "|司寇|仉|督|子车|颛孙|端木|巫马|公西|漆雕|乐正|壤驷|公良|拓跋|夹谷|宰父|谷粱|法|汝|钦|段干|百里|东郭" +
                "|南门|呼延|归海|羊舌|微生|帅|缑|亢|况|郈|琴|梁丘|左丘|东门|西门|佘|佴|伯|赏|南宫|墨|哈|谯" +
                "|笪|年|爱|仝|代)[\u4E00-\u9FA5]{1,6}\\(";
        Pattern p=Pattern.compile(regEx);
        Matcher m=p.matcher(str);
        while(m.find()) {
            String personName = m.group().replace("(","");
            return personName;
        }
        return null;
    }
    public static String getAddress(String str){
        String regex = "([\\u4E00-\\u9FA5A-Za-z0-9_]+(省|市|区|县|道|路|街|号)){2,}";
        Pattern phonePattern = Pattern.compile(regex);
        Matcher matcher = phonePattern.matcher(str);
        while (matcher.find()) {
            return matcher.group();
        }
        return null;
    }
    /**
     * 将初始数据进行分组解析
     * @param str
     * @return
     */
    public static List<PersonInfo> getRealName(String str){
        str = str.replace("(","(").replace(")",")");
        String[] a = str.split(")");
        List<PersonInfo> infos = new ArrayList<>();
        for(String b:a){
            String cardNo = pickUpCardNo(b);
            if(StringUtils.isEmpty(cardNo)){
                continue;
            }
            b = b.replace(cardNo,"");
            String phoneNo = pickUpPhoneNo(b);
/*            if(StringUtils.isEmpty(phoneNo)){
                continue;
            }*/
            String name = getStrName(b);
            if(StringUtils.isEmpty(name)){
                continue;
            }
            PersonInfo personInfo = new PersonInfo();
            personInfo.setCardNo(cardNo);
            personInfo.setPhoneNo(phoneNo);
            personInfo.setPersonName(name);
            infos.add(personInfo);
        }
        return infos;
    }
    public static void main(String[] args) {
        String text = "民警张**带辅警张**和郭**到顺坝村卫生所门口现场系报警人贾峰国(***,****)称其老表张大顺(372522195710100019,135123123123)被人打了,故报警,因对方不在现场,民警让其老板先去医院看伤,后到我所来做材料(警务通)倪峰\n" +
                "后双方在宁围派出所达成调解协议,韩有(371521198411051559,*******)赔偿张大顺3500元,事态平息。";
        List<PersonInfo> phones = getRealName(text);
        for(PersonInfo personInfo:phones) {
            System.out.println(personInfo.getPersonName()+"|"+personInfo.getCardNo()+"|"+personInfo.getPhoneNo());
        }
    }

}

2、身份证号码校验类

package com.hyt.ima.alarmschedule.utils;

import java.text.SimpleDateFormat;
import java.util.Date;

public class CheckIdCardUtils {
    private final static String BIRTH_DATE_FORMAT = "yyyyMMdd"; // 身份证号码中的出生日期的格式

    private final static Date MINIMAL_BIRTH_DATE = new Date(-2209017600000L); // 身份证的最小出生日期,1900年1月1日

    private final static int NEW_CARD_NUMBER_LENGTH = 18;

    private final static int OLD_CARD_NUMBER_LENGTH = 15;
    // 18位身份证中最后一位校验码
    private final static char[] VERIFY_CODE = { '1', '0', 'X', '9', '8', '7',
            '6', '5', '4', '3', '2' };
    // 18位身份证中,各个数字的生成校验码时的权值
    private final static int[] VERIFY_CODE_WEIGHT = { 7, 9, 10, 5, 8, 4, 2, 1,
            6, 3, 7, 9, 10, 5, 8, 4, 2 };
    /**
     * 如果是15位身份证号码,则自动转换为18位
     *
     * @param cardNumber
     * @return
     */
    public static boolean check(String cardNumber){
        if (null != cardNumber){
            cardNumber = cardNumber.trim();
            if (OLD_CARD_NUMBER_LENGTH == cardNumber.length()){
                cardNumber = contertToNewCardNumber(cardNumber);
            }
            return validate(cardNumber);
        }
        return false;
    }
    public static boolean validate(String cardNumber){
        boolean result = true;
        result = result && (null != cardNumber); // 身份证号不能为空
        result = result && NEW_CARD_NUMBER_LENGTH == cardNumber.length(); // 身份证号长度是18(新证)
        // 身份证号的前17位必须是阿拉伯数字
        for (int i = 0; result && i < NEW_CARD_NUMBER_LENGTH - 1; i++){
            char ch = cardNumber.charAt(i);
            result = result && ch >= '0' && ch <= '9';
        }
        // 身份证号的第18位校验正确
        result = result
                && (calculateVerifyCode(cardNumber) == cardNumber
                .charAt(NEW_CARD_NUMBER_LENGTH - 1));
        // 出生日期不能晚于当前时间,并且不能早于1900年
        try{
            Date birthDate = new SimpleDateFormat(BIRTH_DATE_FORMAT)
                    .parse(getBirthDayPart(cardNumber));
            result = result && null != birthDate;
            result = result && birthDate.before(new Date());
            result = result && birthDate.after(MINIMAL_BIRTH_DATE);
            /**
             * 出生日期中的年、月、日必须正确,比如月份范围是[1,12],
             * 日期范围是[1,31],还需要校验闰年、大月、小月的情况时,
             * 月份和日期相符合
             */
            String birthdayPart = getBirthDayPart(cardNumber);
            String realBirthdayPart = new SimpleDateFormat(BIRTH_DATE_FORMAT)
                    .format(birthDate);
            result = result && (birthdayPart.equals(realBirthdayPart));
        }catch(Exception e){
            result = false;
        }
        return result;
    }

    private static String getBirthDayPart(String cardNumber){
        return cardNumber.substring(6, 14);
    }

    /**
     * 校验码(第十八位数):
     *
     * 十七位数字本体码加权求和公式 S = Sum(Ai * Wi), i = 0...16 ,先对前17位数字的权求和;
     * Ai:表示第i位置上的身份证号码数字值 Wi:表示第i位置上的加权因子 Wi: 7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4
     * 2; 计算模 Y = mod(S, 11)< 通过模得到对应的校验码 Y: 0 1 2 3 4 5 6 7 8 9 10 校验码: 1 0 X 9
     * 8 7 6 5 4 3 2
     *
     * @param cardNumber
     * @return
     */
    private static char calculateVerifyCode(CharSequence cardNumber){
        int sum = 0;
        for (int i = 0; i < NEW_CARD_NUMBER_LENGTH - 1; i++){
            char ch = cardNumber.charAt(i);
            sum += ((int) (ch - '0')) * VERIFY_CODE_WEIGHT[i];
        }
        return VERIFY_CODE[sum % 11];
    }

    /**
     * 把15位身份证号码转换到18位身份证号码<br>
     * 15位身份证号码与18位身份证号码的区别为:<br>
     * 1、15位身份证号码中,"出生年份"字段是2位,转换时需要补入"19",表示20世纪<br>
     * 2、15位身份证无最后一位校验码。18位身份证中,校验码根据根据前17位生成
     *
     * @param oldCardNumber
     * @return
     */
    private static String contertToNewCardNumber(String oldCardNumber){
        StringBuilder buf = new StringBuilder(NEW_CARD_NUMBER_LENGTH);
        buf.append(oldCardNumber.substring(0, 6));
        buf.append("19");
        buf.append(oldCardNumber.substring(6));
        buf.append(CheckIdCardUtils.calculateVerifyCode(buf));
        return buf.toString();
    }






}

3、电话号码校验类

package com.hyt.ima.alarmschedule.utils;

import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.util.regex.PatternSyntaxException;

public class CheckPhoneUtils {
    public static boolean check(String str) throws PatternSyntaxException {
        // ^ 匹配输入字符串开始的位置
        // \d 匹配一个或多个数字,其中 \ 要转义,所以是 \\d
        // $ 匹配输入字符串结尾的位置
        String regExp = "^(1[3-9]\\d{9}$)";
        Pattern p = Pattern.compile(regExp);
        Matcher m = p.matcher(str);
        return m.matches();
    }
}

注:由于我实际业务要提取人民的文本中,人名后都跟有一段括号,括号中带有人的身份证号和电话号码,故采用)分组的形式分段提取,准确率达到了95%以上,比使用hanLp的方式精确率更高

    原文作者:疯狂攻城师
    原文地址: https://blog.csdn.net/lijunliang2017/article/details/121556109
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞