正则表达式是由英文词语regular expression翻译过来的,就是符合某种规则的表达式。正则表达式在软件开发中应用非常广泛,例如,找出网页中的超链接,找出网页中的email地址,找出网页中的手机号码,判断输入的内容是否全部是数字,是否满足某种日期格式等等。
创新互联公司主打移动网站、网站建设、成都网站建设、网站改版、网络推广、网站维护、域名申请、等互联网信息服务,为各行业提供服务。在技术实力的保障下,我们为客户承诺稳定,放心的服务,根据网站的内容与功能再决定采用什么样的设计。最后,要实现符合网站需求的内容、功能与设计,我们还会规划稳定安全的技术方案做保障。
可以将正则表达式理解为一种对文字进行模糊匹配的语言,它用一些特殊的符号(称为元字符)来代表具有某种特征的一组字符以及该组字符重复出现的次数。例如,对于正则表达式“\d{5}(-\d{4})?”,\d就是一个元字符,它表示一个数字字符,{5}表示紧靠它前面的元素项连续重复5次,\d和{5}的组合\d{5}就表示匹配任意连续的5个数字字符;-\d{4}匹配的是一个连字号(-)后加上4个任意的数字,(-\d{4})?表示连字号(-)和后面的4个数字可有可无。
对于整个正则表达式“\d{5}(-\d{4})?”,表示要么是5个连续的数字字符,要么是5个连续的数字后加上一个连字号(-)、再加上4个连续的数字组成的10个字符。正则表达式中的圆括号除了能将多个元素组合成一个可统一操作的组合项外,它所括起来的表达式部分还成为了一个子匹配(也叫子表达式),也就是说,我们可以用圆括号在一个长的正则表达式中划分出子表达式。这样,除了可以得到整个正则表达式的匹配结果外,还可以单独得到每个子表达式部分所匹配的结果。
要灵活运用正则表达式,必须了解其中各种元字符的功能。元字符从功能上大致分为:限定符、选择匹配符、分组组合和反向引用符、特殊字符、字符匹配符、定位符。
限定符用于指定其前面的字符或组合项连续出现多少次,下面是各种限定符及其含义:
默认情况下,正则表达式使用最长(也叫贪婪)匹配原则。当字符“?”紧随任何其他限定符(*、+、?、{n}、{n,}、{n,m})之后时,匹配模式变成使用最短(也叫非贪婪)匹配原则。例如,在字符串“fooood”中,“fo+?”只匹配“fo”部分,而“fo+”匹配“foooo”部分。
选择匹配符就是“|”字符,用于选择匹配两个选项之中的任意一个,选择匹配符的优先级低于任意字符,即“|”字符的两个选项是它两边尽可能最大的表达式。例如,“chapter|section 1”匹配的是“chapter”或“section 1”,而不是“chapter 1”或“section 1”。
分组组合符就是将正则表达式中的某一部分内容组合起来的符号,反向引用符则是用于匹配前面的分组组合所捕获到的内容。
(pattern) 将圆括号中的pattern部分组合成一个可统一操作的组合项和子匹配,每个捕获的子匹配项按照它们在正则表达式模式中从左到右出现的顺序存储在缓冲区中。缓冲区从1开始编号,最多可存储99个子匹配捕获的内容。存储在缓冲区中的子匹配捕获的内容,可以在编程语言中被检索,也可以在正则表达式中被反向引用。
\num 匹配编号为num的缓冲区所保存的内容,此处的 num 是一个标识特定缓冲区的一位或两位十进制正整数,这种方式称为子匹配的反向引用。例如,要匹配连续的5个相同的数字字符,如55555、11111等,需要使用(\d)\1{4}作为正则表达式文本,\1表示与前面的(\d)所捕获的内容一样,\1{4}则表示前面的(\d) 所捕获的内容还连续出现4次。
字符匹配符用于指定该符号部分可以匹配多个字符中的任意一个。
正则表达式中使用多种方式来表示非打印字符和原义字符,这些方式都是以反斜杠字符(\)后紧跟其他转义字符序列来表示的,其中的一些方式也可以表示普通字符。
定位符用于规定匹配模式在目标字符串中的出现位置。
在正则表达式中用到的一些元字符不再表示它原来的字面意义,如果要匹配这些具有特殊意义的元字符的字面意义,必须使用反斜扛(\)将它们转义为原义字符,即将反斜杠字符(\)放在它们前面。需要进行转义的字符有“$”、“(”、“)”、“*”、“+”、“.”、“[”、“]”、“?”、“\”、“/”、“^”、“{”、“}”、“|”。
下面列举出了一些具有典型意义和用途的正则表达式模式文本:
(1)匹配空行:“^\s*$”
(2)匹配HTML标记:“<(\S+)(\s[^>]*)?>[\s\S]*<\/\1\s*>”。
(3)匹配email地址:“[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+”
(4)匹配两个相同的相邻单词:“\b([a-z]+) \1\b”
(5)匹配IP地址:“^\d{1,2}|1\d\d|2[0-4]\d|25[0-5](\.(\d{1,2}|1\d\d|2[0-4]\d|25[0-5])){3}$”
JavaScript中提供了一个名为RegExp的对象来完成有关正则表达式的操作和功能,每一条正则表达式模式对应一个RegExp对象实例。在JavaScript中,有两种方式可以创建RegExp对象的实例:
(1)使用RegExp对象的显示构造函数,语法为:new RegExp("pattern"[,"flags"])
(2)使用RegExp对象的隐式构造函数,采用纯粹的文本格式:/pattern/[flags]
pattern部分为要使用的正则表达式模式文本,是必须的。在第一种方式中,pattern部分以JavaScript字符串的形式存在,需要使用双引号或单引号引起来;在第二种方式中,pattern部分嵌套在两个“/”字符之间,不能使用引号引起来。flags部分设置正则表达式模式的标志信息,是可选的,可以是以下标志字符的组合:
下面是在javascript程序中应用正则表达式的一些典型案例:
1.将一个字符串中的所有的两位数字的十位和个位交换:
2.使用正则表达式验证身份证和提取年月日:
说明:身份证要么是15位,要么是18位,前面的每位都为数字,最后一位可以为字母,从7位到第14位为出生年月。
请输入身份证:
3.使用正则表达式去掉字符串两端的所有空格:
说明:javascript中的字符串没有去掉两端空格的功能,可以用prototype属性为String类扩 展一个trim方法,以后的String类都可以使用这个trim方法来去掉两端的空格了。
- String.prototype.trim = function(){return this.replace(/^\s+|\s+$/g,"");};
- alert(1 + " aaa ".strip() + 2);
下面是在java程序中应用正则表达式的一些典型案例:
1. 判断输入的字符串是否是一个email地址:
- String content = "z.xx@itcast.cn";
- Pattern p = Pattern.compile(
- "[a-zA-Z0-9_-][\\.a-zA-Z0-9_-]*@[a-zA-Z0-9_-]+(\\.[a-zA-Z0-9_-]+)+");
- Matcher m = p.matcher(content);
- boolean b = m.matches();
- System.out.println(content + (b? "是":"不是" ) + "一个有效的Email地址");
2. 从一篇文档中提取出所有的email地址:
- String content = "我的email是z.xx@itcast.cn,你的email是l_h_m@itcast.com.cn";
- Pattern p = Pattern.compile(
- "[a-zA-Z0-9_-][\\.a-zA-Z0-9_-]*@[a-zA-Z0-9_-]+(\\.[a-zA-Z0-9_-]+)+");
- Matcher m = p.matcher(content);
- while(m.find()){
- String email = m.group();
- //String email = content.substring(m.start(), m.end());
- System.out.println(email);
- }
3.通过一个正则表达式即可以将字符串“xx”替换成“xxFileName”,还可以将字符串“xx[n]”替换成“xxFileName[n]”:
- String content = "xx[n]"; //改为"xx"试试。
- Pattern p = Pattern.compile("\\[.+\\]$|$");
- Matcher m = p.matcher(content);
- String fileName = m.replaceFirst("FileName$0");
- //String fileName = content.replaceFirst("\\[.+\\]$|$", "FileName$0");
- System.out.println(fileName);
4.从一封html格式的中文简历中提取出简历人的性别:
说明:性别在简历中通常为如下形式:
另外,简历中的其他地方也可能出现“男”或“女”,例如,“参观了女排的训练”。
- String content = "
性别: 男 …参观了女排的训练";- Pattern p = Pattern.compile("[^\u4e00-\u9fa5]([男女])[^\u4e00-\u9fa5]");
- Matcher m = p.matcher(content);
- if(m.find()){
- System.out.println("应聘者的性别为:" + m.group(1));
- }
总之, 随着互联网的迅速发展,几乎所有工具软件和程序语言都支持正则表达式,所以正则表达式变得越来越强大和易于使用。本文从限定符和定位符等方面介绍了正则表达式,希望对你有帮助,如果有什么问题,希望大家可以指正。
转载自程序员网校 [ http://www.it315.org/ ]
本文链接地址:http://www.it315.org/programjava/222.htm
【编辑推荐】
标题名称:详细解说正则表达式
标题URL:http://www.gawzjz.com/qtweb/news11/172611.html
网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联