一个超复杂的正则表达式,求详细解释,其实有一部分我可以看懂,不过还是请一个字一个字的解释,万分感谢!

'<\s*a\s.*?href\s*=\s*([\"\'])?(?(1)(.*?)\\1|([^\s\>]+))[^>]*>?(.*?)</a>'isx请从左到右说明以下每个字符每个部分的含义,奉送50分.

\s*:空白,指:回车、换行、横向制表符、空格等,*出现任意多次

.*?:.在多行模式下能匹配除回车换行外的任意字符,单行模式下回车换行也可匹配。正则式默认的*为贪婪匹配,就是说尽可能多的匹配字符,加上一个?,则表示非贪婪匹配,尽可能少匹配字符

([\"\'])?:[\"\'],字符集,表示可接受单引号和双引号,\表示escaped sequence,就是转义字符,告知正则式引擎其后跟着的字符是文本,不要拿去做特殊解释(正则式语法中例如*.+\等等有特殊含义的字符称为元字符,meta-character)。()表示捕获,捕获匹配到的实际字符串,有两种用法,1,可在匹配完毕后使用match对象索引到,2,可在表达式中使用\?(这里?代表一个数字)来引用,比如\1,表示引用第一个括号捕获到的实际匹配的字符串

(?(1)(.*?)\\1|([^\s\>]+)):这里有个(?(condition)(exp1)|(exp2))结构,所谓条件匹配,就是说如果condition满足,则匹配exp1,不满足则匹配exp2,condition通常是个数字(在支持命名捕获的引擎中可以是名称)表示捕获的索引号(比如这里是第1个捕获)。这里\\1用法可能有误,如果是\\1则表示匹配一个字符\和一个字符1,我想他是不是想表达匹配\1,就是再次匹配之前1号捕获匹配到的字符串,搞不清具体是什么,得看表达式整体含义

[^>]*:[]中的首字母如果是^,则表示此集和中规定的字符是不满足匹配要求的(除外都是满足的)

最后是称为modifier,相当于引擎匹配时的参数,i表示忽略大小写,s表示将目标串视为单行的,x表示请正则式引擎忽略模式串(pattern)中的空白字符(回车换行制表符空格),这样的话,整个表达式可以分多行撰写,并加入一些注释什么的

ok,就这么多,整个意思写得有点罗嗦了,大体上是匹配形如:
<a href = "xxxx"> xxx </a>这种东西,用条件表达式主要是为了将引号配对匹配(这么看的话,刚刚的怀疑是对的应该是\1),缺乏足够的上下文语义判断也是正则语言的局限。
温馨提示:答案为网友推荐,仅供参考
相似回答