自动点击软件

 找回密码
 注 册

QQ登录

只需一步,快速开始

查看: 20725|回复: 0
打印 上一主题 下一主题

文本提取中正则表达式的使用方法

[复制链接]
跳转到指定楼层
楼主
发表于 2013-3-4 13:42:29 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
正则表达式的使用方法不管是软件开发者还是软件使用者,都必须懂一点的知识。

正则表达式方法:
 \ 将下一个字符标记为特殊字符或字面值。例如"n"与字符"n"匹配。"\n"与换行符匹配。序列"\\"与"\"匹配对面,"\("与"("匹配。
 ^ 匹配输入的开始位置。
 $ 匹配输入的结尾。
 * 匹配前一个字符零次或几次。例如,"zo*"可以匹配"z"、"zoo"。
 + 匹配前一个字符一次或多次。例如,"zo+"可以匹配"zoo",但不匹配"z"。
 ? 匹配前一个字符零次或一次。例如,"a?ve?"可以匹配"never"中的"ve"。
 . 匹配换行符以外的任何字符。
 (pattern) 与模式匹配并记住匹配。匹配的子字符串可以从作为结果的 Matches 集合中使用 Item [0]...[n]取得。如果要匹配括号字符(和 ),可使用"\(" 或 "\)"。
 x|y 匹配 x 或 y。例如 "z|food" 可匹配 "z" 或 "food"。"(z|f)ood" 匹配 "zoo" 或 "food"。
 {n} n 为非负的整数。匹配恰好n次。例如,"o{2}" 不能与 "Bob 中的 "o" 匹配,但是可以与"foooood"中的前两个o匹配。
 {n,} n 为非负的整数。匹配至少n次。例如,"o{2,}"不匹配"Bob"中的"o",但是匹配"foooood"中所有的o。"o{1,}"等价于"o+"。"o{0,}"等价于"o*"。
 {n,m} m 和 n 为非负的整数。匹配至少 n 次,至多 m 次。例如,"o{1,3}" 匹配 "fooooood"中前三个o。"o{0,1}"等价于"o?"。
 [xyz] 一个字符集。与括号中字符的其中之一匹配。例如,"[abc]" 匹配"plain"中的"a"。
 [^xyz] 一个否定的字符集。匹配不在此括号中的任何字符。例如,"[^abc]" 可以匹配"plain"中的"p".
 [a-z] 表示某个范围内的字符。与指定区间内的任何字符匹配。例如,"[a-z]"匹配"a"与"z"之间的任何一个小写字母字符。
 [^m-z] 否定的字符区间。与不在指定区间内的字符匹配。例如,"[m-z]"与不在"m"到"z"之间的任何字符匹配。
 \b 与单词的边界匹配,即单词与空格之间的位置。例如,"er\b" 与"never"中的"er"匹配,但是不匹配"verb"中的"er"。
 \B 与非单词边界匹配。"ea*r\B"与"never early"中的"ear"匹配。
 \d 与一个数字字符匹配。等价于[0-9]。
 \D 与非数字的字符匹配。等价于[^0-9]。
 \f 与分页符匹配。
 \n 与换行符字符匹配。
 \r 与回车字符匹配。
 \s 与任何白字符匹配,包括空格、制表符、分页符等。等价于"[ \f\n\r\t\v]"。
 \S 与任何非空白的字符匹配。等价于"[^ \f\n\r\t\v]"。
 \t 与制表符匹配。
 \v 与垂直制表符匹配。
 \w 与任何单词字符匹配,包括下划线。等价于"[A-Za-z0-9_]"。
 \W 与任何非单词字符匹配。等价于"[^A-Za-z0-9_]"。
 \num 匹配 num个,其中 num 为一个正整数。引用回到记住的匹配。例如,"(.)\1"匹配两个连续的相同的字符。
 \ n 匹配 n,其中n 是一个八进制换码值。八进制换码值必须是 1, 2 或 3 个数字长。例如,"\11" 和 "\011" 都与一个制表符匹配。"\0011"等价于"\001" 与 "1"。八进制换码值不得超过 256。否则,只有前两个字符被视为表达式的一部分。允许在正则表达式中使用ASCII码。
 \xn 匹配n,其中n是一个十六进制的换码值。十六进制换码值必须恰好为两个数字长。例如,"\x41"匹配"A"。"\x041"等价于"\x04" 和 "1"。允许在正则表达式中使用 ASCII 码。

应用例子:

如我们要提取一个网页的链接那么表达式可以这样写 <a.*?</a>  就这么一个简单的表达式就可以提取网页的所有超链接是不是觉得特强大,你只要知道.*?的表达式意思代表所有内容就行了,但不包括换行,如果包含换行就这样写 <a[\s\S]*?</a>
如我们要提取一些代理IP,(格式一般就是如41.234.16.55.80)这些代理IP都是数字和小点组合的我们可以这样 \d+\.\d+\.\d+\.\d+:\d+ 不明白了吧,看下上面的介绍我们分析一下\d表示和一个数字匹配 \d+是表示和N位数字匹配\.就是匹配小点,那为什么要添加斜杠了?因为小点是可以匹配任何字符的表达式符号,加斜杠就是告诉程序我不是去匹配其他字符的,我就是一个小点
表达式的写法在百度上面有很多的示例,如果有不清楚的可以百度一下!哈
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏
您需要登录后才可以回帖 登录 | 注 册

本版积分规则

QQ|手机版|小黑屋|自动点击软件 ( 粤ICP备14045009号 )

GMT+8, 2024-11-1 09:32 , Processed in 0.125000 second(s), 23 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表