|
本帖最后由 finder 于 2014-12-28 15:24 编辑
- J( ]9 H9 n& w3 n8 u- `: f2 _2 W' T2 Z
以前自己写过一个采集阿里巴巴商家email,电话,公司名称和职位的一个爬虫程序。感觉这个邮件采集程序的原理和我原来采用的一样,都是采用多线程,发起httpget请求,对返回结果用正则表达式匹配href,和自己需要找的邮件,电话啥的。然后再以这个href List为基础继续发起http get请求,如此,循环。则可以爬遍整个互联网。这是小弟自己的看法,望大神多多指点!
6 J8 t+ Q+ R3 k2 [! u/ n1 p l4 u% A4 n* m3 i" P) y
email_spider是使用比较多的一个邮箱采集程序。官方网址是:- http://email.spider.gsa-online.de/
复制代码 目前程序最新版本是V7.00.1 Q' Q5 Q) U8 T+ O* E! ~% e( u/ Z
程序的功能包括:
- I& k+ G) {/ d* o•从起始网站提取电子邮件
" r4 p1 s2 [6 \. {& b2 e S•除了电子邮件采集,电话和传真号码,您可以搜索6 n) Q6 e9 A1 | n0 X
•自动化发送电子邮件到您的新客户
' B' J2 h* N6 ]8 l( {•收获电子邮件与搜索引擎的帮助下(300+包括)
8 z8 n! S3 y& h5 L! n- Y•支持HTTPS网站
& e0 J5 X$ z, [! E•支持SSL唯一的电子邮件服务提供商(如谷歌邮件)
; B1 O! c0 U) @. ]5 {9 g•内部SNMP服务器直接发送电子邮件# [8 ^5 F2 |: W: ~9 K/ v: y+ O
•JavaScript的分析,找出保护的电子邮件地址9 {. F0 C' [6 w, d c" H' Z
保护•反蜘蛛引擎(例如随机用户代理) i5 |. _. y: R
•收集电子邮件,它们的附加数据(如地址)
: Z% _( N/ v/ ^, L•许多过滤器只能提取你想要的电子邮件
& L2 F# ^4 Q. u) ~2 [•非常快的处理(100个线程,你可以很容易地提取500个新邮件一分钟)% Q" S* m5 q9 t8 q1 ^6 G
•多语言支持(现在的英语和德语)' p9 C. ~) l5 f& I# Y2 r( d% D
5 K8 S4 [8 g* B2 z
9 u8 H' K) m i) n3 h& ?9 m1 y 这次分享的 email_spider是V5.3的crack版本,也几乎包含了上边所有的功能,可以从指定网址开始收集,也可以输入关键字收集,我在虚拟机中跑了一天,收集了大量的email。我用的虚拟机的配置是521M内存的,如果分配的大,可能获取的更多。如果想要收集更多,可以在多台vps上跑。
4 M2 R% [0 @7 R# g
8 k/ h n) ~. S' j, K4 ~+ p/ r( S9 \. d, |
程序跑起来比较稳定:
3 U4 L1 n% }* c: W4 j/ k
7 y3 E5 U. j! F. ~2 f/ o# l% R# j2 b) n2 h; }8 E: c8 x
程序安装步骤:
% t; q) H# t+ x" g' q3 U1) 添加如下内容到hots文件中
5 l) a- V, R$ y2 n% c! {; k* |: G
8 W. i1 N. g' x! o6 i7 g/ s0 K' B127.0.0.1 www.findsoftware.eu
$ n% ^9 I0 [; j! ~0 ^7 ^127.0.0.1 findsoftware.eu$ G: u" J7 y! i1 k+ X
127.0.0.1 www.rostock-schwarz.de
[. ?) K# D5 H- E3 _5 O0 ~127.0.0.1 rostock-schwarz.de
! T' F5 c) R8 i3 C9 y J' c; x0 q127.0.0.1 www.gsa-online.de
O9 U) I( I* S& X5 L4 R127.0.0.1 gsa-online.de
; k( {. p2 |7 t) E( e# Y8 X& I8 J4 A7 U$ n b3 `3 W' Z
; x( f& I$ f( m& I2)执行 email_spider.exe/ ~5 m$ d/ z# d$ i% t" f- |- Z; X4 G
; C" m7 ?" A* |- G4 n. Y# \7 a- q# j4 J, L
3) 要求注册时,输入用户名和密码。' g" |7 w: \2 B) K( m) P! u0 x0 P
& o% K7 K( \" _& RYour license name is: MKDEV TEAM
* r+ b; F! V: Y x6 k( K- L# Z0 k$ nYour license code is: L1E1-1437-I93N-L1KL
q. F9 `- m. G' L. P$ T) k) O) J \. g2 X8 g; q5 C
1 _0 p/ W0 X# ^( k5 V另外附一个收集来的emailList.见附件。
: p2 e' ~" A2 k" S& x8 B4 Q$ D程序下载地址:- http://pan.baidu.com/share/link?shareid=4049923560&uk=3825420230
复制代码 另:小弟想学论坛里其它东西,而苦于广告币严重步骤。如果各位坛友,觉得小弟发布的东西对你有用,就请多多评分,多多加广告币吧。小弟学到东西定会继续分享,提前谢谢诸位了。1 r2 m0 |, F" v! ]8 s
' n8 h& i: `3 Z! f1 A
$ j* t6 e0 H( D) t5 d5 r: f7 X. s |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
评分
-
查看全部评分
|