edm之旅 发表于 2015-8-29 20:26:08

邮件地址库清洗方法 拙见1

本帖最后由 edm之旅 于 2015-9-12 18:02 编辑

个人拙见,我相信肯定更好地工具,但可能我没有,所以有了下文。

当我拿到一批数据时,到发送,必然要经过数据清洗。
很多同行,清洗方法大致是,软件判断和发送看返回码。
我今天说下我的一些手法。

第一步:软件按照规则列表去除不和规则数据。
第二步:导出.com.cn.net .org 的域名(此处针对过滤。国外数据需要另外修改)
第三步:数据去重复
第四步:导入到我的地址库系统,和已有的地址数据做碰撞。
根据重复数据排序,重复几次,数据标记+1,最后得到的数据,重复率在1以上,可以作为初步清洗数据。
第四步:数据进入 user found 环节,被标记过域名错误,或者email不存在的数据,一律过滤。

经过上面4步得到的数据,已经比原始数据少取60%以上了。这个时候可以进行软件判断或者直接发送看返回码。
至于重复次数最多的一批,十又八九是活跃度最高的一批。

------------
PS:肯定有人要挫我,我只想说,我有数据库,压缩包补考虑重复的话,都有几百G了,整体数据量都是十E级的,我这么玩,还是能玩的出足够发送的数据的。



——————————————————————
补充:重复率最高的email地址为:[email protected](这当然是个假地址),在我库里,平均每个库出现几十次,合计重复了1万3000多次,纯当个段子给大家乐呵乐呵下。

99995 发表于 2015-8-29 22:52:33

LZ跟我清洗方法一样,支持下

edm之旅 发表于 2015-8-30 00:45:02

99995 发表于 2015-8-29 22:52
LZ跟我清洗方法一样,支持下

谢谢支持~

aabbccli 发表于 2015-8-30 11:38:05

这数据量也太庞大了

gger 发表于 2015-8-31 19:23:53

求2.。。、

Mailerking 发表于 2015-9-12 13:52:49

这种方法的精准性很差吧?没办法准确判断email是否存在,我现在是和Facebook, Youtube的User数据库对比,得出的结果准确率99%。而且基本上应该都是活跃的邮箱。

edm之旅 发表于 2015-9-12 18:00:19

Mailerking 发表于 2015-9-12 13:52
这种方法的精准性很差吧?没办法准确判断email是否存在,我现在是和Facebook, Youtube的User数据库对比,得 ...

这个可以是 第一个环节。
你说的用户库对比,是reg方式吧。

有些网站限制的reg测试次数。   
你对比fb 之类的,一小时大约能处理多少量。我打听下,我最近也在考虑用reg的方法再过一遍。

Mailerking 发表于 2015-9-12 22:08:47

edm之旅 发表于 2015-9-12 18:00
这个可以是 第一个环节。
你说的用户库对比,是reg方式吧。



是的,我用socks5,几万个IP所以无所谓IP限制,每小时大概3,4万速度。

edm之旅 发表于 2015-9-12 22:17:12

Mailerking 发表于 2015-9-12 22:08
是的,我用socks5,几万个IP所以无所谓IP限制,每小时大概3,4万速度。

国内库用reg方式很苦逼,造假20%的都是算良心了。
60%数据造假的我都见过,还是上市的那风投的大网站。
小网站,80%造假都正常。
reg很苦闷。

Mailerking 发表于 2015-9-12 22:18:38

edm之旅 发表于 2015-9-12 22:17
国内库用reg方式很苦逼,造假20%的都是算良心了。
60%数据造假的我都见过,还是上市的那风投的大网站。 ...

国内的不熟悉,没怎么弄过:P
页: [1]
查看完整版本: 邮件地址库清洗方法 拙见1