关于清洗邮箱数据的一些经验
好久没上论坛了,分享一些自己清洗邮箱数据的一些经验。有时候遇到问题一个人琢磨难免走弯路,希望能抛砖引玉,有更多的大佬来分享经验和心得。由于靠自己收集邮箱的效率实在太慢,所以做EDM营销经常会找一些爆裤的数据,或者一些内部LIST。而这些LIST经常会有很多的bad email和spam traps。对于一些高手来说,硬弹比较容易清洗,但spam traps却更为麻烦,往往一个IP没发多少邮件就进SBL和RBL,就是因为这些traps。
先说TLD邮箱,我个人很少发tld邮箱,因为实在是太难inbox了,而且限制发信频率20封/h,今天看到 @blackhat 大佬写的warm up贴子,很受启发,有空了实验一下。
以gmail为例,我的办法是用自动脚本去尝试登录google,如下所示,再用脚本抓取特征值"Couldn't find your google account",从而判断这个邮箱是存在还是不存在。HT和YH也是同样的办法。
接下来说普通邮箱的清洗步骤:
第一步,仍然是用正则,把一些常见的比如info@, sales@, 类似的邮箱先去除掉。
第二步,假如你有一份1000w邮箱的list,先把这份list提取出域名列表并去重复。然后再用 nslookup 去依次检查域名的mx记录。
nslookup -qt=MX example.com 8.8.8.8 >>example.txt
我们知道有很多的parked domain,而这些域名的邮箱几乎都是traps,比如像下面这些都是比较常见的traps MX:
mail.h-email.net
park-mx.above.com
mx37.m1bp.com
mail.b-io.co
mx156.hostedmxserver.com
mx76.mb1p.com
然后根据检查结果,把包含上面trap MX记录的域名邮箱全部删除,同时也把无MX记录的域名邮箱删除,可以减少一半以上的硬弹。如果你想不发印度国家的邮箱,也可以把MX检查结果是.in域名的删除掉。
用bat批处理加少量的代理就可以迅速完成。
第二步过滤完后,一般就可以发信了。如果要进一步处理,可以用爬虫脚本,通过特征值分析域名的网站是否是正常网站。比如网站包含下面这些关键词的域名邮箱,都删除。
ingratitudeanthokyan.xyz
google.com/adsense/domains/caf.js
parkingcrew.net
sedoparking.com
parkingcrew.com
cdnpark.com
hugedomains.com/domain_profile.cfm
gdforsale/static/js/main.e03b2f7b.js
www.namex.com/m/
www.register.com/
www.website.ws/wc_landing.dhtml
networksolutions.com/cgi-bin/promo/domain-search?domainNames=
uniregistry.com/market/domain/
/de/saleslead/?domain=
courtesy.register.it/index.html
park-your-domain.com
servers.syrahost.com
parked.rebel.ca
www.ovh.com
www.names.co.uk
www.arsys.es
kas.all-inkl.com/skel/allinkl.png
underconstruction.networksolutions.com
www.gandi.net/en/domain
my.a2hosting.com
unpublish_image.jpg
www.1and1.com
www.online-gesundheitsschutz.de/Mittelstaedt/
hostgator.com
register.be
dan.com/buy-domain
domain is available
domain is not supported
domain name is for sale
domains for sale
Domain for Sale
Domain For Sale
domain is for sale
domain may be for sale
domain name may be for sale
domain name is for sale
domain name for sale
domain might be for sale
domain is already registered
Domain Name For Sale
Domain is for Sale
Domain Parking
freeparking
Parkpage
ParkingPage
parked-domains
data-adblockkey=
Account Suspended
Something's wrong
Account has been suspended
Inquire about this domain
Buy this domain
website is for sale
Acquire this domain
The seller of the domain
Contact Domain Owner
contact the domain
information about this domain
pending renewal or deletion
purchase the domain
sale the domain
buying this domain
disposable email
register your domain
Domain Name Registration
parked for FREE
Is this your domain
Fake Email
fake mail
email generator
fakemail
temp mail
tempmail
temporary email
temp-mail
disposable mail
trash-mail
fake-mail
Email Receipt Testing
email testing
test email
Bid On This Domain
Renew Your Domain
Backorder Domain
domain has just been registered
Your New Hosting Package
owner of this domain
Welcome again to A2 Hosting
Create a Website
web server
your own domain name
Find a domain name
DOMAIN HAS JUST BEEN REGISTERED
DOMAIN REGISTRATION
WEBHOSTING
几年前也用过象GSA email verifier这种工具,效率很低且对p!r!o!x!y要求较高。用我这个办法清洗list,大部份traps和硬弹都能过滤掉,不足之处是需要尽可能多的积累一些特征值,如果再配合ip warm up,SBL的概率会降低很多,发信效率更高。
spam 是费力不讨好的事情
关于data clean,一般是找那些第三方的数据公司来操作
当然了,其实能挣大钱的还是gmail, yahoo 和 outlook 这些TLD domain 有道理,感谢!!! 其实洗数据我一直用一个比较简单的方法:申请两个支持smtp的国外平台,先用A账户发一遍类似“text email”的简单内容,再导出到达和打开的邮箱,最后在用B正常发信就可以了。前提是你A账户硬弹小于平台的规定值,最开始需要简单的用软件洗一遍,要不然很容易封号!~;P 拿破仑 发表于 2020-10-5 06:30
其实洗数据我一直用一个比较简单的方法:申请两个支持smtp的国外平台,先用A账户发一遍类似“text email” ...
有traps boot会自动爬你的邮件,你只看到达和打开只能抓出硬弹。 恩,谢谢!~·
页:
[1]