利用文字识别批量去除文字类型水印。

xiaoxue · 发表于 2018-8-28 13:18:00

本帖最后由 xiaoxue 于 2019-3-4 20:49 编辑

简单点的思路。
图像转换jpg -> post 到 baiduAi -> 返回识别的文字（带坐标）-> 根据返回的坐标Image.new() 生成个#FFfff背景的图像->利用Image.paste() 把#fff图像覆盖住水印

# -*- coding: utf-8 -*-
from aip import AipOcr
import time
import random
import sys,re
import requests,json
from PIL import Image, ImageDraw,ImageFont
import base64
# """ 你的 APPID AK SK """
APP_ID = xxx'
API_KEY = 'xxxx'
SECRET_KEY = 'xxxxx'
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
a = client.accurate(image)
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
def Wordfilter(words, arr):
for str in arr:
if words.find(str) >=0:
return True
return False
for juzi in a['data']['words_result']:
filterKey = [‘股票学习网','股票','股票学习','股票学','习网','www.']
if Wordfilter(juzi['words'],filterKey):
cropZB = juzi['location']
left = cropZB['left']
top = cropZB['top']
right = left + cropZB['width']
bottom = top + cropZB['height']
TC_img = Image.new("RGB",(cropZB['width'],cropZB['height']),"#FFFFFF")
im.paste(TC_img,(left, top, right, bottom))
im.save(file)

复制代码

处理前:

处理后:

一些小技巧：
im.resize((w*2, h*2),Image.ANTIALIAS)
im.resize((w*3, h*3),Image.ANTIALIAS)
im.resize((w*4, h*4),Image.ANTIALIAS)
通过修改宽和高：来提高文字识别的准确率度。
处理完后im.resize((w, h),Image.ANTIALIAS).save('xx.jpg')

wjcj · 发表于 2018-8-30 09:19:04

现在已经进入 ai niche 站时代了，楼主有什么好玩的吗，我在做采集翻译语音自动上传youtb一条龙的自动化站

xiaoxue · 发表于 2018-8-30 14:53:01

好玩的？最近研采集用百度ai做文章分类 tag 内链去水印啥的。 youtube不审了没得搞吧。

blockmoon · 发表于 2018-9-15 23:19:50

楼主发的好玩啊

xiaoxue · 发表于 2018-9-20 21:27:17

blockmoon 发表于 2018-9-15 23:19
楼主发的好玩啊

多交流～紫薯补丁

xiaoxue · 发表于 2018-9-20 21:28:11

facebook号专家发表于 2018-9-19 09:03
楼主漏脸了。。。哈哈

？ fb小号咋卖的。

显示全部楼层 · 发表于 2018-9-30 00:39:23

最近也在搞采集翻译建站，用翻译出来可读性一般

		自动登录	找回密码
密码			立即注册

谷歌+Bing+TT+MSN官方代理	⚡️按条S5代理⚡️静态⚡️独享⚡️5G	皇家代理IP⚡️#1性价比⚡️	Mediabuy⚡️玩家开户首选
【鲁班跨境通-自助充值转账】	FB/GG/TT❤️官方免费开户	Affiliate 全媒体流量资源⚡️	Taboola/Outbrain /Bing⚡️一级代理
*开户投流-724h❤️人工在线**	【官方】❤️搜索套利买量投流开户	独立站⚡️开户投放	FB BM不限额，短id账单户
E.PN 虚拟卡	DuoPlus专注打造跨境电商云手机	BINOM TRACKER 60% OFF!	比Adplexity还好用的Spy工具
ADPLEXITY + ADVERTCN	7200W全球动态不重复住宅IP代理	虚拟信用卡+独立站收款	全球虚拟卡, 支持U充值
Facebook 批量上广告	尤里改 - FB 稳定投放	免费黑五教程（持续更新、欢迎交流）	FB 三不限源头 - 自助下户充值转款
各种主页、账单户、BM户（优势）	⚡️个人户，bm户不限额，账单户	Google、Bing官方总代联盟流量开户	FB资源，账单户，分享户，国内一手
FB企业户BM户账单户源头	海外CL企业户源头	PTM全球虚拟卡—进来交个朋友!	PTM虚拟卡⚡️费率透明⚡️额度随心
FB虚拟卡⚡️消费越多返现越多	虚拟卡 - Pay2.House	【找量】BA独家Nutra单找量	广告位出租
8500万高质量住宅IP，助力各种需求	虚拟卡返佣1%，国内持牌机构

利用文字识别批量去除文字类型水印。

本帖子中包含更多资源

评分

点评

社区QQ达人