AdvertCN - 广告中国

 找回密码
 立即注册

QQ登录

只需一步,快速开始

Binom
 谷歌+Bing+TT+MSN官方代理 
⚡️按条S5代理⚡️静态⚡️独享⚡️5G⚡️最干净<Wifi住宅+5G移动>IP代理指纹浏览器,就用AdsPower
Mediabuy⚡️玩家开户首选【鲁班跨境通-自助充值转账】FB/GG/TT❤️官方免费开户Affiliate 全媒体流量资源⚡️
Taboola/Outbrain /Bing⚡️一级代理开户投流-7*24h❤️人工在线【官方】❤️搜索套利广告开户独立站⚡️开户投放
DuoPlus专注打造跨境电商云手机E.PN 虚拟卡BINOM TRACKER 60% OFF!比Adplexity还好用的Spy工具
MediaGo+Taboola+Ob开户百度国际MediaGo⚡️让产品狂奔全球百度国际,高点击转化,快速放量百度国际MediaGo,独家原生流量
ADPLEXITY + ADVERTCN7200W全球动态不重复住宅IP代理虚拟信用卡+独立站收款全球虚拟卡, 支持U充值
Facebook 批量上广告尤里改 - FB 稳定投放免费黑五教程(持续更新、欢迎交流)FB 三不限源头 - 自助下户充值转款
各种主页、账单户、BM户(优势)⚡️个人户,bm户不限额,账单户一手BM分享户不限额9Proxy ⚡️ $0.04/IP, 无限带宽
FB二三解0.1元一个虚拟卡|PTM星际卡FB专用虚拟卡Google、Bing官方总代  联盟流量开户
FB账号资源/稳定靠谱/运行5年啦FB开户代投/三不限/白名单fb耐用号0.01一个fb账号官方合作商
搜索套利开户❤️Bigo/Kwai/MediagoFB资源,账单户,分享户,国内一手FB企业户BM户账单户源头广告位出租
查看: 8556|回复: 8

[采集] 如何给采集的文章分段?

[复制链接]

50

主题

417

广告币

776

积分

中级会员

Rank: 3Rank: 3

积分
776

社区QQ达人

发表于 2018-9-26 09:11:56 | 显示全部楼层 |阅读模式
采集的文章,调用翻译接口,然后再发布,

现在发布后一篇文章全部变成一段了,严重影响阅读体验,

请问如何给它分段呢?随机插入换行符?这样体验也不好啊?

遍历文章查找句号?然后插入换行符?好像有点浪费时间啊,


大家有好的方法吗?谢谢,

我用的是python.


相关帖子
回复

使用道具 举报

61

主题

851

广告币

1335

积分

高级会员

Rank: 4

积分
1335

社区QQ达人

发表于 2018-9-26 09:33:02 | 显示全部楼层
采集前都有分段的吧,干嘛把分段符号去掉
回复 支持 反对

使用道具 举报

16

主题

885

广告币

899

积分

中级会员

Rank: 3Rank: 3

积分
899

社区QQ达人

QQ
发表于 2018-9-26 10:27:23 | 显示全部楼层
同意楼上,采集的时候为什么要去掉换行,如果不是采集的时候弄没的,那就是翻译的时候,如果是翻译的话,那可以试着把换行符替换成&&&这种特殊符号,后期发布的时候再replace成换行符。
个人博客:SanFenZui.com 公众号:三分醉出海
回复 支持 反对

使用道具 举报

50

主题

417

广告币

776

积分

中级会员

Rank: 3Rank: 3

积分
776

社区QQ达人

 楼主| 发表于 2018-9-27 13:35:27 | 显示全部楼层
三分醉 发表于 2018-9-26 10:27
同意楼上,采集的时候为什么要去掉换行,如果不是采集的时候弄没的,那就是翻译的时候,如果是翻译的话,那 ...


我的代码中是没有去掉换行符的。。

可是我用通过wordpress_xmlrpc  向 wordpress发布文章,发布后就没有分段了。我不知是在wordpress_xmlrpc 发布的时候,还是翻译的时候,这些格式给弄没了。

我手工在wordpress后台发布的话,换行符都在,不过调用翻译接口后,还是在原来中文换行的地方换行,有些地方怪怪的。。





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

50

主题

417

广告币

776

积分

中级会员

Rank: 3Rank: 3

积分
776

社区QQ达人

 楼主| 发表于 2018-9-27 13:36:17 | 显示全部楼层
三分醉 发表于 2018-9-26 10:27
同意楼上,采集的时候为什么要去掉换行,如果不是采集的时候弄没的,那就是翻译的时候,如果是翻译的话,那 ...


我的代码中是没有去掉换行符的。。

可是我用通过wordpress_xmlrpc  向 wordpress发布文章,发布后就没有分段了。我不知是在wordpress_xmlrpc 发布的时候,还是翻译的时候,这些格

我手工在wordpress后台发布的话,换行符都在,不过调用翻译接口后,还是在原来中文换行的地方换行,有些地方怪怪的。。





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

2

主题

169

广告币

424

积分

中级会员

Rank: 3Rank: 3

积分
424
发表于 2018-9-27 16:43:03 | 显示全部楼层
本帖最后由 wjcj 于 2018-9-27 16:44 编辑

你翻译的时候是不是把所有 html都扔进去翻译啊,我只提取html标签内的东西来翻译,翻译完 替换到原位置就行了,beautifulsoup中一句话就可以替换

点评

还有这种操作啊? 请问bs里面这一句怎么写啊?  详情 回复 发表于 2018-9-27 21:20
回复 支持 反对

使用道具 举报

50

主题

417

广告币

776

积分

中级会员

Rank: 3Rank: 3

积分
776

社区QQ达人

 楼主| 发表于 2018-9-27 21:20:51 | 显示全部楼层
wjcj 发表于 2018-9-27 16:43
你翻译的时候是不是把所有 html都扔进去翻译啊,我只提取html标签内的东西来翻译,翻译完 替换到原位置就行 ...

还有这种操作啊?

请问bs里面这一句怎么写啊?

点评

for string in soup1.find_all(text=True): text=string.string.strip() if text: 提取html标签中文本.. if check_match(filters,string2)==1: #特定不翻译内  详情 回复 发表于 2018-9-27 23:21
回复 支持 反对

使用道具 举报

2

主题

169

广告币

424

积分

中级会员

Rank: 3Rank: 3

积分
424
发表于 2018-9-27 23:21:06 | 显示全部楼层
本帖最后由 wjcj 于 2018-9-27 23:23 编辑
dengwen168 发表于 2018-9-27 21:20
还有这种操作啊?

请问bs里面这一句怎么写啊?

for string in soup1.find_all(text=True):
            text=string.string.strip()
            if text:
              提取html标签中文本..略。。。
              if check_match(filters,string2)==1: #特定不翻译内容
                   print "发现不翻译内容"
                   print string2
                   string.replace_with('')
              else:
                   string.replace_with(translation['translatedText'])

最后一句话直接替换,当然前面还有很多if 需要考虑的 ,根据你自己实际需求

点评

多谢。  详情 回复 发表于 2018-9-28 08:23
回复 支持 反对

使用道具 举报

50

主题

417

广告币

776

积分

中级会员

Rank: 3Rank: 3

积分
776

社区QQ达人

 楼主| 发表于 2018-9-28 08:23:10 | 显示全部楼层
wjcj 发表于 2018-9-27 23:21
for string in soup1.find_all(text=True):
            text=string.string.strip()
            if text ...

多谢。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们|联系我们|DMCA|广告服务|小黑屋|手机版|Archiver|Github|网站地图|AdvertCN

GMT+8, 2024-12-22 13:18 , Processed in 0.056597 second(s), 19 queries , Gzip On, MemCache On.

Copyright © 2001-2023, AdvertCN

Proudly Operating in Hong Kong.

快速回复 返回顶部 返回列表