如何给采集的文章分段?
采集的文章,调用翻译接口,然后再发布,现在发布后一篇文章全部变成一段了,严重影响阅读体验,
请问如何给它分段呢?随机插入换行符?这样体验也不好啊?
遍历文章查找句号?然后插入换行符?好像有点浪费时间啊,
大家有好的方法吗?谢谢,
我用的是python.
采集前都有分段的吧,干嘛把分段符号去掉 同意楼上,采集的时候为什么要去掉换行,如果不是采集的时候弄没的,那就是翻译的时候,如果是翻译的话,那可以试着把换行符替换成&&&这种特殊符号,后期发布的时候再replace成换行符。 三分醉 发表于 2018-9-26 10:27
同意楼上,采集的时候为什么要去掉换行,如果不是采集的时候弄没的,那就是翻译的时候,如果是翻译的话,那 ...
我的代码中是没有去掉换行符的。。
可是我用通过wordpress_xmlrpc向 wordpress发布文章,发布后就没有分段了。我不知是在wordpress_xmlrpc 发布的时候,还是翻译的时候,这些格式给弄没了。
我手工在wordpress后台发布的话,换行符都在,不过调用翻译接口后,还是在原来中文换行的地方换行,有些地方怪怪的。。
三分醉 发表于 2018-9-26 10:27
同意楼上,采集的时候为什么要去掉换行,如果不是采集的时候弄没的,那就是翻译的时候,如果是翻译的话,那 ...
我的代码中是没有去掉换行符的。。
可是我用通过wordpress_xmlrpc向 wordpress发布文章,发布后就没有分段了。我不知是在wordpress_xmlrpc 发布的时候,还是翻译的时候,这些格
我手工在wordpress后台发布的话,换行符都在,不过调用翻译接口后,还是在原来中文换行的地方换行,有些地方怪怪的。。
本帖最后由 wjcj 于 2018-9-27 16:44 编辑
你翻译的时候是不是把所有 html都扔进去翻译啊,我只提取html标签内的东西来翻译,翻译完 替换到原位置就行了,beautifulsoup中一句话就可以替换:) wjcj 发表于 2018-9-27 16:43
你翻译的时候是不是把所有 html都扔进去翻译啊,我只提取html标签内的东西来翻译,翻译完 替换到原位置就行 ...
还有这种操作啊?
请问bs里面这一句怎么写啊? 本帖最后由 wjcj 于 2018-9-27 23:23 编辑
dengwen168 发表于 2018-9-27 21:20
还有这种操作啊?
请问bs里面这一句怎么写啊?
for string in soup1.find_all(text=True):
text=string.string.strip()
if text:
提取html标签中文本..略。。。
if check_match(filters,string2)==1: #特定不翻译内容
print "发现不翻译内容"
print string2
string.replace_with('')
else:
string.replace_with(translation['translatedText'])
最后一句话直接替换,当然前面还有很多if 需要考虑的 ,根据你自己实际需求
wjcj 发表于 2018-9-27 23:21
for string in soup1.find_all(text=True):
text=string.string.strip()
if text ...
多谢。:handshake
页:
[1]