> 做站经验技巧 > 火车头伪原创内容出现【\h\】、【\s\】符号怎么办？

火车头伪原创内容出现【\h\】、【\s\】符号怎么办？

小男孩做站经验技巧 12-28 884 0

由于采集的目标网站的站长制作水平各不相同，经常出现html书写不规范、标签未闭合等情况，造成各种如题的异常情况。一般可以通过火车头采集规则的调整来解决异常问题。

问题：例如有网友出现伪原创内容有【\h\】、【\s\】符号。

$火车头伪原创内容出现【\h\】、【\s\】符号怎么办？$

解决方法：如下图，任务进行HTML标签排除，勾选：strong加粗、换行tab \r\n\t 、去首尾空白字符这三个标签。

HTML标签处理的建议：

1、strong加粗(必选)、换行tab \r\n\t(必选)、去首尾空白字符(必选)

2、其它标签，在不影响内容的情况下尽量勾选，以提高伪原创效果。

$火车头伪原创内容出现【\h\】、【\s\】符号怎么办？$

采集案例分析，附上目标站源码

$火车头伪原创内容出现【\h\】、【\s\】符号怎么办？$

目标网页源码

文章采用了p、span、article以及div混排的方式，还包含了\r \n等特殊符号。

给该网友的解决方案：

$火车头伪原创内容出现【\h\】、【\s\】符号怎么办？$

一、默认会清除span标签，因此可在火车采集器规则中，将span替换为p标签。

<span(*)>[参数]</span> 替换为 <p>[参数1]</p>

二、出现【\h\】是因为插件未对/r /n等特殊换行符处理，因此可在火车头规则中，html标签清除中勾选清除换行符。

$火车头伪原创内容出现【\h\】、【\s\】符号怎么办？$

感谢大家对小男孩伪原创的关注，后期可以举一反三，将目标网页稍加处理简洁后再进行伪原创处理。

扩展阅读：

采集规范示例：https://www.xiaoboy.cn/tool/278.html

火车头伪原创内容出现【\h\】、【\s\】符号怎么办？：等您坐沙发呢！

发表评论

您必须 [ 登录 ] 才能发表留言！