> 做站经验技巧 > 火车头采集器处理【"】、【& #12290;】等特殊字符

火车头采集器处理【"】、【& #12290;】等特殊字符

对于采集过程中,经常发现文章中包含了【"】、【 。】等样式的特殊字符。

这种编码其实可以用火车采集自带的编码转换功能轻松处理的。

操作步骤如下图所示:

1、选择一个标签名

2、点击+号

3、选择【高级功能】

4、选择【字符编码转换】

火车头采集器处理【"】、【& #12290;】等特殊字符

打开如下界面后,根据目前网页编码来选择对应解码方式

火车头采集器处理【"】、【& #12290;】等特殊字符

重新测试采集效果,就看到【"】这类符号转变成【】这样正常的显示了。

 

ps:一般情况下,站长采集之后才发现部分内容没有转码,对于有洁癖的技术控当然无法容忍,重新采集一遍可能要将万余篇采集内容丢弃,这样不仅耗费电力不环保、还白白消耗目标站的资源非常不友好,这时候通过火车头数据库编辑的SQL命令功能,将未转码的内容设置为未采集即可。

SQL操作命令仅做参考思路:

例如文章标题中发现未转码的【"】字符,逻辑上将标题包含【"】字符的采集结果设置为未采集即可。

命令如下(火车头SQL命令与MYSQL命令并不相同,每个版本的执行命令也不相同,需要大家灵活变通)

UPDATE Content SET [已采]=0 WHERE [标题] like '%&%'

火车头版本:火车采集器V10官方旗舰版

火车头采集器处理【"】、【& #12290;】等特殊字符:等您坐沙发呢!

发表评论

表情
还能输入210个字