火车头采集器处理【"】、【& #12290;】等特殊字符
对于采集过程中,经常发现文章中包含了【"】、【 。】等样式的特殊字符。
这种编码其实可以用火车采集自带的编码转换功能轻松处理的。
操作步骤如下图所示:
1、选择一个标签名
2、点击+号
3、选择【高级功能】
4、选择【字符编码转换】
打开如下界面后,根据目前网页编码来选择对应解码方式
重新测试采集效果,就看到【"】这类符号转变成【“】这样正常的显示了。
ps:一般情况下,站长采集之后才发现部分内容没有转码,对于有洁癖的技术控当然无法容忍,重新采集一遍可能要将万余篇采集内容丢弃,这样不仅耗费电力不环保、还白白消耗目标站的资源非常不友好,这时候通过火车头数据库编辑的SQL命令功能,将未转码的内容设置为未采集即可。
SQL操作命令仅做参考思路:
例如文章标题中发现未转码的【"】字符,逻辑上将标题包含【"】字符的采集结果设置为未采集即可。
命令如下(火车头SQL命令与MYSQL命令并不相同,每个版本的执行命令也不相同,需要大家灵活变通)
UPDATE Content SET [已采]=0 WHERE [标题] like '%&%'
火车头版本:火车采集器V10官方旗舰版
火车头采集器处理【"】、【& #12290;】等特殊字符:等您坐沙发呢!