火车头采集遇一些特殊字符和&时会截断发布的问题解决了
作者:笑望书 发布时间:July 1, 2010 分类:建站心得
一直有用火车头去采集,之前发觉一个很诡异的问题,火车头采集内容发布到wordpess时,如果内容里含有一些字符时,如下面这样形式的东东
< > “ ” °
发布就会截断发布。具体如下面一段采集到的内容
<p>温和去除肌肤老化角质,抑制黑色素“ 重塑肌肤丝滑质地,令肌肤焕发透亮神采。是使用其他护肤产品前的重要步骤。含特效配方的泡沫乳液,快速凝结,在按摩肌肤的同时如片状般顺利脱落。经过防过敏性测试。100g NET WT.3.5 OZ.使用方法:于洁面后,擦干脸部和手部,避开眼睛、发际及唇部四周,在面部涂上薄薄一层。15秒后以螺旋式轻轻按摩,使乳霜脱落。最后,用清水洗净即可。一星期用2~3次。按摩时,注意不要过度用力。请勿用于粉刺等部位。本品没有抑制粉刺和青春痘的作用。</p>
发布后只剩下
<p>温和去除肌肤老化角质,抑制黑色素
这些特殊字符后面的内容都发不出。后来又发现连带&的网址都会出现截断,比如淘宝客的网址就带&,你直接采集带&后面的内容是发不出去的。
这个问题我和XL也有讨论,没找出原因,最后得出的结论是采集的时候要把这种字符及&过滤掉。可是有时候这字符和&是必须的,像上面淘宝客网址,那就不知道怎么搞了。
今天测试火车头官方发布的wp模块时,发觉没有出现这种截断发布的情况,莫非是模块的问题?
以前我是用哈默大神的wp模块,于是我又测试了一下哈默大神的,居然发现也没有出现这种截断发布的情况,现在最好的解释就是火车头的bug,由于这段时间不断升级修复了这bug吧,不管是不是这样,反正现在解决这问题就高兴。
在这里不得不BS一下火车头官方的模块,简陋得实在没法用,干都干了还要扭扭拧拧装单纯有意思吗?假如你是为了模块而买vip版,现在绝对还不是时候(不保证以后会有改进的可能)。假如你需要附件下载或者插件附助,可以考虑vip,什么伪原创、分词之类的也是鸡肋。
PS. wp火车头模块绝对推荐哈默大神的,不但好用,还完全免费和开源!
2010年8月18日补充
原来新版的火车头有一个新功能了,就是在编辑任务时的第三步里,选上“数据发布时进行UrlEncode处理”,这样就不会出现截断的情况。
就是火车的字库识别问题。