知乎故意使用乱码干扰必应/谷歌等爬虫 看起来确实是阻止内容被抓取训练AI – 蓝点网
昨天蓝点网提到有用户反馈称使用微软必应搜索和谷歌搜索发现存在不少知乎乱码内容,训练即搜索结果里知乎内容的知乎止内抓标题和正文内容都可能是乱码的,但抓取的故意干扰谷歌正文前面一些段落内容可以正常查看。
考虑到此前知乎已经屏蔽除百度和搜狗以外的使用实阻所有搜索引擎爬虫 (蜘蛛 / 机器人),蓝点网猜测知乎应该是乱码蓝点想通过乱码来干扰搜索引擎和其他爬虫,避免这些搜索引擎和爬虫抓取知乎内容拿去训练人工智能模型。等爬
这种猜测现在基本已经坐实,起确因为有网友发现只要用户代理字符串 (UserAgent) 中包含爬虫类关键词例如 spider 和 bot,容被那么知乎就会返回乱码内容,如果不包含这些关键词则返回正常内容。
蓝点网也进行了测试复现了这种情况,例如 [蓝点网 – 没有蜘蛛] 这个代理字符串可以显示正常内容,而 [蓝点网 – 没有蜘蛛 – spider] 就会显示乱码内容。
值得注意的是蓝点网还测试了百度搜索的爬虫也就是 Baiduspider 也返回乱码内容,那这岂不是影响百度抓取吗?这个也可以通过技术手段解决,即服务器为百度爬虫提供了专门的索引通道类似白名单,可以随意抓取任何不受限的内容。这种方式还可以用来对抗某些恶意抓取者冒充百度爬虫来抓取内容,因此从网站角度来说也是个不错的防御方式。
测试中还有个有趣的情况是 OpenAI 的 GPT 爬虫也就是 GPTBot 有时候不会乱码有时候会乱码,不过大多数情况下也都是乱码的,因为 UA 匹配到了关键词 bot 所以返回乱码内容,这不太可能是知乎也允许 OpenAI 抓取内容。
从最开始知乎屏蔽其他搜索引擎只允许百度和搜狗到必应搜索结果里出现乱码内容以及现在的关键词匹配,这些情况基本说明了知乎确实不希望自己的内容被抓取,对知乎来说现有的内容是个巨大的金矿,如果人工智能公司不花钱来买的话那肯定不能提供这些数据,所以接下来可能某个时候就会传出某某公司与知乎达成协议可以获取内容用于 AI 模型训练。
测试1:正常浏览器UA可以返回正确内容
测试2:测试 test-bing-bot 命中关键词 bot 返回乱码内容
测试3:测试 test-google-spider 命中关键词 spider 返回乱码
测试4:测试 蓝点网-没有蜘蛛 未命中关键词返回正常内容
测试5:测试 蓝点网-没有蜘蛛-有个锤子的-spider 因为命中关键词返回乱码
测试6:测试 蓝点网-没有蜘蛛-有个锤子的-bot因为命中关键词返回乱码
测试7:GPTBot命中关键词但意外没有乱码,这种情况出现的概率极低,大部分还是乱码
测试8:baiduspider因为命中关键词也乱码
测试9:这是百度爬虫渲染的完整UA
测试10:GPTBot大多数时候也是乱码的
-
苹果宣布在多个国家/地区延长AppleCare+注册时间至45天 国内仍然为30天 – 蓝点网网传京东无锡仓库失火损失超过10亿元商品 京东辟谣称只是存货库房 – 蓝点网谷歌称若强制其出售Chrome和安卓可能会危及消费者和Firefox等合作伙伴 – 蓝点网销售8年后苹果可能已经停产Lightning转3.5毫米耳机适配器 – 蓝点网微软开源基于图的检索增强生成方法GraphRAG 可以大幅度提高AI回答准确性 – 蓝点网法国团队成功对苹果Mac Studio专有存储模块实现逆向 明年起将提供实惠的升级 – 蓝点网群晖设置DDNS后获取的IP地址不对怎么办?试试将探测域名放入白名单 – 蓝点网中国移动宣布5G消息(即RCS)收费 按传统短彩信标准每条收费0.1/0.3元 – 蓝点网Arm要求高通销毁所有Copilot+PC 当然真销毁的概率还是很低的 – 蓝点网销售8年后苹果可能已经停产Lightning转3.5毫米耳机适配器 – 蓝点网
下一篇:思科在Office for Mac中发现多个安全问题 微软认为都不是事儿并拒绝修复 – 蓝点网
- ·泰坦尼克号观光潜水器失事后船员家属起诉罗技 因为潜水器使用F170手柄控制 – 蓝点网
- ·OpenAI更新ChatGPT协同工作功能 现已支持iTerm等众多IDE或终端工具 – 蓝点网
- ·重磅消息:英特尔首席执行官帕特基辛格宣布退休 成立临时联席CEO运营 – 蓝点网
- ·X/Twitter计划为恶搞账户添加专门标签 防止其他用户将其误认为真人 – 蓝点网
- ·X/Twitter被发现直接举报非自愿裸露内容处理极慢 而发送DMCA则更快处理 – 蓝点网
- ·法国团队成功对苹果Mac Studio专有存储模块实现逆向 明年起将提供实惠的升级 – 蓝点网
- ·X/Twitter计划为恶搞账户添加专门标签 防止其他用户将其误认为真人 – 蓝点网
- ·最终MacBook将取消刘海屏改成打孔设计 同时内置5G基带芯片可以蜂窝联网 – 蓝点网
- ·谋智基金会正在重新投资火狐浏览器 希望其成为谷歌Chrome和苹果Safari替代品 – 蓝点网
- ·树莓派推出嵌入式单板计算机Raspberry Pi CM5 配置更高45美元起售 – 蓝点网
- ·网传京东无锡仓库失火损失超过10亿元商品 京东辟谣称只是存货库房 – 蓝点网
- ·俄罗斯强制要求所有手机必须预装俄国产应用商店的新法案获得初步通过 – 蓝点网
- ·Mt.Gox用户开始拿回自己被盗的比特币 虽然数量很少但价格翻了N倍 – 蓝点网
- ·开源文件共享应用ProjectSend出现高危漏洞且遭到利用 用户应立即升级 – 蓝点网
- ·微软推出Windows 365 Link瘦客户机 类似阿里云无影云桌面用来连接云系统 – 蓝点网
- ·曾是全球最大暗网黑市的九头蛇市场头目被俄罗斯法院判处终身监禁 – 蓝点网
- ·ChatGPT for Mac版竟然以纯文本形式存储用户对话 恶意软件可实时获取敏感数据 – 蓝点网
- ·谷歌开发者计划推出Premium高级会员 每年299美元但加赠最高1000美元云额度 – 蓝点网
- ·X/Twitter提供的Grok Aurora极光图像生成器备受好评 但很快就被下线了 – 蓝点网
- ·中国制造商积核(Geekom)将推出全球首款搭载高通骁龙X Elite芯片的迷你机 – 蓝点网
- ·Stability AI最新的SD3模型存在严重问题 为规避裸体结果导致躯体部分错乱 – 蓝点网
- ·最终MacBook将取消刘海屏改成打孔设计 同时内置5G基带芯片可以蜂窝联网 – 蓝点网
- ·Meta封锁200万个与柬埔寨/缅甸/老挝/阿联酋/菲律宾相关的杀猪盘账号 – 蓝点网
- ·三星的芯片代工开发部门被解散 暂时不再追求2纳米而是提升3纳米制程良率 – 蓝点网
- ·技术交流社区博客园遭到大规模CC攻击目前出现访问中断 恢复时间未知 – 蓝点网
- ·最终还是学马斯克:Facebook宣布将浏览量作为衡量内容效果的主要指标 – 蓝点网
- ·糟糕我被QLC包围了!传苹果将在iPhone 17系列中使用QLC颗粒提供2TB存储 – 蓝点网
- ·博通更新安全公告称VMware vCenter Server漏洞开始被黑客广泛利用 – 蓝点网
- ·市场数据显示笔记本电脑销量正在增加 但主要是因为Windows 10停止支持而非AI – 蓝点网
- ·遗憾!法院判决YouTube
- ·微软向专业用户和企业推出Microsoft Defender更新映像 可以集成到WIM/VHD中 – 蓝点网
- ·RackNerd VPS服务器洛杉矶DC02优质线路补货 每月提供6.5TB流量 – 蓝点网
- ·欧洲刑警组织捣毁暗网黑市曼森市场 逮捕2人并收集超过200TB的数字证据 – 蓝点网
- ·消息称苹果AI功能在中国市场由百度提供 但百度的隐私问题产生了冲突 – 蓝点网
- ·针对安卓系统的勒索软件Rafel RAT正在传播 中国和美国用户都是受害重灾区 – 蓝点网
- ·开源文件共享应用ProjectSend出现高危漏洞且遭到利用 用户应立即升级 – 蓝点网