admin 發表於 2024-4-25 14:24:08

網站與爬虫的博弈:小小的robots.txt還能守住数据嗎?

三十多年来,一個简略的文本文件robots.txt一向保持着收集秩序,节制收集爬虫的举動。但跟着AI公司的突起,它們為了练習模子而大量收集数据,使得收集的“社交左券”面對解體。網站具有者和AI公司之間開展博弈,robots.txt的将来也變得错综复杂。

几十年来,一個细小的文本文件默默守护着收集的秩序。它没有法令或技能权势巨子,乃至也没有繁杂的技能含量。它代表了互联網初期前驱們的一項“握手协定”,旨在相互尊敬相互的意愿,配合扶植一個對 everyone 有利的收集。它可以说是互联網的一部微型宪法,用代码写成。

它叫作 robots.txt,凡是位于你的網站根目次下。這個文件容许任何網站所有者——不管巨细,是烹调博客仍是跨國公司——奉告互联網谁可以進入谁不成以。哪些搜刮引擎可以索引你的網站?哪些档案項目可以抓取你的页面并保留?竞争敌手是不是可以监控你的页面以供他們本身利用?你可以做出决议并通知收集。

這不是一個完善的體系,但它曾運作杰出。最少之前是如许。几十年来,robots.txt 的重要存眷點是搜刮引擎;你容许它們抓取你的網站,作為互换,它們许诺将人們發送回你那邊。如今,AI 扭转了這個公式:收集上的公司正在利用你的網站及其数据来構建大量练習数据集,以便構建可能底子不會認可你存在的模子和產物。

robots.txt 划定了一種互换瓜葛;對很多人来讲,AI 感受只索取不支出。但如今,AI 范畴的資金如斯巨大,技能程度變革如斯之快,很多網站所有者都没法跟上。而 robots.txt 暗地里的根基协定,和全部收集——久长以来一向是“每小我都連结岑寂”——也可能没法跟上步调。

在互联網初期,呆板人有不少名字:蜘蛛(spider)、爬虫(crawler)、蠕虫(worm)、WebAnt、收集爬虫。大大都環境下,它們都是出于善意而制作的。凡是是開辟职员试圖创建一個酷炫的新網站目次,确保他們本身的網站正常運行,或创建钻研数据库——這是约莫 1993 年的事,那時搜刮引擎尚未普及,你可以在计较機硬盘上容纳大部門互联網。

那時独一真實的問題是流量:拜候互联網對付看到網站的人和托管網站的人来讲都慢且昂贵。若是你像很多人同样将你的網站托管在你的计较機上,或經由過程你的家庭互联網毗連運行慌忙構建的辦事器軟件,那末只必要几個呆板人過度热情地下载你的页面,事變就會解體,德律風账单也會飙升。

在 1994 年的几個月里,軟件工程師和開辟职员 Martijn Koster 與其他收集辦理员和開辟职员一块儿提出了一種解决方案,他們称之為呆板人解除协定 (Robots Exclusion Protocol)。该提案至關简略:它请求收集開辟职员在其域中添加一個纯文本文件,指定哪些呆板人不容许在其網站上搜刮,或列出所有呆板人都不容许訪問的页面。(再次,那時你可以保护一份存在的每一個呆板人的列表——Koster 和其他几小我帮忙做了這件事。) 對付呆板人制造商来讲,這笔買賣更简略:尊敬文本文件的欲望。

從一起頭,Koster 就明白暗示他不腻烦呆板人,也不筹算解脱它們。“呆板人是收集上少数几個造成運营問題和讓人心烦的方面之一,”他在 1994 年頭發送给名為 WWW-Talk 的邮件列表(此中包含收集初期前驱者,如 Tim Berners-Lee 和 Marc Andreessen)的初始電子邮件中说。“同時,它們确切供给有效的辦事。”Koster 告诫不要争辩呆板人是好是坏——由于這其實不首要,它們已存在了,不會消散。他只是试圖設計一個“最小化問題并可能最大化收益”的體系。

“呆板人是收集上少数几個造成運营問題和讓人心烦的方面之一。同時,它們确切供给有效的辦事。”

到那年的炎天,他的提议已成為一個尺度——不是官方尺度,而是更或多或少被廣泛接管的尺度。Koster 在 6 月再次致電 WWW-Talk 小组举行更新。“简而言之,它是一種經由過程在辦事器上供给一個简略的文本文件将呆板人指导阔别收集辦事器 URL 空間中某些區域的法子,”他写道。“若是你具有大型存档、具备大量 URL 子树的 CGI 剧本、姑且信息,或只是不想為呆板人辦事,這出格便利。”他创建了一個主題特定的邮件列表,其成员赞成了一些根基语法和布局用于那些文本文件,将文件名称從 RobotsNotWanted.txt 更改成简略的 robots.txt,而且几近所有人都赞成支撑它。

在接下来的 30 年里,這事情得很好。

但互联網再也不能装在硬盘上了,呆板人也變得加倍壮大。google利用它們抓取和索引全部收集以供其搜刮引擎利用,而搜刮引擎已成為互联網的接口,每一年為该公司带来数十亿美元的收入。Bing 的爬虫也做了一样的事變,微軟将其数据库授权给其他搜刮引擎和公司。互联網档案利用爬虫来存储網页以供後世利用。亚马逊的爬虫在收集上搜查產物信息,按照近来的一項反垄断诉讼,该公司利用這些信息来赏罚在亚马逊之外供给更好買賣的賣家。像 OpenAI 如许的 AI 公司正在抓取收集以练習大型说话模子,這些模子可能會再次從底子上扭转咱們拜候和同享信息的方法。

下载、存储、组织和盘問现代互联網的能力使任何公司或開辟职员都能利用世界上堆集的常識。在曩昔的一年摆布,像 ChatGPT 如许的 AI 產物的鼓起,和它們暗地里的大型说话模子,使得高質量的练習数据成為互联網上最有價值的商品之一。這致使各類互联網供给商從新斟酌其辦事器上的数据的價值,并從新斟酌谁可以拜候甚麼。過于宽松可能會讓你的網站落空所有價值;過于严酷可能會讓你變得隐形。你必需始终按照新的公司、新的互助火伴和新的长處相干者做出選擇。

互联網呆板人有几種類型。你可以構建一個彻底無害的呆板人来四周爬行并确保你的所有页面链接依然指向其他及時页面;你可以發送一個更大略的呆板人绕着收集采集你能找到的每一個電子邮件地點或德律風号码。但最多見、今朝最具争议的是简略的收集爬虫。它的事情是尽量多地查找和下载互联網上的内容。

收集爬虫凡是至關简略。它們從一個家喻户晓的網站起頭,比方 cnn.com 或 wikipedia.org 或 health.gov。(若是你正在運行通用搜刮引擎,你将從分歧主題的大量高質量域名起頭;若是你只關切體育或汽車,你将只從汽車網站起頭。)爬虫下载该第一個页面并将其存储在某處,然後主動单击该页面上的每一個链接,下载所有這些链接,单击每一個链接,并在收集上傳布。有足够的時候和足够的计较資本,爬虫终极會找到并下载数十亿個網页。

掂量弃取至關简略:若是 Google 可以抓取你的页面,它可以将其编入索引并在搜刮成果中显示它。

google在 2019 年估量,跨越 5 亿個網站具有一個 robots.txt 页面,批示這些爬虫是不是可以拜候和可以拜候甚麼。這些页面的布局凡是大致不异:它定名了一個“User-agent”,指的是爬虫在向辦事器標識本身時利用的名称。google的代辦署理是 Googlebot;亚马逊的是 Amazonbot;Bing 是 Bingbot;OpenAI 的是 GPTBot。Pinterest、LinkedIn、Twitter 和很多其他網站和辦事都有本身的呆板人,并不是所有呆板人城市在每一個页面上说起。(维基百科和 Facebook 是两個呆板人出格具體的平台。)鄙人面,robots.txt 页面列出了给定代辦署理不容许拜候的站點部門或页面,和容许的特定规外。若是该行只写着“Disallow: /”,则爬虫彻底不受接待。

@對%VX4R6%付大大%3j1Xw%都@人来讲,“辦事器過载”已再也不是他們真正關切的事變了。“现在,這凡是與網站上利用的資本無關,而更多與小我爱好有關,”google搜刮提倡者 John Mueller 说。“你想讓哪些内容被抓取和索引等等?”

汗青上,大大都網站所有者必需答复的最大問題是是不是容许 Googlebot 抓取他們的網站。掂量弃取至關简略:若是 Google 可以抓取你的页面,它可以将其编入索引并在搜刮成果中显示它。任何你但愿 Google 可以搜刮的页面,Googlebot 都必要看到。(固然,Google 実際に搜刮成果中显示该页面的方法和位置是彻底分歧的問題。)問題是你是不是愿意讓 Google 损耗一些你的带宽并下载你的網站副本以换取搜刮带来的可見性。

@對%VX4R6%付大大%3j1Xw%都@網站来讲,這是一個简略的買賣。“Google 是咱們最首要的蜘蛛,”Medium 首席履行官 Tony Stubblebine 说。Google 可如下载 Medium 的所有页面,“作為互换,咱們得到了大量流量。這是共赢。每小我都這麼認為。”這是 Google 與全部互联網告竣的协定,以經由過程出售搜刮成果中的告白来為其他網站引流。按照所有人的说法,Google 一向是 robots.txt 的榜样公民。“几近所有知名的搜刮引擎都遵照它,”google的 Mueller 说。“他們很歡快可以或许抓取收集,但他們不想以此触怒人們……這只是讓每小我都更轻松。”

但是,在曩昔的一年摆布,人工智能的鼓起倾覆了這一等式。對付很多出书商和平台来讲,讓他們的数据被抓取以练習数据感受更像是偷盗而不是買賣。“咱們很快發明,與人工智能公司互助,”Stubblebine 说,“不但不是價值互排毒清肺湯,换,咱們也一無所得。真的零。”客岁秋日,當 Stubblebine 颁布發表 Medium 将阻拦人工智能爬虫時,他写道“人工智能公司已從作家那邊压迫了價值,以便向互联網读者發送垃圾邮件。”

客岁,媒體行業的大部門人士都表达了與 Stubblebine 不异的概念。“咱們不認為未經咱們允许‘抓取’BBC 数据以练習通用人工智能模子合适大眾长處,”BBC 天下总监 Rhodri Talfan Davies 客岁秋日写道,并颁布發表 BBC 也将阻拦 OpenAI 的爬虫。纽约時報也屏障了 GPTBot,几個月前它告状 OpenAI 称 OpenAI 的模子“是經由過程复制和利用纽约時報的数百万篇版权消息文章、深度查询拜访、概念文章、评论、操作指南等構建的。”路透社消息利用编纂 Ben Welsh 的一項钻研發明,在接管查询拜访的 1,156 家出书商中,有 606 家在其 robots.txt 文件中屏障了 GPTBot。

這不但仅是出书商。亚马逊、Facebook、Pinterest、WikiHow、WebMD 和很多其他平台明白阻拦 GPTBot 拜候其部門或全数網站。在大大都這些 robots.txt 页面上,OpenAI 的 GPTBot 是独一明白和彻底不容许的爬虫。但另有很多其他以人工智能為方针的呆板人起頭在收集上爬行,比方 Anthropic 的 anthropic-ai 和google的新 Google-Extended。按照 Originality.AI 客岁秋日的一項钻研,收集上排名前 1,000 的網站中有 306 個屏障了 GP護膚品推薦,TBot,但只有 85 個屏障了 Google-Extended,28 個屏障了 anthropic-ai。

另有一些爬虫用于收集搜刮和人工智能。CCBot 由 Co妹妹on Crawl 组织運营,出于搜刮引擎目標搜查收集,但其数据也由 OpenAI、Google 和其他公司用于练習其模子。微軟的 Bingbot 既是搜刮爬虫又是人工智能爬虫。這些只是辨認本身的爬虫——很多其他爬虫试圖在相對于機密的情况中運作,使得很難阻拦乃至在其他收集流量中找到它們。對付任何足够受接待的網站来讲,找到一個鬼鬼祟祟的爬虫就像大海捞针。

在很大水平上,GPTBot 已成為 robots.txt 的重要反派,由于 OpenAI 容许這類環境產生。该公司公布并鼓吹了一页關于若何阻拦 GPTBot 的信息,并構建了其爬虫,使其在每次靠近網站時城市高声辨認本身。固然,它在练習出使其如斯壮大的底层模子以後才做所有這些事變,而且只是在它成為技能生态體系的首要構成部門以後才做所有這些事變。但 OpenAI 的首席计谋官 Jason Kwon 说,這恰是重點。“咱們是生态體系中的介入者,”他说。“若是你想以開放的方法介入這個生态體系,那末這就是每小我都感樂趣的互惠買賣。”他说,没有這笔買賣,收集就會起頭萎缩、封闭——這對 OpenAI 和所有人来讲都是坏事。“咱們做這一切都是為了讓收集連结開放。”

默许環境下,呆板人解除痘藥膏,除协定一向是容许的。它信赖,就像 Koster 30 年前所做的那样,大大都呆板人都是好的,由大好人制造,是以默许容许它們。总的来讲,這是准确的决议。“我認為互联網從底子上是一種社會生物,”OpenAI 的 Kwon 说,“而這類延续了数十年的握手彷佛見效了。”他说,OpenAI 在保持這一协定方面阐扬的感化包含讓 ChatGPT 對大大都用户免费,從而将價值返還给他們,并遵照呆板人法则。

但 robots.txt 不是法令文件——在其建立 30 年後,它依然依靠于所有相干方的善意。在你的 robots.txt 页面上制止呆板人就像在你的树屋上贴上“女孩制止入内”的口号同样——它會發送一条動静,但它不會在法庭上站得住脚。任何想要疏忽 robots.txt 的爬虫均可以简略地如许做,而几近没必要担忧後果。(虽然環抱收集抓取有一些法令先例,但即便這些先例也可能很繁杂,而且重要落在容许抓取和抓取上。)比方,互联網档案在 2017 年颁布發表它再也不遵照 robots.txt 的法则。“跟着時候的推移,咱們察看到,面向搜刮引擎爬虫的 robots.txt 文件不必定合适咱們的存档目標,”互联網档案 Wayback Machine 主任 Mark Graham 那時写道。就如许竣事了。

跟着人工智能公司的不竭出现,和它們的爬虫變得愈来愈不擇手腕,任何想要张望或期待人工智能接收的人都要举行一場永無尽頭的打地鼠遊戲。他們必需零丁阻拦每一個呆板人和爬虫,若是這乃至可能的话,同時還要斟酌副感化。若是人工智能确切是搜刮的将来,正如google和其他公司所展望的那样,那末阻拦人工智能爬虫多是短時間的成功,但倒是持久的劫難。

两邊都有人認為咱們必要更好、更壮大、更严酷的东西来辦理爬虫。他們争辩论,触及的資金太多,新的和不受羁系的用例太多,没法寄托每小我都赞成做准确的事變。“固然很多介入者制订了一些法则来规范他們利用爬虫的举動,”两位專注于技能的状師在 2019 年终于收集爬虫正當性的论文中写道,“但整體而言,這些法则過于亏弱,究查他們的责任太坚苦。”

一些出书商但愿對被抓取的内容和用于那邊举行更具體的节制,而不是 robots.txt 的周全容许或回绝权限。google几年前曾尽力使呆板人解除协定成為正式的官方尺度,也鞭策弱化 robots.txt 的职位地方,来由是它是一個過期的尺度,太多網站不予理睬。“咱們熟悉到现有的收集公布者节制是在新的 AI 和钻研用例呈现以前開辟的,”google信赖副总裁 Danielle Roma植牙診所,in 客岁写道。“咱們信赖,收集和人工智能社區是時辰摸索分外的呆板可读手腕,以實现收集公布者對新兴人工智能和钻研用例的選擇和节制。”

即便人工智能公司在若何構建和练習模子方面面對羁系和法令問題,這些模子仍在不竭改良,新公司彷佛天天都在出现。巨细網站都面對着一個决议:屈就于人工智能革命或對峙否决它。對付那些選擇退出的人来讲,他們最壮大的兵器是三十年前由收集上最先和最樂觀的真正信徒告竣的协定。他們信赖互联網是一個夸姣的處所,布满了仁慈的人,他們最但愿互联網成為一件夸姣的事變。在阿谁世界和阿谁互联網上,在一個文本文件中诠释你的欲望應當足够了。
頁: [1]
查看完整版本: 網站與爬虫的博弈:小小的robots.txt還能守住数据嗎?