但互联網再也不能装在硬盘上了,呆板人也變得加倍壮大。google利用它們抓取和索引全部收集以供其搜刮引擎利用,而搜刮引擎已成為互联網的接口,每一年為该公司带来数十亿美元的收入。Bing 的爬虫也做了一样的事變,微軟将其数据库授权给其他搜刮引擎和公司。互联網档案利用爬虫来存储網页以供後世利用。亚马逊的爬虫在收集上搜查產物信息,按照近来的一項反垄断诉讼,该公司利用這些信息来赏罚在亚马逊之外供给更好買賣的賣家。像 OpenAI 如许的 AI 公司正在抓取收集以练習大型说话模子,這些模子可能會再次從底子上扭转咱們拜候和同享信息的方法。
下载、存储、组织和盘問现代互联網的能力使任何公司或開辟职员都能利用世界上堆集的常識。在曩昔的一年摆布,像 ChatGPT 如许的 AI 產物的鼓起,和它們暗地里的大型说话模子,使得高質量的练習数据成為互联網上最有價值的商品之一。這致使各類互联網供给商從新斟酌其辦事器上的数据的價值,并從新斟酌谁可以拜候甚麼。過于宽松可能會讓你的網站落空所有價值;過于严酷可能會讓你變得隐形。你必需始终按照新的公司、新的互助火伴和新的长處相干者做出選擇。
@對%VX4R6%付大大%3j1Xw%都@人来讲,“辦事器過载”已再也不是他們真正關切的事變了。“现在,這凡是與網站上利用的資本無關,而更多與小我爱好有關,”google搜刮提倡者 John Mueller 说。“你想讓哪些内容被抓取和索引等等?”
汗青上,大大都網站所有者必需答复的最大問題是是不是容许 Googlebot 抓取他們的網站。掂量弃取至關简略:若是 Google 可以抓取你的页面,它可以将其编入索引并在搜刮成果中显示它。任何你但愿 Google 可以搜刮的页面,Googlebot 都必要看到。(固然,Google 実際に搜刮成果中显示该页面的方法和位置是彻底分歧的問題。)問題是你是不是愿意讓 Google 损耗一些你的带宽并下载你的網站副本以换取搜刮带来的可見性。
@對%VX4R6%付大大%3j1Xw%都@網站来讲,這是一個简略的買賣。“Google 是咱們最首要的蜘蛛,”Medium 首席履行官 Tony Stubblebine 说。Google 可如下载 Medium 的所有页面,“作為互换,咱們得到了大量流量。這是共赢。每小我都這麼認為。”這是 Google 與全部互联網告竣的协定,以經由過程出售搜刮成果中的告白来為其他網站引流。按照所有人的说法,Google 一向是 robots.txt 的榜样公民。“几近所有知名的搜刮引擎都遵照它,”google的 Mueller 说。“他們很歡快可以或许抓取收集,但他們不想以此触怒人們……這只是讓每小我都更轻松。”
但是,在曩昔的一年摆布,人工智能的鼓起倾覆了這一等式。對付很多出书商和平台来讲,讓他們的数据被抓取以练習数据感受更像是偷盗而不是買賣。“咱們很快發明,與人工智能公司互助,”Stubblebine 说,“不但不是價值互排毒清肺湯,换,咱們也一無所得。真的零。”客岁秋日,當 Stubblebine 颁布發表 Medium 将阻拦人工智能爬虫時,他写道“人工智能公司已從作家那邊压迫了價值,以便向互联網读者發送垃圾邮件。”