#搜索引擎 — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #搜索引擎, aggregated by home.social.
-
Reddit is now blocking major search engines and AI bots — except the ones that pay - The Verge
Link
📌 Summary:
Reddit開始加強打擊網路爬蟲,並封鎖了大部分的搜尋引擎和AI機器人,但Google是唯一不被封鎖的搜尋引擎。Reddit更新網站robots.txt檔案,以防止網路爬蟲存取其內容。Reddit的首席法律官Ben Lee表示,這是一個警告那些沒有與Reddit達成協議的網路爬蟲,應停止存取Reddit資料的信號。Reddit表示已與Google達成協議,讓Google能夠訓練其AI模型使用Reddit的內容。微軟尊重robots.txt的標準,並遵守不被允許的網站禁止的內容,不與其生成式AI模型一起使用。這是Reddit為保護其數據而採取的措施,試圖開拓另一條收入來源並安撫新的投資者。
🎯 Key Points:
1. Reddit開始封鎖大部分的搜尋引擎和AI機器人,僅允許付費的搜尋引擎使用其內容。
2. Google是唯一能夠在搜尋Reddit內容時顯示最近結果的主流搜尋引擎。
3. Reddit更新了robots.txt檔案,以防止網路爬蟲存取其內容。
4. Reddit已與Google達成協議,讓Google能夠訓練其AI模型使用Reddit的內容。
5. 微軟不與未經允許的網站禁止的內容,不與其生成式AI模型一起使用。
🔖 Keywords:
#Reddit
#Google
#robots.txt
#AI模型
#搜索引擎 -
误解三:「#ChatGPT 解决不了来源准确性和新闻即时性的问题,这是#大语言模型 的硬伤。」
大语言模型本身如何保证「正确」是一个复杂的问题。但在普通人的应用角度,这件事可以非常轻易地从工程上绕过去。今天 #Bing 的试用已经逐步铺开了(见附图),附图里是关于2023年的时事的提问(而众所周知 ChatGPT 的训练语料完全来自2021年之前),你会看到它的回答非常准确,而且每句话都附上了#来源链接。这是因为 ChatGPT 或类似的大语言模型并不应该被理解为一个从零开始的静态知识库,而是一个可以动态附着在其他信息源上的 layer(「作为一种服务的自然语言界面」)。因此,哪怕用最笨的方式,搜索引擎至少可以当场把传统的搜索结果喂给它,它再以一种对话的方式把它呈现出来,而这就间接解决了准确性和即时性的问题(至少不差于传统#搜索引擎)。
https://weibo.com/1644684112/Msk5YyYbb