home.social

#搜索引擎 — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #搜索引擎, aggregated by home.social.

  1. Reddit is now blocking major search engines and AI bots — except the ones that pay - The Verge

    Link
    📌 Summary:

    Reddit開始加強打擊網路爬蟲,並封鎖了大部分的搜尋引擎和AI機器人,但Google是唯一不被封鎖的搜尋引擎。Reddit更新網站robots.txt檔案,以防止網路爬蟲存取其內容。Reddit的首席法律官Ben Lee表示,這是一個警告那些沒有與Reddit達成協議的網路爬蟲,應停止存取Reddit資料的信號。Reddit表示已與Google達成協議,讓Google能夠訓練其AI模型使用Reddit的內容。微軟尊重robots.txt的標準,並遵守不被允許的網站禁止的內容,不與其生成式AI模型一起使用。這是Reddit為保護其數據而採取的措施,試圖開拓另一條收入來源並安撫新的投資者。

    🎯 Key Points:

    1. Reddit開始封鎖大部分的搜尋引擎和AI機器人,僅允許付費的搜尋引擎使用其內容。
    2. Google是唯一能夠在搜尋Reddit內容時顯示最近結果的主流搜尋引擎。
    3. Reddit更新了robots.txt檔案,以防止網路爬蟲存取其內容。
    4. Reddit已與Google達成協議,讓Google能夠訓練其AI模型使用Reddit的內容。
    5. 微軟不與未經允許的網站禁止的內容,不與其生成式AI模型一起使用。

    🔖 Keywords:

    #Reddit
    #Google
    #robots.txt
    #AI模型
    #搜索引擎

  2. 误解三:「#ChatGPT 解决不了来源准确性和新闻即时性的问题,这是#大语言模型 的硬伤。」

    大语言模型本身如何保证「正确」是一个复杂的问题。但在普通人的应用角度,这件事可以非常轻易地从工程上绕过去。今天 #Bing 的试用已经逐步铺开了(见附图),附图里是关于2023年的时事的提问(而众所周知 ChatGPT 的训练语料完全来自2021年之前),你会看到它的回答非常准确,而且每句话都附上了#来源链接。这是因为 ChatGPT 或类似的大语言模型并不应该被理解为一个从零开始的静态知识库,而是一个可以动态附着在其他信息源上的 layer(「作为一种服务的自然语言界面」)。因此,哪怕用最笨的方式,搜索引擎至少可以当场把传统的搜索结果喂给它,它再以一种对话的方式把它呈现出来,而这就间接解决了准确性和即时性的问题(至少不差于传统#搜索引擎)。
    weibo.com/1644684112/Msk5YyYbb

    #关于AI