GPT-5 と OpenAI によって開発された新しいウェブクローラー GPTBot。

それまで長くはかからないと思う OpenAI 人工知能ベースの検索エンジンの開発にも活用されるでしょう。新しい web crawler GPTBot cu modeGPT-5 広範な言語はすでにリリースされています。

使っている人は ChatGPT 私はこれを知っている mode広い言語の l (LLM）は現在実行中です GPT-3.5、2021 年 XNUMX 月に更新されたデータセットでトレーニングされています。したがって、この日以降に新しい情報がリクエストされた場合、 ChatGPT 正確な情報を提供することができません。もちろん、補助プラグインの使用をサポートしていない無料版でも有効です。

リリースで GPTBot, OpenAI この新しい機能を通じて Web ページのインデックス作成に道が開かれています web crawler。 Google、Microsoft、Yahoo、その他多くの企業が長年にわたって行ってきたことと同様です。

GPT-5 と OpenAI によって開発された新しいウェブクローラー GPTBot。

新しいです web crawler GPTBot 利用します web agent:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Web サイトの所有者は、ファイルを通じて Web ページのインデックス作成を制御できます。 robots.txt、他のディレクティブと同じディレクティブを使用します web crawlerそして他の会社の。

たとえば、Web サイトの所有者がそれを望まない場合、 OpenAI サイトから情報を収集するため、追加する場合があります robots.txt 台詞：

User-agent: GPTBot
Disallow: /

たとえ彼がそのように振る舞ったとしても web crawler, GPTBot 明確な目的があります: ペイウォール、個人データの収集、またはポリシーに違反するコンテンツを含むソースを慎重に回避しながら、公開されているデータを収集すること OpenAI.

しかし、かなりの数の論争があり、中には同社に対して訴訟を起こしたものもある OpenAI プライバシーと、作者の同意なしに、または出典を特定せずにコンテンツを使用すること。

XNUMX月、日本のプライバシー規制当局は次のような警告を発した。 OpenAI 不正なデータ収集について。イタリアも今年初めに一時的に使用を禁止した ChatGPT 欧州連合のプライバシー法に違反した疑いがあるため。