それまで長くはかからないと思う OpenAI 人工知能ベースの検索エンジンの開発にも活用されるでしょう。 新しい web crawler GPTBot cu modeGPT-5 広範な言語はすでにリリースされています。
使っている人は ChatGPT 私はこれを知っている mode広い言語の l (LLM)は現在実行中です GPT-3.5、2021 年 XNUMX 月に更新されたデータセットでトレーニングされています。したがって、この日以降に新しい情報がリクエストされた場合、 ChatGPT 正確な情報を提供することができません。 もちろん、補助プラグインの使用をサポートしていない無料版でも有効です。
リリースで GPTBot, OpenAI この新しい機能を通じて Web ページのインデックス作成に道が開かれています web crawler。 Google、Microsoft、Yahoo、その他多くの企業が長年にわたって行ってきたことと同様です。
GPT-5 と OpenAI によって開発された新しいウェブクローラー GPTBot。
新しいです web crawler GPTBot 利用します web agent:
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
Web サイトの所有者は、ファイルを通じて Web ページのインデックス作成を制御できます。 robots.txt
、他のディレクティブと同じディレクティブを使用します web crawlerそして他の会社の。
たとえば、Web サイトの所有者がそれを望まない場合、 OpenAI サイトから情報を収集するため、追加する場合があります robots.txt
台詞:
User-agent: GPTBot
Disallow: /
たとえ彼がそのように振る舞ったとしても web crawler, GPTBot 明確な目的があります: ペイウォール、個人データの収集、またはポリシーに違反するコンテンツを含むソースを慎重に回避しながら、公開されているデータを収集すること OpenAI.
しかし、かなりの数の論争があり、中には同社に対して訴訟を起こしたものもある OpenAI プライバシーと、作者の同意なしに、または出典を特定せずにコンテンツを使用すること。
XNUMX月、日本のプライバシー規制当局は次のような警告を発した。 OpenAI 不正なデータ収集について。 イタリアも今年初めに一時的に使用を禁止した ChatGPT 欧州連合のプライバシー法に違反した疑いがあるため。