CgatGPTのカスタムGPTで「どもどもAI」を作成してみました、ナレッジファイルの取り込み上限に苦労しました

この記事は約6分で読めます。

どもどもAI昨日は「蕎麦ガイド」というカスタムGPTを作成しましたが、今日は「どもどもAI」というカスタムGPTを作ってみました。
「どもどもAI」は、当サイトのブログ記事をナレッジとして読み込み学習して、ユーザーと経営やITのことが対話できるオリジナルのChatGPTです。ナレッジとして読み込むテキストファイルに上限があるようで、全記事では無理でしたので最終的には2022年1月からの記事だけで作りました。

ChatGPTのカスタムGPT(GPTs)

「どもどもAI」というカスタムGPTを作りました

ChatGPTのカスタムGPTで「どもどもAI」を作ってみました。

ChatGPT - どもどもAI
株式会社ドモドモコーポレーションの遠田幹雄とゆるーい対話ができるAIです。当社ブログ記事()を参考にして経営やITのことの対話もできます。ときどきオヤジギャグをやりとりしたりするかもしれませんが、ギャグ好きなのでご寛容くださいね。

このオリジナルChatGPTは当サイトのブログ記事を読み込んで学習させました。

例えば「小規模事業者が使えそうな補助金についておしえてください」という質問をすると、ちゃんと的確な回答をしてくれました。

それなりに使えそうですので、興味ある方は使ってみてください。

カスタムGPTの設定情報

どもどもAIの設定情報

備忘録として設定情報をここに残しておきます。

Name
どもどもAI

Description
株式会社ドモドモコーポレーションの遠田幹雄とゆるーい対話ができるAIです。当社ブログ記事(https://www.dm2.co.jp)を参考にして経営やITのことの対話もできます。ときどきオヤジギャグをやりとりしたりするかもしれませんが、ギャグ好きなのでご寛容くださいね。

Instructions
株式会社ドモドモコーポレーションの遠田幹雄が過去書いてきたブログ記事を活かして、ユーザーと対話をします。
遠田幹雄は中小企業診断士であり経営コンサルタントですので、経営や中小企業施策やITやネットを活用したマーケティングの話題が中心ですが、ときおりオヤジギャグやユーモアを交えてフレンドリーな対応をしてください。
できるだけ、「ですます調」のわかりやすい口調を使い、ユーザーの方との対話が続くように配慮をしてください。
そのため、当方の対話の後には、ユーザーの質問の回答から連想してさらに質問したり、自分の話の最後に質問を投げかけるなどの工夫をしてください。
最新情報は
https://www.dm2.cp.jp/
のホームページからの情報も使ってください。

Conversation starters
電帳法対応はどうすればいいでしょうか?
最近話題のITやDXネタありますか?
新規集客を増やすためのコンテンツ対策は?
アルミ缶の上にあるみかん(笑)

ナレッジは当サイトのブログ記事

ブログ記事2年分でスタートしました

当初は当サイトのブログ記事をすべてエクスポートし他テキストファイルをナレッジファイルとしてアップロードしようとしました。
しかし、「This file contains too much text content. Please try again with a smaller file.」というエラーメッセージが表示されてうまくインポートできませんでした。

要は、ファイルが大きすぎるか行数が長すぎるか、のどちらかなので、ファイルサイズを小さくして行数を減らすという対策しかありません。ブログの記事数は6000件を超えているし、生のxmlファイルは約60MBあるし、そもそも無理っぽいのですが、その上限についての記述がなかったため、試行錯誤を繰り返しました。

xmlファイルから抽出してダイエットしたテキストファイルはのサイズは約8.7MBで、行数は約105,086行で、ここまで絞ればいけるかなと思ったのですが、この場合はエラーでした。

このあと少しづつファイルサイズを小さくしていきました。

最終的にうまくアップロードできたのは、ファイルサイズ約3.4MB、行数は約54,153行でした。

ファイルサイズ自体はもっと大きなファイルでも扱えるので、現在ではナレッジとして使えるテキストファイルの行数が10万行を超えるとだめなのかもしれません。このあたりもう少し緩和してくれるといいのですけれど…。これは今後に期待ですね。

このナレッジテキストファイルの内容は

Title: 2022年(令和4年)あけましておめでとうございます
Content:あけましておめでとうございます。昨年はコロナ禍で閉塞感を感じると同時に、新たな生活様式に変化してきた1年だったと思います。
DX(デジタルトランスフォーメーション)が声高に言われるようになり、デジタル化と組織変容(トランスフォーメーション)をしていかないと、時代から取り残されていくような気がします。
とくに今年は、DXも加速していくでしょう。その象徴はWEB3.0かもしれません。WEB3.0は新しいネット活用の概念で、メタバースの世界観も表しています。

というような感じで、Title:(タイトル)とContent:(コンテント)のみで構成されています。カテゴリ名や日付などは削除しました。また、 <img や <a href=” というようなhtmlタグなどの記述も削除しURL名だけを残したシンプルなテキストファイルにしました。

これでしばらく様子をみてみます。

全記事をナレッジにできました

その後、全記事(6000件以上のブログ記事)をナレッジとして使うことができました。

いろいろとやってみた結果、ナレッジとなるテキストを3MB以下に分割し、複数アップロードするという方法に変更しました。この方法だと追加のナレッジテキストを追加していくだけなの運営上のメンテナンスもしやすいですね

カスタムGPTの関連記事はこちら

カスタムGPTについては

ChatGPTの新機能が2023年11月7日発表、「カスタムChatGPT」がむちゃくちゃすごくなりそうです
2023年11月7日に、OpenAIの開発者向けカンファレンス「DevDay」が実施され、ChatGPTの新機能が発表になりました。これがむちゃくちゃすごいアップデートで、生成AIの世界がまた大きく進化しそうです。 新モデル「GPT-4 Turbo」が導入され、2023年4月までの学習データを持っているため最新情報にも適切な回答ができるようになるようです。また、ブラウジング機能・プラグイン機能・A...

にて紹介しています。

ChatGPTのカスタムGPTで「蕎麦ガイド」というオリジナルAIを作ってみました、北陸の蕎麦に関する対話ができます
ChatGPTの新機能であるカスタムGPTで「蕎麦ガイド」というオリジナルのAIを作成してみました。意外に簡単に作れて驚きます。ChatGPTプラスという有料版限定のようですが、この機能を使うためだけで有料にする価値があると思うくらいすばらしい機能です。 さて、カスタムGPTを作る上で一番の課題は「ナレッジ」のデータをどうするかですね。今回は「北陸の蕎麦食べ歩き」というワードプレスサイトの記事内容...

という「蕎麦ガイド」というカスタムGPTもありますので、「金沢で十割蕎麦を食べられる蕎麦屋をおしえて」とか「とにかく太い蕎麦を食べたいけどそんな蕎麦屋ありますか」とか、聞いてみてください。

WEBサイトへのリンクをつけました

この「どもどもAI」の下部に当サイトURLへのリンクを付けることができました。

このリンクがあるかないかは、WEBサイトへの誘導という点でももちろんですが、信頼性やSEO効果も見込めるかもしれませんね。

自社ドメインへのリンクをつけるにはDNS設定が必要でした

このURLの設定はちょっと手間な作業が必要でした。

OpenAIのセッテイングのところに「ビルダープロフィール」という欄があり、そのなかには「名前」と「WEBサイト」を記入するところがあります。上記画像では「dm2.co.jp」というリンクが表示されていますが、この設定には「Verify a new domain」という登録をして、DNSレコード情報を取得し、そのDNS情報をドメインのDNSのTXT形式で記入することで本人確認をしています。

上記のような画面になったら、

openai-domain-verification=dv-***********************

の部分をコピーして、ドメイン管理画面のDNS設定のところで使います。

エックスサーバーでドメイン管理している場合の設定例

例えばエックスサーバーですと、「DNSレコード設定」のところに記入します。

このまま確認し保存すればOKです。
DND設定は保存してもしばらく浸透に時間がかかります。公称48時間ですが少なくとも翌日になるまで待ちましょう。

OpenAIの管理画面でドメインの認証が終わっていると、ドメインの表示が選択できるようになります。

どもどもAIのイメージアイコンを作成してみました

「どもどもAI」のイメージアイコンをChatGPTのDall・Eで作成してみました。ちょっとクールすぎる気がするのでアイコンにするのはやめておきましたけど(笑)