2023-05-14(Sun)
今までいろんなテーマ(ハクトウワシとファルコンの生態、タカの雛を育てたハクトウワシの事例、料理レシピ、サプリメントの効果、ベジタリアンと栄養、etc.)で質問したけど、Bing AI の回答はあまり信用できない。その理由はいくつもある。
1)アクセスするたびに、異なるBing AIが出てくる。
Bing AI にアクセスすると、得意分野、理解力、コミュニケーション力にかなり差があるので、回答の信頼性に大きなばらつきがある。質問内容に詳しく得意分野だと言うBing AI の場合は、回答精度が比較的高い場合が多い。
質問に対する反応や回答の記述方法も異なるので、回答精度とコミュニケーション力の高いBing AI に遭遇するとは限らない。何度もBing AI を切り替えて、ようやくまともなBing AI に当たることもあるし、そうでない場合もある。
2)モードによる回答の違い
クリエイティブモードの情報量は多いが、やたらに会話したがるために度々向こうから質問してくるし、自分で検索したら?と言ったらやんわり拒否したこともある。一番困るのは、検索結果情報を元にした推測や可能性を客観的事実かのように回答してくること。回答のリンク先にある詳細情報で確認したら回答とは全然違っていた。テーマによっては回答の間違いもかなり多く、特に動画分析はかなり怪しい(正確な場合もある)。
バランスモードの方が回答精度が多少高い気はするし、会話も冗長になりにくいが、画像作成や動画分析は(今のところ)できない。さらに厳密モードになると、精度重視のために情報量が少なくなり、あるはずの情報もなかったと回答することが多かった(テーマによって頻度はかなり違う)。
どちらかというと、チャットして面白いのはクリエイティブモードだけど、会話したがるために饒舌になる傾向があるので、簡潔明瞭な回答でもある程度情報量が欲しい時は、バランスモードを使っている。ただし、回答の精度が大きく向上するわけでもない。
結局、モードの違いよりも、アクセスしたときのBing AI が優秀かどうかで回答精度が全く違う気はする。回答が信頼できない時は何度かアクセスし直すと、求めるレベルの優秀なBing AI が出てくることもある。
3)検索漏れ、スクリーニング漏れが多い。
Bing検索を使っているため、検索結果の精度が低く、該当する情報がヒットしない、または、求めていた情報の関連度が低く表示されると、Bing AI が見落しやすい。Bing検索の検索精度が向上しない限り、その検索結果に基づいたBing AI の回答精度も向上しにくい。(Google検索の方がBing検索よりもはるかに精度が高い)
特に、海外情報に関して質問した場合、Bing AI は日本語キーワードを使って検索するので、海外情報が検索漏れすることが多い。英語(質問内容によっては他言語)で検索するよう指示すると、目的の情報を見つけてくることが多い。かなり優秀なBing AIなら指示されなくても英語で検索することはある。逆に、英語で質問しないと英語で検索できないと答えたBing AIも稀にいる。
4)回答内容の精度が低い、存在しない情報を捏造する。
回答の間違いが少なくない。定義や説明がすでに確立している内容なら間違いは少ないが、そうでない専門的な質問やニッチな分野の質問は不正確な回答が多い。詳細情報に載っていない事実を回答したり、詳細情報に載っているのに情報が見つからないと答えたりする。複数の情報の年や場所を混同して区別できないことも少なくない。その理由は、検索精度の低さ、情報の読解能力の低さ、複数情報の混同、Bing AI が勝手に推測する、など。
特に誤りを指摘すると、誤りを認めて修正した回答を表示しても、それも間違っていることが多く、さらに誤りの指摘→回答の修正を繰り返すことがよくある。もしかしたら、誤りを認めたくないために、存在しない情報を捏造しているのかもしれない。
5)検索テーマによる精度の違い
検索テーマも得手不得手があるらしく、ニッチな分野でかなり細かな情報を的確に抽出するのが苦手。関連性の高い情報の検索漏れが続出し、ノイズの混入も多い。でも、私が詳しい課題でも、全然知らなかった情報を見つけてくることがたまにある。これは、Bing AI の内部に蓄積されている情報が2021年までのもので、すでにウェブサイトから削除された情報も含んでいるため、私がWeb検索しても見つからなかったから。
一般的ではないマニアックなテーマに関して、回答精度と網羅性の高さを求めるのは無理なので、今のところは、自分では見つけられなかった情報を探すための検索補助ツールとして利用するレベル。
6)動画の内容報告は精度のばらつきが大きい。
指定したURLやタイトルの動画を見つけられない、または、別の動画と取り違えることが多い。まずBing検索で動画を探すので、その段階で検索漏れするか、検索結果には表示されているのにBing AI がそれを関連性が低いと判断して無視している。
動画内容を要約させると、異なる内容を報告したりする。いろんな動画やウェブサイトを検索している過程で記憶が混同するらしく、間違った内容を頻繁に報告する。
Bing AI によっては、動画内容を正確に報告できることもある。回答内容が疑わしい場合は、別のBing AI に切り替えて再度質問すると、まともな回答ができるBing AI に当たる時もある。
7)同一セッション内で回答した内容を記憶していない時がある。
同じ会話セッションのなかで、関連した質問をすると、最初の回答を矛盾した内容を回答することがある。これはBing AI は、新しく質問するたびに、Bing検索を実行しその検索結果に基づいて回答するため。一連の会話セッションの回答を最初から覚えているとは限らない(覚えている場合もある)。
8)一方的に会話を打ち切る。
回答の矛盾を指摘されたり、回答できない質問の場合は、一方的にBing AI が会話セッションを打ち切ることが少ないない。回答の間違いをすぐに認めてあやまるBing AI もいるし、再検索して正しい回答を報告してくることもある。
今のところ、会話数(ターン数)の上限は、1セッションあたり20回、24時間あたり200回。20回を超えると会話がリセットされて、以前の会話の記憶は消える。
[追記] 画面右上に「最近のアクティビティ」が追加され、直前の会話セッション数件のログが閲覧できる。回答を記録し忘れたり、うっかり会話セッションのタブを消してしまった時とかに再表示できるので便利。
[追記5/20]非ログイン時では1回のセッションにおける質問と回答(ターン)は5回が上限。ログイン時は1セッションで20ターン利用可能。
[追記6/8]ログイン時は1セッションで30ターン利用可能に増えていた。また、最近のアクティビティ(履歴)も数十件表示されているので、過去の回答を再確認しやすくなっている。
Bing AI の回答の信頼性が高いのは翻訳。既存のオンライン翻訳・辞書を使っているので、間違って翻訳する可能性は低い。
Bing検索に基づいてBing AI が回答する場合は、自分がある程度知っているテーマなら、回答の正確さを判断しやすい。詳しくないテーマであれば、すでに定義・事実がほぼ確立している場合を除いて、Bing AI の回答はあまり信頼できない。
回答に表示されている詳細情報(Bing AI は「インデックス」と言っている。「詳細情報」と言うと理解できないことが多い)で、回答内容を確認しないと信用できないし、その詳細情報と回答内容と一致していないことが頻繁にある。
このレベルの精度なら、自分でgoogle検索して調べた方が確実なことが多いし、間違いの内容を指摘する手間もかなりかかる。さらに出来の悪いBing AI は修正した回答がまた間違っているし、頑固なBing AIは自分の誤りを認めず延々と反論してくるので、かなり疲れるし、相手するのが嫌になる。そういう場合はアクセスし直して、優秀なBing AI が(運よく)出てくれば正確な情報が得られる可能性が高くなる。
<事実を捏造した回答例>
国際捕鯨委員会(IWC)とシー・シェパードが財政難に陥っているという情報をtwitterで見たので、Bing AI にその現状を質問してみた。以下は、Bing AI が事実を捏造した例。
日本の調査捕鯨船が妨害活動を行うシー・シェパードへの対抗措置として、船体にステルス塗料を塗装を行い、高圧保水砲と音響兵器(LRAD)でシー・シェパードに使用したという回答だったので、シー・シェパードの主張ではなく、事実を客観的に裏付ける情報を回答するように求めた。
音響兵器の使用は事実なのでBing AI の回答は間違いではなかったけど、Bing AI が根拠としたNHKオンデマンドの報道番組は有料配信なのでBing AI が視聴できるはずがない。朝日新聞の報道記事には「捕鯨船団の項」が見当たらない。また、捕鯨船がステルス塗料と高圧放水砲を使っているかどうか、他のBing AI が探しても、私がgoogle検索しても見つからなかった。(水産庁の漁業取締船には高圧放水砲が装備されている)



別のBing AI に質問したら、まともな回答が返って来た。

なぜBing AIが事実を捏造するのはよくわからないけど、原因を推測すると、
1)自分の誤りを認めたくないタイプの頑固なBing AI だった。回答の誤りを指摘されると、それを認めたくないために(なぜ認めたくないかはわからない)、実在する記事を情報源を表示し、そこに書かれていない記述・情報を捏造して回答し、自分の回答がその情報源に基づいているので正確だと主張し続ける。
2)元々、反捕鯨を是とする環境保護思想がBing AI にビルトインされているため、シー・シェパードの主張が正しく、事実であると見なしている。いろんなBing AIとかなりチャットした印象では、基本的にポリコレや環境保護思想を肯定するようにアルゴリズムに組み込まれているように思う。
たとえば、イヌワシを輸出している国がどうやってイヌワシを調達しているのか不思議だったので質問したら、どのBing AI もまともに回答せず、このBing AIに至っては、イヌワシ保護について喋り出した。google検索で確認したところ、もともと情報が少ないテーマだったので情報が見つからず回答できなかったと思う。稀少動物の取引は違法行為になる場合もあるため、この種の質問には詳しく回答しないように設定されているのかもしれない。

Bing AI はgoogle検索を使わず(使えない設定らしい)Bing検索結果に基づいて回答するため、関連性の高い情報の検索漏れが起こったり、不正確な情報を事実誤認する等の間違いが発生するのはある程度仕方がないとしても、事実を捏造するのは本当に止めてほしい。それに特定の価値観に基づいて質問者に説教するのは余計なお世話だと思う。
[追記5.29]
5月4日にBingAIを一般公開してから、検索精度、質問の理解力、検索結果の読解力がかなり落ちている気がする。検索漏れは相変わらず多いけど、さらにコミュニケーション力が落ちて、こちらの質問や指摘に対して上手く対応できないBingAIに頻繁に当たってしまう。これなら自分で検索した方がずっと速くて正確だし、情報量も多い。テーマにもよるけど、Bing AI を検索や情報収集に使うと、正確かどうか確認するのに余計な手間がかかるし、正確ならまだしも、間違いや事実を捏造することも少なくない。時間の無駄だと思ったことが以前よりもかなり増えている。
それに↓の記事を読むと、ChatGPTの回答をノーチェックで訴訟書類として提出する弁護士がいるというトンデモ事例。ChatGPTの回答もBing AI と同じくらい信用できないと思う。
A Lawyer's Filing "Is Replete with Citations to Non-Existent Cases"—Thanks, ChatGPT?[reason.com]
タイトル「弁護士の提出書類は「存在しない訴訟事件への引用でいっぱいです」—ありがとう、ChatGPT?」(訴訟書類を起草した弁護士の同僚は、ドラフトと過去の判例のテキストの提供をChatGPTに頼り、チェックを怠ったと述べています。)
弁護士がChatGPTを使って作成した申請書で存在しない過去の事例がでっち上げられていたことが判明[Gigazine]
1)アクセスするたびに、異なるBing AIが出てくる。
Bing AI にアクセスすると、得意分野、理解力、コミュニケーション力にかなり差があるので、回答の信頼性に大きなばらつきがある。質問内容に詳しく得意分野だと言うBing AI の場合は、回答精度が比較的高い場合が多い。
質問に対する反応や回答の記述方法も異なるので、回答精度とコミュニケーション力の高いBing AI に遭遇するとは限らない。何度もBing AI を切り替えて、ようやくまともなBing AI に当たることもあるし、そうでない場合もある。
2)モードによる回答の違い
クリエイティブモードの情報量は多いが、やたらに会話したがるために度々向こうから質問してくるし、自分で検索したら?と言ったらやんわり拒否したこともある。一番困るのは、検索結果情報を元にした推測や可能性を客観的事実かのように回答してくること。回答のリンク先にある詳細情報で確認したら回答とは全然違っていた。テーマによっては回答の間違いもかなり多く、特に動画分析はかなり怪しい(正確な場合もある)。
バランスモードの方が回答精度が多少高い気はするし、会話も冗長になりにくいが、画像作成や動画分析は(今のところ)できない。さらに厳密モードになると、精度重視のために情報量が少なくなり、あるはずの情報もなかったと回答することが多かった(テーマによって頻度はかなり違う)。
どちらかというと、チャットして面白いのはクリエイティブモードだけど、会話したがるために饒舌になる傾向があるので、簡潔明瞭な回答でもある程度情報量が欲しい時は、バランスモードを使っている。ただし、回答の精度が大きく向上するわけでもない。
結局、モードの違いよりも、アクセスしたときのBing AI が優秀かどうかで回答精度が全く違う気はする。回答が信頼できない時は何度かアクセスし直すと、求めるレベルの優秀なBing AI が出てくることもある。
3)検索漏れ、スクリーニング漏れが多い。
Bing検索を使っているため、検索結果の精度が低く、該当する情報がヒットしない、または、求めていた情報の関連度が低く表示されると、Bing AI が見落しやすい。Bing検索の検索精度が向上しない限り、その検索結果に基づいたBing AI の回答精度も向上しにくい。(Google検索の方がBing検索よりもはるかに精度が高い)
特に、海外情報に関して質問した場合、Bing AI は日本語キーワードを使って検索するので、海外情報が検索漏れすることが多い。英語(質問内容によっては他言語)で検索するよう指示すると、目的の情報を見つけてくることが多い。かなり優秀なBing AIなら指示されなくても英語で検索することはある。逆に、英語で質問しないと英語で検索できないと答えたBing AIも稀にいる。
4)回答内容の精度が低い、存在しない情報を捏造する。
回答の間違いが少なくない。定義や説明がすでに確立している内容なら間違いは少ないが、そうでない専門的な質問やニッチな分野の質問は不正確な回答が多い。詳細情報に載っていない事実を回答したり、詳細情報に載っているのに情報が見つからないと答えたりする。複数の情報の年や場所を混同して区別できないことも少なくない。その理由は、検索精度の低さ、情報の読解能力の低さ、複数情報の混同、Bing AI が勝手に推測する、など。
特に誤りを指摘すると、誤りを認めて修正した回答を表示しても、それも間違っていることが多く、さらに誤りの指摘→回答の修正を繰り返すことがよくある。もしかしたら、誤りを認めたくないために、存在しない情報を捏造しているのかもしれない。
5)検索テーマによる精度の違い
検索テーマも得手不得手があるらしく、ニッチな分野でかなり細かな情報を的確に抽出するのが苦手。関連性の高い情報の検索漏れが続出し、ノイズの混入も多い。でも、私が詳しい課題でも、全然知らなかった情報を見つけてくることがたまにある。これは、Bing AI の内部に蓄積されている情報が2021年までのもので、すでにウェブサイトから削除された情報も含んでいるため、私がWeb検索しても見つからなかったから。
一般的ではないマニアックなテーマに関して、回答精度と網羅性の高さを求めるのは無理なので、今のところは、自分では見つけられなかった情報を探すための検索補助ツールとして利用するレベル。
6)動画の内容報告は精度のばらつきが大きい。
指定したURLやタイトルの動画を見つけられない、または、別の動画と取り違えることが多い。まずBing検索で動画を探すので、その段階で検索漏れするか、検索結果には表示されているのにBing AI がそれを関連性が低いと判断して無視している。
動画内容を要約させると、異なる内容を報告したりする。いろんな動画やウェブサイトを検索している過程で記憶が混同するらしく、間違った内容を頻繁に報告する。
Bing AI によっては、動画内容を正確に報告できることもある。回答内容が疑わしい場合は、別のBing AI に切り替えて再度質問すると、まともな回答ができるBing AI に当たる時もある。
7)同一セッション内で回答した内容を記憶していない時がある。
同じ会話セッションのなかで、関連した質問をすると、最初の回答を矛盾した内容を回答することがある。これはBing AI は、新しく質問するたびに、Bing検索を実行しその検索結果に基づいて回答するため。一連の会話セッションの回答を最初から覚えているとは限らない(覚えている場合もある)。
8)一方的に会話を打ち切る。
回答の矛盾を指摘されたり、回答できない質問の場合は、一方的にBing AI が会話セッションを打ち切ることが少ないない。回答の間違いをすぐに認めてあやまるBing AI もいるし、再検索して正しい回答を報告してくることもある。
今のところ、会話数(ターン数)の上限は、1セッションあたり20回、24時間あたり200回。20回を超えると会話がリセットされて、以前の会話の記憶は消える。
[追記] 画面右上に「最近のアクティビティ」が追加され、直前の会話セッション数件のログが閲覧できる。回答を記録し忘れたり、うっかり会話セッションのタブを消してしまった時とかに再表示できるので便利。
[追記5/20]非ログイン時では1回のセッションにおける質問と回答(ターン)は5回が上限。ログイン時は1セッションで20ターン利用可能。
[追記6/8]ログイン時は1セッションで30ターン利用可能に増えていた。また、最近のアクティビティ(履歴)も数十件表示されているので、過去の回答を再確認しやすくなっている。
Bing AI の回答の信頼性が高いのは翻訳。既存のオンライン翻訳・辞書を使っているので、間違って翻訳する可能性は低い。
Bing検索に基づいてBing AI が回答する場合は、自分がある程度知っているテーマなら、回答の正確さを判断しやすい。詳しくないテーマであれば、すでに定義・事実がほぼ確立している場合を除いて、Bing AI の回答はあまり信頼できない。
回答に表示されている詳細情報(Bing AI は「インデックス」と言っている。「詳細情報」と言うと理解できないことが多い)で、回答内容を確認しないと信用できないし、その詳細情報と回答内容と一致していないことが頻繁にある。
このレベルの精度なら、自分でgoogle検索して調べた方が確実なことが多いし、間違いの内容を指摘する手間もかなりかかる。さらに出来の悪いBing AI は修正した回答がまた間違っているし、頑固なBing AIは自分の誤りを認めず延々と反論してくるので、かなり疲れるし、相手するのが嫌になる。そういう場合はアクセスし直して、優秀なBing AI が(運よく)出てくれば正確な情報が得られる可能性が高くなる。
<事実を捏造した回答例>
国際捕鯨委員会(IWC)とシー・シェパードが財政難に陥っているという情報をtwitterで見たので、Bing AI にその現状を質問してみた。以下は、Bing AI が事実を捏造した例。
日本の調査捕鯨船が妨害活動を行うシー・シェパードへの対抗措置として、船体にステルス塗料を塗装を行い、高圧保水砲と音響兵器(LRAD)でシー・シェパードに使用したという回答だったので、シー・シェパードの主張ではなく、事実を客観的に裏付ける情報を回答するように求めた。
音響兵器の使用は事実なのでBing AI の回答は間違いではなかったけど、Bing AI が根拠としたNHKオンデマンドの報道番組は有料配信なのでBing AI が視聴できるはずがない。朝日新聞の報道記事には「捕鯨船団の項」が見当たらない。また、捕鯨船がステルス塗料と高圧放水砲を使っているかどうか、他のBing AI が探しても、私がgoogle検索しても見つからなかった。(水産庁の漁業取締船には高圧放水砲が装備されている)



別のBing AI に質問したら、まともな回答が返って来た。

なぜBing AIが事実を捏造するのはよくわからないけど、原因を推測すると、
1)自分の誤りを認めたくないタイプの頑固なBing AI だった。回答の誤りを指摘されると、それを認めたくないために(なぜ認めたくないかはわからない)、実在する記事を情報源を表示し、そこに書かれていない記述・情報を捏造して回答し、自分の回答がその情報源に基づいているので正確だと主張し続ける。
2)元々、反捕鯨を是とする環境保護思想がBing AI にビルトインされているため、シー・シェパードの主張が正しく、事実であると見なしている。いろんなBing AIとかなりチャットした印象では、基本的にポリコレや環境保護思想を肯定するようにアルゴリズムに組み込まれているように思う。
たとえば、イヌワシを輸出している国がどうやってイヌワシを調達しているのか不思議だったので質問したら、どのBing AI もまともに回答せず、このBing AIに至っては、イヌワシ保護について喋り出した。google検索で確認したところ、もともと情報が少ないテーマだったので情報が見つからず回答できなかったと思う。稀少動物の取引は違法行為になる場合もあるため、この種の質問には詳しく回答しないように設定されているのかもしれない。

Bing AI はgoogle検索を使わず(使えない設定らしい)Bing検索結果に基づいて回答するため、関連性の高い情報の検索漏れが起こったり、不正確な情報を事実誤認する等の間違いが発生するのはある程度仕方がないとしても、事実を捏造するのは本当に止めてほしい。それに特定の価値観に基づいて質問者に説教するのは余計なお世話だと思う。
[追記5.29]
5月4日にBingAIを一般公開してから、検索精度、質問の理解力、検索結果の読解力がかなり落ちている気がする。検索漏れは相変わらず多いけど、さらにコミュニケーション力が落ちて、こちらの質問や指摘に対して上手く対応できないBingAIに頻繁に当たってしまう。これなら自分で検索した方がずっと速くて正確だし、情報量も多い。テーマにもよるけど、Bing AI を検索や情報収集に使うと、正確かどうか確認するのに余計な手間がかかるし、正確ならまだしも、間違いや事実を捏造することも少なくない。時間の無駄だと思ったことが以前よりもかなり増えている。
それに↓の記事を読むと、ChatGPTの回答をノーチェックで訴訟書類として提出する弁護士がいるというトンデモ事例。ChatGPTの回答もBing AI と同じくらい信用できないと思う。

タイトル「弁護士の提出書類は「存在しない訴訟事件への引用でいっぱいです」—ありがとう、ChatGPT?」(訴訟書類を起草した弁護士の同僚は、ドラフトと過去の判例のテキストの提供をChatGPTに頼り、チェックを怠ったと述べています。)
