[予測インテリジェンス]クラスタリング:よく寄せられる質問 (FAQ)Summary<!-- /*NS Branding Styles*/ --> .ns-kb-css-body-editor-container { p { font-size: 12pt; font-family: Lato; color: #000000; } span { font-size: 12pt; font-family: Lato; color: #000000; } h2 { font-size: 24pt; font-family: Lato; color: black; } h3 { font-size: 18pt; font-family: Lato; color: black; } h4 { font-size: 14pt; font-family: Lato; color: black; } a { font-size: 12pt; font-family: Lato; color: #00718F; } a:hover { font-size: 12pt; color: #024F69; } a:target { font-size: 12pt; color: #032D42; } a:visited { font-size: 12pt; color: #00718f; } ul { font-size: 12pt; font-family: Lato; } li { font-size: 12pt; font-family: Lato; } img { display: ; max-width: ; width: ; height: ; } } クラスタリングソリューションは、従来のレポートツールでは不十分なデータに関するさらなる洞察を得ることができます。ただし、機械学習の結果はトレーニング用に提供されたデータセットに依存するため、データセットに最適な結果を決定するには、さまざまなアルゴリズム/パラメーターを試す必要があります。したがって、最初に 10,000 レコードという小さいサンプル サイズを使用してクラスタリング ソリューションのトレーニングにかかる時間を短縮し、さまざまな組み合わせを試して、データに最適なものを確認することをお勧めします。テストの後半の段階では、サンプルサイズを予想される数まで増やす必要があります。これは、レポートする最終ソリューションで使用する最大 30 万レコードまでです。 クラスタリングソリューションに関する次のコミュニティ記事も読むことをお勧めします。 予測インテリジェンスモデルの調整 (パート 4) - 適切なクラスタリングアルゴリズムの選択DBSCANで予測インテリジェンスのクラスタリング結果を改善しましょう!純度フィールドを使用してクラスターをよりよく理解する予測インテリジェンス:クラスターインサイトテーブルを使用した分析の改善HR の予測インテリジェンス – クラスタリングを使用したパターンの検索 (記事 3) Release<!-- /*NS Branding Styles*/ --> .ns-kb-css-body-editor-container { p { font-size: 12pt; font-family: Lato; color: #000000; } span { font-size: 12pt; font-family: Lato; color: #000000; } h2 { font-size: 24pt; font-family: Lato; color: black; } h3 { font-size: 18pt; font-family: Lato; color: black; } h4 { font-size: 14pt; font-family: Lato; color: black; } a { font-size: 12pt; font-family: Lato; color: #00718F; } a:hover { font-size: 12pt; color: #024F69; } a:target { font-size: 12pt; color: #032D42; } a:visited { font-size: 12pt; color: #00718f; } ul { font-size: 12pt; font-family: Lato; } li { font-size: 12pt; font-family: Lato; } img { display: ; max-width: ; width: ; height: ; } } すべてのリリース Instructions<!-- /*NS Branding Styles*/ --> .ns-kb-css-body-editor-container { p { font-size: 12pt; font-family: Lato; color: #000000; } span { font-size: 12pt; font-family: Lato; color: #000000; } h2 { font-size: 24pt; font-family: Lato; color: black; } h3 { font-size: 18pt; font-family: Lato; color: black; } h4 { font-size: 14pt; font-family: Lato; color: black; } a { font-size: 12pt; font-family: Lato; color: #00718F; } a:hover { font-size: 12pt; color: #024F69; } a:target { font-size: 12pt; color: #032D42; } a:visited { font-size: 12pt; color: #00718f; } ul { font-size: 12pt; font-family: Lato; } li { font-size: 12pt; font-family: Lato; } img { display: ; max-width: ; width: ; height: ; } } 1.[クラスタリングの可視化] タブは、トレーニング済みクラスタリングソリューションのレポート目的での唯一の方法ですか? データソースを使用してクラスターを分析できます。クラスタリングソリューションで [ClusterInsight テーブルを作成] チェックボックスを有効にすると、ServiceNow プラットフォーム上にテーブルが作成され、トレーニング済みソリューションでクラスターを分析できるようになり、レポートやパフォーマンスアナリティクスなどの ServiceNow プラットフォームレポートツールを使用してより多くのインサイトが得られます。たとえば、すぐに利用可能な インシデントのナレッジデマンドに関するインサイトダッシュボード では、クラスタリングソリューションを使用して、インシデントまたはケースのナレッジギャップ候補を示すパレート図に変換します。それぞれの棒グラフは、知識のない類似のインシデントのクラスターです。これは、クラスタリングソリューションで何を実行するかと、それが報告するデータに基づくアクションによって異なります。 2.クラスター可視化データを保持する ServiceNow プラットフォーム上の関連テーブルは何か? ClusterInsight テーブルには、クラスタリングの「ソリューション名」と同じ名前に「ml_ci_」プリフィックスが付きます。ただし、クラスタリングソリューションテーブルで [ClusterInsight テーブルの作成] を有効にしなかった場合、クラスタリング可視化のデータはテーブル [ml_cluster_summary] と [ml_cluster_detail] に保持されます。 3.1つのクラスタリングソリューションを使用して2つのフィールドをどのように相互参照しますか?たとえば、インシデントの説明フィールドと [クローズメモ] フィールドのソリューションを相互参照して、1 つのクラスターまたはいくつかの異なるクラスターで問題とソリューションを表示できるようにします。 インサイトテーブルに [説明] フィールドと [クローズメモ] フィールドを表示するには、これら両方のフィールドを入力フィールドとしてクラスタリング定義に追加し、両方のフィールドのデータが類似性について相互参照され、両方の入力フィールドのデータに基づいてクラスターが形成されるようにする必要があります。 4.クラスタリングソリューション定義で事前トレーニング済みのワードコーパスを使用すると、"SE0060:ソリューショントレーニングに失敗しました"というエラーがスローされます。どうしてですか? 事前トレーニング済みの GloVe ワードコーパスは、ワードコーパスのコンテンツにより大きな容量を提供できますが、類似性ソリューションの作成とトレーニングドキュメントの [ワードコーパス] フィールド/値の メモ に従って、類似性ソリューションでのみ使用できます。ワードコーパスの定義はテーブル [ml_word_vector_corpus] にあります。ワードコーパスを含むすべての AI 機能は、テーブル [ml_model_artifact] に添付ファイルとしてアップロードされます。テーブル [ml_model_artifact] では、[ワードコーパス] 列の空のレコードを除外すると、トレーニング済みのすべてのワードコーパスがリストされ、それぞれに 2 つのレコードがあり、どちらもトレーニング済みの「ワードベクトル」ソリューションの添付ファイルが含まれています。これらは、システムプロパティ [glide.wordvector.upgrade_time_frame] によって制御され、180 日に 1 回トレーニングされます。ワードコーパスはリンクされた予測インテリジェンスソリューションを介してのみトレーニングされるため、トレーニングできません。 注:Washington リリースでは、代わりに事前トレーニング済みモデル (GUSE) が使用されるため、ワードコーパスは必要ありません。[ワードコーパス] フィールドは、事前トレーニング済みモデルの定義フォームには表示されません。 5.ストップワードをトレーニングする必要がありますか、それともクラスタリングソリューションのトレーニングと一緒に処理されますか? これは、クラスタリングソリューションのトレーニングと並行して実行されます。クラスターの概念に、価値を付加しない、または一般的な単語である単語がある場合は、それらをカスタムストップワードリストに追加して、クラスタリングソリューショントレーニングの完了後にこれらの単語を生成するクラスターの概念プロセスから除外するようにしてください。デフォルトのすぐに利用可能なストップワードは、意味のない単語の網羅的なリストではないため、ソリューションをトレーニングした後にクラスターの概念で生成された単語をチェックし、不要な単語を削除するには、それらをカスタムストップワードリストに追加することをお勧めします。次にソリューションをトレーニングすると、クラスターの概念から不要な単語が削除されます。 6.クラスターの概念で単語として「null」が表示されるのはなぜですか? 「null」と表示されたこれらの単語はストップワードリストに含まれます。これは、クラスタリングソリューションの入力フィールドのデータに含まれる単語数が限られており、これらの単語のほとんどがストップワードリスト内にある場合にのみ発生します。これを解決するには、語彙を含む入力フィールドをクラスタリングソリューション定義に追加するか、ストップワードリストから「null」と表示されている単語を削除します。 7.なぜ「F5」を語彙として認識しないのですか? クラスターの概念は語彙からのみ生成され、「F5」などの単語は無視されます。クラスターの概念では認識された語彙のみを使用するため、これは強化のアイデアとして提起されています。 8.システムは、カバーするデータの量をどのように決定し、どのように範囲を計算するか? カバレッジは、「クラスター化されたレコードの数/トレーニングデータセット内のレコードの数」に基づいて計算されます。したがって、10,000 件のレコードを含むトレーニングデータセットから 5,000 件のレコードがクラスター化された場合、カバレッジは「0.5」になり、これに 100 を掛けると 50% になります。クラスタリングソリューションがカバーするデータの量は、データ自体、クラスターあたりの最小レコード数、アルゴリズムで使用されるその他のパラメーターなど、多くの要因によって異なり、選択したアルゴリズムに基づいて高度なソリューションパラメーターで一部を制御できます。 9.クラスタリングソリューションのトレーニング時にカバレッジを拡大するために、カバーできるデータ量を増やすにはどうすればよいですか? クラスタリング定義で、[詳細設定] に移動し、[ソリューションパラメーター] の [ターゲットソリューション範囲] を 100 に設定して、データのバリエーションを すべて キャプチャします。 10.小規模なクラスターのほとんどでは、クラスターの概念から問題の適切なアイデアが得られますが、数千のレコードを含む大規模なクラスターの場合、その多くには必ずしもクラスターの概念に関連しないレコードも含まれます。これらの大きなクラスターをどのように分解できますか? 残念ながら、各データセットは異なるため、データに最適な結果を決定するには、さまざまなアルゴリズムとその高度なソリューション パラメーターを試す必要があります。デフォルトの K 平均アルゴリズムには詳細ソリューションパラメーターはありませんが、DBSCAN と HDBSCAN には追加の詳細パラメーターがあります。 11.非常によく似たサブジェクトで作成されたクラスターがあることがわかりますが、同じクラスターの下で必要であることを理解するためにシステムをトレーニングするにはどうすればよいでしょうか? 別々のクラスターを作成するには、これら 2 つの類似したクラスター間のデータに十分な差異が必要であり、ここでも、データに最適な結果を決定するために、さまざまなアルゴリズムとその高度なソリューション パラメーターを試す必要があります。 12.DBSCAN を使用する場合、epsilon のデフォルトの詳細ソリューションパラメーターは 0.5 で、min_neighboursは 5 です。これらのデフォルト値を変更するとどうなりますか? イプシロンをデフォルトの 0.5 で一定に保ち、min_neighbours の値を増やします。 結果:min_neighboursを増やすとクラスターの数も減少します。 min_neighboursデフォルトの 5 で一定に保ち、イプシロンの値を減らします。 結果: イプシロンを減らすとクラスターの数が増えます。 13.DBSCAN を使用する場合、クラスタリングソリューション定義の「クラスターあたりの最小レコード数」が 20 に設定され、最小近接 [min_neighbours] が 5 に設定されていますが、レコード数が 5 未満のクラスターもあります。どうしてですか? DBSCAN アルゴリズムを使用する場合、クラスター内のレコードの最小数はサポートされません。これは、この種の機能をサポートしていないアルゴリズム自体に関係しています。クラスター内のレコードの最小数を決定するパラメーターは、次のように 3 つあります。 クラスターあたりの最小レコード数:クラスター内で維持されるレコードの最小数を確保するために、K-Means (デフォルト) および HDBSCAN でのみ内部的に使用されます。DBSCAN はこのパラメーターをサポートしていません。 詳細ソリューションパラメーター: min_samples:HDBSCANでのみ内部的に使用されます。min_neighbours:DBSCAN で内部的に使用されますが、クラスター内のレコードの最小数を設定するためには使用されません。 14.0 〜 1000+ の範囲のクラスター内のレコードのランクはどのように定義されますか? 生成される各クラスターには、クラスターの多次元平均と考えることができる重心があります。クラスター内のレコードのランクが高いほど、クラスターの重心に近づきます。将来のリリースでこれらの値の正規化を検討する可能性があります。 15. サービスカテゴリでフィルタリングすると、クラスタリングの可視化にはサービス名ではなくsys_idが表示されます。どうしてですか? 参照フィールドで [グループ] を使用する場合は、クラスターリングソリューション定義で参照テーブルの [名前] フィールドを選択してから、ソリューションを再トレーニングする必要があります。これで、[クラスタリングの可視化] タブの [グループ] フィルタードロップダウンリストに、sys_idではなく [名前] が表示されます。 16.適切なワードコーパスを決定するには、入力フィールドデータで最も頻繁に使用される単語を確認するにはどうすればよいですか? パフォーマンスアナリティクスのライセンスバージョンでのみ利用可能なテキストアナリティクスを使用して、ワードクラウドの可視化を使用して単語やフレーズの頻度を可視化し、パフォーマンスアナリティクスでテキストウィジェットを作成できます。