[予測インテリジェンス] クラスタリング:よく寄せられる質問(FAQ)Summary<!-- /*NS Branding Styles*/ --> .ns-kb-css-body-editor-container { p { font-size: 12pt; font-family: Lato; color: var(--now-color--text-primary, #000000); } span { font-size: 12pt; font-family: Lato; color: var(--now-color--text-primary, #000000); } h2 { font-size: 24pt; font-family: Lato; color: var(--now-color--text-primary, black); } h3 { font-size: 18pt; font-family: Lato; color: var(--now-color--text-primary, black); } h4 { font-size: 14pt; font-family: Lato; color: var(--now-color--text-primary, black); } a { font-size: 12pt; font-family: Lato; color: var(--now-color--link-primary, #00718F); } a:hover { font-size: 12pt; color: var(--now-color--link-primary, #024F69); } a:target { font-size: 12pt; color: var(--now-color--link-primary, #032D42); } a:visited { font-size: 12pt; color: var(--now-color--link-primary, #00718f); } ul { font-size: 12pt; font-family: Lato; } li { font-size: 12pt; font-family: Lato; } img { display: ; max-width: ; width: ; height: ; } } クラスタリングソリューションを使用すると、従来のレポートツールでは十分に把握できないデータに関する追加のインサイトを得ることができます。ただし、機械学習の結果はトレーニング用に提供されたデータセットに依存するため、データセットに最適な結果を決定するには、さまざまなアルゴリズムやパラメーターを試すことが重要です。したがって、最初に 10,000 レコードという比較的小規模なサンプルサイズを使用してクラスタリングソリューションのトレーニングにかかる時間を短縮し、さまざまな組み合わせを試して、データに最適なものを見極めることをお勧めします。テストの後半の段階では、サンプルサイズを予想される数まで増やす必要があります。これは、レポートする最終ソリューションで使用する最大 30 万レコードまでです。 クラスタリングソリューションに関して、次のコミュニティ記事も併せてご参照ください。 予測インテリジェンスモデルの調整 (パート 4) - 適切なクラスタリングアルゴリズムの選択DBSCANで予測インテリジェンスのクラスタリング結果を改善する方法純度フィールドを使用してクラスターをよりよく理解する予測インテリジェンス:クラスターインサイトテーブルを使用した分析の改善HR の予測インテリジェンス – クラスタリングを使用したパターンの検索 (記事 3) Release<!-- /*NS Branding Styles*/ --> .ns-kb-css-body-editor-container { p { font-size: 12pt; font-family: Lato; color: var(--now-color--text-primary, #000000); } span { font-size: 12pt; font-family: Lato; color: var(--now-color--text-primary, #000000); } h2 { font-size: 24pt; font-family: Lato; color: var(--now-color--text-primary, black); } h3 { font-size: 18pt; font-family: Lato; color: var(--now-color--text-primary, black); } h4 { font-size: 14pt; font-family: Lato; color: var(--now-color--text-primary, black); } a { font-size: 12pt; font-family: Lato; color: var(--now-color--link-primary, #00718F); } a:hover { font-size: 12pt; color: var(--now-color--link-primary, #024F69); } a:target { font-size: 12pt; color: var(--now-color--link-primary, #032D42); } a:visited { font-size: 12pt; color: var(--now-color--link-primary, #00718f); } ul { font-size: 12pt; font-family: Lato; } li { font-size: 12pt; font-family: Lato; } img { display: ; max-width: ; width: ; height: ; } } すべてのリリース Instructions<!-- /*NS Branding Styles*/ --> .ns-kb-css-body-editor-container { p { font-size: 12pt; font-family: Lato; color: var(--now-color--text-primary, #000000); } span { font-size: 12pt; font-family: Lato; color: var(--now-color--text-primary, #000000); } h2 { font-size: 24pt; font-family: Lato; color: var(--now-color--text-primary, black); } h3 { font-size: 18pt; font-family: Lato; color: var(--now-color--text-primary, black); } h4 { font-size: 14pt; font-family: Lato; color: var(--now-color--text-primary, black); } a { font-size: 12pt; font-family: Lato; color: var(--now-color--link-primary, #00718F); } a:hover { font-size: 12pt; color: var(--now-color--link-primary, #024F69); } a:target { font-size: 12pt; color: var(--now-color--link-primary, #032D42); } a:visited { font-size: 12pt; color: var(--now-color--link-primary, #00718f); } ul { font-size: 12pt; font-family: Lato; } li { font-size: 12pt; font-family: Lato; } img { display: ; max-width: ; width: ; height: ; } } 1.[クラスタリングの可視化]タブは、トレーニング済みクラスタリングソリューションのレポート目的での唯一の方法ですか? データソースを使用することで、クラスターを分析できます。クラスタリングソリューションで [ClusterInsight テーブル作成] チェックボックスを有効にすると、ServiceNow プラットフォーム上にテーブルが作成され、トレーニング済みソリューションでクラスターを分析できるようになり、レポートやパフォーマンスアナリティクスなどの ServiceNow プラットフォームレポートツールを使用してより多くのインサイトが得られます。たとえば、標準のインシデントのナレッジデマンドに関するインサイトダッシュボードでは、クラスタリングソリューションを使用して、インシデントまたはケースのナレッジギャップ候補を示すパレート図に変換します。それぞれの棒グラフは、ナレッジが関連付けられていない類似のインシデントのクラスターです。これは、クラスタリングソリューションの利用目的や、その結果として実施するアクションによって異なります。 2.クラスター可視化データを保持する ServiceNow プラットフォーム上の関連テーブルは何ですか? ClusterInsight テーブルには、クラスタリングの「ソリューション名」と同じ名前に「ml_ci_」プリフィックスが付きます。ただし、クラスタリングソリューションテーブルで [ClusterInsight テーブルの作成] を有効にしなかった場合、クラスタリング可視化のデータはテーブル [ml_cluster_summary] と [ml_cluster_detail] に保持されます。 3. 1つのクラスタリングソリューションを使用して、2つのフィールドをどのように相互参照しますか?たとえば、インシデントの説明フィールドと [クローズメモ] フィールドのソリューションを相互参照して、1 つのクラスターまたはいくつかの異なるクラスターで問題とソリューションを表示できるようにします。 インサイトテーブルに [説明] フィールドと [クローズメモ] フィールドを表示するには、これら両方のフィールドを入力フィールドとしてクラスタリング定義に追加し、両方のフィールドのデータが類似性の観点で相互に参照され、両方の入力フィールドのデータに基づいてクラスターが形成されるようにする必要があります。 4.クラスタリングソリューション定義で事前トレーニング済みのワードコーパスを使用すると、"SE0060:ソリューショントレーニングに失敗しました"というエラーがスローされます。なぜですか? 事前トレーニング済みの GloVe ワードコーパスは、ワードコーパスのコンテンツにより大きな容量を提供できますが、類似性ソリューションの作成とトレーニングに関するドキュメントの [ワードコーパス] フィールド/値の注記に従い、類似性ソリューションでのみ使用できます。ワードコーパスの定義はテーブル [ml_word_vector_corpus] にあります。ワードコーパスを含むすべての AI 機能は、テーブル [ml_model_artifact] に添付ファイルとしてアップロードされます。テーブル [ml_model_artifact] では、[ワードコーパス] 列の空のレコードを除外すると、トレーニング済みのすべてのワードコーパスがリストされ、それぞれに 2 つのレコードがあり、どちらもトレーニング済みの「ワードベクトル」ソリューションの添付ファイルが含まれています。これらは、システムプロパティ [glide.wordvector.upgrade_time_frame] によって制御され、180 日に 1 回トレーニングされます。ワードコーパスは、リンクされた予測インテリジェンスソリューションを介してのみトレーニングされるため、個別にトレーニングすることはできません。 注: Washington リリースでは、代わりに事前トレーニング済みモデル (GUSE) が使用されるため、ワードコーパスは必要ありません。[ワードコーパス] フィールドは、事前トレーニング済みモデルの定義フォームには表示されません。 5.ストップワードをトレーニングする必要がありますか、それともクラスタリングソリューションのトレーニングと一緒に処理されますか? これは、クラスタリングソリューションのトレーニングと並行して実行されます。クラスターコンセプトに、価値を付加しない、または一般的な単語である単語がある場合は、それらをカスタムストップワードリストに追加して、クラスタリングソリューショントレーニングの完了後にこれらの単語を生成するクラスターコンセプトプロセスから除外するようにしてください。デフォルトの標準ストップワードは、意味のない単語の網羅的なリストではないため、ソリューションをトレーニングした後にクラスターコンセプトで生成された単語をチェックし、不要な単語を削除するには、それらをカスタムストップワードリストに追加することをお勧めします。次にソリューションをトレーニングすると、クラスターコンセプトから不要な単語が削除されます。 6.クラスターコンセプトで単語として「null」が表示されるのはなぜですか? 「null」と表示されたこれらの単語はストップワードリストに含まれます。これは、クラスタリングソリューションの入力フィールドのデータに含まれる単語数が限られており、これらの単語のほとんどがストップワードリスト内にある場合にのみ発生します。これを解決するには、語彙を含む入力フィールドをクラスタリングソリューション定義に追加するか、ストップワードリストから「null」と表示されている単語を削除します。 7.なぜ「F5」を語彙として認識しないのですか? クラスターコンセプトは語彙からのみ生成され、「F5」などの単語は無視されます。クラスターコンセプトでは認識された語彙のみを使用するため、この点については、機能拡張のアイデアとして提起されています。 8.システムは、どの程度のデータをカバーするかをどのように決定し、カバレッジをどのように計算しますか? カバレッジは、「クラスター化されたレコードの数/トレーニングデータセット内のレコードの数」に基づいて計算されます。したがって、10,000 件のレコードを含むトレーニングデータセットから 5,000 件のレコードがクラスター化された場合、カバレッジは「0.5」になり、これに 100 を掛けると 50% になります。クラスタリングソリューションがカバーするデータの量は、データ自体、クラスターあたりの最小レコード数、アルゴリズムで使用されるその他のパラメーターなど、多くの要因によって異なり、選択したアルゴリズムに基づいて詳細ソリューションパラメーターで一部を制御できます。 9.クラスタリングソリューションのトレーニング時にカバレッジを拡大するために、カバーできるデータ量を増やすにはどうすればよいですか? クラスタリング定義で、[詳細設定] に移動し、[ソリューションパラメーター] の [ターゲットソリューションカバレッジ] を 100 に設定して、データのすべてのバリエーションをキャプチャします。 10.小規模なクラスターのほとんどでは、クラスターコンセプトから問題の適切なアイデアが得られますが、数千のレコードを含む大規模なクラスターの場合、その多くには必ずしもクラスターコンセプトに関連しないレコードも含まれます。これらの大きなクラスターをどのように分解できますか? データセットごとに特性が異なるため、データに最適な結果を決定するには、さまざまなアルゴリズムとその高度なソリューション パラメーターを試す必要があります。デフォルトの K-means アルゴリズムには詳細ソリューションパラメーターはありませんが、DBSCAN と HDBSCAN には追加の詳細ソリューションパラメーターがあります。 11.非常によく似たサブジェクトで作成されたクラスターがあることがわかりますが、同じクラスターにまとめるべきであるとシステムに学習させるにはどうすればよいでしょうか? 別々のクラスターを作成するには、これら 2 つの類似したクラスター間のデータに十分な差異が必要であり、ここでも、データに最適な結果を決定するために、さまざまなアルゴリズムとその高度なソリューション パラメーターを試す必要があります。 12.DBSCAN を使用する場合、epsilon のデフォルトの詳細ソリューションパラメーターは 0.5 で、min_neighboursは 5 です。これらのデフォルト値を変更するとどうなりますか? イプシロンをデフォルトの 0.5 のままにして、min_neighboursの値を増やした場合 結果: min_neighbours を増やすと、クラスターの数は減少します。 min_neighbours をデフォルトの 5 のままに保ち、イプシロンの値を減らした場合 結果: イプシロンを減らすとクラスターの数が増えます。 13.DBSCAN を使用する場合、クラスタリングソリューション定義の「クラスターあたりの最小レコード数」が 20 に設定され、最小近接 [min_neighbours] が 5 に設定されていますが、レコード数が 5 未満のクラスターもあります。なぜですか? DBSCAN アルゴリズムを使用する場合、クラスター内のレコードの最小数はサポートされません。これは、この種の機能をサポートしていないアルゴリズム自体に関係しています。クラスター内のレコードの最小数を決定するパラメーターは、次の 3 つです。 クラスターあたりの最小レコード数:クラスター内で維持されるレコードの最小数を確保するために、K-Means (デフォルト) および HDBSCAN でのみ内部的に使用されます。DBSCAN はこのパラメーターをサポートしていません。 詳細ソリューションパラメーター: min_samples:HDBSCANでのみ内部的に使用されます。min_neighbours:DBSCAN で内部的に使用されますが、クラスター内のレコードの最小数を設定するためには使用されません。 14. システムは、0 から 1000 以上の範囲のクラスター内のレコードのランクをどのように定義するのでしょうか? 生成される各クラスターには、クラスターの多次元平均と考えることができる重心があります。クラスター内のレコードのランクが高いほど、クラスターの重心に近づきます。ServiceNow では、将来のリリースでこれらの値の正規化を検討する可能性があります。 15. サービスカテゴリでフィルタリングすると、クラスタリングの可視化にはサービス名ではなくsys_idが表示されます。なぜですか? 参照フィールドで[グループ化]を使用する場合は、クラスタリングソリューション定義で参照テーブルの [名前] フィールドを選択してから、ソリューションを再トレーニングする必要があります。これで、[クラスタリングの可視化] タブの [グループ化] フィルタードロップダウンリストに、sys_id ではなく、[名前] が表示されます。 16.適切なワードコーパスを決定するには、入力フィールドデータで最も頻繁に使用される単語を確認するにはどうすればよいですか? パフォーマンスアナリティクス (ライセンスバージョン) でのみ利用可能なテキストアナリティクスのワードクラウド可視化を使用して、単語やフレーズの出現頻度を表示するテキストウィジェットを作成できます。