KNIME Analytics Platform 4.4およびKNIME Server 4.13の新機能　～データアプリ、R用のConda環境プロパゲーション、Snowflakeデータベース内処理など～

リリースノート 2021.7.12

原文：https://www.knime.com/whats-new-in-knime-44

１．新機能
　・データアプリ
　・KNIME Server Largeで利用可能な組み込みデータアプリ
　・動的データアプリ
　・Snowflake In-Database Processing
　・リトライのスケジュール
　・RのためのConda環境プロパゲーション
　・ファイルの取り扱い
　・新しいH2O AutoMLのノード

２．改善点
　・ノードのインデックス化と検索の改善
　・変数生成機能の強化
　・RESTノードのエラー処理
　・ループおよびその他のコンテキスト内の拡張変数スコープ

３．その他
　・KNIME Labsからの移動
　・ライブラリーアップデート
　・リリースノート

１．新機能

データアプリ

データサイエンスチームは、KNIME Analytics Platformの他のすべての機能と同様に、
ワークフローを使用して、コーディングなくワークフローをデータアプリ（旧称：ガイド付き分析ウェブアプリ）として展開することができます。
ウィジェットノードとコンポーネントを使用し、GUIベースでUIを設計することができるのです。

最新のアップデートにより、データアプリのアクセス性とカスタマイズ性が向上しました。
データアプリは、リンクを介して、またはサードパーティのアプリケーションに埋め込んで、より共有しやすくなりました。
また、ダイナミックになったことで、従来のようにマルチステップのアプリケーションにしたり、
ワークフローのトリガーとしてアプリケーション内に1つまたは複数の更新ボタンを設置することができます。

KNIME Hubに掲載されているサンプルワークフローで、データアプリの動きをご覧ください。

・ブラウザの使用状況シングルページデータアプリの視覚化
・シングル・ページ・データ・アプリのリアクティブ・ビュー
・解約予測データアプリ

KNIME Server Largeで利用可能な組み込みデータアプリ

エンドユーザーが明示的なログインを必要とせずにデータアプリを実行できるように、共有可能なリンクや埋め込み可能なリンクを作成します。
これらのリンクは、任意のWebサイトのiframeに埋め込むことができ、データアプリはどこからでも誰でもアクセスできるようになります。

動的データアプリ

新しい「Refresh Button Widget」ノードを使用することで、ユーザーはページ上のデータを操作し、
ページを離れることなく基本的なワークフローを再実行することができます。
ページ全体で1つの「Refresh Button Widget」を使用するか、複数のウィジェットを使用するかを選択できます。
それぞれが独立して動作します。

Snowflake In-Database Processing

「Snowflake Connector」ノードは、Snowflakeで実行されるKNIME Analytics PlatformのSQLクエリを視覚的に組み立てるために必要なすべてを提供します。

・Snowflakeエクステンションには、JDBCドライバに付属する「Snowflake Connector」ノードが含まれています。
・既存のデータベース拡張機能と合わせて、ユーザーはSnowflakeインスタンスに接続し、
　Snowflakeデータベースで実行されるデータベースステートメントを視覚的に組み立てることができます。
・大量のデータをアップロードするには、Snowflakeのステージにデータをアップロードする
　「DB Loader」ノードを使用し、コピーを介して既存のテーブルにデータをロードします。
・KNIME Hubでのサンプルワークフロー：Snowflakeへのデータの読み込み

スケジュールのリトライ回数の指定

スケジュールされたジョブが失敗する理由はさまざまです（例えば、一時的にサードパーティのデータソースに接続できないなど）。
このような場合に、失敗したジョブの再試行回数を指定できるようになりました。

・再試行回数を指定できるオプションがあれば、最初の実行が失敗しても、ジョブが実行されるようになります。

RのためのConda環境プロパゲーション

以前はPythonのみの機能でしたが、このノードは設定可能な特定のConda環境の存在を保証し、その環境を下流のRノードに伝播します。

・ソースマシン（パーソナルコンピュータなど）で使用していたConda環境をターゲットマシン（KNIME Serverインスタンスなど）で
　簡単に再現できるため、Rノードを含むワークフローの移植性が向上しました。

ファイルの取り扱い

新しいコネクターやノードの更新、フレームワーク自体の更新などがあり、引き続き注力しています。

・新しいコネクターの追加：「Azure Data Lake Gen 2 Connector」と「SMB Connector」は、
　ファイルハンドリングフレームワークに追加された最新のコネクタです。
　これらにより、これらのファイルシステムでのファイルの管理、読み取り、書き込みが可能になります。

・Azure Data Lake Gen2やSAMBAなどのSMBドライブ上のファイルを、ファイルハンドリングノードで管理します。
・テキストやExcelなどのファイルをこれらのファイルシステムから直接読み書きすることができます。
・KNIME Hubでのサンプルワークフロー：SMBコネクタによるリモートファイルシステムの操作

・より多くのノードを新しいファイルハンドリングフレームワークに書き換え：新しいファイルハンドリングフレームワークは、
　ローカル、KNIME Server、データセンター、クラウドを問わず、ファイルシステム間でファイルを管理する際に一貫した
　ユーザーエクスペリエンスを提供します。
　例えば、以下のようなものです。
　　・ファイルリーダー
　　・ファイルリーダー（複合形式）
　　・JSONリーダー
　　　以下のようなテーブルベースのユーティリティノード
　　　　・ファイルの転送
　　　　・ファイルの削除
　　　　・ファイルの圧縮
・テーブルリーダー
・テーブルライター
・「Column Expressions」ノードでのパスセルのサポート

新しいH2O AutoMLのノード

H2O Machine Learningの統合に2つの新しいノードが追加されました。
分類用の「H2O AutoML Learner」と回帰用の「H2O AutoML Learner (Regression)」です。

・H2O AutoML は、異なる H2O モデルのハイパーパラメータを自動的に最適化します．
・さらに、学習したモデルを用いてStacked Ensembleモデルを作成します．H2Oは、自動的に最適なモデルを選択して返します。
・プロセスの詳細なドキュメントはH2Oから提供されています。
・KNIME Hubでのサンプルワークフロー
　　・回帰のためのH2O AutoML
　　・SparkでのH2O AutoML

２．改善点

ノードのインデックス化と検索の改善

数百万行のインデックスを作成し、数値データやテキストデータを検索し、高度な検索結果を数ミリ秒で返します。

・「Indexing and Searching」エクステンションを使用すると、テキスト文書などの複雑なデータタイプを含む
　KNIMEデータテーブルからインデックスを作成することができます。
・インデックスが作成されると、ファジー、レンジ、プロキシミティークエリなどの高度な検索技術を使ってクエリを実行し、
　ミリ秒以内に一致するものを見つけることができます。
・新バージョンでは、サポートされているあらゆるファイルシステムにインデックスを保存したり、複数のワークフローで使用したり、
　既存のインデックスをインクリメンタルに更新したりすることができます。

変数生成機能の強化

「Variable Creator」ノードでは、新しいフロー変数を一度に多数指定することができます。

使用例

RESTノードのエラー処理

「REST」ノードのエラー処理を改善しました。個々のリクエスト（”GET”、”PUT “など）でノードが失敗した場合、
トライ・キャッチや再帰ループなどのエラー処理ルールをノード自体に作成できるようになりました。

・クライアント側のエラー、サーバー側のエラー、レート制限の条件など、さまざまなエラーが発生する可能性があります。
　これらはすべて、再試行の回数や呼び出しの一時停止など、個別に設定することができます。
・ノードの設定ダイアログには、エラー発生時のノードの動作を指定するタブが追加されています。

ループおよびその他のコンテキスト内の拡張変数スコープ

KNIME Analytics Platformでは、多くのプログラミング言語の機能（try-catch、if-statement、ループなど）が、
スコープを定義する専用の開始ノードと終了ノードを介して利用できます。
以前は、定義または変更された変数は下流でアクセスできませんでした。

変数スコープの最新のアップデートにより、ループの繰り返しにおける変数のフィードバックなど、そのような変数の伝搬が可能になりました。
これまでは「再帰的なループ」を使わないとできなかったことが、今では「言語機能」として組み込まれています。
これらの機能は、KNIME Hubのサンプルワークフローでご覧いただけます。

・GETリクエストのネストされたループにおける変更された変数の伝搬
・GETリクエストループでの変更された変数の伝搬
・Try Catchに取り込まれたGETリクエストにおける変更された変数の伝搬

３．その他

KNIME Labsからの移動

KNIME Labsは、KNIMEで開発されたノードが最初にコミュニティでテストされる場所です。
これらをラボから出すということは、完全に吟味され、製品化の準備が整ったことを意味します。

・「Joiner」ノード：最も頻繁に使用されるノードの1つがラボの外にあります。
　代替となるマッチング基準（”Match Any”）を指定したり、ノードのデフォルト選択を定義できるようになりました。
・「Integrated Deploymentｙ」ノード：継続的デプロイメントと統合デプロイメントのワークフローをキャプチャして
　書き込むノードがラボから移動しました。「Workflow Reader」や「Workflow Summary Extractor」などの新しいノードが追加されました。
・すべての「MongoDB」ノード：MongoDB Reader、Remove、Save、Update、Writer の各ノードがラボから削除されました。
　これらは最新のMongoDBバージョンをサポートし、新しいコネクタノードを含み、使い勝手が向上しました。
・すべての「PowerBI」ノード：「Microsoft Authentication」がノード自体から移動したことに注意してください。
　「Send To Power BI」ノードに、テーブルのカラム間のリレーションを定義するオプションが追加されました。

ライブラリーアップデート

Java 11とEclipseのアップデート

・KNIMEはJavaとEclipseをベースにしています。
・以前はJava 8を使用していましたが、KNIMEにはJava 11ランタイムが搭載されており、これはメジャーな新バージョンです。
　ワークフローとワークスペースは以前のバージョンのKNIMEとの互換性を維持していますが、基礎となるフレームワークの変更による
　いくつかのエッジケースも指摘されています。詳細はこちらのリリースノートをご覧ください。
・Eclipse 2021-03（従来は2020-03）をベースにしており、macOS Big Surによってもたらされた多くの問題に対応しています。

H2O Version 3.32.1.2 サポート

この新バージョンには、H2Oに関するいくつかのバグフィックスと機能強化が含まれていますので、こちらをご覧ください。

・新バージョンでは、H2O Sparkling Water IntegrationのSpark 3.0のサポートが追加されています。
・すでに提供されているH2Oのバージョンに加えて、3.32.1.2が追加され、新しいデフォルト・バージョンとなります。
・H2Oのバージョンは、「環境設定」→「KNIME」→「H2O-3」で変更できます。

Spark 3サポート

・Apache Spark 3.0とその基盤となる7.x Databricksランタイム環境をサポートするようになりました。
　Spark 2.4と3.0の間のメジャーアップデートについては、Spark 2.4と3.0のリリースアナウンスをご覧ください。
・「Create Databricks Environment」または「Create Spark Context」ノードの構成時にバージョン番号を変更するだけで、
　KNIME Analytics Platform内で以前のバージョンからSpark 3.0に簡単に移行できます。

リリースノート

上述したように、KNIME Analytics Platform 4.4はEclipseの更新版と、より重要なJavaをベースにしています。
広範なテストが実施されていますが、UIにいくつかのアーティファクトが発生する可能性があり、
サードパーティの拡張機能の互換性のないバージョン（例：パートナーのアップデートサイト経由）や、
日付と時間の処理など、いくつかの計算にわずかな違いがあります。
これらについては、以下に説明します。

時間と日付の処理

入力文字列にタイムゾーン情報の矛盾したデータが含まれている場合、日付時刻の解析が若干異なる動作を示すことがあります。
例えば、”2020-06-01T01:00:00+8:00[Berlin/Europe]”は、異なる方法で解析・修正されます
（ベルリンのタイムゾーンは最大でも+02:00であるため、このタイムスタンプは存在しません）。

この動作は、「Table Creator」や「Weblog Reader」などのノードで見られます。durationの値が負で、
granularityがmillisまたはnanosに設定されている場合、結果の値が+1だけ異なることがあります。
Java 11では基本的な動作が変更されているため、Zoned Date & Timeの処理に関する未解決の問題がいくつかあります。

最も影響を受けるノードはExtract Date&Time Fieldsで、特定の条件下では後方互換性のある結果が得られないため、非推奨となりました。
このFAQでは、この問題について、実際の問題の内容、影響を受けるかどうか、この問題の処理/解決方法について説明しています。
国コードを含むロケールを選択しなかった場合、基本的なコードは米国のデフォルトを使用します（週の始まりが日曜日であるなど）。

XMLパーシング・ライブラリの変更

XMLの処理にXerces / Xalanライブラリを使用しないことになりました。
読み込まれる内容に変更はありませんが、XML解析のパフォーマンスが異なる可能性があります（XMLとスキーマ/dtd定義の複雑さによります）。

XMLBeans及び動的ノードファクトリの使用：

XMLBeansで生成されたライブラリ、特にダイナミック・ノード・ファクトリ（例：dynamic JS views）や
PMMLパーサの拡張機能のAPIユーザは、それらの拡張機能を再コンパイルする必要があります。
そのようなライブラリのバイナリ形式が変更されたため、4.3.xのビルド成果物は新しいバージョンと互換性がなく、再コンパイルが必要です。

ローレベルライブラリの更新

… Eclipse BIRT、Apache Batik、Apache CXF、Apache POI、Apache Arrow、Chromium.SWT / CEFなど。

「KNIME Analytics Platform 4.4」はこちらからダウンロードできます。
※ご利用中のバージョンによっては、新規にアプリをインストールする必要があります。

ブログ