Show 2022.03.06 2022.02.16 「Power Automate Desktop」のアクション「PDF からテキストを抽出」について、具体例をつかって解説をします。 具体的なアクションの使い方PDF ファイルからテキストを抽出します。 PDF ファイルこちらで指定したPDF ファイルからテキストを抽出します。 抽出するページパラメーターの選択「抽出するページ」では、以下の項目からひとつを選択します。
活用事例こちらのPDF ファイル(ファイル名「SAMPLE.pdf」)を使ってご紹介します。 先ほどのアクションでこちらのファイルを指定して結果を確認します。 こちらが実行結果です 画像内に含まれるテキスト情報は、テキストではなく画像として認識されます。 上記の例の場合では、画像内に含まれる文字「アクション」などは画像として認識されるためテキストとしては抽出されません。 その他の「PDF」に関するアクションはこちらをご覧ください。
2022.03.30 2021.09.21 Power Automate Desktopを使って、受信したメールの本文テキストから必要な箇所を抽出するフローを作ってみます。
メール本文の抽出したい箇所を確認する前回からの続きで、消費者庁のリコール情報新着メールを利用して、ネット販売に活かせる情報を抜き出してみます。 ※ 本ブログのRPA・自動化は、主にネット販売に活かすためのものを記事にしていますが、本記事を参考に他でも充分応用可能かと思います 消費者庁のリコール情報新着メールのメール本文は、以下のように1リコール商品につき3行で記載されています。
なお、記載されているURLのページにアクセスすると、以下のようなリコール情報の詳細が掲載されています。 アマゾンでの販売では、リコール対象商品は出品制限対象であり、知らずに出品しているとアカウントに悪影響を及ぼす可能性があるため、RPAで以下のような自動化をつくってみたいと考えています。
リコール情報は平日ほぼ毎日更新されており、リコール情報の新着メールも数多く受信します。 自社の出品商品の中に、出品制限対象である「リコール対象商品」が無いか把握するためには、商品名のようにゆらぎのある情報ではなく、商品を一意で検索できるJANコードを使う方が正確で手間もかかりません(※出品商品情報にJANコードが無い・登録されていない場合は除く) まずは、リコール新着情報のメール本文からリコール商品詳細ページのURLを抜き出すところから始めてみます。 テキストを抽出するアクションを追加する先の記事で作成済みの、メール本文テキストの取得フローにアクションを追加していきます。 [テキスト抽出のアクションを追加]
完成したテキスト抽出フローの実行完成したフローを実行してみます。 本フローは消費者庁のリコール情報のメールサービスを処理することを目的に作成したものです。 フローの実行結果を確かめるには、未読のリコール情報メールが最低1通受信されていることが必要です。既読のメールしかない場合は、未読に戻すなどしてからフローを実行してください。 [フローの実行]
以上で、メール本文から任意のテキストを抽出することが出来ました。 後日別の記事で、抽出したURLにアクセスし、そのページにある情報を取得するアクションを追加予定です。 Power Automate Desktopでのテキスト抽出と正規表現について今回メール本文から任意のテキストを抽出するために「正規表現」を使いました。 リンク 「正規表現」を使うことで、URLのような複雑な文字列の組み合わせだけを抽出することが出来たりします。 RPAを使って自動化をするにあたって、何らかのテキスト情報を扱う必要がある場合、正規表現の利用方法を知っておくと自由度が格段に上がります。 Microsoft Power Automate Desktopで利用できる正規表現は「.NET」の正規表現になります。 「テキストの解析」アクションと正規表現を組み合わせることで、他にも様々なテキストから欲しい箇所のみを抽出することが可能になります。 Power Automate Desktop 何ができるか?Power Automate Desktopとは、データの収集・整理・加工などパソコンで操作している手順を記録して、業務効率につながるアプリを開発できる製品です。
Powerautomate Desktopの改行コードは?Power Automate Desktop には、タブや改行を表すコードがない。 改行コードは「テキストに行を追加」で挿入できる。 ただこのステップで追加されるのは \r\n であり、 \n だけ追加することはできない。
Power Automate CSVの改行コードは?デコードした結果得られる値が改行コードを表す「r\n\」です。 手入力で「r\n\」を入力してもPower Automateは改行コードとして認識できないため「decodeUriComponent('%0D%0A'))」という指定をしています。
|