【JS応用】お金を抽出する

お金を抽出する：フロントエンドにおける高精度な金額解析とデータ処理の極意

Webアプリケーションにおいて「テキストから金額を抽出する」というタスクは、一見単純な文字列操作のように思えますが、実務レベルでは非常に難易度が高い課題です。レシートのOCRデータ、チャットボットの自然言語入力、あるいはスクレイピングしたHTMLデータなど、ソースが多様化する中で、いかにして「正確に」「漏れなく」「安全に」数値を抽出するか。本記事では、フロントエンドエンジニアが直面するこの課題に対し、堅牢な実装手法を解説します。

金額抽出における技術的課題と境界条件

金額を抽出する際、最も大きな障壁となるのは「表記の揺れ」と「文脈の曖昧さ」です。例えば、「1,000円」「1000円」「千円」「1k円」「$10.00」「1000 JPY」といった多様なフォーマットが存在します。

さらに、数字が含まれていればすべてが金額とは限りません。「2023年10月1日」という日付データに含まれる「2023」や「10」を誤って金額として抽出してしまうミスは、初期の実装で最も発生しやすいバグです。

また、通貨単位の扱いは、国際化対応（i18n）において重要なトピックです。日本円のように小数部を持たない通貨と、米ドルのようにセント単位まで扱う通貨では、抽出後のデータ型や正規化のルールが異なります。フロントエンドでは、抽出した文字列を単なる数値（Number型）として扱うのか、あるいはBigIntを用いて精度を保証するのか、設計段階での判断が求められます。

正規表現による抽出アルゴリズムの設計

金額抽出の第一歩として、正規表現（RegExp）によるパターンマッチングは不可欠です。しかし、単に「数字を探す」のではなく、通貨記号や単位を「アンカー」として活用する戦略をとります。

以下のサンプルコードでは、一般的な日本円の表記を抽出し、さらに数値部分のみをクリーンアップするロジックを実装しています。


/**
 * テキストから日本円の金額を抽出して数値に変換する関数
 * @param {string} text - 抽出対象の文字列
 * @returns {number[]} - 抽出された金額の配列
 */
function extractJapaneseYen(text) {
  // 1. カンマを含む数値と単位（円）の組み合わせをマッチング
  // 正規表現: (\d{1,3}(?:,\d{3})*|\d+) は「1,000」や「1000」にマッチ
  const regex = /(\d{1,3}(?:,\d{3})*|\d+)\s?円/g;
  const matches = [...text.matchAll(regex)];

  return matches.map(match => {
    // カンマを除去して数値型に変換
    const rawValue = match[1].replace(/,/g, '');
    return parseInt(rawValue, 10);
  });
}

const sampleText = "合計金額は1,200円、送料は500円です。";
const amounts = extractJapaneseYen(sampleText);
console.log(amounts); // [1200, 500]

このコードのポイントは、`matchAll`を使用してキャプチャグループを個別に取得している点です。また、`\s?`を入れることで「1000円」と「1000 円」の両方に対応させています。

高度な解析：自然言語処理（NLP）アプローチの検討

単純な正規表現では限界があるケースも存在します。「およそ千五百円」や「約2万円」といった表現です。これらを解決するためには、形態素解析を組み合わせる必要があります。

フロントエンド環境（ブラウザ）で動作する形態素解析ライブラリとして「Kuromoji.js」や「BudouX」などが挙げられます。これらを用いると、文中の「千」「五百」といった漢数字をトークンとして認識し、数値に変換するパイプラインを構築できます。

実務においては、サーバーサイドで大規模な言語モデル（LLM）を通すのが最も確実ですが、レスポンス速度が求められるフロントエンドでは、以下のステップで「軽量なNLP」を実装するのが定石です。

1. 正規表現で候補となる文字列を抽出
2. 辞書ベースで漢数字をアラビア数字に変換
3. 抽出した数値の周辺単語を確認し、通貨単位との距離を計算
4. 誤検出（日付など）をフィルタリングするバリデーターを通す

実務アドバイス：精度を担保するためのテスト戦略

金額抽出機能は、ビジネスロジックの根幹に関わることが多いため、ユニットテストの網羅性が不可欠です。特に「エッジケース」への対応が品質を左右します。以下のケースを必ずテストケースに含めてください。

・カンマ区切りの有無（1,000 vs 1000）
・全角数字と半角数字の混在（１０００円 vs 1000円）
・単位の省略や別称（1k、千円、￥1000）
・誤検知の排除（2024年、No.100）
・非常に大きな数値（BigIntが必要なケース）

また、抽出結果は必ず「正規化」してください。抽出した値をそのまま利用するのではなく、常に`Intl.NumberFormat`等を用いて表示形式を統一し、計算には`Decimal.js`のような高精度計算ライブラリを使用することを推奨します。JavaScript標準の`Number`型は浮動小数点演算の誤差（0.1 + 0.2 != 0.3）を抱えているため、金融アプリケーションでは致命的なバグにつながります。

セキュリティ上の留意点：入力を信じるな

ユーザー入力から金額を抽出する場合、サニタイズは必須です。悪意のあるユーザーが「1,000,000,000,000,000円」のような巨大な数値を入力することで、フロントエンドでのレンダリング負荷を増大させたり、数値オーバーフローを誘発させたりする攻撃手法があります。

抽出した金額に対しては、必ず「期待される範囲内か（Min/Maxチェック）」というバリデーションを適用してください。また、HTMLへの出力時にはXSSを防ぐため、必ずtextContent経由で描画を行い、直接innerHTMLに代入するような実装は避けるべきです。

まとめ

「お金を抽出する」というタスクは、単なる文字列マッチングから始まり、国際化対応、精度保証、そしてセキュリティ対策へと広がる深い領域です。

1. 正規表現はあくまで「入り口」として使い、複雑な表記には形態素解析や正規化ロジックを組み合わせる。
2. 計算には標準のNumber型を避け、Decimal.jsなどのライブラリで精度を担保する。
3. 抽出結果に対しては、必ず境界値チェックと型安全なバリデーションを行う。

これらの原則を守ることで、フロントエンドにおける金額処理は極めて堅牢なものとなります。データが多様化する現代のWeb開発において、正確なデータ抽出能力は、エンジニアとしての確かな武器となるはずです。本稿のサンプルコードをベースに、プロジェクトごとの要件に合わせてカスタマイズし、より精度の高い実装を目指してください。