【JS応用】すべての数値を見つける

数値抽出の技術：正規表現と型安全なデータ変換の極意

フロントエンド開発において、APIレスポンスやユーザー入力、あるいはスクレイピングしたHTMLから「数値だけを抽出する」というタスクは日常的に発生します。一見単純に見えるこの作業ですが、考慮すべきエッジケースは驚くほど多く、堅牢なアプリケーションを構築するためには高度な戦略が必要です。本記事では、文字列からあらゆる数値を見つけ出し、安全にデータとして扱うための技術的アプローチを詳細に解説します。

なぜ「数値を見つける」ことが難しいのか

単に「数字」と言っても、それが何を意味するかによって処理は異なります。整数、浮動小数点数、負の数、あるいは通貨フォーマットやカンマ区切りの数値など、多様なパターンが存在します。

例えば、`”合計金額は1,200円、在庫は5個です。”`という文字列から数値を抽出する場合、以下の課題に直面します。
1. カンマやピリオドの処理：`1,200`を`1200`として認識する必要がある。
2. 単位の分離：`円`や`個`といった非数値文字を排除する必要がある。
3. 浮動小数点数：`3.14`のような小数を正しく抽出する。
4. 負の符号：`-500`といった負数を正しく認識する。

これらの課題を解決するためには、正規表現（Regular Expressions）の適切な設計と、抽出後の型変換における例外処理が不可欠です。

正規表現による抽出アルゴリズムの設計

数値抽出における正規表現は、マッチングの範囲をどれだけ柔軟に設定できるかが鍵となります。最も汎用的なパターンとして、以下の正規表現を推奨します。

`/-?\d+(?:\.\d+)?/g`

この正規表現の各パーツを分解して解説します。
– `-?`: 負の符号が0回または1回存在することを許容します。
– `\d+`: 1回以上の連続する数字にマッチします。
– `(?:\.\d+)?`: 小数点以下の数字が存在する場合、非キャプチャグループとしてマッチさせます。
– `g`: グローバルフラグにより、文字列全体からすべての該当箇所を抽出します。

ただし、これだけでは「カンマ区切りの数値」に対応できません。実務では、まずカンマを除去する前処理を行うか、あるいはより複雑な正規表現を使用する必要があります。

実装サンプル：実用的な数値抽出関数

以下に、文字列から数値を抽出し、数値配列として返す堅牢な実装例を示します。このコードは、カンマ区切りにも対応した汎用的なユーティリティです。


/**
 * 文字列からすべての数値（整数・浮動小数点数）を抽出する関数
 * @param {string} input - 抽出対象の文字列
 * @returns {number[]} 抽出された数値の配列
 */
function extractNumbers(input) {
  if (typeof input !== 'string') return [];

  // 1. カンマを削除（例: 1,200 -> 1200）
  const normalized = input.replace(/(\d),(\d)/g, '$1$2');

  // 2. 数値パターンにマッチさせる
  const matches = normalized.match(/-?\d+(?:\.\d+)?/g);

  // 3. マッチした文字列を数値型に変換
  if (!matches) return [];

  return matches.map(numStr => parseFloat(numStr)).filter(num => !isNaN(num));
}

// 使用例
const text = "売上は1,200.50円、損失は-300円、在庫は0個です。";
const numbers = extractNumbers(text);
console.log(numbers); // [1200.5, -300, 0]

このコードのポイントは、`replace`メソッドでカンマを処理する際に「数字と数字の間にあるカンマ」のみを置換している点です。これにより、意図しない文脈のカンマ（例えば、日本語の読点など）を誤って置換するリスクを最小限に抑えています。

実務における高度な考慮事項とベストプラクティス

実務の現場では、単に正規表現を走らせるだけでは不十分なケースが多々あります。特に注意すべきは「ロケール」と「型安全性の担保」です。

1. 国際化への対応

ヨーロッパ圏などでは、小数点にカンマ（`,`）を使用し、桁区切りにドット（`.`）を使用する地域があります。アプリケーションがグローバル展開を想定している場合、`Intl.NumberFormat`を活用したパース処理の導入を検討すべきです。単純な正規表現のみに依存すると、特定地域でバグを引き起こす原因となります。

2. 異常値のハンドリング

外部APIやユーザー入力から取得したデータには、極端に大きな数値や`Infinity`が含まれる可能性があります。`parseFloat`の結果に対して、`Number.isFinite()`を用いて有限数であることを必ず確認してください。

3. パフォーマンスの最適化

もし数万行のログから数値を抽出する必要がある場合、正規表現のコンパイルコストが問題になります。その場合は、正規表現オブジェクトを外側に定義して再利用するか、あるいは文字を1文字ずつ走査するパーサーアルゴリズムの実装を検討してください。

4. 型定義（TypeScript）の活用

TypeScriptを使用している場合、返り値を単なる`number[]`にするのではなく、抽出された数値が特定の範囲内であることを保証する「ユーザー定義型ガード」を併用すると、後続の処理で安全性が飛躍的に向上します。


function isPositiveNumber(num: number): num is number {
  return num > 0;
}

const positiveNumbers = extractNumbers(text).filter(isPositiveNumber);

数値抽出の先にあるデータクレンジング

「すべての数値を見つける」というタスクは、多くの場合、データクレンジングの入り口に過ぎません。抽出された数値をどのようにビジネスロジックに適合させるか、という視点が重要です。

例えば、Webサイトのスクレイピングデータから「価格」を抽出する場合、抽出した数値の背後にある「通貨単位」を無視してはいけません。`1200`という数値が`USD`なのか`JPY`なのかを判定するロジックを併用することで、初めて「意味のあるデータ」として活用可能になります。

また、抽出した数値が「ID」なのか「測定値」なのかを識別することも重要です。数値がIDである場合、それは演算の対象ではなく識別子として扱うべきであり、`parseInt`で変換した後に文字列として管理する方が安全な場合もあります。

まとめ

「すべての数値を見つける」ことは、フロントエンド開発におけるデータ処理の基本でありながら、非常に奥深い技術領域です。正規表現による抽出ロジックを磨き上げ、カンマや符号などのエッジケースを丁寧に処理することで、アプリケーションの信頼性は大きく向上します。

本記事で紹介した手法は、以下のようなステップで進めるのがベストです。
1. 入力データの正規化（カンマの除去など）
2. 適切な正規表現による抽出
3. 数値型への変換と妥当性検証（`isFinite`などの使用）
4. TypeScriptによる型安全性の確保

これらの工程を疎かにせず、一歩踏み込んだ実装を心がけることで、バグの少ない、メンテナンス性の高いフロントエンドを構築してください。数値抽出は、複雑なUIを支える裏側の重要な基盤技術です。ぜひ今日から、自身のプロジェクトにおけるパース処理を見直し、より堅牢な実装へとアップデートしていきましょう。