本物の売上データは、会社の外には出てこない。それでも —— Amazonの“順位”と、みんなのGoogle検索。 誰でも手に入る公開データを組み合わせれば、モノの売れ行きはどこまで読めるか。 そして「いつ効いて、いつ効かないのか」まで確かめた研究です。
ネットで買い物する人が増えた今、「何が・どれだけ売れるか」を先に読めれば、在庫やセールのタイミングをぴったり合わせられる。 でも、その予測には本来売上データうりあげデータ「いつ・何が・何個売れたか」の記録。お店のレジ(POS)や市場全体の売上などがこれにあたる。マーケティングの基本データだけど、企業の機密で値段も高く、外部の人はなかなか手に入れられない。が必要で、これが日本ではなかなか手に入らない。だから多くの予測モデルは「作りたくても作れない」のが現実です。
レジの記録(POSデータ)や市場全体の売上は、機密性が高くてとても高価。大企業ならともかく、個人研究者や中小のネットショップには手が届かないことが多いんです。
Amazonの「売れ筋ランキング(Sales RankセールスランクAmazonが商品ごとに付ける売れ筋の順位。誰でもページで見られる公開情報。でも「順位」しか分からないのがクセモノ。)」。これは誰でも見られる公開情報。でも、これがそのままでは使いにくい。
ランキングは順番(序数じょすう「1位・2位・3位…」のように“順番”だけを表す数。順番は分かっても、1位と2位で売れた数の差が10個なのか1万個なのかは分からない。)しか分かりません。1位と2位で、売れた数が10個差なのか1万個差なのか、順位だけでは見えないのです。
役立ちます。Google Trendsグーグル・トレンズあるキーワードがどれくらい検索されているかを、0〜100の相対値で見られる無料ツール。2004年からの20年分以上のデータがある。を使えば「みんながどれだけ検索しているか」が無料で取れる。買う前の“気になっている気持ち”が検索に表れる、というのが出発点です。
この研究の最初のヤマは、順位という“順番だけの情報”を、“だいたい何個売れたか”に直すこと。 ここで使うのがパレート変換パレートへんかん「上位の少数がほとんどを占める(=ロングテール)」という売れ行きの偏りの性質を使って、順位を“相対的な売上量”に直す計算。先行研究がカテゴリごとに求めた数値を借りて変換する。。「上位のごく一部が売上の大半を占める」という売れ方の偏りを利用して、順位を“相対売上”という量に変換します。
順位は等間隔に並んでいるように見えるけれど、実際に売れた数は分からない。これでは「どれだけ売れたか」を比べられません。
「上位ほど突出して売れる」という偏りを当てはめると、順位を“だいたいの売上量”に変換できる。やっと数量として比べられる、疑似的な売上データの完成です。
材料はたった2つ。Amazonのランキング(→相対売上に変換)と、Google Trendsの検索。 この2つを組み合わせて、1週間先の売れ行きを予測します。
Amazonの順位をパレート変換して、量として扱える“疑似的な売上”に直す。これが予測したい目標の数字になる。
製品の特徴ごとに関連語をまとめた複合クエリふくごうクエリ「画素数・解像度・高画質・4K」のように、似た意味の検索語をいくつもまとめて一つの指標として扱う方法。単語1つでは取りこぼす関心を、まとめて拾える。を作り、毎日の検索量を取得。これを製品スペック(解像度・価格・ズーム…)と“かけ合わせ”る。
「過去の売れ行きの勢い(自己回帰じこかいき「昨日売れたものは今日も売れやすい」のように、過去の値から先の値を予測する考え方。時系列予測の土台。)」と「検索 × 製品の特徴」を回帰モデルに入れる。一番うまくいったのは7日前を起点にしたとき=1週間先が読める。
ある人は「画素数」、別の人は「4K」、また別の人は「高画質」で調べる。単語を1つだけ追いかけると、こうした関心を取りこぼしてしまう。 そこでこの研究では、1つの製品特徴につき関連語をいくつも束ねて“複合クエリ”にする。どの言葉を束ねるかで、モデルに“見える”売れ行きが変わる——だからキーワードの選び方が、結果を大きく左右します。
言葉選びには“好み”が入りやすいので、主観をできるだけ減らすためキーワードは2〜3人で相談しながら決める。 そして実際、一番効いた言葉のかたまりは商品で違いました——デジカメでは「ズーム倍率」系、洗濯機では「価格」系。選んだキーワードが、消費者の本音をどれだけ拾えるかを決めていたのです。
デジタルカメラと洗濯機で検証。売れ筋上位10商品にしぼり、1年分を学習して次の年を予測する方式で確かめた。 予測の良し悪しを測る物差しはMAEえむ・えー・いー(平均絶対誤差)予測と実際の値が平均でどれくらいズレたかを表す数字。小さいほど“よく当たっている”。この研究では先行研究と同じ約0.33を一つの基準にした。(予測のズレ)です。
予測で最も効いた製品特徴は、デジタルカメラでは「ズーム倍率」、洗濯機では「価格」でした。 車を扱った先行研究では「価格」が一番でしたが、趣味性の強いデジカメでは“性能”が、生活必需品の洗濯機では“値段”が重視される——という消費者の気持ちの違いが、数字に表れたと読めます。
正直に書くと、改善はどれも控えめで、年によってはむしろ悪化しました(デジカメ2024年 −5.38%、洗濯機2025年 −7.43%)。 需要が荒れて売れ行きが激しく動いた年は、検索データがヒントどころか“ノイズ”になってしまったのです。 逆に、市場が落ち着いて予測のズレが約0.33前後に収まる年だけ、検索や製品特徴を足す効果が出ました。 つまりこの研究の本当の成果は「予測できた!」ではなく、公開データが“効く境界”を見つけたこと。どこまで通用して、どこから通用しなくなるか——その線引きを示したことにあります。
データから未来を読む研究は、いくつもの学問が交わる場所にあります。
たくさんの数字の中から規則やパターンを見つけ出し、まだ起きていない未来を予測する技術。この研究の中心です。
「人はなぜ、いつ、何を買うのか」を数式でとらえる学問。検索と購買のつながりを調べる土台になっています。
毎日のデータを集めて整え、モデルを動かす。この研究はPython(pandasやstatsmodels)で作られました。
対数や確率分布(パレート分布)、最適化。順位を売上量に直す“パレート変換”も、数学があってこそ成り立ちます。
ネット通販(EC)が広がる市場の仕組みを読み解く。日本のEC市場は今も毎年大きく伸び続けています。
予測を「在庫をいくつ持つか」「いつ値引きするか」という現実の判断にどう活かすか。実務に直結する視点です。