📈 RESEARCH × HIGH SCHOOL

誰でも使えるデータで、
売れ行きはどこまで読めるか。

本物の売上データは、会社の外には出てこない。それでも —— Amazonの“順位”と、みんなのGoogle検索。 誰でも手に入る公開データを組み合わせれば、モノの売れ行きはどこまで読めるか。 そして「いつ効いて、いつ効かないのか」まで確かめた研究です。

FORECAST → みんなの検索(Google Trends) 売れ行き(ランキングを変換した相対売上)
SCROLL ↓
CHAPTER 01

なぜ売上予測は、こんなに難しいのか

ネットで買い物する人が増えた今、「何が・どれだけ売れるか」を先に読めれば、在庫やセールのタイミングをぴったり合わせられる。 でも、その予測には本来売上データうりあげデータ「いつ・何が・何個売れたか」の記録。お店のレジ(POS)や市場全体の売上などがこれにあたる。マーケティングの基本データだけど、企業の機密で値段も高く、外部の人はなかなか手に入れられない。が必要で、これが日本ではなかなか手に入らない。だから多くの予測モデルは「作りたくても作れない」のが現実です。

Q

売上データって、
買えばいいのでは?

レジの記録(POSデータ)や市場全体の売上は、機密性が高くてとても高価。大企業ならともかく、個人研究者や中小のネットショップには手が届かないことが多いんです。

Q

じゃあ、何なら
手に入る?

Amazonの「売れ筋ランキング(Sales RankセールスランクAmazonが商品ごとに付ける売れ筋の順位。誰でもページで見られる公開情報。でも「順位」しか分からないのがクセモノ。)」。これは誰でも見られる公開情報。でも、これがそのままでは使いにくい。

Q

ランキングじゃ
ダメなの?

ランキングは順番(序数じょすう「1位・2位・3位…」のように“順番”だけを表す数。順番は分かっても、1位と2位で売れた数の差が10個なのか1万個なのかは分からない。)しか分かりません。1位と2位で、売れた数が10個差なのか1万個差なのか、順位だけでは見えないのです。

Q

検索データは
役に立つ?

役立ちます。Google Trendsグーグル・トレンズあるキーワードがどれくらい検索されているかを、0〜100の相対値で見られる無料ツール。2004年からの20年分以上のデータがある。を使えば「みんながどれだけ検索しているか」が無料で取れる。買う前の“気になっている気持ち”が検索に表れる、というのが出発点です。

CHAPTER 02

「順位」を、「売れ行き」に翻訳する

この研究の最初のヤマは、順位という“順番だけの情報”を、“だいたい何個売れたか”に直すこと。 ここで使うのがパレート変換パレートへんかん「上位の少数がほとんどを占める(=ロングテール)」という売れ行きの偏りの性質を使って、順位を“相対的な売上量”に直す計算。先行研究がカテゴリごとに求めた数値を借りて変換する。。「上位のごく一部が売上の大半を占める」という売れ方の偏りを利用して、順位を“相対売上”という量に変換します。

順位そのまま(序数)
1位 ?個 2位 ?個 3位 ?個 等間隔に“見える”だけ。本当の差は不明

順位は等間隔に並んでいるように見えるけれど、実際に売れた数は分からない。これでは「どれだけ売れたか」を比べられません。

パレート変換後(相対売上)
1位=ダントツに多い 下位は少しずつ 順位 → 売れた量

「上位ほど突出して売れる」という偏りを当てはめると、順位を“だいたいの売上量”に変換できる。やっと数量として比べられる、疑似的な売上データの完成です。

CHAPTER 03

公開データだけで、予測モデルをつくる

材料はたった2つ。Amazonのランキング(→相対売上に変換)と、Google Trendsの検索。 この2つを組み合わせて、1週間先の売れ行きを予測します。

01

売上の“代わり”をつくる

ランキング パレート変換 疑似的な売上(相対売上)

Amazonの順位をパレート変換して、量として扱える“疑似的な売上”に直す。これが予測したい目標の数字になる。

02

みんなの検索を集める

「画素数」「4K」「望遠」…を毎日記録

製品の特徴ごとに関連語をまとめた複合クエリふくごうクエリ「画素数・解像度・高画質・4K」のように、似た意味の検索語をいくつもまとめて一つの指標として扱う方法。単語1つでは取りこぼす関心を、まとめて拾える。を作り、毎日の検索量を取得。これを製品スペック(解像度・価格・ズーム…)と“かけ合わせ”る。

03

かけ合わせて先を読む

過去の勢い + 検索 × 特徴 1週間先を予測

「過去の売れ行きの勢い(自己回帰じこかいき「昨日売れたものは今日も売れやすい」のように、過去の値から先の値を予測する考え方。時系列予測の土台。)」と「検索 × 製品の特徴」を回帰モデルに入れる。一番うまくいったのは7日前を起点にしたとき=1週間先が読める。

ここが研究の腕の見せどころ

同じ「解像度」でも、どの言葉で検索するかは人それぞれ。

ある人は「画素数」、別の人は「4K」、また別の人は「高画質」で調べる。単語を1つだけ追いかけると、こうした関心を取りこぼしてしまう。 そこでこの研究では、1つの製品特徴につき関連語をいくつも束ねて“複合クエリ”にする。どの言葉を束ねるかで、モデルに“見える”売れ行きが変わる——だからキーワードの選び方が、結果を大きく左右します。

解像度 画素数解像度高画質4K画質比較
価格 安い価格値下げ最安予算
ズーム倍率 望遠光学ズームズーム倍率遠く野鳥

言葉選びには“好み”が入りやすいので、主観をできるだけ減らすためキーワードは2〜3人で相談しながら決める。 そして実際、一番効いた言葉のかたまりは商品で違いました——デジカメでは「ズーム倍率」系、洗濯機では「価格」系。選んだキーワードが、消費者の本音をどれだけ拾えるかを決めていたのです。

CHAPTER 04

どこまで当たった
そして、どこから外れた?

デジタルカメラと洗濯機で検証。売れ筋上位10商品にしぼり、1年分を学習して次の年を予測する方式で確かめた。 予測の良し悪しを測る物差しはMAEえむ・えー・いー(平均絶対誤差)予測と実際の値が平均でどれくらいズレたかを表す数字。小さいほど“よく当たっている”。この研究では先行研究と同じ約0.33を一つの基準にした。(予測のズレ)です。

📊 「売れ筋トップ10」にしぼると精度が上がった

予測のズレ(MAE)。短い=よく当たっている。

取得した全23商品MAE 0.44
ズレ大
売れ筋トップ10にしぼるとMAE 0.37
約14.8%改善 🎯
予測のズレ(平均MAE)
0.33
先行研究の0.331と同水準を、売上データなしで達成
最適な予測の起点
7
1週間先を読むリードタイムを確保
使った実売上データ
0
すべて無料で手に入る公開データ
カテゴリ検索の効きやすさ
(洗濯機 ÷ デジカメ)
×21
生活必需品ほど検索が効いた

🔍 「一番効く特徴」は商品で違った

予測で最も効いた製品特徴は、デジタルカメラでは「ズーム倍率」、洗濯機では「価格」でした。 車を扱った先行研究では「価格」が一番でしたが、趣味性の強いデジカメでは“性能”が、生活必需品の洗濯機では“値段”が重視される——という消費者の気持ちの違いが、数字に表れたと読めます。

でも、「いつも効く」わけじゃない。

正直に書くと、改善はどれも控えめで、年によってはむしろ悪化しました(デジカメ2024年 −5.38%、洗濯機2025年 −7.43%)。 需要が荒れて売れ行きが激しく動いた年は、検索データがヒントどころか“ノイズ”になってしまったのです。 逆に、市場が落ち着いて予測のズレが約0.33前後に収まる年だけ、検索や製品特徴を足す効果が出ました。 つまりこの研究の本当の成果は「予測できた!」ではなく、公開データが“効く境界”を見つけたこと。どこまで通用して、どこから通用しなくなるか——その線引きを示したことにあります。

「持っているデータ」ではなく、
「誰でも手に入るデータ」で、
世界をどこまで読めるか。

高価なデータがなくても、工夫しだいで未来は少しだけ見える。 そして、うまくいった所だけでなく「どこで通用しなくなるか」まで確かめる。 その正直な線引きこそ、研究のいちばん大切なところです。

CHAPTER 05

この研究、
どんな 学問 でできてる?

データから未来を読む研究は、いくつもの学問が交わる場所にあります。

📊

データサイエンス

たくさんの数字の中から規則やパターンを見つけ出し、まだ起きていない未来を予測する技術。この研究の中心です。

📈

計量経済学・マーケティング

「人はなぜ、いつ、何を買うのか」を数式でとらえる学問。検索と購買のつながりを調べる土台になっています。

💻

情報科学・プログラミング

毎日のデータを集めて整え、モデルを動かす。この研究はPython(pandasやstatsmodels)で作られました。

🧮

数学

対数や確率分布(パレート分布)、最適化。順位を売上量に直す“パレート変換”も、数学があってこそ成り立ちます。

🛒

経済学

ネット通販(EC)が広がる市場の仕組みを読み解く。日本のEC市場は今も毎年大きく伸び続けています。

📦

経営・ビジネス

予測を「在庫をいくつ持つか」「いつ値引きするか」という現実の判断にどう活かすか。実務に直結する視点です。