タクテク
昭和歌謡好き大学生の雑記
プロフィール



T.Ueda

電子機器と昭和歌謡を愛する理系大学生

昭和歌謡への定量的分析

日付:2020/02/07

1:最近の曲は速い?

 ヘッダーにもある通り、私は理系大学生なのですが、どういう訳か言語についての調査を行うことになりました。 しかし、「言語についての定量的な分析」と言われても全くテーマが思い付かない。 刻々と期限が迫る中、朝8時に一人カラオケをしていて思ったわけです。「曲の歌詞を分析しよう」と。
 私は昭和歌謡を聴くことが趣味なわけですが、何となく

「最近の曲って歌詞が多くて、速度が速いよなあ。」

と思っていたわけです。という訳で、今回は実際にデータを収集することでこれが真実かを検証してみました。

2:地獄の集計作業

 検証方法としては、歌詞の文字データのバイト数を、曲の演奏秒数で割ることで 1秒当たりの情報量を算出し、その値の年代ごとの推移を見る、という手法を用いることにしました。即ち、

情報量 = 歌詞のバイト数/曲の秒数(byte/sec)

 という訳です。 調査対象の曲は、その時代の流行を最もよく映した曲として1970年から2019年の紅白歌合戦で歌唱された曲から各年3曲前後、 合計137曲を用いました。数を減らすために赤組だけにしましたが、それでもこの集計作業が大変でした。 まず、歌詞データを探し出し、そのバイト数を確認、そしてその曲の長さを配信サイトとかで確認。 それらをExcelに打ち込むという手作業を合計140回近く繰り返したわけです。 歌詞データがなかなか見つからない曲も多く、結局ほぼ1日を要しました。
 せっかく苦労して研究したのだから、どうせならホームページに載せてやろう、ということでこの記事を書いています。

3:集計結果を散布図に表す

結果 散布図  で、得られた結果がこちら。流石にサンプル数が100程度だと明瞭な傾向は見られません。 しかし、近似直線を引くと何となく90年代から上昇しているように感じられます。まあ、R2乗値は0.2以下なので統計の専門家に怒られそうですが (それでも保健体育の教科書で見た「伸長とカルシウム摂取量」の散布図に引かれていた近似直線よりかはマシだと思う)。
 また、情報量の最高値はかなり上昇しています。

4:傾向が掴み辛いので平均値をとる

 流石にこの散布図では説得力がない、ということで10年ごとに時代を区切って情報量の平均値を取ってみました。 すると、結構「いい感じ」になりました。
年代 '70s '80s '90s '00s '10s
情報量 3.93 3.95 4.55 4.43 5.62
 「単調増加」とまではいかずとも、増加していることがよく分かります。正直、この表が得られた時、

何とかなって良かった

と思いました。時間をかけて結果が得られないのは辛いですから。

5:やっぱ速くなってるよなあ…

サンプリング曲のCDたち  という訳で、やはり速くなっていることは事実みたいです。 最近、Netflixに速度調整機能が導入されたとか、若者はネット動画を1.5倍速で視聴するなどといったニュースが ありましたが、やはり娯楽の速度が上昇しているんでしょうね。まあ、それがダメだとか何とか言うつもりはないですが。

6:課題もある

 とりあえず良い感じの結果が出たこの研究ですが、課題もあります。 まずは歌詞のバイト数を採用した点。今回はUTF-8エンコードを用いましたが、これだと仮名と漢字は1文字で3バイト 使うので、平仮名が多いと情報量が上振れしてしまいます。実際、今回の調査で最高記録をたたき出したのは 「マル・マル・モリ・モリ」でしたが、恐らくそれは平仮名か多用されていたことによるのだと思います。 また、曲の間奏の長さも考慮されていません。なので、あくまで「目安」にしかならないのですが、 個人的にはそれなりに説得力のあるデータが取れたと思います。という訳で、

ヒトカラ、行ってきます。