電子機器と昭和歌謡を愛する理系大学生
日付:2020/02/07
「最近の曲って歌詞が多くて、速度が速いよなあ。」
と思っていたわけです。という訳で、今回は実際にデータを収集することでこれが真実かを検証してみました。2:地獄の集計作業
検証方法としては、歌詞の文字データのバイト数を、曲の演奏秒数で割ることで 1秒当たりの情報量を算出し、その値の年代ごとの推移を見る、という手法を用いることにしました。即ち、情報量 = 歌詞のバイト数/曲の秒数(byte/sec)
という訳です。 調査対象の曲は、その時代の流行を最もよく映した曲として1970年から2019年の紅白歌合戦で歌唱された曲から各年3曲前後、 合計137曲を用いました。数を減らすために赤組だけにしましたが、それでもこの集計作業が大変でした。 まず、歌詞データを探し出し、そのバイト数を確認、そしてその曲の長さを配信サイトとかで確認。 それらをExcelに打ち込むという手作業を合計140回近く繰り返したわけです。 歌詞データがなかなか見つからない曲も多く、結局ほぼ1日を要しました。3:集計結果を散布図に表す
4:傾向が掴み辛いので平均値をとる
流石にこの散布図では説得力がない、ということで10年ごとに時代を区切って情報量の平均値を取ってみました。 すると、結構「いい感じ」になりました。年代 | '70s | '80s | '90s | '00s | '10s |
---|---|---|---|---|---|
情報量 | 3.93 | 3.95 | 4.55 | 4.43 | 5.62 |
何とかなって良かった
と思いました。時間をかけて結果が得られないのは辛いですから。5:やっぱ速くなってるよなあ…
6:課題もある
とりあえず良い感じの結果が出たこの研究ですが、課題もあります。 まずは歌詞のバイト数を採用した点。今回はUTF-8エンコードを用いましたが、これだと仮名と漢字は1文字で3バイト 使うので、平仮名が多いと情報量が上振れしてしまいます。実際、今回の調査で最高記録をたたき出したのは 「マル・マル・モリ・モリ」でしたが、恐らくそれは平仮名か多用されていたことによるのだと思います。 また、曲の間奏の長さも考慮されていません。なので、あくまで「目安」にしかならないのですが、 個人的にはそれなりに説得力のあるデータが取れたと思います。という訳で、ヒトカラ、行ってきます。