IT・WEB・ゲーム業界の転職に強いR-Stone

転職コラム

データサイエンティストとは?業務内容や必要なスキルセットを解説

AI(人工知能)やビッグデータ、機械学習など、データサイエンスに関する言葉を多く見聞きするようになり、それらを扱うデータサイエンティストについても注目が集まってきています。そこでこの記事では、データサイエンティストの業務内容やスキルセット、関連する資格などをまとめています。ぜひともご覧ください。

  1. データサイエンティストとは

データサイエンティストとは、データを収集・分析・解析し、企業のビジネスや研究などに役立つ情報を見つけ出し、課題解決や意思決定の補助あるいはそれらをおこなう職業です。

 

また、データサイエンティストに必要となるスキル・知識を定義し、人材の育成や業界の発展、啓蒙活動をおこなっている一般社団法人データサイエンティスト協会では、『データサイエンス力、 データエンジニアリング力をベースにデータから価値を創出し、ビジネス課題に答えを出すプロフェッショナル』のことをデータサイエンティストとして定義付けています。

 

※参考:2021年度スキル定義委員会活動報告 2021年度版スキルチェック&タスクリスト公開

 

  1. データサイエンティストの業務内容

データサイエンティストがおこなう業務を3つお伝えします。

 

  1. 課題抽出や意思決定支援

課題抽出とは、目標達成のために必要な課題を洗い出すことをいいます。例えば、物流サービス事業者が配送コストを削減したいと考えている場合、配車台数や配送ルート、積載量、積載物のグループ分け、運転の仕方などのデータを調べ、課題となりうる問題を特定する、といった業務を挙げることができます。

 

加えて、データサイエンティストは分析したデータの結果から、会社経営や事業の目的達成のために必要な意思決定をサポートします。そのため、クライアント企業の常識や業務特性などを詳細に聞きだすインタビュー力、仮説を立てて改善案を導き出す論理的思考力やビジネス力が必要です。上記の物流サービス事業者の場合、抽出した課題の解決のために、配車計画の自動化や運転方法のカウンセリングなどの提案が考えられます。

 

  1. データ分析手法の選定と実行

データサイエンティストの業務では、問題解決に関わる課題・仮説の設定、利用するデータの選定・収集・調整という段階を経たあとにデータ分析手法の選定に入ります。利用できるデータを導き出せていても、有益な分析結果を得られない不適切な手法を選んでしまっては価値がありません。

 

例えばデータ分析を始めたばかりの場合、重回帰分析とロジスティック回帰分析の使い分けがわからないかもしれません。重回帰分析は物事の要因となる数値(説明変数)が2つ以上あり、結果となる数値(目的変数)を求めるもので、結果は数値(量的なもの)になります。(気温と天気から売上の変動を予測・説明することなど)

 

ロジスティック回帰分析も重回帰分析と同じようにデータの傾向を式で表すことに違いはありません。しかし、ロジスティック回帰分析で求めるものは数値ではなくYESかNO、○か×かといった質的なものになります。(合格か不合格か、買うか買わないか、など)

 

これらはともに説明変数が2つ以上あり、目的変数を求めることに変わりはありません。しかしながら、使い所が不適切だった場合、データ分析をしても当てはまりのよい結果を得ることができなくなってしまいます。そのためデータサイエンティストは、データ分析をしたい事象に対する、適切な手法を選定する知識やスキルも必要になります。

 

  1. 機械学習モデルの開発

機械学習と機械学習モデルについて説明します。

 

  1. 機械学習とは

機械学習(ML|Machine Learning)とは、人間や動物が物事を覚えていくように、コンピューターにデータ分析のルールやパターンを反復学習させ、自動的に分類や予測をさせる技術のことです。人間ではすることのできない膨大なデータの処理や正確な予測、人間がおこなう作業の削減などが機械学習を利用するメリットになります。具体的には、金融市場の値動きの分析、癌の写真診断、ECサイトのレコメンド機能などに機械学習が使われています。

 

また、コンピューターにデータ分析を学習させる手法は以下の4つとなっています。

 

①教師あり学習……人間が正解データを教えコンピューターに学習をさせる手法

②教師なし学習……正解データを与えずに、類似点や相違点をコンピュター自身に学習させる手法

③半教師あり学習……教師あり学習と教師なし学習を組み合わせた手法

④強化学習……特定の目的を達成させる最適な方法をコンピューター自身に学習させる手法

 

機械学習で最も用いられている手法は①の教師あり学習となっており、イヌかネコかといった画像認識や迷惑メールの判定、人員配置予測などで利用されています。また、機械学習とはAI(人工知能)に内包されるもののひとつで、機械学習で有名なディープラーニング(深層学習)は機械学習の手法のひとつです。そのため【AI>機械学習>ディープラーニング】という関係性となります。

  1. 機械学習モデルとは

機械学習モデルとは、入力されたデータを判断するところです。例えばイヌとネコの認証システムでは、『画像データを入力』→『モデルで判断』→『処理結果を出力』という流れになっています。データサイエンティストは機械学習の中心ともいえるモデルの開発をします。

 

モデルの開発では、教師あり学習などの手法を問わず、膨大なデータ量の学習(トレーニング)をさせることで分類や予測のデータ精度を上げていきます。また、機械学習には『Garbage In, Garbage Out』(ゴミを入れれば、ゴミが出てくる)という格言があり、学習させるデータに不良があれば質の悪いモデルができあがってしまいます。そのため、データサイエンティストはデータの前処理や特徴量(データのなかにある、予測の手がかりになる変数)の指定などを適切におこなう必要があります。

 
  1. データサイエンティストの年収相場

弊社R-Stoneのデータサイエンティストの平均年収は約765万円、年収幅は370万円〜2000万円となっています。最高推定年収2000万円の求人は、エグゼクティブマネージャーとしてAIプロジェクトのオーナー、経営視点を含む開発部チームのマネジメントが任される業務になっており、プロジェクト・マネジメント能力やリーダーシップが求められています。(2022年10月現在)

 

  1. データサイエンティストに必要な知識・スキル

データサイエンティストに必要な知識・スキルを、データサイエンティスト協会が定義する『ビジネス力』、『データサイエンス力』、『データエンジニアリング力』を中心にお伝えします。(本項は下記の資料を参考にしています)

 

※参考:2021年度スキル定義委員会活動報告 2021年度版スキルチェック&タスクリスト公開

     スキルチェックリスト ver4.00

 

  1. ビジネス力

データサイエンティスト協会によると、ビジネス力とは『課題背景を理解した上で、 ビジネス課題を整理し、 解決する力』と定義され、プロジェクトの企画・提案・遂行や課題の深掘り・構造化といったビジネス上の問題解決、ひいてはデータ分析によって利益をもたらす能力が必要となっています。

 

また、データサイエンティストは課題の抽出や意思決定支援をおこなうため、コンサルティング能力も不可欠です。加えて、データ分析について馴染みのないクライアント企業に対するヒアリングやプレゼンテーションなども適宜求められるため、ビジネスに関する総合的な知識やスキルを持っていなければなりません。

 

  1. データサイエンス力

データサイエンス力は『情報処理、人工知能、統計学などの情報科学系の知恵を理解し、使う力』と定義されており、スキルチェックリストの項目は数学や統計学、機械学習など、データ分析をおこなうための直接的な能力が求められます。データサイエンスの名前のとおり、情報を科学し、有益な知見を引き出す能力といえるでしょう。

 

  1. データエンジニアリング力

データエンジニアリング力は『データサイエンスを意味のある形に使えるようにし、実装、運用できるようにする力』と定義されており、スキルチェックリストではデータやデータベース、セキュリティなど、データ分析の実行とシステム開発に必要なエンジニアとしての能力を求めています。

 

また、データサイエンティストとして業務をおこなうためには、SQLやAPI、ライブラリ、コンテナ技術なども必要になってくるため、プログラミング能力以外に環境構築の知識やスキルもなくてはなりません。

 

  1. データサイエンティストに向いている人

データサイエンティストはデータのなかに隠れている情報を顕在化させ、見出したデータから課題改善までを提案しなければいけません。そのため、数学や統計学に興味があることはもちろん、未知の事象にも好奇心を持って取り組める人、論理的思考を持ち、なぜそうなるのか?を突き詰めて考えられる人が向いているでしょう。

 

  1. データサイエンティストになるには

ここまで説明してきたようなスキルセットや企業が求めている人材像などはありますが、データサイエンティストとしてのスキルを身につける明確なステップなどはありません。そのため、数学・統計学・プログラミング・機械学習など、データサイエンティストに必要なスキルを自身の計画に沿って段階的に身につけていきましょう。

 

また、厚生労働省が管轄している職業情報提供サイト(日本版O-NET)のjob tagでは、大学院などで統計学、数学、情報工学などを専攻した方、環境やバイオ分野などの理系出身者や文系出身者もデータサイエンティストとして就業しているようです。

 

この項では、これからデータサイエンティストを目指す学生や社会人の方に向けたデータサイエンティストになるための情報として、資格の取得、専門学校や講座からの学習、という観点から説明します。

 

※参考:データサイエンティスト – 職業詳細

 

  1. 資格を取る

データサイエンティストとして就業しようと考えている方は、関連する知識やスキルを網羅的・体系的に学習ができ、能力の証明ができる資格取得を目指すことをおすすめします。ここでは、現職のデータサイエンティストの方にもおすすめできる資格を6つお伝えします。

 

  • データサイエンス数学ストラテジスト

公益財団法人 日本数学検定協会が主催している2021年9月に新設された資格です。AIやデータサイエンス、機械学習、ビジネスなどに必要な数学技能が問われる内容になっています。試験は中級と上級があり、合格するとオープンバッジ(スキルの証明書をデジタルで発行するもの)が付与されます。

 

また、合格正答率は中級が60%(30点中18点)以上、上級が70%(40点中28点)となっており、合格点数によってオープンバッジ認定されるスターの数が変わるようになっています。(☆1のシングルスター認定から☆3のトリプルスター認定の3段階)

 

※参考:データサイエンス数学ストラテジスト | 公益財団法人 日本数学

 

  • データサイエンティスト検定リテラシーレベル(略称はDS検定★)

一般社団法人データサイエンティスト協会が主催している資格です。合格すればアシスタントデータサイエンティスト(見習いレベル)の知識を持っていることを証明できます。DS検定★についてはまとめている記事がありますので、ぜひともご確認ください。

 

関連記事:データサイエンティスト検定とは?概要や難易度について解説

 

  • 統計検定

一般財団法人 統計質保証推進協会が主催をしている、日本統計学会公式認定の資格です。統計検定は難易度に応じて4級から1級まであり、データサイエンティストとして実務に活かすためには2級あるいは準1級の資格取得をおすすめします。

 

※参照:統計検定:Japan Statistical Society Certificate

 

  • E資格・G検定

一般社団法人日本ディープラーニング協会が主催をしている資格です。E資格(エンンジニア資格)はAIや機械学習、ディープラーニングなどのシステムを実装できるスキルを証明することができ、データサイエンティストも利用することのあるPyTorchまたはTensorFlowの問題も出題されます。

 

G検定(ジェネラリスト検定)は幅広いビジネスパーソンを対象にした資格で、AIや機械学習、ディープラーニングの知識があることを証明する資格です。E資格・G検定ともに、合格時にオープンバッジが付与されるようになっています。

 

※参考:  E資格とは – 一般社団法人日本ディープラーニング協会【公式】

       G検定とは – 一般社団法人日本ディープラーニング協会【公式】

   

  • Python3エンジニア認定基礎試験・Python 3 エンジニア認定データ分析試験

一般社団法人Pythonエンジニア育成推進協会が主催をしている資格です。エンジニア認定基礎試験ではPythonの文法基礎が問われ、エンジニア認定データ分析試験ではPythonの基礎や数学、統計に加え、Jupyter NotebookやNumPy、scikit-learnなどの問題も出題されます。

 

※参考:Python試験・資格 – Pythonエンジニア育成推進協会

 

  • データベーススペシャリスト試験(DB)

IPA(独立行政法人 情報処理推進機構)が主催をしている国家資格です。データベーススペシャリスト試験では、データベースの企画から保守まで、一連の流れを実行するための能力が問われます。データサイエンティストのみならず、インフラ構築業務に関わるエンジニアにもおすすめの資格です。

 

※参考:制度の概要:データベーススペシャリスト試験

 

  1. 専門学校、講座で学ぶ

データサイエンティスト育成を目指したカリキュラムを組んでいる専門学校や講座は多岐に渡り、社会人を対象にした講座では厚生労働省が指定している『専門実践教育訓練給付金』という支給金が出るものもありますので、積極的に活用していきましょう。

 

また、データサイエンティストの勉強に関しては、総務省統計局が管轄し、無料で受講できる『社会人のためのデータサイエンス演習』、『《特別開講》社会人のためのデータサイエンス入門』というものもあります。独学以外で勉強しようとしている方は、専門学校や講座の内容に加えて、値段や方式などにも注意をしながら探すようにしましょう。

 

※参考:データサイエンス・オンライン講座 – 総務省統計局

 

  1. まとめ

データサイエンティストの業務内容に含まれる『数理・データサイエンス・AI』は、内閣府が策定した『AI戦略2019』という将来指針のなかでも重要視されています。また、企業側もビッグデータなどを活用したビジネス展開に力を入れている背景もあり、データサイエンティストは不足している状況が続いています。

 

これからデータサイエンティストになろうとしている方は、資格取得や講座などを活用し、転職ができるように動いていきましょう。また、弊社R-Stoneではデータサイエンティストの求人も数多くありますので、少しでも気になった方はご遠慮なくご連絡ください。

 

最新の求人情報のチェックはこちらから
求人情報一覧へ