Data Pre-Processing Study Group (データ前処理研究会)

Details
(日本語下記) Hi! I am Dai from Team AI. In our actual business, pre-processing data is pretty important .
But the approaches of data pre-processing are not well organized as resource.
Especially for beginners, it is hard to choose right way of pre-processing.
In this study group, we will discuss which way is the best for each use case.
We will start your problem and solve it by the power of community.
Then we will make a useful blog post as information resources.
Our goal is to solve data scientist’s problem by organizing the technical information.
Data Cleaning — This is the first step which is implemented in Data Preprocessing. In this step, the main focus is on handling missing data, noisy data, detection, and removal of outliers, minimizing duplication and computed biases within the data.
Data Integration — This process is used when data is gathered from various data sources and data is combined together to form consistent data. This consistent data after performing data cleaning is used for analysis.
Data Transformation — This step is used to convert the raw data into a specified format according to the need of the model. The options used for transformation of data are given below:
Normalization — In this method, numerical data is converted into specified range i.e. between 0 and 1 so that scaling of data can be performed.
Aggregation — The concept can be derived from the word itself, this method is used to combine the features into one. For example combining two categories can be used to form a new category.
Generalization — In this case, lower level attributes are converted into a higher level.
Data Reduction — After the transformation and scaling of data duplication i.e. redundancy within the data is removed and organize the data in an efficient manner.
Sounds interesting? Please just come to our "Team AI Base" in Shibuya and work together. Are you a beginner? Don't worry. We will take care of you.
Let's have a fun together in building a good AI.
===============================================================
こんにちは! Team AI代表 石井大輔です。
弊社でもAIを構築していますが、データの前処理は地味ながら、分析の精度を左右するとても大事な領域ですよね?でも、体系だって手法をまとめてあるサイトや書籍は非常に少ないです。 我々はこの問題をコミュニティの集合知で解決しようとしています。
もくもく会・ディスカッション形式で前処理に関する研究会を進めていき、 体系的な部分はどんどんQiita等の記事としてアウトプットすることで、 実際のデータ分析フィールドで活躍されようとしている方々の支援をしようと思っております。
代表的手法:
*データクリーニング - これはデータ前処理で実装される最初のステップです。このステップでは、主な焦点は、欠落データ、ノイズの多いデータ、検出、および外れ値の除去、データ内の重複および計算バイアスの最小化の処理です。
*データ統合 - このプロセスは、さまざまなデータソースからデータを収集し、データを結合して一貫性のあるデータを形成する場合に使用されます。データクリーニングを実行した後のこの一貫したデータは、分析に使用されます。
*データ変換 - このステップは、モデルの必要に応じて生データを指定されたフォーマットに変換するために使用されます。データの変換に使用されるオプションは次のとおりです。
*正規化 - この方法では、データのスケーリングを実行できるように数値データを指定された範囲、つまり0と1の間に変換します。
*集約 - コンセプトは単語そのものから派生することができます。この方法は、フィーチャを1つにまとめるために使用されます。例えば、2つのカテゴリーを組み合わせて新しいカテゴリーを形成することができる。
*一般化 - この場合、下位レベルの属性は上位レベルに変換されます。
*データ削減 - データ複製の変換とスケーリング、すなわちデータ内の冗長性が除去され、データを効率的に整理した後。
この勉強会は外国人・日本人交え、技術情報を交換する刺激ある場にしたいと思っております。
オープンデータ、API、ライブラリ、ツール、論文、コンペ等、どんどん情報交換して、業界を一緒に発展させましょう!
“勉強会を開いて、学習者同士情報交換する"
手法を取っていますので、カジュアルにお越しください。
===========================================================
Team AIでは日々AIの開発業務・AI業界の人材紹介業務を行っていますが、
この度AI研究会を主催することになりました。
社会人も学生も、みんなで集まってAIを自習しましょう!
教材を持ち込んでもくもく勉強してもいいし、
皆と話して情報交換していただいてもいいです。
==========================================================
Data Pre-Processing in English
Lecture 15 - Importance of Data Preprocessing
https://www.coursera.org/learn/data-genes-medicine/lecture/0Qo23/importance-of-data-preprocessing
Big data preprocessing: methods and prospects
https://bdataanalytics.biomedcentral.com/articles/10.1186/s41044-016-0014-0
Scikit-Learn Preprocessing data
¶ (http://scikit-learn.org/stable/modules/preprocessing.html#preprocessing-data)
http://scikit-learn.org/stable/modules/preprocessing.html
Data Preprocessing and Data Wrangling in Machine Learning and Deep Learning
==========================================================
データ前処理に関するブログ記事
「前処理」のフォーマット共通化やOSS化はできないんだろうか (http://tjo.hatenablog.com/entry/2013/12/17/201529)
http://tjo.hatenablog.com/entry/2013/12/17/201529
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
https://www.slideshare.net/hajimesasaki1/wi2-55598897
Pythonで機械学習はじめました データ前処理編
https://qiita.com/yuuki_1204_/items/c26cb09fba8aad35dc0a
自然言語処理における前処理の種類とその威力
https://qiita.com/Hironsan/items/2466fe0f344115aff177
長岡技術科学大学 自然言語処理チーム
https://www.youtube.com/watch?v=I02cX-uZtzM
==========================================================
Target:
Business Person, Engineer and AI Researcher
-
Those who want to study AI and latest tech
-
Those who want to know how AI will change the world
-
Please bring your PC, research paper and books.
==========================================================Fee:
Free
==========================================================Contact:
Please contact
or 08063062223
質問がある方や、迷子になったという方は、
にご連絡ください。
==========================================================
場所について:
150-0042 東京都渋谷区宇田川町 36-17, ニューシブヤマンション 202号室
JR渋谷駅徒歩5分、東急ハンズ渋谷店から30秒
フレッシュネスバーガーとサイゼリヤの間の道を進むと左手に見える白いマンションです
道順写真はこちら (
https://docs.google.com/document/d/1omSZ3fIFX2fGhaki_uRb28FAkvaxsZeEcjbe0K1cRV0/edit
)から
TEL: 080-6306-2223
36-17 New Shibuya Mansion 202, Udagawa-cho Shibuya-ku Tokyo JAPAN zip150-0042
==========================================================
主催 : 100万人の機械学習コミュニティを東京に創る Team AI
機械学習に特化した勉強会・人材紹介・受託開発の会社です。
代表 : 石井 大輔 経歴;
株式会社ジェニオ代表取締役 1975年岡山県生まれ。
京都大学卒業後、1998年伊藤忠商事に入社し繊維カンパニーでPaulSmith等を担当。
ロンドン、ミラノでの駐在を経て、2011年ジェニオを創業。
ファッション通販BUYMAの海外事業開発を受注。
2015年、シリコンバレーの起業家育成組織OneTractionの指導のもと米国で事業推進。
2016年、人工知能開発案件に特化したクラウドソーシングサービスTeam AIを立ち上げる。
==========================================================


Data Pre-Processing Study Group (データ前処理研究会)