Past Meetup

Data Pre-Processing Study Group (データ前処理研究会)

This Meetup is past

8 people went

Team AI Base (New Shibuya Mansion 202)

36-17 Udagawa-cho, Shibuya-ku · Tokyo

How to find us

1min from Tokyu Hands Shibuya or Call Daisuke TEL 08063062223

Location image of event venue

Details

(日本語下記) Hi! I am Dai from Team AI. In our actual business, pre-processing data is pretty important .

But the approaches of data pre-processing are not well organized as resource.

Especially for beginners, it is hard to choose right way of pre-processing.

In this study group, we will discuss which way is the best for each use case.

We will start your problem and solve it by the power of community.

Then we will make a useful blog post as information resources.

Our goal is to solve data scientist’s problem by organizing the technical information.

Data Cleaning — This is the first step which is implemented in Data Preprocessing. In this step, the main focus is on handling missing data, noisy data, detection, and removal of outliers, minimizing duplication and computed biases within the data.

Data Integration — This process is used when data is gathered from various data sources and data is combined together to form consistent data. This consistent data after performing data cleaning is used for analysis.

Data Transformation — This step is used to convert the raw data into a specified format according to the need of the model. The options used for transformation of data are given below:

Normalization — In this method, numerical data is converted into specified range i.e. between 0 and 1 so that scaling of data can be performed.

Aggregation — The concept can be derived from the word itself, this method is used to combine the features into one. For example combining two categories can be used to form a new category.

Generalization — In this case, lower level attributes are converted into a higher level.

Data Reduction — After the transformation and scaling of data duplication i.e. redundancy within the data is removed and organize the data in an efficient manner.

Sounds interesting? Please just come to our "Team AI Base" in Shibuya and work together. Are you a beginner? Don't worry. We will take care of you.

Let's have a fun together in building a good AI.

==============================================

こんにちは! Team AI代表 石井大輔です。

弊社でもAIを構築していますが、データの前処理は地味ながら、分析の精度を左右するとても大事な領域ですよね?でも、体系だって手法をまとめてあるサイトや書籍は非常に少ないです。 我々はこの問題をコミュニティの集合知で解決しようとしています。

もくもく会・ディスカッション形式で前処理に関する研究会を進めていき、 体系的な部分はどんどんQiita等の記事としてアウトプットすることで、 実際のデータ分析フィールドで活躍されようとしている方々の支援をしようと思っております。

代表的手法:

*データクリーニング - これはデータ前処理で実装される最初のステップです。このステップでは、主な焦点は、欠落データ、ノイズの多いデータ、検出、および外れ値の除去、データ内の重複および計算バイアスの最小化の処理です。

*データ統合 - このプロセスは、さまざまなデータソースからデータを収集し、データを結合して一貫性のあるデータを形成する場合に使用されます。データクリーニングを実行した後のこの一貫したデータは、分析に使用されます。

*データ変換 - このステップは、モデルの必要に応じて生データを指定されたフォーマットに変換するために使用されます。データの変換に使用されるオプションは次のとおりです。

*正規化 - この方法では、データのスケーリングを実行できるように数値データを指定された範囲、つまり0と1の間に変換します。

*集約 - コンセプトは単語そのものから派生することができます。この方法は、フィーチャを1つにまとめるために使用されます。例えば、2つのカテゴリーを組み合わせて新しいカテゴリーを形成することができる。

*一般化 - この場合、下位レベルの属性は上位レベルに変換されます。

*データ削減 - データ複製の変換とスケーリング、すなわちデータ内の冗長性が除去され、データを効率的に整理した後。

この勉強会は外国人・日本人交え、技術情報を交換する刺激ある場にしたいと思っております。

オープンデータ、API、ライブラリ、ツール、論文、コンペ等、どんどん情報交換して、業界を一緒に発展させましょう!

“勉強会を開いて、学習者同士情報交換する"

手法を取っていますので、カジュアルにお越しください。

===========================================

Team AIでは日々AIの開発業務・AI業界の人材紹介業務を行っていますが、

この度AI研究会を主催することになりました。

社会人も学生も、みんなで集まってAIを自習しましょう!

教材を持ち込んでもくもく勉強してもいいし、

皆と話して情報交換していただいてもいいです。

==========================================

Data Pre-Processing in English

Lecture 15 - Importance of Data Preprocessing

https://www.coursera.org/learn/data-genes-medicine/lecture/0Qo23/importance-of-data-preprocessing

Big data preprocessing: methods and prospects

https://bdataanalytics.biomedcentral.com/articles/10.1186/s41044-016-0014-0

Scikit-Learn Preprocessing data

¶ (http://scikit-learn.org/stable/modules/preprocessing.html#preprocessing-data)

http://scikit-learn.org/stable/modules/preprocessing.html

Data Preprocessing and Data Wrangling in Machine Learning and Deep Learning

https://hackernoon.com/data-preprocessing-and-data-wrangling-in-machine-learning-and-deep-learning-2122bc8daea9

==========================================

データ前処理に関するブログ記事

「前処理」のフォーマット共通化やOSS化はできないんだろうか (http://tjo.hatenablog.com/entry/2013/12/17/201529)

http://tjo.hatenablog.com/entry/2013/12/17/201529

WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”

https://www.slideshare.net/hajimesasaki1/wi2-55598897

Pythonで機械学習はじめました データ前処理編

https://qiita.com/yuuki_1204_/items/c26cb09fba8aad35dc0a

自然言語処理における前処理の種類とその威力

https://qiita.com/Hironsan/items/2466fe0f344115aff177

長岡技術科学大学 自然言語処理チーム

https://www.youtube.com/watch?v=I02cX-uZtzM

==========================================

Target:

Business Person, Engineer and AI Researcher

- Those who want to study AI and latest tech

- Those who want to know how AI will change the world

- Please bring your PC, research paper and books.

==========================================

Fee:

Free

==========================================

Contact:

Please contact

[masked]

or[masked]

質問がある方や、迷子になったという方は、

[masked]

にご連絡ください。

==========================================

場所について:
[masked] 東京都渋谷区宇田川町 36-17, ニューシブヤマンション 202号室

JR渋谷駅徒歩5分、東急ハンズ渋谷店から30秒

フレッシュネスバーガーとサイゼリヤの間の道を進むと左手に見える白いマンションです

道順写真はこちら (https://docs.google.com/document/d/1omSZ3fIFX2fGhaki_uRb28FAkvaxsZeEcjbe0K1cRV0/edit)から

TEL:[masked]

36-17 New Shibuya Mansion 202, Udagawa-cho Shibuya-ku Tokyo JAPAN zip[masked]

==========================================

主催情報 :

100万人の機械学習コミュニティを東京に創る Team AI

http://www.team-ai.com/

AI・機械学習に特化した人材エージェントTeam AI Career

http://career.team-ai.com/ai-agent

https://www.youtube.com/watch?v=cqv83CIR6k4&feature=youtu.be

代表 : 石井 大輔

経歴;

https://www.ishiid.com

http://www.jenio.co/

株式会社ジェニオ代表取締役 1975年岡山県生まれ。

京都大学で数学を専攻。伊藤忠商事でファッションの知的財産を使用した事業開発を担当。 ロンドン、ミラノでの駐在を経て、2011年ジェニオを創業。 ファッション通販BUYMAの海外事業開発を受注。 2015年、シリコンバレーの起業家育成組織OneTractionの指導のもと米国で事業推進。 2016年、人工知能開発案件に特化したクラウドソーシングサービスTeam AIを立ち上げる。
翔泳社より"機械学習エンジニアになりたい人への本"発売しました!
https://amzn.to/2MSWSqV

==========================================