데이터 수집

1) TTA 

- 기사 데이터들을 유료로 살 수 있음

 

2) TF-IDF

- 주요 단어 선정 방법

- 전체 통계와 원하는 부분 통계의 문서들에서만 많이 나오면 더 신뢰도 있는 데이터로 판단

 

2, 분석 프로세스

- 기사 수집 => 일반용어 제거 => 명사구 추출 => 단어별 TF-IDF 분석

 

1) 문서 분석

- 데이터가 정형화되어 있지 않기 때문에 부분일치 전체 일치를 나누어 데이터의 유사도를 만들어준다.

 

2) 동의어 사전

- 분석하고자 하는 문서셋 => 각 문서에 대한 문자에 대해 대응

- ex) 비트 코인 => 비트 코인, 비트코인, bit coin, bitcoin 형태로 저장하고 유사도를 분석

 

 

실폐 사례

1. 데이터 수집

- 데이터를 구매비용이 비싸서 못함

- 미국 특허 데이터는 무료로 사용할 수 있어서 해당 데이터를 사용

- 하지만 미래에 대한 데이터는 아니라서 사용하기에 용의하지 않음

1) 연구 목표

- 4차 산업에 맞는 스마트 공항

 

2) uspto

- 미국 특허 정보

 IPC 매핑

- International Patent Classification

- 옛날 분류 번호를 사용하기 때문에 특정 데이터를 뽑기 어렵다

 

3) AirPort

- 국내 항공사전에 대한 데이터를 이용

- 이것 역시 의미 있는 데이터는 아니지만 공신력있는 사이트이기 때문에 명분이 성립되어 사용함

 

4)  Bulkdata

- bulkdata.uspto.gov

- 특허 데이터 다운로드

 

2. 분석 방법

 

3. 자연어 분석

- 의미 있는 명사 구분

 

4. 데이터 분석

- 4특허 필터링 -> 일반용어 제거 => 명사구 추출 => 단어별 TF-IDF 산출

 

5. 특허의 유용성

- 기업과 특허 추이를 통해 미래 기술을 예측할 수 있음

- 이전에 하던 특허가 새로 등록되지 않고 새로운 사업영역에 대한 특허가 늘어난다면 의미가 있는 데이터임

 

1) TOD

- https://tod.kisti.re.kr/index.do

- 특정 키워드에 대한 등록된 특허 갯수나 국내기업 점유율등의 데이터를 볼 수 있는 사이트

 

 

 

TOD 프로젝트

1. 데이터를 처리하기 위한 게산 복잡도가 중요

 

1) 용어 수집

- US Patent 수집

- US Trademark DB 수집

- 특허 대입하여 상품명을 추출

 

2). 패턴 생성

- 특허만의 반복되는 언어를 통해 상호관계를 구함

- ~의 구성인 ~중 하나인 등등

- 후보패턴을 제시하는 방법으로 노가다 형식

 

3) 객체 추출 및 관계 추출

 

4) 개체 추출 단계

-신조어 인식 => 관계 추출 => 오인식 필터링

- 자동전거 기술개발

- 개체 군집화 => 전거 => 전거결과

 

5) 개체간 분류 체계 구축

- 추출 결과 DB => 관계 기반 분류기준 => 분류체계 Tree생성

 

 

 

2. 전문가 시스템

- 전문가가 기준을 주고 다시 돌리고 또 기준을 주고 돌리고를 계속해서 반복

 

3. 데이터 베이스 구조

- 키워드 => 어느 특허에서 발생하였는지

- 그 특허들의 키워드가 또 있고 => 키워드 색인 => 해당 키워드가 어떤 제품을 가르키는지

- 이러한 것들이 복잡도가 제곱이 되어가면서 처리량이 늘어남

 

4. Gold Standard

- 패턴을 생성하는 과정

 

1) 학습데이터 내의 패턴을 분석

 

2) 패턴에서 새로운 데이터를 뽑음

 

3) 개체 관계

- 분류 관계, 부품 관계, 경쟁 관계, 대체 관계, 활용 관계, 동격 관계

 

 

 

 

정리

1. 자연어를 뽑아서 제품간의 관계나 제품 명을 뽑는 것에서 어떤 방법을 쓸까?

- 각 관계를 정의하고 데이터를 뽑아야 함

 

2.  원천 데이터 잘 만들고 유사 데이터 뽑고 그  사이 관계를 이용해서 데이터를 추출한다

 

3., 유사도

 

 

4. 데이터 연관

- 제품 명 => 키워드 => 새로운 키워드 => 키워드 삽입(중복 제거)

 

1) 유튜브 추천

- 유저 => 기본 성향 =>나이, 성별, 주요 노선 영상, 카테고리

  다른 유저 => 동시 발생 메트릭스 

=> 두 데이터를 합해서 유사도를 측정하고 새로운 영상을 추천해 줌

 

 

 

 

 

랜섬웨어 탐지 기술

1. 정의

- 몸값과 소프트웨어의 조합어

 

1) SSD

- 지연 삭제 기술

- 가비지 컬렉션을 지우기 전까지 데이터가 완전히 삭제되지 않음

 

2) 원리

- 탐지되는 속도를 보완하기 위해 지연 삭제 기술을 이용하여 가비지 컬렉션을 탐지하기 전까지 딜레이 시킴

- 입출력이 많다(이것만으론 부족함 다른 프로그램에서 쓸 수도 있기 때문에)

- 랜섬웨어는 덮어쓰기를 많이 하는 경우에 발생 함

 

 

'데이터 분석가 역량' 카테고리의 다른 글

day 10 ] 형태소 분석 심화  (0) 2019.05.14
day 10 ] 형태소 분석 개론  (0) 2019.05.14
day 7 ] selenium  (0) 2019.05.09
day 6 ] parsing 익히기  (0) 2019.05.08
day 4] BeautifulSoup  (0) 2019.05.03

+ Recent posts