데이터 수집
1) TTA
- 기사 데이터들을 유료로 살 수 있음
2) TF-IDF
- 주요 단어 선정 방법
- 전체 통계와 원하는 부분 통계의 문서들에서만 많이 나오면 더 신뢰도 있는 데이터로 판단
2, 분석 프로세스
- 기사 수집 => 일반용어 제거 => 명사구 추출 => 단어별 TF-IDF 분석
1) 문서 분석
- 데이터가 정형화되어 있지 않기 때문에 부분일치 전체 일치를 나누어 데이터의 유사도를 만들어준다.
2) 동의어 사전
- 분석하고자 하는 문서셋 => 각 문서에 대한 문자에 대해 대응
- ex) 비트 코인 => 비트 코인, 비트코인, bit coin, bitcoin 형태로 저장하고 유사도를 분석
실폐 사례
1. 데이터 수집
- 데이터를 구매비용이 비싸서 못함
- 미국 특허 데이터는 무료로 사용할 수 있어서 해당 데이터를 사용
- 하지만 미래에 대한 데이터는 아니라서 사용하기에 용의하지 않음
1) 연구 목표
- 4차 산업에 맞는 스마트 공항
2) uspto
- 미국 특허 정보
IPC 매핑
- International Patent Classification
- 옛날 분류 번호를 사용하기 때문에 특정 데이터를 뽑기 어렵다
3) AirPort
- 국내 항공사전에 대한 데이터를 이용
- 이것 역시 의미 있는 데이터는 아니지만 공신력있는 사이트이기 때문에 명분이 성립되어 사용함
4) Bulkdata
- bulkdata.uspto.gov
- 특허 데이터 다운로드
2. 분석 방법
3. 자연어 분석
- 의미 있는 명사 구분
4. 데이터 분석
- 4특허 필터링 -> 일반용어 제거 => 명사구 추출 => 단어별 TF-IDF 산출
5. 특허의 유용성
- 기업과 특허 추이를 통해 미래 기술을 예측할 수 있음
- 이전에 하던 특허가 새로 등록되지 않고 새로운 사업영역에 대한 특허가 늘어난다면 의미가 있는 데이터임
1) TOD
- https://tod.kisti.re.kr/index.do
- 특정 키워드에 대한 등록된 특허 갯수나 국내기업 점유율등의 데이터를 볼 수 있는 사이트
TOD 프로젝트
1. 데이터를 처리하기 위한 게산 복잡도가 중요
1) 용어 수집
- US Patent 수집
- US Trademark DB 수집
- 특허 대입하여 상품명을 추출
2). 패턴 생성
- 특허만의 반복되는 언어를 통해 상호관계를 구함
- ~의 구성인 ~중 하나인 등등
- 후보패턴을 제시하는 방법으로 노가다 형식
3) 객체 추출 및 관계 추출
4) 개체 추출 단계
-신조어 인식 => 관계 추출 => 오인식 필터링
- 자동전거 기술개발
- 개체 군집화 => 전거 => 전거결과
5) 개체간 분류 체계 구축
- 추출 결과 DB => 관계 기반 분류기준 => 분류체계 Tree생성
2. 전문가 시스템
- 전문가가 기준을 주고 다시 돌리고 또 기준을 주고 돌리고를 계속해서 반복
3. 데이터 베이스 구조
- 키워드 => 어느 특허에서 발생하였는지
- 그 특허들의 키워드가 또 있고 => 키워드 색인 => 해당 키워드가 어떤 제품을 가르키는지
- 이러한 것들이 복잡도가 제곱이 되어가면서 처리량이 늘어남
4. Gold Standard
- 패턴을 생성하는 과정
1) 학습데이터 내의 패턴을 분석
2) 패턴에서 새로운 데이터를 뽑음
3) 개체 관계
- 분류 관계, 부품 관계, 경쟁 관계, 대체 관계, 활용 관계, 동격 관계
정리
1. 자연어를 뽑아서 제품간의 관계나 제품 명을 뽑는 것에서 어떤 방법을 쓸까?
- 각 관계를 정의하고 데이터를 뽑아야 함
2. 원천 데이터 잘 만들고 유사 데이터 뽑고 그 사이 관계를 이용해서 데이터를 추출한다
3., 유사도
4. 데이터 연관
- 제품 명 => 키워드 => 새로운 키워드 => 키워드 삽입(중복 제거)
1) 유튜브 추천
- 유저 => 기본 성향 =>나이, 성별, 주요 노선 영상, 카테고리
다른 유저 => 동시 발생 메트릭스
=> 두 데이터를 합해서 유사도를 측정하고 새로운 영상을 추천해 줌
랜섬웨어 탐지 기술
1. 정의
- 몸값과 소프트웨어의 조합어
1) SSD
- 지연 삭제 기술
- 가비지 컬렉션을 지우기 전까지 데이터가 완전히 삭제되지 않음
2) 원리
- 탐지되는 속도를 보완하기 위해 지연 삭제 기술을 이용하여 가비지 컬렉션을 탐지하기 전까지 딜레이 시킴
- 입출력이 많다(이것만으론 부족함 다른 프로그램에서 쓸 수도 있기 때문에)
- 랜섬웨어는 덮어쓰기를 많이 하는 경우에 발생 함
'데이터 분석가 역량' 카테고리의 다른 글
day 10 ] 형태소 분석 심화 (0) | 2019.05.14 |
---|---|
day 10 ] 형태소 분석 개론 (0) | 2019.05.14 |
day 7 ] selenium (0) | 2019.05.09 |
day 6 ] parsing 익히기 (0) | 2019.05.08 |
day 4] BeautifulSoup (0) | 2019.05.03 |