반응형
안녕하세요. @anpigon입니다. 최근에 @codingart님의 OpenCV를 이용한 얼굴 인식 시리즈를 읽고나서 얼굴 인식에 관심이 생겼습니다. OpenCV로 얼굴인식 구현하는게 어려워서 인터넷을 찾아봤는데, 네이버에서 얼굴 인식 API를 제공하는 것을 알게 되었습니다. 네이버 Clova Face Recognition API를 이용해서 얼굴인식 하는 것을 간단하게 만들어 보겠습니다. 우선 네이버에서 "오픈 API 이용 신청"을 하여 키를 발급받았습니다. 처리한도가 하루에 1,000건 이네요. 이 정도면 테스트하는데 문제 없을 것 같습니다. 아래는 네이버에서 제공하는 파이썬 구현 예제 소스입니다. 그냥 복사&붙여넣기 했습니다. import os import sys import requests clien..
안녕하세요. @anpigon입니다. @nhj12311님의 "Node & Steem #11 - 글 아카이브 ... 포스팅 분류하기" 게시글을 보고 저도 비슷하게 구현해보았습니다. 시리즈 글을 찾아주는 기능은 @nhj12311님이 완벽하게 구현하였더군요. 그래서 저는 @nhj12311님과 다르게 시리즈 글이 아닌 유사도가 높은 게시글을 찾아내는데 초점을 맞추었습니다. 구현에는 이전에 작성한 "유사한 게시물 찾기"과 조대협님의 "NMF 알고리즘을 이용한 유사한 문서 검색과 구현"를 참고하였습니다. 그리고 구현 과정과 결과물을 아래에 간략하게 정리하였습니다 스팀잇 게시글 가져오기 steem api를 이용하여 내가 작성한 게시글(posts)을 모두 가져온다. 그리고 가져온 Post에서 분석에 필요한 데이터(tit..
안녕하세요. @anpigon 입니다. 이번에는 유사한 게시물을 찾아내는 방법을 공부하였습니다. 게시물을 벡터로 계산하고, 벡터 간의 거리를 구하는 방법으로 유사도를 분석합니다. 이 기술을 이용하면 인터레스팀 서비스처럼 관련 글을 찾아낼 수도 있습니다. 저는 이 기술을 사용해서 불펌러(어뷰징 계정)들을 찾아내고 싶네요. 이번 예제는 "Building Machine Learning Systems with Python - Second Edition" 서적을 참고하였습니다. 이 책의 54 페이지에 있는 내용입니다. scikit-learn scikit-learn는 데이터 마이닝 및 데이터 분석을 위한 파이썬 라이브러리이다. NumPy, SciPy 및 matplotlib를 기반으로 제작되었다. 그리고 상업적으로 사..
안녕하세요. @anpigon 입니다. 이번에는 간단한 텍스트 감정 분류기를 만들어 보겠습니다. 참고로 구글 검색하면 파이썬 머신러닝 관련 자료가 넘치도록 많습니다. 구글에서 마음에 드는 예제를 하나 가져왔습니다. 아래 예제는 https://stevenloria.com/simple-text-classification/를 참고 했습니다. TextBlob 라이브러리 설치 Textblob는 텍스트 정보를 처리하는 파이썬 라이브러리다. 품사 태깅, 명사구 추출, 감정 분석 및 분류, 번역 등과 같은 일반적인 자연 언어 처리(Natural Language Processing, NLP)를 위한 간단한 API를 제공한다. 설치하기 $ pip install -U textblob nltk TextBlob 라이브러리가 제공..
안녕하세요. @anpigon 입니다. 이전에 "파이썬 형태소 분석"이란 제목으로 시리즈를 시작했는데, 시리즈 제목을 머신러닝으로 변경했습니다. 형태소 분석은 스팀잇에 작성한 글로 "단어구름"를 만들어보고 싶어서 시작했습니다. 하지만, 형태소 분석만 하고 끝내기엔 아쉬워 머신러닝을 공부해서 재미난 걸 만들어 보려고 합니다. 이번에는 머신러닝을 사용하여 스팀잇 아이디의 성별을 예측해보겠습니다. 참고로, 단어구름 만들기 포스팅에 댓글을 남기시면 여러분이 스팀잇에 작성한 글을 분석하여 단어구름를 만들어 드립니다. 현재 봇이 돌고 있습니다. 하지만, 노트북에서 봇을 돌리고 있어서 분석 시간은 조금 걸립니다. 나이브 베이즈 분류 나이브 베이즈 분류(Naïve Bayes Classification)는 텍스트 분류에 ..
안녕하세요. @anpigon 입니다. 이전 글에 이어서 이번에는 스팀잇에 작성한 글에서 단어를 추출하여 단어구름을 만들어 보겠습니다. 이전글 파이썬으로 스팀잇 형태소 분석하기 #1 워드클라우드 모듈 설치 워드클라우드(wordcloud) 모듈을 설치한다. pip install wordcloud 워드클라우드 깃허브에서 사용방법 또는 예제 소스를 참고할 수 있다. https://github.com/amueller/word_cloud 스팀잇에 작성한 글 가져오기 스팀잇에서 내가 작성한 글을 가져온다. 작성한 글을 모두 가져오려면 오래 걸리니 우선 1건만 가져와서 테스트해본다. from steem import Steem from steem.blog import Blog username = 'anpigon' # 사..