우분투에서 pip로 numpy, scipy 그리고 matplotlib를 설치하는 여러 방법중 pip 를 통한 설치가 있다. apt-get 으로 저장소에서 직접 받아와서 설치해도 된다.


Ubuntu 12.04 LTS의 경우, 다음의 라이브러리들을 미리 설치해두어야 한다. 설치는 apt-get 을 이용.


1. Numpy

 - python-dev 


2. Scipy

 - gfortran (fortran compiler)

 - libatlas-base-dev (설치하면 blas 관련 패키지들도 같이 설치되는듯...) 

   --- http://stackoverflow.com/questions/8961340/blas-and-lapack-libraries-required-for-compiling


3. Matplotlib (이게 고난의 연속이었다.)

 - libfreetype6-dev

 - libpng

 - libjpeg8-dev

 - libpng-dev

   --- http://stackoverflow.com/questions/9829175/pip-install-matplotlib-error-with-virtualenv


특히 Matplotlib의 경우 에러 메세지만 보면 어떤 것이 필요한지 알기 힘든 경우가 많았다. freetype 에러인 경우엔 libfreetype6 관련 패키지를 설치해야 하고, png.h 부근의 에러는 libpng-dev 를 설치해야만 넘어간다.


numpy array가 있을 때 행 혹은 열을 잘라내는 방법




이 행렬의 변수 이름은 간단하게... mtx 라고 해두자.


1. 행 자르기

>>> mtx[0:2,:]


이 결과는, 



ㅎㅎㅎ 비슷한 방법으로 열도 자를 수 있다.


2. 열 자르기

>>> mtx[:,1:3]




'Study > Computer' 카테고리의 다른 글

Gephi에서 node에 여러 색 주기  (0) 2014.07.09
large data with numpy  (0) 2014.06.20
Python으로 n-gram 만들기  (0) 2014.05.22
Matplotlib 추천 Q&A 링크들  (0) 2014.05.21
위도, 경도 검색 프로그램  (0) 2014.05.09

세상에... Python으로 이렇게 간단힌 n-gram을 만들 수 있다니...!!


우선 zip 함수에 대해 알아보자. zip함수의 인자로 받은 리스트 등의 iterator들을 묶어주는 함수이다. 뭐 예를 들면...


>>> q = [1,2,3,4,5]

>>> w = [10, 20, 30, 40,50]

>>> r = [100, 200, 300, 400, 500]

>>> zip(q, w, r)

[(1, 10, 100), (2, 20, 200), (3, 30, 300), (4, 40, 400), (5, 50, 500), (6, 60, 600)]


이제 n-gram을 만들어보자. 위의 방법으로 만들기 떄문에 함수도 짧고 속도도 그만큼 빠르다.


>>> a = "I am a boy, you are a girl."

>>> b = a.split(" ")
['I', 'am', 'a', 'boy,', 'you', 'are', 'a', 'girl.']
>>> zip(b, b[1:])
[('I', 'am'), ('am', 'a'), ('a', 'boy,'), ('boy,', 'you'), ('you', 'are'), ('are', 'a'), ('a', 'girl.')]


b 리스트와 b 리스트 중 0번째 원소를 제외하고 1번째 원소부터 시작한 리스트를 zip으로 묶은 결과이다. 이렇게 bi-gram을 만들 수 있다. 


그럼 n-gram은...? 다음과 같이 만들면 된다고 한다. 


>>> zip( *[b[i:] for i in range(3)] )

>>> [('I', 'am', 'a'), ('am', 'a', 'boy,'), ('a', 'boy,', 'you'), ('boy,', 'you', 'are'), ('you', 'are', 'a'), ('are', 'a', 'girl.')]


원리는 간단하다. 

1. 리스트 내포(list comprehension) 문법으로 b[0:], b[1:], b[2:], ... 등의 리스트를 원소로 가지는 리스트를 하나 만든다. 

2. 만들어진 리스트의 원소들이 필요하기 때문에, 리스트 앞에 *을 붙여 리스트의 원소들이 함수의 argument로 들어가도록 해준다.

3. zip으로 묶어준다. 


새로 발견한건 아니고... 출처는 아래이다. Python 짱이네..

http://locallyoptimal.com/blog/2013/01/20/elegant-n-gram-generation-in-python/


'Study > Computer' 카테고리의 다른 글

large data with numpy  (0) 2014.06.20
numpy array 잘라쓰기  (0) 2014.06.17
Matplotlib 추천 Q&A 링크들  (0) 2014.05.21
위도, 경도 검색 프로그램  (0) 2014.05.09
Too many open files 에러가 로그에 남을 때  (0) 2014.04.07

매번 업데이트하고 있습니다. 


* Multiple Plot 그릴 때 (특히 legend를 같이 그리고 싶을 때)

http://stackoverflow.com/questions/5484922/secondary-axis-with-twinx-how-to-add-to-legend


* Bar chart에서 bar 마다 색을 다르게 주기

http://stackoverflow.com/questions/18973404/settting-different-bar-color-in-matplotlib-python


* Scatter Plot 에서 point 에 색을 주기 (colormap 도 같이 있음)

http://stackoverflow.com/questions/8202605/matplotlib-scatterplot-colour-as-a-function-of-a-third-variable

http://matplotlib.org/examples/pylab_examples/scatter_demo2.html


* Plot에서 error를 색으로 칠하기

http://stackoverflow.com/questions/12957582/matplotlib-plot-yerr-xerr-as-shaded-region-rather-than-error-bars


* Legend 사이즈 조절하기

http://stackoverflow.com/questions/20048352/how-to-adjust-the-size-of-matplotlib-legend-box


* 그래프 퀴퉁이에 text 넣기

http://stackoverflow.com/questions/8482588/putting-text-in-top-left-corner-of-matplotlib-plot


* Colorbar 뒤집어 그리기 (cm에 있는 colorbar)

http://stackoverflow.com/questions/3279560/invert-colormap-in-matplotlib 

(가장 많은 추천의 답이 정답...!)


* 그림 png로 저장할 때 크기 및 해상도 조절하기

http://stackoverflow.com/questions/332289/how-do-you-change-the-size-of-figures-drawn-with-matplotlib


* PolyCollection 사용하기 (Polygon을 그리고 색을 정해줄 수 있음)

http://matplotlib.org/examples/api/collections_demo.html


* Discrete color bar 만들기 (polygon 색칠할 때 색을 정해줄 경우, 이걸로 우회하여 해결... 어떻게 폴리곤마다 색을 지정해주는지는 아직 모르겠음..)

http://stackoverflow.com/questions/14777066/matplotlib-discrete-colorbar


* Discrete color bar 만들기2 -> 자신이 원하는 색으로 만드는 방법. 꽤 쉬움..

http://stackoverflow.com/questions/9707676/defining-a-discrete-colormap-for-imshow-in-matplotlib


* Axis 눈금을 동등하게 그리기

http://matplotlib.org/examples/pylab_examples/axis_equal_demo.html


* Imshow에서 square 로 plot 하기. 사실 aspect 를 조절하면 되는데, 이걸 계산해서 square로 만들어줘야 하니까... 좀 번거로움. 

http://stackoverflow.com/questions/7965743/python-matplotlib-setting-aspect-ratio



* 3D plot from data

http://stackoverflow.com/questions/4363857/matplotlib-color-in-3d-plotting-from-an-x-y-z-data-set-without-using-contour

http://stackoverflow.com/questions/12730436/matplotlib-plotting-non-uniform-data-in-3d-surface


*Scatter plot에서 point마다 label 주기

http://stackoverflow.com/questions/5147112/matplotlib-how-to-put-individual-tags-for-a-scatter-plot (Gorgeous!)

http://stackoverflow.com/questions/14432557/matplotlib-scatter-plot-with-different-text-at-each-data-point (Basic)

'Study > Computer' 카테고리의 다른 글

numpy array 잘라쓰기  (0) 2014.06.17
Python으로 n-gram 만들기  (0) 2014.05.22
위도, 경도 검색 프로그램  (0) 2014.05.09
Too many open files 에러가 로그에 남을 때  (0) 2014.04.07
py2exe로 pyQT4 코드 exe로 만들기  (0) 2014.03.13

키워드를 입력하면 주어진 키워드의 위도와 경도를 검색하는 프로그램을 만들었다. 


가끔 필요할 때마다 프로그램 짜는게 너무 귀찮아졌다. (항상 대충 만들어서 나중에 재활용하기가 안좋더라고요.)
그래서 이번에 아주 예쁘게 만들어 필요하신 분에게 배포까지 하기로 결심했음...


Download: 

search_loc_to_lon_lat.py

프로그램의 개요는 다음과 같다.


-1: Pre-requirement

 - Python 2.x    (제작은 python 2.7에서...)

 - No additional Lib

 - Daum과 Naver의 API KEY!!! (이건 코드 안에 주석으로 자세히 설명해두었습니다.)


0. 실행 방법: python 프로그램.py  (실행 옵션은 이렇게 치면 나와요...)


 자세히...

 USAGE: python program.py -i (--input) input.txt -e (--encoding) cp949 - (--output) output.txt -s x,y (y,x)

 Default input encoding\t: utf-8

 Default output\t\t: save in result.txt

 Default output seq.\t: x\ty


1. Input

  - Input.txt 로부터 키워드를 읽어온다. 한 줄에 하나씩 키워드가 있어야 함.

예시: 

==== input.txt

인천광역시 중구청

철원군청

ㄱㄱㄱㄱㄱ

성균관대학교 자연과학캠퍼스



2. Output

  - 옵션에서 지정한 파일 이름 혹은 result.txt 로 저장

예시:

==== result.txt

#이름 x(경도) y(위도)

"인천광역시 중구청" 126.62161335 37.4738403028

"철원군청" 127.313518298 38.1469249461

ㄱㄱㄱㄱㄱ None None

"성균관대학교 자연과학캠퍼스" 126.97467286 37.2934204446


3. 특징 (별건 없지만...)

 - Input 파일의 인코딩을 지정해줄 수 있음. 그래서 운영체제 따위 가리지 않음. 인코딩 따로 변환할 필요도 없음.

 - Outputx coordinate와 y coordinate 의 순서를 정할 수 있음


4. 한계점

 - 국내용.... -.-


여러 검색 끝에 알아낸 원포인트 솔루션!


from py2exe.build_exe import py2exe

from distutils.core import setup

setup(options = {'py2exe': {'bundle_files': 1, "dll_excludes":['w9xpopen.exe'],"compressed":1 }}, windows = [{'script': "ccc.py"}], zipfile = None)


위에서 ccc.py에 원하는 파일 이름을 쓰면 된다.


간단히 해보니 pyQT4 라이브러리가 들어가도 10Mb 정도밖에 안되네. 

여러 리스트들의 값을 가로가 아닌 세로로 출력해야 할 때가 있다. 다음과 같이...


A = [a, b, c]

B = [10, 20, 30, 40]

C = [뭐]

이를 아래처럼 출력

a    10    뭐

b    20    none

c    30    none

none    40    none


이렇게 하려고 세로로 출력하는 엄청 귀찮은 함수를 짜야 한다면... 다음과 같이 해보시라!!!


import itertools

list(itertools.izip_longest(a, b, c))


원래 파이썬에서는 zip이라는 함수가 존재하는데(Ref), 하는 일은 위의 itertools의 izip_longest와 똑같지만 주어진 list들 중 가장 짧은 애의 길이로 출력해준다. 그래서 위의 예제에서는 첫번째 행만 출력되는 안습상황이 펼쳐진다. 가장 긴 리스트의 길이로 맞추어 출력하고 싶다면, itertools의 izip_longest를 쓰시길!


추가: 만약 리스트 하나에 A, B, C가 들어있다면 다음과 같이 합니다.


data = [A, B, C]

izip_longest(*data,fillvalue='')

http://stackoverflow.com/questions/10071342/python-how-to-write-blocks-of-data-in-columns


출처: http://stackoverflow.com/questions/1277278/python-zip-like-function-that-pads-to-longest-length

파이썬에서 networkx 패키지를 쓰다보면 그래프를 파일로 출력해야 할 때가 많습니다. 예전에는 pajek파일 형식(.net)으로 뽑았는데요. 이 형식에는 꽤 제약이 많은 것 같습니다. 무엇보다도 node의 id를 새로 정의해서 edgelist에 사용하기 때문에 상당히 헷갈리기 쉽지요.


그래서 저는 gexf 형식을 즐겨씁니다. 이 형식은 그래프를 위한 xml이라고 하는데요. 파일 용량이 조금 커지긴 하지만 그냥 에디터에서 읽어도, gephi에서 읽어도 모두 직관적으로 사용할 수 있습니다.


그러나 문제가 있는데 G[1]['class'] = "A" 등과 같이 attribute를 정해준 뒤에 gexf로 출력하라고 하면 다음과 같은 문제가 생깁니다. 


AttributeError: 'str' object has no attribute 'copy' 

에러의 발생위치는 write_gexf 함수.... -.-!!!!!


이를 해결하는 방법은 구글링하면 나오는데 생각보다 쉽습니다. Attribute를 정해줄 때 다음과 같이 해야합니다. 

(x) G[1]['class'] = "A"

(o) G.node[1]['class'] = "A"


두번째 방법으로 G.node를 직접 써주어야 합니다.


출처: https://groups.google.com/forum/#!msg/networkx-discuss/Irx4j6G-srs/yR8GFtMmQB8J


가끔 파이썬으로 한글을 처리할 때면 곤혹스러워진다. 바로 인코딩때문에 안그래도 없는 시간이 총알처럼 지나가기 때문이다. 인코딩 문제는 시간만 까먹고 해결해봐야 밑져야 본전인 일이다. 3.x 버전과 달리 특히 2.x 버전에서는 유니코드와 다른 문자열들이 혼재해 있어 더더더더더욱 환장할 때가 있다.


여기에 unicode와 UTF-8 간의 분쟁을 정리해보자!


1. unicode와 UTF-8은 뭐야?

사실 UTF-8이 Unicode이다. (-.-) 실제로 위키피디아에 검색을 해보자. UTF-8은 "유니코드를 위한 가변 길이 문자 인코딩 방식 중 하나"라고 되어있다. (여기) 그렇다면 이건 무슨 개소리인가. 사실 파이썬에는 인코딩이라는 무시무시한 불규칙 세상에서 모든 글자를 자유로이 쓰려는 노력이 담겨있다. (맞나...?) 그래서 파이썬에는 두가지 종류의 문자열이 있다. 

 (1) unicode 

 (2) byte code

 여기서 byte code란 정말 우리가 쓰는 글자열이 어떤 특정한 규칙을 통해 byte로 만들어진 것을 말한다. 그럼 unicode는 무엇이냐고? python에서 unicode란 그저 "문자열"이다. 즉, 컴퓨터에서 쓰는 특정한 규칙을 거치기 전, unicode라는 거대한 체계에서 정의된 "문자열"일 뿐이다.


그럼 두 개의 차이는?


byte code는 출력이 자유롭다. 만약 여러분이 한글 윈도우에서 작업하고 있다면, system의 location code는 cp949 일 것이다. (거의 99.9%) 하지만 리눅스나 OSX일 경우, system의 location code는 UTF-8이 된다. 경험하신 분도 계시겠지만, 같은 문자도 다른 문자열 조합을 이용하면서 byte로 표현되는 방법이 바뀐다. 

좋은 예제는 여기에 가서 Omega가 어떻게 byte로 표현되는지 확인할 수 있다. 간단히 cp949와 UTF-8에서의 A를 찾아봐도 사실 많이 다르다.


UTF-8 에서의 A: 0x41

cp949에서의 A: 0xA3C1


따라서 byte code는 출력이 자유롭지만 현재 컴터의 기본 문자열 조합과 다른 경우, 글자가 깨진다. ㄷㄷㄷㄷ

반면 유니코드 문자열은 출력하거나 파일에 쓰는 방법이 딱히 없다. 그저 "문자열"일 뿐 이진수로 표현되지 않았기 때문이다. 그래서 우리는 문자열 코덱이 필요한거다.


2. python에서 유니코드와 이진문자 사용하기

파이썬에서는 사실 두 종류의 문자를 모두 사용할 수 있기 때문에 더욱 헷갈린다. 어려울 경우 console을 띄우고 차근차근 해보는게 좋다.

우선 이진문자의 경우 

>>> a = "한글"

이렇게 사용하면 된다. 그럼 a는 컴터의 로케일에 맞추어 알아서 문자열이 인코딩된다. 한글 윈도우는 cp-949 나머지는 보통 UTF-8이다.

유니코드로 사용하고 싶다면,

>>> a= u"한글"

이렇게 사용하면 된다. 


모두 출력은 

>>>print a

를 통해서 가능하다. print의 경우 유니코드는 알아서 컴터의 로케일 문자열로 변환해 보여준다. 만약 깨져보이면, 컴터의 로케일 문자열 셋과 다른 것으로 인코딩 된 것일뿐, 문자열이 이상해진건 아니니 걱정안해도 된다.


3. 차이점?

차이점은 있다. 바로 문자열의 비교나 연산(더하기 등등)에서 에러가 난다는 점이다. 생각해보면 조금 당연한데, 유니코드  문자열은 사실 이진문자가 아니므로 컴터가 어떻게 해줄 수가 없다....-.-

print 함수의 경우 착해서 문자열을 알아서 로케일 문자열 셋으로 변환해 보여준 것일 뿐.... 나머지 기능들은 그렇게 착하지 않다.


참고로 이진문자(byte code)끼리 혹은 유니코드 문자열끼리는 비교나 연산이 가능하다.


4. 변환하기

유니코드 문자와 이진 문자 혹은 서로 다른 문자열 셋으로 만들어진 이진문자를 처리해야 할 때가 있다. 이럴 때에는 프로그램 내에서 사용할 문자열의 셋을 정하자. UTF-8이 되었건 유니코드가 되었건 아니면 cp-949나 다른 셋이건 하나 정하고 통일해야 정신을 잃지 않는다.


간단한 함수 두 개만 잘 기억하자.

s = u.encode("UTF-8")

u = s.decode("UTF-8")


유니코드에서 특정 이진문자로 넘어가기 위해선 encode()를 이용한다. 중요한 점은, 여기에 argument로 들어가는 것이 바로 변환하고자 하는 이진문자의 문자열 셋이다. 이건 본인이 그때그때 적당하게 잡아주면 된다.

거꾸로 이진문자에서 유니코드로 넘어가고자 할 때에는 decode()를 이용한다. 여기서도 문자열 셋의 종류가 들어가는데, 이건 바꾸려는 대상인 이진문자의 문자열 셋이다. 이걸 모르면.... 정말 골치아픈데, 사실 한글은 cp949 혹은 UTF-8 둘 중 하나다. 잘못된 문자열 셋을 넣으면 에러나니까 주의!


decode() 함수 이외에도 유니코드로 가는 방법이 한가지 더 있다. u = unicode(s, "UTF-8") 등의 방법으로 유니코드로의 변환이 가능하다.


5, 데이터 쓰기

문자열을 신나게 처리하면 마지막에 기록을 해야 한다. 기록하는 방법 중 가장 간단한 방법은, 

>>> f = open("aaa.txt", 'w')

처럼 파일을 열고 여기에 쓰는 것이다. 해보면 알겠지만 여기에 아무 문자열 셋으로 만들어진 이진문자를 기록해도 상관이 없다!!!! 사실 파일에 쓰는 것은 byte에 쓰여진 이진수들일 뿐이니까 아무 상관이 없어야 하는게 맞다.

그래서 cp949로 된 문자열을 기록하면 그 문서는 cp949로 인코딩해서 열어야 제대로 보이고, UTF-8 이진문자를 기록한 파일은 UTF-8로 열어야 한다. Editplus같은 좋은 에디터들은 알아서 인코딩도 정해주니 얼마나 좋은가!


하지만 이렇게 파일을 열어서 쓰면 유니코드를 기록할 수 없다. 당연하지... 유니코드는 "문자열"일 뿐 어떤 이진문자로 표현될지 정해지지 않은 날 것 그대로이다. 그래서 문자열 셋을 정해서 인코딩 후 기록해야 한다.


혹은 이렇게 파일을 열 수 있는데, 

>>> f = codecs.open("codecs.txt", 'w', 'utf-8')

이 경우 맨 위에 import codecs를 해주어야 한다. 아무튼, 이렇게 파일을 열면 무조건 이 파일은 UTF-8로 작성이 된다. 그럼...?? 여기선 UTF-8로 인코딩된 문자열을 쓸 수 있어야 하지 않을까?

>>> f.write(a) ----> a는 UTF-8로 인코딩된 문자열

이러면 UnicodeDecodeError가 뜬다. -.-?????

사실 자세히 찾아볼 여유는 없었는데, codecs로 열면 반드시 작성할 때의 문자열은 유니코드여야 한다. 그래서 어떤 문자열 셋으로 변환된 문자들도 codecs를 통해 열게 된 파일에 쓰기가 안된다. 


사실 이런 에러들 때문에 python을 가끔 쓰다가 멘붕에 빠지기도 한다.


6. 서두에 붙이는  #-*- coding: utf-8 -*- 이건 뭥미?

가끔 한글 인코딩 이렇게 구글링을 하다보면 위의 문자열 셋 선언부를 보게 된다. 이걸 하고나서 누군가는 잘 되었다는데 나는 잘 안되고.... 하면서 멘붕이 지구 맨틀까지 닿을듯 몰려오는 떄가 있다.


저 선언부는 이 문서에 써져있는 한글이나 다른 문자열들이 utf-8로 쓰일 것이라는걸 미리 알려주는 것 뿐이다. 그래서 파일을 읽고 문자열을 처리하다가 생기는 에러는 위의 선언으로 고쳐질 수 없다.



새롭게 알게되는 내용이 있다면 또 포스팅해야겠다.


참고할만한 한글 문서들!!!

http://kldp.org/node/133996

http://coreapython.hosting.paran.com/boodebr/All%20About%20Python%20and%20Unicode%20%20boodebr_org.htm

http://lakhos.egloos.com/2899553

http://seorenn.blogspot.kr/2011/02/python-unicodeutf-8.html

http://www.i-fam.net/water/93


사실 구글링 잘 하면 맨 위에 나오는 문서들인데... 생각보다 다시 찾기는 쉽지 않다. ㅎㅎ


'Study > Computer' 카테고리의 다른 글

networkx에서 gexf 사용하기  (0) 2013.10.15
MS Word가 갑자기 비정상적으로 종료될 때  (0) 2013.10.01
networkx에서 link의 방향성  (0) 2013.09.19
연속된 숫자 뭉치를 뽑아내기.  (1) 2013.09.04
Amazon EC2 사용하기  (0) 2013.08.27

NetworkX 를 사용하다가 문득 확인해봤다.


혹시 아니면 어쩌지...하면서!


G = DiGraph() 로 네트워크 인스턴스를 생성 후에 다음과 같이 두 개의 링크를 추가해보았다.


>>>G.add_edge(1,2)

>>>G.add_edge(1,3)


그리고 나서 확인!

>>> G.in_edges(1)

[]

>>>G.out_edges(1)

[(1, 2), (1, 3)]


즉, G.add_edge(u,v)는 u -> v 인 방향의 링크를 만들어준다. 따라서 G[u][v]역시 u->v 인 링크의 attribute를 보여준다.

'Study > Computer' 카테고리의 다른 글

MS Word가 갑자기 비정상적으로 종료될 때  (0) 2013.10.01
골치덩어리 unicode와 UTF-8  (1) 2013.09.23
연속된 숫자 뭉치를 뽑아내기.  (1) 2013.09.04
Amazon EC2 사용하기  (0) 2013.08.27
BeautifulSoup4 사용하기  (0) 2013.08.23

+ Recent posts