WordData.xyz 에 오신것을 환영합니다.

서론

이 사이트는

  • 지문을 입력받는다.
  • 입력받은 지문을 단어단위로 쪼갠다.
  • 쪼갠 단어들을 통계적으로 분류한다.
  • 사용자에게 의미가 있는 통계를 보여준다.

를 기본모토로 한 심심한 대학생이 심심풀이로 만들고있는 사이트 입니다.

좀 더 키워드적으로 말해보자면 "빅데이터, 영어단어" 정도의 느낌을 가지는 사이트 입니다.

본래 2016년 12월~2017년 1월경 소규모로 오픈할 예정이었지만 (서버 성능이 후달려서.....)

학교 행사에 출품하기 위해 약간은 미완성인부분이 있지만 미리 공개하게 되었습니다.

상세한 설명은 본론에서 진행할 것이며

2016년 11월 24일 현재(ver 0.9) 이 사이트의 기능에 대하여 간략한 소개를 해드리자면

  1. 메인화면의 단어들은 현재 이 사이트가 분석한 단어를 랜덤으로 추출해서 보여줍니다. 많이 언급된 단어는 크게, 적게 언급된 단어는 작게 나옵니다.

  2. 단어, 지문, 태그등을 보면 오른쪽 상단에 ☆이 있습니다. 이것은 즐겨찾기 기능으로 로그인 하시기 전에는 아무 반응도 없지만, 로그인 하고 클릭하면 즐겨찾기에 추가됩니다.

  3. 즐겨찾기에 추가하거나 해제할때 깜빡이게 되는데 이건 제대로 처리되었음을 의미합니다.

  4. 로그인은 "네이버아이디로 로그인"을 이용합니다. 처음 로그인해도 별다른 추가정보 입력 없이 로그인 됩니다.

  5. 최상단 오른쪽에 있는 Drop Down 메뉴 속 Write를 통해 지문을 업로드 하실 수 있습니다.

  6. 모든 단어에 대해 자신만의 설명을 추가할 수 있습니다. (단어 외우는중인 분들에게 강추)

  7. 로그아웃은 DropDown -> 사진을 클릭하세요

추후 다음과 같은 기능들을 추가할 예정입니다.

즐겨찾기에 추가한 것들로 통계 보기.

자신이 원하는대로 통계 만들기. (ex: '셜록'이란 태그가 들어간 지문 단어 통계)

(위 기능이 다 추가되면 버전이 0.1 올라갑니다.)
(소소한 버그를 잡으면 버전이 0.01 올라갑니다.)
(버전이 1이 된다해서 딱히 정식버전은 아닙니다.)(단지 위 룰대로 버전이 올라왔을뿐)

버그추가하면 좋을꺼 같은 기능, 디자인적으로 수정이 필요한 사항, 질문사항댓글로 달아주세요.


본론

왜 추출된 단어가 일반적으로 쓰이는 형태랑 다른가요?

문장에서 단어를 추출하는 방법은 꽤 간단합니다.
어떤 단어의 첫글자가 A에서 Z중 하나이고 그게 몇개이상 지속되면 그건 영단어 입니다.

하지만 영단어는 항상 일정한 형태로 쓰이지 않습니다. 예를들면 Sleep만 생각해도 Sleeps(3인칭 단수 뒤에서), Sleeping(동명사 혹은 현재분사), Sleepy(부사), Slept(과거형) 과 같은 여러가지 형태로 사용되기 때문이죠.

이렇게 다양한 형태로 사용되긴 하지만 해석상 의미가 유사성을 띄기에 이를 따로 구분해버릴 필요성을 느끼지 못한 저는 이를 일반화시키기로 했습니다.

이 사이트는 추출해낸 모든 단어들에 대해 SnowBall알고리즘을 적용시켜 일반화를 시킨뒤 통계 데이터로서 활용합니다.

그 결과 complete 같은 단어가 complet과 같은 형태로 변화해 버리는 문제점이 있습니다. 이럴땐 edit버튼을 통해
Complet를 수정할 수 있습니다. 가장 많이 쓰이는 형태로 바꿔주시면 감사하겠습니다.^^/

이거 뭔가요?

이 단어가 여러 지문에서 어떤 형태로 사용되었는지?에 대해 나와있는겁니다. 이 경우 Complet이 "과거분사", "동사", "부사", "수사", "형용사"의 형태로 사용된적이 있다 라는 겁니다.

이는 추후 통계를 만들때 딱히 통계에 들어있을 필요가 없는 The, She, Him, as, a 같은 단어들을 제외시키기 위해 미리 분류를 해놓은 겁니다.

이거 뭔가요?2

해당 단어와 같이 많이 언급된 단어들을 보여준 것입니다.

왜 항상 "the"가 가장 크게 나와요?라고 물으신다면, the는 어디서든 쓰이기 때문입니다. 라고 답변해 드릴 수 있습니다. 추후 이러한 관사(이 사이트에서는 한정사)는 통계에서 제외시킬 예정입니다.

사이트가 깨져요!

현재 이 사이트는 "Chrome", "데스크탑환경"기준으로 제작되었습니다. 단, 그렇다고 모바일이나 타 웹브라우져에서 작동이 안되는건 아닙니다. 다만, JavaScript를 제대로 지원하지 않는 몇몇 브라우져에서는 문제가 생길수도 있습니다.

현재 문제가 있는것으로 확인된 브라우져는 "삼성 갤럭시 기본브라우져""아~----~주 옛날 브라우져"입니다. 갤럭시 기본브라우져의 경우 Play Store에서 구글 크롬 다운받으시거나 Naver앱 브라우져 사용하시면 되고, 아주 옛날브라우져는 업데이트 해주세요

디자인이 밋밋해요!

취향입니다. 안바꿀꺼에요. 가독성 안좋다고요? 크롬쓰세요. 크롬기준으로 만들어졌어요.

글자크기가 마음에 안든다고요? 여기서 글자크기 변경하실수 있습니다.

결론 (이랄까 이거 만든 이유)

이 사이트는 심심해서 만든거지만, 이러한 사이트를 만들게된 계기는 뭔가 비하인드 스토리가 있습니다.

때는 중학교 시절, 저는 영어학원 다니면서 공부하는것이 정말로 싫었습니다. 그랬던 저는 (부모님과의 협상 뒤에) 모든 영어학원을 때려 치웠고 혼자 (미드, 영드보면서) 공부를 했죠. (라이프온마스 보세요, 두번보세요, 닥터후팬이라면 마스터 여기서 주인공이에요!)

그 결과 고1때 저의 영어실력은 모의고사 2~3등급정도로 영어학원 하나도 안다닌것치곤 나름 선방한 성적에 이르게 되었죠. 하지만 이것도 영드보며 쌓은 불안정한 실력, 수능을 도전하기에는 제 실력은 너무 부족했죠.

그런 저는 "수능을 잘볼려면? -> 문제를 많이풀어!" 의 로직에 따라 영어문제를 엄청 많이 풀려고 했으나...... 남들 중학교때 단어책을 통째로 외웠을때 영드나 본 저는 "단어"라는 장벽에 좌절했었죠.(vertical? 그게 뭐야 무서워...) 그때서야 단어장 보며 외울려 했지만, 아뿔사.... 중학교때 영어학원 안다닌 이유가 단어외우기 싫어서였는데..... 고등학교된다 해서 그게 될리가 없지...ㅋ.....ㅠ

그래서 여러가지 길로 이 결점을 어떻게 땜빵할까 고민하다 고2 끝날때쯤 나온 결론이

  1. 문맥으로 (때운)유추한다.
  2. 어차피 자주쓰는단어는 몇백개 안된다. 통계적으로 많이 나온걸 밀고나간다.

요 두개였습니다. 그후 저의 공부방법은 다음과 같았습니다.

  1. 지문을 읽는다.
  2. 모르는 단어를 표시한다.
  3. 단어장에 표시한다.
  4. 단어 뜻을 전자사전으로 찾아 적는다.
  5. 적은 단어를 두번다시 안본다.
  6. 이 단어가 자주쓰인다면 언젠가 다시한번 보겠지 뭐. 라는 심리로 지낸다.
  7. 나중에 다시보고 2~6과정을 반복한다.

학교에서 외우라고 준 단어장따위 처다보지도 않고 요 7스탭만 반복했죠. (선생님 죄송...ㅎ)

에필로그가 길군요. 어쨋든 이 다음은 남들 "공부 이렇게 했더니 완전 잘됬어용!"과 똑같습니다. 3,6,9모의고사 + 수능까지 문법문제 빼고 다 맞았죠. (하..... 망할놈의 문법..... 문법책 제대로 펴본적 한번도 없는게 자랑)

이런일이 있은 후 대학교에서 친구들과 얘기하다가 영어에 관련된 얘기가 나오게 됬고 (비상식적인 시간표에서 나온 태풍전의 고요와 같은 한가할때) (화요일 1시간이랑 금요일 아침 9시부터 밤 9시까진 뭔가 아니잖아요? 네? 누구담당인진 모르겠지만 담당자님?) 심심풀이로 만들기 시작했습니다.

단, 이건 만들기 시작한 계기일뿐 현재 이 사이트의 용도는 다목적입니다.

시험을 목적으로한 공부용 목적도 있고, 음? 자바스크립트가 비동기의 극한을 달린다고? 한번 해봐야겠군! 같은 목적도 있고, 영드 자막없이 보기위한 목적도 있고, XXSQL이 10TB단위 데이터도 금방 처리한다고? 한번 해봐야겠군! 같은 목적도 있고, 단어와 단어사이 상관관계를 보여주는 그래프를 만들어 볼려는 목적도 있고, 예전에 만든 형태소분석기 어디 써먹을때 없나? 같은 목적도 있고, 이를 번역기등을 위한 연구용 데이터로 배포할려는

목적도 있습니다. (앞으로 만들면서 추가될수도 있겠죠?)

어느 목적이 성취되던 이 사이트에서 뭔가 얻어가셨으면 좋겠다는 바람을 가지고 이만 소개글을 마치겠습니다.